Em estatísticas , particularmente em testes de hipóteses , o de Hotelling T -squared distribuição ( T 2 ), proposto por Harold Hotelling , é uma distribuição de probabilidade multivariada, que está firmemente relacionados com a F -distribuição e é mais notável para que surja como a distribuição de um conjunto de estatísticas da amostra que são generalizações naturais das estatísticas subjacentes à Student t -Distribuição .
A de Hotelling t estatística -squared ( t 2 ) é uma generalização de Student t -statistic que é usado em multivariada testes de hipóteses .
Motivação
A distribuição surge em estatísticas multivariadas na realização de testes das diferenças entre as médias (multivariadas) de diferentes populações, onde os testes para problemas univariados fariam uso de um teste- t . A distribuição recebeu o nome de Harold Hotelling , que a desenvolveu como uma generalização da distribuição t de Student.
Definição
Se o vetor tem distribuição multivariada gaussiana com média zero e matriz de covariância unitária e é uma matriz com matriz de escala unitária e m graus de liberdade com uma distribuição de Wishart , então a forma quadrática tem uma distribuição de Hotelling (com parâmetros e ):
Além disso, se uma variável aleatória X tem distribuição T quadrada de Hotelling , então:
onde representa a F -distribuição com parâmetros p e m-p + 1 .
Estatística t -quared de Hotelling
Deixe ser a covariância de amostra :
onde denotamos transpor por um apóstrofo . Pode-se mostrar que é uma matriz positiva (semi) definida e segue uma distribuição p- variada de Wishart com n -1 graus de liberdade. A matriz de covariância de amostra das leituras médias .
A estatística t -quared de Hotelling é então definida como:
que é proporcional à distância entre a média da amostra e . Por causa disso, deve-se esperar que a estatística assuma valores baixos se e valores altos se forem diferentes.
Da distribuição ,
onde representa a F -distribuição com parâmetros p e n - p .
A fim de calcular um valor p (não relacionado com a variável p aqui), observe que a distribuição de equivalentemente implica que
Em seguida, use a quantidade do lado esquerdo para avaliar o valor p correspondente à amostra, que vem da distribuição F. Uma região de confiança também pode ser determinada usando uma lógica semelhante.
Motivação
Deixe denotar uma distribuição normal p -variate com localização e covariância conhecida . Deixar
ser n variáveis aleatórias distribuídas identicamente (iid) independentes , que podem ser representadas como vetores de coluna de números reais. Definir
para ser a média da amostra com covariância . Pode-se mostrar que
onde é a distribuição qui-quadrada com p graus de liberdade.
Prova
|
Prova -
Para mostrar isso, use o fato de que
e derivar a função característica da variável aleatória . Como de costume, vamos denotar o determinante do argumento, como em .
Por definição de função característica, temos:
Existem duas exponenciais dentro da integral, então, multiplicando as exponenciais, adicionamos os exponentes, obtendo:
Agora tire o termo da integral e multiplique tudo por uma identidade , trazendo uma delas para dentro da integral:
Mas o termo dentro da integral é precisamente a função de densidade de probabilidade de uma distribuição normal multivariada com matriz de covariância e média , portanto, ao integrar tudo , deve render de acordo com os axiomas de probabilidade . Assim, acabamos com:
onde está uma matriz de identidade de dimensão . Finalmente, calculando o determinante, obtemos:
que é a função característica para uma distribuição qui-quadrado com graus de liberdade.
|
Estatística de duas amostras
Se e , com as amostras retiradas independentemente de duas distribuições normais multivariadas independentes com a mesma média e covariância, e definimos
como a amostra significa, e
como as respectivas matrizes de covariância de amostra. Então
é a estimativa da matriz de covariância combinada imparcial (uma extensão da variância combinada ).
Finalmente, a estatística t- quadrada de duas amostras de Hotelling é
Conceitos relacionados
Pode estar relacionado à distribuição F por
A distribuição não nula desta estatística é a distribuição F não central (a proporção de uma variável aleatória qui-quadrada não central e uma variável aleatória qui-quadrada central independente )
com
onde é o vetor de diferença entre as médias da população.
No caso de duas variáveis, a fórmula simplifica muito bem, permitindo a apreciação de como a correlação,, entre as variáveis afeta . Se definirmos
e
então
Assim, se as diferenças nas duas linhas do vetor forem do mesmo sinal, em geral, torna-se menor à medida que se torna mais positivo. Se as diferenças são de sinal oposto torna-se tanto maior quanto mais positivo.
Um caso especial univariado pode ser encontrado no teste t de Welch .
Testes mais robustos e poderosos do que o teste de duas amostras de Hotelling foram propostos na literatura, ver por exemplo os testes baseados em distância entre pontos que podem ser aplicados também quando o número de variáveis é comparável com, ou mesmo maior do que, o número de sujeitos.
Veja também
Referências
links externos