Distribuição T -quared de Hotelling -Hotelling's T-squared distribution

Distribuição T 2 de Hotelling
Função densidade de probabilidade
Hotelling-pdf.png
Função de distribuição cumulativa
Hotelling-cdf.png
Parâmetros p - dimensão das variáveis ​​aleatórias
m - relacionada ao tamanho da amostra
Apoiar caso contrário.

Em estatísticas , particularmente em testes de hipóteses , o de Hotelling T -squared distribuição ( T 2 ), proposto por Harold Hotelling , é uma distribuição de probabilidade multivariada, que está firmemente relacionados com a F -distribuição e é mais notável para que surja como a distribuição de um conjunto de estatísticas da amostra que são generalizações naturais das estatísticas subjacentes à Student t -Distribuição .

A de Hotelling t estatística -squared ( t 2 ) é uma generalização de Student t -statistic que é usado em multivariada testes de hipóteses .

Motivação

A distribuição surge em estatísticas multivariadas na realização de testes das diferenças entre as médias (multivariadas) de diferentes populações, onde os testes para problemas univariados fariam uso de um teste- t . A distribuição recebeu o nome de Harold Hotelling , que a desenvolveu como uma generalização da distribuição t de Student.

Definição

Se o vetor tem distribuição multivariada gaussiana com média zero e matriz de covariância unitária e é uma matriz com matriz de escala unitária e m graus de liberdade com uma distribuição de Wishart , então a forma quadrática tem uma distribuição de Hotelling (com parâmetros e ):

Além disso, se uma variável aleatória X tem distribuição T quadrada de Hotelling , então:

onde representa a F -distribuição com parâmetros p e m-p + 1 .

Estatística t -quared de Hotelling

Deixe ser a covariância de amostra :

onde denotamos transpor por um apóstrofo . Pode-se mostrar que é uma matriz positiva (semi) definida e segue uma distribuição p- variada de Wishart com n -1 graus de liberdade. A matriz de covariância de amostra das leituras médias .

A estatística t -quared de Hotelling é então definida como:

que é proporcional à distância entre a média da amostra e . Por causa disso, deve-se esperar que a estatística assuma valores baixos se e valores altos se forem diferentes.

Da distribuição ,

onde representa a F -distribuição com parâmetros p e n  -  p .

A fim de calcular um valor p (não relacionado com a variável p aqui), observe que a distribuição de equivalentemente implica que

Em seguida, use a quantidade do lado esquerdo para avaliar o valor p correspondente à amostra, que vem da distribuição F. Uma região de confiança também pode ser determinada usando uma lógica semelhante.

Motivação

Deixe denotar uma distribuição normal p -variate com localização e covariância conhecida . Deixar

ser n variáveis ​​aleatórias distribuídas identicamente (iid) independentes , que podem ser representadas como vetores de coluna de números reais. Definir

para ser a média da amostra com covariância . Pode-se mostrar que

onde é a distribuição qui-quadrada com p graus de liberdade.

Prova
Prova  -

Para mostrar isso, use o fato de que e derivar a função característica da variável aleatória . Como de costume, vamos denotar o determinante do argumento, como em .

Por definição de função característica, temos:

Existem duas exponenciais dentro da integral, então, multiplicando as exponenciais, adicionamos os exponentes, obtendo:

Agora tire o termo da integral e multiplique tudo por uma identidade , trazendo uma delas para dentro da integral:

Mas o termo dentro da integral é precisamente a função de densidade de probabilidade de uma distribuição normal multivariada com matriz de covariância e média , portanto, ao integrar tudo , deve render de acordo com os axiomas de probabilidade . Assim, acabamos com:

onde está uma matriz de identidade de dimensão . Finalmente, calculando o determinante, obtemos:

que é a função característica para uma distribuição qui-quadrado com graus de liberdade.

Estatística de duas amostras

Se e , com as amostras retiradas independentemente de duas distribuições normais multivariadas independentes com a mesma média e covariância, e definimos

como a amostra significa, e

como as respectivas matrizes de covariância de amostra. Então

é a estimativa da matriz de covariância combinada imparcial (uma extensão da variância combinada ).

Finalmente, a estatística t- quadrada de duas amostras de Hotelling é

Conceitos relacionados

Pode estar relacionado à distribuição F por

A distribuição não nula desta estatística é a distribuição F não central (a proporção de uma variável aleatória qui-quadrada não central e uma variável aleatória qui-quadrada central independente )

com

onde é o vetor de diferença entre as médias da população.

No caso de duas variáveis, a fórmula simplifica muito bem, permitindo a apreciação de como a correlação,, entre as variáveis ​​afeta . Se definirmos

e

então

Assim, se as diferenças nas duas linhas do vetor forem do mesmo sinal, em geral, torna-se menor à medida que se torna mais positivo. Se as diferenças são de sinal oposto torna-se tanto maior quanto mais positivo.

Um caso especial univariado pode ser encontrado no teste t de Welch .

Testes mais robustos e poderosos do que o teste de duas amostras de Hotelling foram propostos na literatura, ver por exemplo os testes baseados em distância entre pontos que podem ser aplicados também quando o número de variáveis ​​é comparável com, ou mesmo maior do que, o número de sujeitos.

Veja também

Referências

links externos