Teste t do aluno -Student's t-test

O t -teste é qualquer teste de hipótese estatística em que a estatística de teste segue um Student t -Distribuição sob a hipótese nula .

Um teste t é o mais comumente aplicado quando a estatística de teste seguiria uma distribuição normal se o valor de um termo de escala na estatística de teste fosse conhecido. Quando o termo de escala é desconhecido e é substituído por uma estimativa com base nos dados , as estatísticas de teste (sob certas condições) seguem uma distribuição t de Student . O teste t pode ser usado, por exemplo, para determinar se as médias de dois conjuntos de dados são significativamente diferentes entre si.

História

William Sealy Gosset , que desenvolveu a " estatística t " e a publicou sob o pseudônimo de "Estudante".

O termo " estatística t " é abreviado de "estatística de teste de hipótese". Em estatística, a distribuição t foi derivada pela primeira vez como uma distribuição posterior em 1876 por Helmert e Lüroth . A distribuição t também apareceu em uma forma mais geral como distribuição de Pearson Tipo IV no artigo de Karl Pearson de 1895. No entanto, a T-Distribution, também conhecida como Student's T Distribution recebe o nome de William Sealy Gosset, que a publicou pela primeira vez em inglês em 1908 na revista científica Biometrika usando seu pseudônimo "Student" porque seu empregador preferia que os funcionários usassem pseudônimos ao publicar artigos científicos em vez de seu nome real, então ele usou o nome "Estudante" para esconder sua identidade. Gosset trabalhava na Cervejaria Guinness em Dublin , Irlanda , e estava interessado nos problemas de pequenas amostras - por exemplo, as propriedades químicas da cevada com tamanhos de amostra pequenos. Portanto, uma segunda versão da etimologia do termo Student é que o Guinness não queria que seus concorrentes soubessem que estavam usando o teste t para determinar a qualidade da matéria-prima (consulte a distribuição t de Student para uma história detalhada deste pseudônimo, que não deve ser confundido com o termo literal estudante ). Embora tenha sido William Gosset quem criou o termo "Aluno", foi na verdade através do trabalho de Ronald Fisher que a distribuição se tornou conhecida como "Distribuição do Aluno" e "Teste t do Aluno".

Gosset foi contratado devido à política de Claude Guinness de recrutar os melhores graduados de Oxford e Cambridge para aplicar bioquímica e estatística aos processos industriais do Guinness. Gosset idealizou o teste t como uma forma econômica de monitorar a qualidade da cerveja preta forte . O trabalho de teste t foi submetido e aceito na revista Biometrika e publicado em 1908.

A Guinness tinha uma política de permitir a licença do pessoal técnico para estudar (a chamada "licença de estudo"), que Gosset usou durante os primeiros dois períodos do ano acadêmico de 1906-1907 no Laboratório Biométrico do Professor Karl Pearson na University College London . A identidade de Gosset foi então conhecida por colegas estatísticos e pelo editor-chefe Karl Pearson.

Usos

Entre os testes t usados ​​com mais frequência estão:

  • Um teste de localização de uma amostra para verificar se a média de uma população tem um valor especificado em uma hipótese nula .
  • Um teste de localização de duas amostras da hipótese nula, de modo que as médias de duas populações sejam iguais. Todos esses testes são geralmente chamados de Student t -Testes , embora estritamente falando esse nome só deve ser usado se o variâncias das duas populações também são assumidos para ser igual; a forma do teste usada quando essa suposição é descartada é às vezes chamada de teste t de Welch . Estes testes são muitas vezes referidos como desemparelhados ou amostras independentes t -Testes, como eles são aplicados normalmente quando as unidades estatísticas subjacentes às duas amostras a ser comparadas são não sobrepostos.

Premissas

A maioria das estatísticas de teste tem a forma t = Z/s, onde Z e s são funções dos dados.

Z pode ser sensível à hipótese alternativa (isto é, sua magnitude tende a ser maior quando a hipótese alternativa é verdadeira), enquanto s é um parâmetro de escala que permite que a distribuição de t seja determinada.

Por exemplo, no teste t de uma amostra

onde X é a média da amostra de uma amostra X 1 , X 2 , ..., X n , de tamanho n , s é o erro padrão da média , é a estimativa do desvio padrão da população, e μ é a média da população .

As suposições subjacentes a um teste t na forma mais simples acima são as seguintes:

  • X segue uma distribuição normal com média μ e variânciaσ 2/n
  • s 2 ( n  - 1) / σ 2 segue uma distribuição χ 2 com n  - 1 graus de liberdade . Essa suposição é atendida quando as observações usadas para estimar s 2 vêm de uma distribuição normal (e iid para cada grupo).
  • Z e s são independentes .

No teste t comparando as médias de duas amostras independentes, as seguintes suposições devem ser atendidas:

  • As médias das duas populações comparadas devem seguir distribuições normais . Sob suposições fracas, isso segue em grandes amostras do teorema do limite central , mesmo quando a distribuição das observações em cada grupo é não normal.
  • Se estiver usando a definição original de Estudante do t -teste, as duas populações sendo comparados devem ter a mesma variância (testável usando F -teste , teste de Levene , teste de Bartlett , ou o teste de Brown-Forsythe , ou avaliável graficamente usando um enredo Q-Q ) Se os tamanhos das amostras nos dois grupos sendo comparados forem iguais, o teste t original de Student é altamente robusto à presença de variâncias desiguais. O teste t de Welch é insensível à igualdade das variâncias, independentemente de os tamanhos das amostras serem semelhantes.
  • Os dados usados ​​para realizar o teste devem ser amostrados independentemente das duas populações sendo comparadas ou ser totalmente emparelhados. Em geral, isso não pode ser testado a partir dos dados, mas se os dados forem conhecidos como dependentes (por exemplo, emparelhados pelo design do teste), um teste dependente deve ser aplicado. Para dados parcialmente emparelhados, os testes t independentes clássicos podem dar resultados inválidos, pois a estatística de teste pode não seguir uma distribuição t , enquanto o teste t dependente é subótimo, pois descarta os dados não emparelhados.

A maioria dos testes t de duas amostras são robustos a todos, exceto a grandes desvios das suposições.

Para exatidão , o teste t e o teste Z requerem normalidade das médias da amostra, e o teste t requer, adicionalmente, que a variância da amostra siga uma distribuição χ 2 em escala e que a média da amostra e a variância da amostra sejam estatisticamente independentes . A normalidade dos valores de dados individuais não é necessária se essas condições forem atendidas. Pelo teorema do limite central , as médias amostrais de amostras moderadamente grandes são freqüentemente bem aproximadas por uma distribuição normal, mesmo que os dados não sejam normalmente distribuídos. Para dados não normais, a distribuição da variância da amostra pode se desviar substancialmente de uma distribuição χ 2 . No entanto, se o tamanho da amostra for grande, o teorema de Slutsky implica que a distribuição da variância da amostra tem pouco efeito na distribuição da estatística de teste.

Desemparelhados e emparelhados de duas amostragens t -Testes

Erro tipo I de testes t de duas amostras não emparelhados e emparelhados em função da correlação. Os números aleatórios simulados originam-se de uma distribuição normal bivariada com uma variância de 1. O nível de significância é 5% e o número de casos é 60.
Potência de testes t de duas amostras não emparelhados e emparelhados em função da correlação. Os números aleatórios simulados se originam de uma distribuição normal bivariada com uma variância de 1 e um desvio do valor esperado de 0,4. O nível de significância é de 5% e o número de casos é de 60.

Os testes t de duas amostras para uma diferença na média envolvem amostras independentes (amostras não emparelhadas) ou amostras emparelhadas. Os testes t emparelhados são uma forma de bloqueio e têm maior poder (probabilidade de evitar um erro do tipo II, também conhecido como falso negativo) do que os testes não emparelhados quando as unidades emparelhadas são semelhantes em relação a "fatores de ruído" que são independentes de participação nos dois grupos sendo comparados. Em um contexto diferente, os testes t pareados podem ser usados ​​para reduzir os efeitos dos fatores de confusão em um estudo observacional .

Amostras independentes (não emparelhadas)

O teste t de amostras independentes é usado quando dois conjuntos separados de amostras independentes e distribuídas de forma idêntica são obtidos, um de cada uma das duas populações sendo comparadas. Por exemplo, suponha que estejamos avaliando o efeito de um tratamento médico e inscrevemos 100 indivíduos em nosso estudo e, em seguida, designamos aleatoriamente 50 indivíduos para o grupo de tratamento e 50 indivíduos para o grupo de controle. Nesse caso, temos duas amostras independentes e usaríamos a forma desemparelhada do teste t .

Amostras emparelhadas

Testes t de amostras emparelhadas normalmente consistem em uma amostra de pares combinados de unidades semelhantes , ou um grupo de unidades que foi testado duas vezes (um teste t de "medidas repetidas" ).

Um exemplo típico de teste t de medidas repetidas seria quando os indivíduos são testados antes de um tratamento, digamos para pressão alta, e os mesmos indivíduos são testados novamente após o tratamento com um medicamento para baixar a pressão arterial. Ao comparar o mesmo número de pacientes antes e depois do tratamento, estamos efetivamente usando cada paciente como seu próprio controle. Dessa forma, a rejeição correta da hipótese nula (aqui: de nenhuma diferença feita pelo tratamento) pode se tornar muito mais provável, com o poder estatístico aumentando simplesmente porque a variação interpaciente aleatória foi agora eliminada. No entanto, um aumento do poder estatístico tem um preço: mais testes são necessários, cada assunto tendo que ser testado duas vezes. Como metade da amostra agora depende da outra metade, a versão emparelhada do teste t de Student tem apenasn/2- 1 grau de liberdade (com n sendo o número total de observações). Os pares tornam-se unidades de teste individuais e a amostra deve ser duplicada para atingir o mesmo número de graus de liberdade. Normalmente, existem n - 1 graus de liberdade (com n sendo o número total de observações).

Um teste t de amostras emparelhadas com base em uma "amostra de pares combinados" resulta de uma amostra não emparelhada que é subsequentemente usada para formar uma amostra emparelhada, usando variáveis ​​adicionais que foram medidas junto com a variável de interesse. O pareamento é realizado identificando pares de valores constituídos por uma observação de cada uma das duas amostras, onde o par é semelhante em termos de outras variáveis ​​medidas. Essa abordagem às vezes é usada em estudos observacionais para reduzir ou eliminar os efeitos de fatores de confusão.

Os testes t de amostras emparelhadas são frequentemente referidos como " testes t de amostras dependentes ".

Cálculos

Expressões explícitas que podem ser usadas para realizar vários t -tests são fornecidas abaixo. Em cada caso, é fornecida a fórmula para uma estatística de teste que segue exatamente ou se aproxima de uma distribuição t sob a hipótese nula. Além disso, os graus de liberdade apropriados são fornecidos em cada caso. Cada uma dessas estatísticas pode ser usada para realizar um teste unilateral ou bicaudal .

Uma vez que o valor t e os graus de liberdade são determinados, um valor p pode ser encontrado usando uma tabela de valores da distribuição t de Student . Se o valor p calculado estiver abaixo do limite escolhido para significância estatística (geralmente o nível de 0,10, 0,05 ou 0,01), então a hipótese nula é rejeitada em favor da hipótese alternativa.

Teste t de uma amostra

Ao testar a hipótese nula de que a média da população é igual a um valor especificado μ 0 , usa-se a estatística

onde representa a média da amostra, s é o desvio padrão da amostra e n é o tamanho da amostra. Os graus de liberdade usados ​​neste teste são n - 1 . Embora a população parental não precise ser distribuída normalmente, a distribuição da população das médias da amostra é considerada normal.

Pelo teorema do limite central , se as observações são independentes e o segundo momento existe, então será aproximadamente normal N (0; 1).

Inclinação de uma linha de regressão

Suponha que alguém esteja se ajustando ao modelo

onde x é conhecido, α e β são desconhecidos, ε é uma variável aleatória normalmente distribuída com média 0 e variância desconhecida σ 2 e Y é o resultado de interesse. Queremos testar a hipótese nula de que a inclinação β é igual a algum valor especificado β 0 (muitas vezes considerado como sendo 0, caso em que a hipótese nula é que x e y não são correlacionadas).

Deixar

Então

tem uma distribuição t com n - 2 graus de liberdade se a hipótese nula for verdadeira. O erro padrão do coeficiente de inclinação :

pode ser escrito em termos de resíduos. Deixar

Então a pontuação t é dada por:

Outra maneira de determinar a pontuação t é:

onde r é o coeficiente de correlação de Pearson .

A pontuação t , interceptação pode ser determinada a partir da pontuação t , declive :

onde s x 2 é a variância da amostra.

Teste t independente de duas amostras

Tamanhos de amostra iguais e variância

Dados dois grupos (1, 2), este teste só é aplicável quando:

  • os dois tamanhos de amostra (ou seja, o número n de participantes de cada grupo) são iguais;
  • pode-se supor que as duas distribuições têm a mesma variância;

As violações dessas suposições são discutidas abaixo.

A estatística t para testar se as médias são diferentes pode ser calculada da seguinte forma:

Onde

Aqui s p é o desvio padrão combinado para n = n 1 = n 2 e s 2
x 1
e s 2
x 2
são os estimadores imparciais das variâncias das duas amostras. O denominador de t é o erro padrão da diferença entre duas médias.

Para o teste de significância, os graus de liberdade para este teste é 2 n - 2 onde n é o número de participantes em cada grupo.

Tamanhos de amostra iguais ou desiguais, variações semelhantes (1/2 < s X 1/s X 2 <2)

Este teste é usado apenas quando pode ser assumido que as duas distribuições têm a mesma variância. (Quando esta suposição for violada, veja abaixo.) As fórmulas anteriores são um caso especial das fórmulas abaixo, podem ser recuperadas quando ambas as amostras são iguais em tamanho: n = n 1 = n 2 .

A estatística t para testar se as médias são diferentes pode ser calculada da seguinte forma:

Onde

é um estimador do desvio padrão agrupado das duas amostras: ele é definido dessa forma de modo que seu quadrado seja um estimador imparcial da variância comum, sejam as médias populacionais iguais ou não. Nessas fórmulas, n i - 1 é o número de graus de liberdade para cada grupo, e o tamanho total da amostra menos dois (ou seja, n 1 + n 2 - 2 ) é o número total de graus de liberdade, que é usado em testes de significância.

Tamanhos de amostra iguais ou desiguais, variâncias desiguais ( s X 1 > 2 s X 2 ou s X 2 > 2 s X 1 )

Este teste, também conhecido como teste t de Welch , é usado apenas quando as duas variâncias da população não são consideradas iguais (os dois tamanhos de amostra podem ou não ser iguais) e, portanto, devem ser estimados separadamente. A estatística t para testar se as médias da população são diferentes é calculada como:

Onde

Aqui s i 2 é o estimador imparcial da variância de cada uma das duas amostras com n i = número de participantes no grupo i ( i = 1 ou 2). Nesse caso, não é uma variação combinada. Para uso em testes de significância, a distribuição da estatística de teste é aproximada como uma distribuição t de Student comum com os graus de liberdade calculados usando

Isso é conhecido como equação de Welch-Satterthwaite . A verdadeira distribuição da estatística de teste depende (ligeiramente) das duas variâncias desconhecidas da população (consulte o problema de Behrens-Fisher ).

Teste t dependente para amostras emparelhadas

Este teste é usado quando as amostras são dependentes; isto é, quando há apenas uma amostra que foi testada duas vezes (medidas repetidas) ou quando há duas amostras que foram combinadas ou "emparelhadas". Este é um exemplo de teste de diferença emparelhada . A estatística t é calculada como

onde e são a média e o desvio padrão das diferenças entre todos os pares. Os pares são, por exemplo, as pontuações pré-teste e pós-teste de uma pessoa ou entre pares de pessoas combinadas em grupos significativos (por exemplo, retirados da mesma família ou faixa etária: ver tabela). A constante μ 0 é zero se quisermos testar se a média da diferença é significativamente diferente. O grau de liberdade usado é n - 1 , onde n representa o número de pares.

Exemplo de medidas repetidas
Número Nome Teste 1 Teste 2
1 Mike 35% 67%
2 Melanie 50% 46%
3 Melissa 90% 86%
4 Mitchell 78% 91%
Exemplo de pares combinados
Par Nome Era Teste
1 João 35 250
1 Jane 36 340
2 Jimmy 22 460
2 Jessy 21 200

Exemplos trabalhados

Deixe A 1 denotar um conjunto obtido pelo desenho de uma amostra aleatória de seis medições:

e deixe A 2 denotar um segundo conjunto obtido de forma semelhante:

Podem ser, por exemplo, os pesos dos parafusos escolhidos de um balde.

Faremos testes da hipótese nula de que as médias das populações das quais as duas amostras foram retiradas são iguais.

A diferença entre as duas médias de amostra, cada uma denotada por X i , que aparece no numerador para todas as abordagens de teste de duas amostras discutidas acima, é

Os desvios padrão da amostra para as duas amostras são aproximadamente 0,05 e 0,11, respectivamente. Para amostras tão pequenas, um teste de igualdade entre as duas variâncias populacionais não seria muito poderoso. Uma vez que os tamanhos das amostras são iguais, as duas formas do teste t de duas amostras terão um desempenho semelhante neste exemplo.

Variâncias desiguais

Se a abordagem para variâncias desiguais (discutida acima) for seguida, os resultados serão

e os graus de liberdade

A estatística de teste é de aproximadamente 1,959, o que dá um valor p de teste bicaudal de 0,09077.

Variâncias iguais

Se a abordagem para variâncias iguais (discutida acima) for seguida, os resultados serão

e os graus de liberdade

A estatística de teste é aproximadamente igual a 1,959, o que dá um valor p bicaudal de 0,07857.

Testes estatísticos relacionados

Alternativas ao teste t para problemas de localização

O teste t fornece um teste exato para a igualdade das médias de duas populações normais iid com variâncias desconhecidas, mas iguais. ( O teste t de Welch é um teste quase exato para o caso em que os dados são normais, mas as variâncias podem ser diferentes.) Para amostras moderadamente grandes e um teste unilateral , o teste t é relativamente robusto para violações moderadas da suposição de normalidade. Em amostras grandes o suficiente, o teste t assintoticamente se aproxima do teste z e se torna robusto mesmo a grandes desvios da normalidade.

Se os dados forem substancialmente não normais e o tamanho da amostra for pequeno, o teste t pode fornecer resultados enganosos. Consulte Teste de localização para distribuições de mistura em escala gaussiana para alguma teoria relacionada a uma família particular de distribuições não normais.

Quando a suposição de normalidade não é válida, uma alternativa não paramétrica para o teste t pode ter melhor poder estatístico . No entanto, quando os dados são não normais com variâncias diferentes entre os grupos, um teste t pode ter melhor controle de erro tipo 1 do que algumas alternativas não paramétricas. Além disso, métodos não paramétricos, como o teste U de Mann-Whitney discutido abaixo, normalmente não testam a diferença de médias, portanto, devem ser usados ​​com cuidado se a diferença de médias for de interesse científico primário. Por exemplo, o teste U de Mann-Whitney manterá o erro tipo 1 no nível alfa desejado se ambos os grupos tiverem a mesma distribuição. Ele também terá poder para detectar uma alternativa pela qual o grupo B tem a mesma distribuição de A, mas após algum deslocamento por uma constante (nesse caso, haveria de fato uma diferença nas médias dos dois grupos). No entanto, pode haver casos em que o grupo A e B terão distribuições diferentes, mas com os mesmos meios (como duas distribuições, uma com assimetria positiva e outra com uma negativa, mas deslocada para ter as mesmas médias). Em tais casos, MW poderia ter mais do que poder de nível alfa ao rejeitar a hipótese nula, mas atribuir a interpretação da diferença nas médias a tal resultado seria incorreto.

Na presença de um outlier , o teste t não é robusto. Por exemplo, para duas amostras independentes quando as distribuições de dados são assimétricas (ou seja, as distribuições são enviesadas ) ou as distribuições têm caudas grandes, o teste de soma de postos de Wilcoxon (também conhecido como teste U de Mann-Whitney ) pode ter três a uma potência quatro vezes maior do que o teste t . A contrapartida não paramétrica para o teste t de amostras emparelhadas é o teste dos postos sinalizados de Wilcoxon para amostras emparelhadas. Para uma discussão sobre a escolha entre o teste t e as alternativas não paramétricas, consulte Lumley, et al. (2002).

A análise de variância unilateral (ANOVA) generaliza o teste t de duas amostras quando os dados pertencem a mais de dois grupos.

Um projeto que inclui observações emparelhadas e observações independentes

Quando ambas as observações emparelhadas e observações independentes estão presentes no desenho de duas amostras, assumindo que os dados estão ausentes completamente ao acaso (MCAR), as observações emparelhadas ou observações independentes podem ser descartadas a fim de prosseguir com os testes padrão acima. Alternativamente, fazendo uso de todos os dados disponíveis, assumindo normalidade e MCAR, o teste t generalizado de amostras parcialmente sobrepostas pode ser usado.

Teste multivariado

Uma generalização da estatística t de Student , chamada de estatística t quadrada de Hotelling , permite o teste de hipóteses em medidas múltiplas (freqüentemente correlacionadas) dentro da mesma amostra. Por exemplo, um pesquisador pode submeter vários sujeitos a um teste de personalidade que consiste em múltiplas escalas de personalidade (por exemplo, o Inventário Multifásico de Personalidade de Minnesota ). Como as medidas desse tipo são geralmente correlacionadas positivamente, não é aconselhável conduzir testes t univariados separados para testar hipóteses, pois isso negligenciaria a covariância entre as medidas e aumentaria a chance de rejeitar falsamente pelo menos uma hipótese ( erro Tipo I ). Nesse caso, um único teste multivariado é preferível para o teste de hipóteses. O método de Fisher para combinar vários testes com alfa reduzido para correlação positiva entre os testes é um. Outra é a estatística T 2 de Hotelling segue uma distribuição T 2 . No entanto, na prática, a distribuição raramente é usada, uma vez que os valores tabulados para T 2 são difíceis de encontrar. Geralmente, o t 2 é convertido em vez de um F estatística.

Para um teste multivariado de uma amostra, a hipótese é que o vetor médio ( μ ) é igual a um dado vetor ( μ 0 ). A estatística de teste é t 2 de Hotelling :

onde n é o tamanho da amostra, x é o vector de meios de coluna e S é um m × m matriz covariância amostra .

Para um teste multivariado de duas amostras, a hipótese é que os vetores médios ( μ 1 , μ 2 ) de duas amostras são iguais. A estatística de teste é o t 2 de duas amostras de Hotelling :

Implementações de software

Muitos programas de planilhas e pacotes de estatísticas, como QtiPlot , LibreOffice Calc , Microsoft Excel , SAS , SPSS , Stata , DAP , gretl , R , Python , PSPP , MATLAB e Minitab , incluem implementações de teste t de Student .

Idioma / programa Função Notas
Microsoft Excel pré 2010 TTEST(array1, array2, tails, type) Veja [1]
Microsoft Excel 2010 e posterior T.TEST(array1, array2, tails, type) Veja [2]
LibreOffice Calc TTEST(Data1; Data2; Mode; Type) Veja [3]
Planilhas do Google TTEST(range1, range2, tails, type) Veja [4]
Pitão scipy.stats.ttest_ind(a, b, equal_var=True) Veja [5]
MATLAB ttest(data1, data2) Veja [6]
Mathematica TTest[{data1,data2}] Veja [7]
R t.test(data1, data2, var.equal=TRUE) Veja [8]
SAS PROC TTEST Veja [9]
Java tTest(sample1, sample2) Veja [10]
Julia EqualVarianceTTest(sample1, sample2) Veja [11]
Stata ttest data1 == data2 Veja [12]

Veja também

Referências

Citações

Fontes

Leitura adicional

  • Boneau, C. Alan (1960). "Os efeitos das violações das suposições subjacentes ao teste t ". Boletim psicológico . 57 (1): 49–64. doi : 10.1037 / h0041412 . PMID  13802482 .
  • Edgell, Stephen E .; Noon, Sheila M. (1984). "Efeito da violação da normalidade no teste t do coeficiente de correlação". Boletim psicológico . 95 (3): 576–583. doi : 10.1037 / 0033-2909.95.3.576 .

links externos