Teste de permutação - Permutation test

Um teste de permutação (também chamado de teste de re-randomização) é um teste exato , um tipo de teste de significância estatística em que a distribuição da estatística de teste sob a hipótese nula é obtida calculando todos os valores possíveis da estatística de teste sob todos os rearranjos possíveis de os pontos de dados observados. Os testes de permutação são, portanto, uma forma de reamostragem . Em outras palavras, o método pelo qual os tratamentos são alocados aos sujeitos em um projeto experimental é refletido na análise desse projeto. Se os rótulos forem trocáveis ​​sob a hipótese nula, os testes resultantes geram níveis de significância exatos; veja também permutabilidade . Os intervalos de confiança podem então ser derivados dos testes. A teoria evoluiu a partir dos trabalhos de Ronald Fisher e EJG Pitman na década de 1930.

Os testes de permutação não devem ser confundidos com testes randomizados .

Para ilustrar a ideia básica de um teste de permutação, suponha que coletamos variáveis ​​aleatórias e para cada indivíduo de dois grupos e cujas médias amostrais são e , e que queremos saber se e vêm da mesma distribuição. Deixe e seja o tamanho da amostra coletada de cada grupo. O teste de permutação é projetado para determinar se a diferença observada entre as médias da amostra é grande o suficiente para rejeitar, em algum nível de significância, a hipótese nula H da qual os dados extraídos são da mesma distribuição que os dados extraídos .

O teste prossegue da seguinte maneira. Em primeiro lugar, é calculada a diferença de médias entre as duas amostras: este é o valor observado da estatística de teste ,.

Em seguida, as observações dos grupos e são combinadas, e a diferença nas médias da amostra é calculada e registrada para cada forma possível de dividir os valores combinados em dois grupos de tamanho e (ou seja, para cada permutação dos rótulos de grupo A e B). O conjunto dessas diferenças calculadas é a distribuição exata de possíveis diferenças (para esta amostra) sob a hipótese nula de que os rótulos de grupo são trocáveis ​​(ou seja, são atribuídos aleatoriamente).

O valor p unilateral do teste é calculado como a proporção de permutações amostradas onde a diferença nas médias foi maior que . O valor p bilateral do teste é calculado como a proporção de permutações amostradas onde a diferença absoluta era maior que .

Alternativamente, se o único propósito do teste é rejeitar ou não rejeitar a hipótese nula, pode-se classificar as diferenças registradas e, então, observar se está contida na % média delas, para algum nível de significância . Se não for, rejeitamos a hipótese de curvas de probabilidade idênticas no nível de significância.

Relação com testes paramétricos

Os testes de permutação são um subconjunto de estatísticas não paramétricas . Assumindo que nossos dados experimentais vêm de dados medidos de dois grupos de tratamento, o método simplesmente gera a distribuição das diferenças médias sob a suposição de que os dois grupos não são distintos em termos da variável medida. A partir disso, usa-se a estatística observada ( acima) para ver até que ponto essa estatística é especial, ou seja, a probabilidade de observar a magnitude de tal valor (ou maior) se os rótulos de tratamento simplesmente tivessem sido randomizados após o tratamento.

Em contraste com os testes de permutação, as distribuições subjacentes a muitos testes estatísticos "clássicos" populares , como o teste t , teste F , teste z e teste χ 2 , são obtidas a partir de distribuições de probabilidade teórica. O teste exato de Fisher é um exemplo de teste de permutação comumente usado para avaliar a associação entre duas variáveis ​​dicotômicas. Quando os tamanhos das amostras são muito grandes, o teste do qui-quadrado de Pearson fornecerá resultados precisos. Para pequenas amostras, não se pode presumir que a distribuição de referência do qui-quadrado forneça uma descrição correta da distribuição de probabilidade da estatística de teste e, nessa situação, o uso do teste exato de Fisher torna-se mais apropriado.

Os testes de permutação existem em muitas situações onde os testes paramétricos não existem (por exemplo, ao derivar um teste ótimo quando as perdas são proporcionais ao tamanho de um erro, e não ao seu quadrado). Todos os testes paramétricos simples e muitos relativamente complexos têm uma versão de teste de permutação correspondente que é definida usando a mesma estatística de teste que o teste paramétrico, mas obtém o valor p da distribuição de permutação específica da amostra dessa estatística, em vez da teórica distribuição derivada da suposição paramétrica. Por exemplo, é possível desta maneira construir um teste t de permutação , um teste de associação de permutação χ 2 , uma versão de permutação do teste de Aly para comparar variâncias e assim por diante.

As principais desvantagens dos testes de permutação são que eles

  • Pode ser computacionalmente intensivo e pode exigir um código "personalizado" para estatísticas difíceis de calcular. Isso deve ser reescrito para cada caso.
  • São usados ​​principalmente para fornecer um valor p. A inversão do teste para obter regiões / intervalos de confiança requer ainda mais computação.

Vantagens

Existem testes de permutação para qualquer estatística de teste, independentemente de sua distribuição ser ou não conhecida. Assim, é sempre livre para escolher a estatística que melhor discrimina entre hipótese e alternativa e que minimiza as perdas.

Os testes de permutação podem ser usados ​​para analisar designs não balanceados e para combinar testes dependentes em misturas de dados categóricos, ordinais e métricos (Pesarin, 2001). Eles também podem ser usados ​​para analisar dados qualitativos que foram quantificados (ou seja, transformados em números). Os testes de permutação podem ser ideais para analisar dados quantitativos que não satisfazem as suposições estatísticas subjacentes aos testes paramétricos tradicionais (por exemplo, testes t, ANOVA).

Antes da década de 1980, o fardo de criar a distribuição de referência era enorme, exceto para conjuntos de dados com tamanhos de amostra pequenos.

Desde a década de 1980, a confluência de computadores rápidos relativamente baratos e o desenvolvimento de novos algoritmos de caminho sofisticados aplicáveis ​​em situações especiais tornaram a aplicação de métodos de teste de permutação prática para uma ampla gama de problemas. Ele também iniciou a adição de opções de teste exato nos principais pacotes de software estatístico e o surgimento de software especializado para realizar uma ampla gama de testes exatos uni e multivariáveis ​​e calcular intervalos de confiança "exatos" baseados em testes.

Limitações

Uma suposição importante por trás de um teste de permutação é que as observações podem ser trocadas sob a hipótese nula. Uma consequência importante dessa suposição é que os testes de diferença na localização (como um teste t de permutação) requerem variância igual sob a suposição de normalidade. A esse respeito, o teste t de permutação compartilha a mesma fraqueza do teste t de Student clássico (o problema de Behrens-Fisher ). Uma terceira alternativa nessa situação é usar um teste baseado em bootstrap. Good (2005) explica a diferença entre os testes de permutação e os testes de bootstrap da seguinte maneira: "Hipóteses de teste de permutação em relação às distribuições; hipóteses de teste de bootstraps em relação aos parâmetros. Como resultado, o bootstrap envolve suposições menos rigorosas." Os testes de bootstrap não são exatos. Em alguns casos, um teste de permutação baseado em uma estatística estudantizada adequadamente pode ser assintoticamente exato, mesmo quando a suposição de permutabilidade é violada.

Teste de Monte Carlo

Um teste de permutação assintoticamente equivalente pode ser criado quando há muitas ordenações possíveis dos dados para permitir a enumeração completa de uma maneira conveniente. Isso é feito gerando a distribuição de referência por amostragem de Monte Carlo , que pega uma pequena amostra aleatória (em relação ao número total de permutações) das possíveis repetições. A constatação de que isso poderia ser aplicado a qualquer teste de permutação em qualquer conjunto de dados foi um avanço importante na área de estatística aplicada. As primeiras referências conhecidas a essa abordagem são Eden e Yates (1933) e Dwass (1957). Este tipo de teste de permutação é conhecido por vários nomes: teste de permutação aproximada , testes de permutação Monte Carlo ou testes de permutação aleatória .

Após permutações aleatórias, é possível obter um intervalo de confiança para o valor p com base na distribuição Binomial. Por exemplo, se após permutações aleatórias o valor p for estimado , então um intervalo de confiança de 99% para o verdadeiro (aquele que resultaria de tentar todas as permutações possíveis) é .

Por outro lado, o objetivo de estimar o valor p é mais frequentemente decidir se , onde está o limite no qual a hipótese nula será rejeitada (normalmente ). No exemplo acima, o intervalo de confiança apenas nos diz que há aproximadamente 50% de chance de que o valor p seja menor que 0,05, ou seja, não está totalmente claro se a hipótese nula deve ser rejeitada em um determinado nível .

Se for importante apenas saber se para um dado , é lógico continuar simulando até que a afirmação possa ser estabelecida como verdadeira ou falsa com uma probabilidade de erro muito baixa. Dado um limite na probabilidade de erro admissível (a probabilidade de descobrir que quando de fato ou vice-versa), a questão de quantas permutações gerar pode ser vista como a questão de quando parar de gerar permutações, com base nos resultados do simulações até agora, a fim de garantir que a conclusão (que é ou ) está correta com probabilidade pelo menos tão grande quanto . ( normalmente será escolhido para ser extremamente pequeno, por exemplo, 1/1000.) Regras de parada para alcançar isso foram desenvolvidas e podem ser incorporadas com um custo computacional adicional mínimo. Na verdade, dependendo do verdadeiro valor-p subjacente, muitas vezes descobriremos que o número de simulações necessárias é notavelmente pequeno (por exemplo, tão baixo quanto 5 e frequentemente não maior que 100) antes que uma decisão possa ser alcançada com certeza virtual.

Veja também

Literatura

Referências originais:

  • Fisher, RA (1935) The Design of Experiments , Nova York: Hafner
  • Pitman, EJG (1937) "Testes de significância que podem ser aplicados a amostras de qualquer população", Royal Statistical Society Supplement , 4: 119-130 e 225-32 (partes I e II). JSTOR  2984124 JSTOR  2983647
  • Pitman, EJG (1938). "Testes de significância que podem ser aplicados a amostras de qualquer população. Parte III. O teste de análise de variância". Biometrika . 29 (3–4): 322–335. doi : 10.1093 / biomet / 29.3-4.322 .

Referências modernas:

Métodos computacionais:

Pesquisa atual em testes de permutação

Referências

  1. ^ Onghena, Patrick (2017-10-30), Berger, Vance W. (ed.), "Randomization Tests or Permutation Tests? A Historical and Terminological Clarification" , Randomization, Masking, and Allocation Concealment (1 ed.), Boca Raton: Taylor & Francis, um título CRC, parte do selo Taylor & Francis, membro do Taylor & Francis Group, a divisão acadêmica de T&F Informa plc, 2018: Chapman and Hall / CRC, pp. 209-228, doi : 10.1201 / 9781315305110-14 , ISBN 978-1-315-30511-0, recuperado em 2021-10-08CS1 maint: location (link)
  2. ^ "Artigos convidados" (PDF) . Journal of Modern Applied Statistical Methods . 1 (2): 202-522. Outono de 2011. Arquivado do original (PDF) em 5 de maio de 2003.
  3. ^ Collingridge, Dave S. (11 de setembro de 2012). "A Primer on Quantitized Data Analysis and Permutation Testing". Journal of Mixed Methods Research . 7 (1): 81–97. doi : 10.1177 / 1558689812454457 . S2CID  124618343 .
  4. ^ Chung, EY; Romano, JP (2013). "Testes de permutação exatos e assintoticamente robustos" . The Annals of Statistics . 41 (2): 487–507. arXiv : 1304.5939 . doi : 10.1214 / 13-AOS1090 .
  5. ^ Eden, T; Yates, F (1933). "Sobre a validade do teste z de Fisher quando aplicado a um exemplo real de dados não normais. (Com cinco figuras de texto.)" . The Journal of Agricultural Science . 23 (1): 6–17. doi : 10.1017 / S0021859600052862 . Retirado em 3 de junho de 2021 .
  6. ^ Dwass, Meyer (1957). "Testes de randomização modificados para hipóteses não paramétricas" . Annals of Mathematical Statistics . 28 (1): 181–187. doi : 10.1214 / aoms / 1177707045 . JSTOR  2237031 .
  7. ^ Thomas E. Nichols , Andrew P. Holmes (2001). "Testes de permutação não paramétricos para neuroimagem funcional: um primer com exemplos" (PDF) . Mapeamento do cérebro humano . 15 (1): 1–25. doi : 10.1002 / hbm.1058 . hdl : 2027,42 / 35194 . PMC  6871862 . PMID  11747097 .
  8. ^ Gandy, Axel (2009). "Implementação sequencial de testes de Monte Carlo com risco de reamostragem uniformemente limitado". Journal of the American Statistical Association . 104 (488): 1504–1511. arXiv : math / 0612488 . doi : 10.1198 / jasa.2009.tm08368 . S2CID  15935787 .