Testando hipóteses sugeridas pelos dados - Testing hypotheses suggested by the data

Em estatística , as hipóteses sugeridas por um determinado conjunto de dados , quando testadas com o mesmo conjunto de dados que as sugeriu, provavelmente serão aceitas mesmo quando não forem verdadeiras. Isso ocorre porque o raciocínio circular (duplo mergulho) estaria envolvido: algo parece verdadeiro no conjunto de dados limitado; portanto, hipotetizamos que é verdade em geral; portanto, testamos (erroneamente) no mesmo conjunto de dados limitado, o que parece confirmar que é verdade. A geração de hipóteses com base em dados já observados, na ausência de testá-las em novos dados, é denominada teorização post hoc (do latim post hoc , "depois disso").

O procedimento correto é testar qualquer hipótese em um conjunto de dados que não foi usado para gerar a hipótese.

O problema geral

Testar uma hipótese sugerida pelos dados pode facilmente resultar em falsos positivos ( erros do tipo I ). Se alguém olhar por tempo suficiente e em lugares diferentes o suficiente, eventualmente dados podem ser encontrados para apoiar qualquer hipótese. No entanto, esses dados positivos por si só não constituem evidência de que a hipótese está correta. Os dados de teste negativos que foram descartados são tão importantes quanto, porque dão uma ideia de quão comuns os resultados positivos são comparados ao acaso. Executar um experimento, ver um padrão nos dados, propor uma hipótese a partir desse padrão e, em seguida, usar os mesmos dados experimentais como evidência para a nova hipótese é extremamente suspeito, porque os dados de todos os outros experimentos, concluídos ou potenciais, foram essencialmente "lançados out "escolhendo olhar apenas para os experimentos que sugeriram a nova hipótese em primeiro lugar.

Um grande conjunto de testes, conforme descrito acima, aumenta muito a probabilidade de erro do tipo I, pois todos, exceto os dados mais favoráveis ​​à hipótese, são descartados. Este é um risco, não apenas em testes de hipóteses, mas em todas as inferências estatísticas , pois muitas vezes é problemático descrever com precisão o processo que foi seguido na busca e descarte de dados . Em outras palavras, deseja-se manter todos os dados (independentemente de eles tenderem a apoiar ou refutar a hipótese) de "bons testes", mas às vezes é difícil descobrir o que é um "bom teste". É um problema particular na modelagem estatística , onde muitos modelos diferentes são rejeitados por tentativa e erro antes de publicar um resultado (ver também overfitting , viés de publicação ).

O erro é particularmente comum em mineração de dados e aprendizado de máquina . Também ocorre comumente em publicações acadêmicas, onde apenas relatos de resultados positivos, em vez de negativos, tendem a ser aceitos, resultando no efeito conhecido como viés de publicação .

Procedimentos corretos

Todas as estratégias para testar as hipóteses sugeridas pelos dados envolvem a inclusão de uma gama mais ampla de testes na tentativa de validar ou refutar a nova hipótese. Esses incluem:

O teste simultâneo de Henry Scheffé de todos os contrastes em problemas de comparação múltipla é o remédio mais conhecido no caso da análise de variância . É um método projetado para testar hipóteses sugeridas pelos dados, evitando a falácia descrita acima.

Veja também

Notas e referências