Erros tipo I e tipo II - Type I and type II errors

No teste de hipótese estatística , um erro do tipo I é a rejeição equivocada da hipótese nula (também conhecido como um achado ou conclusão "falso positivo"; exemplo: "uma pessoa inocente é condenada"), enquanto um erro do tipo IIé a aceitação equivocada da hipótese nula (também conhecido como um achado ou conclusão "falso negativo"; exemplo: "uma pessoa culpada não é condenada"). Grande parte da teoria estatística gira em torno da minimização de um ou de ambos os erros, embora a eliminação completa de qualquer um deles seja uma impossibilidade estatística se o resultado não for determinado por um processo causal conhecido e observável. Selecionando um valor de limite baixo (corte) e modificando o nível alfa (p), a qualidade do teste de hipótese pode ser aumentada. O conhecimento dos erros do Tipo I e do Tipo II é amplamente utilizado na ciência médica , biometria e ciência da computação .

Intuitivamente, os erros do tipo I podem ser considerados erros de comissão , ou seja, o pesquisador, infelizmente, conclui que algo é o fato. Por exemplo, considere um estudo em que pesquisadores comparam uma droga com um placebo. Se os pacientes que recebem o medicamento melhorarem do que os pacientes que recebem o placebo por acaso, pode parecer que o medicamento é eficaz, mas na verdade a conclusão está incorreta. Ao contrário, os erros do tipo II são erros de omissão . No exemplo acima, se os pacientes que receberam o medicamento não melhoraram em uma taxa maior do que os que receberam o placebo, mas isso foi um acaso aleatório, isso seria um erro do tipo II. A consequência de um erro do tipo II depende do tamanho e da direção da determinação perdida e das circunstâncias. Uma cura cara para um em um milhão de pacientes pode ser irrelevante, mesmo que seja realmente uma cura.

Definição

Antecedentes estatísticos

Na teoria dos testes estatísticos , a noção de um erro estatístico é parte integrante do teste de hipóteses . O teste trata de escolher cerca de duas proposições concorrentes chamadas de hipótese nula , denotadas por H 0 e hipótese alternativa , denotadas por H 1 . Isso é conceitualmente semelhante ao julgamento em um tribunal. A hipótese nula corresponde à posição do réu: assim como ele é presumido inocente até que se prove sua culpa, também a hipótese nula é presumida verdadeira até que os dados forneçam prova convincente contra ela. A hipótese alternativa corresponde à posição contra o réu. Especificamente, a hipótese nula também envolve a ausência de diferença ou ausência de associação. Assim, a hipótese nula nunca pode ser a de que há uma diferença ou associação.

Se o resultado do teste corresponder à realidade, então uma decisão correta foi tomada. No entanto, se o resultado do teste não corresponder à realidade, então ocorreu um erro. Existem duas situações em que a decisão está errada. A hipótese nula pode ser verdadeira, enquanto rejeitamos H 0 . Por outro lado, a hipótese alternativa H 1 pode ser verdadeira, ao passo que não rejeitamos H 0 . Distinguem-se dois tipos de erro: erro do tipo I e erro do tipo II.

Erro tipo I

O primeiro tipo de erro é a rejeição equivocada de uma hipótese nula como resultado de um procedimento de teste. Esse tipo de erro é chamado de erro do tipo I (falso positivo) e às vezes é chamado de erro do primeiro tipo.

Em termos do exemplo do tribunal, um erro do tipo I corresponde à condenação de um réu inocente.

Erro tipo II

O segundo tipo de erro é a aceitação equivocada da hipótese nula como resultado de um procedimento de teste. Este tipo de erro é denominado erro do tipo II (falso negativo) e também denominado erro do segundo tipo.

Em termos do exemplo do tribunal, um erro do tipo II corresponde à absolvição de um criminoso.

Taxa de erro de cruzamento

A taxa de erro cruzado (CER) é o ponto em que os erros do Tipo I e do Tipo II são iguais e representa a melhor maneira de medir a eficácia de uma biometria. Um sistema com um valor de CER mais baixo oferece mais precisão do que um sistema com um valor de CER mais alto.

Falso positivo e falso negativo

Veja mais informações em: Falso positivo e falso negativo

Em termos de falsos positivos e falsos negativos, um resultado positivo corresponde à rejeição da hipótese nula, enquanto um resultado negativo corresponde à não rejeição da hipótese nula; "falso" significa que a conclusão tirada está incorreta. Assim, um erro do tipo I é equivalente a um falso positivo e um erro do tipo II é equivalente a um falso negativo.

Tabela de tipos de erro

Relações tabularizadas entre verdade / falsidade da hipótese nula e resultados do teste:

 Tabela de tipos de erro
Hipótese nula ( H 0 ) é
 
Verdade Falso
Decisão
sobre
hipótese nula ( H 0 )
Não
rejeite

Inferência correta
(verdadeiro negativo)

(probabilidade = 1− α )

Erro tipo II
(falso negativo)
(probabilidade = β
Rejeitar Erro tipo I
(falso positivo)
(probabilidade = α

Inferência correta
(verdadeiro positivo)

(probabilidade = 1− β )
 

Taxa de erro

Os resultados obtidos na amostra negativa (curva à esquerda) se sobrepõem aos resultados obtidos nas amostras positivas (curva à direita). Ao mover o valor de corte do resultado (barra vertical), a taxa de falsos positivos (FP) pode ser diminuída, ao custo de aumentar o número de falsos negativos (FN), ou vice-versa. (TP = verdadeiros positivos, TN = verdadeiros negativos)

Um teste perfeito teria zero falsos positivos e zero falsos negativos. No entanto, os métodos estatísticos são probabilísticos e não se pode saber com certeza se as conclusões estatísticas estão corretas. Sempre que houver incerteza, existe a possibilidade de cometer um erro. Considerando essa natureza da ciência estatística, todos os testes de hipóteses estatísticas têm uma probabilidade de cometer erros do tipo I e do tipo II.

  • A taxa de erro tipo I ou nível de significância é a probabilidade de rejeitar a hipótese nula desde que ela seja verdadeira. É denotado pela letra grega α (alfa) e também é chamado de nível alfa. Normalmente, o nível de significância é definido como 0,05 (5%), o que implica que é aceitável ter uma probabilidade de 5% de rejeitar incorretamente a hipótese nula verdadeira.
  • A taxa do erro tipo II é denotada pela letra grega β (beta) e relacionada ao poder de um teste , que é igual a 1 − β.

Esses dois tipos de taxas de erro são negociados entre si: para qualquer conjunto de amostra, o esforço para reduzir um tipo de erro geralmente resulta no aumento do outro tipo de erro.

A qualidade do teste de hipótese

A mesma ideia pode ser expressa em termos de taxa de resultados corretos e, portanto, usada para minimizar as taxas de erro e melhorar a qualidade do teste de hipótese. Para reduzir a probabilidade de cometer um erro do Tipo I, tornar o valor alfa (p) mais rigoroso é bastante simples e eficiente. Para diminuir a probabilidade de cometer um erro do Tipo II, que está intimamente associado ao poder das análises, aumentar o tamanho da amostra do teste ou relaxar o nível alfa pode aumentar o poder das análises. Uma estatística de teste é robusta se a taxa de erro Tipo I for controlada.

A variação de diferentes valores de limite (corte) também pode ser usada para tornar o teste mais específico ou mais sensível, o que, por sua vez, eleva a qualidade do teste. Por exemplo, imagine um teste médico, no qual o experimentador pode medir a concentração de uma determinada proteína na amostra de sangue. O experimentador poderia ajustar o limite (linha vertical preta na figura) e as pessoas seriam diagnosticadas como tendo doenças se qualquer número fosse detectado acima deste determinado limite. De acordo com a imagem, a alteração do limiar resultaria em alterações de falsos positivos e falsos negativos, correspondendo ao movimento na curva.

Exemplo

Visto que em um experimento real é impossível evitar todos os erros do tipo I e do tipo II, é importante considerar a quantidade de risco que se está disposto a correr para rejeitar H 0 ou aceitar H 0 falsamente . A solução para essa questão seria relatar o valor p ou nível de significância α da estatística. Por exemplo, se o valor p de um resultado de estatística de teste for estimado em 0,0596, então há uma probabilidade de 5,96% de que rejeitemos H 0 falsamente . Ou, se dissermos que a estatística é realizada no nível α, como 0,05, então permitimos rejeitar falsamente H 0 a 5%. Um nível de significância α de 0,05 é relativamente comum, mas não existe uma regra geral que se adapte a todos os cenários.

Medição da velocidade do veículo

O limite de velocidade de uma rodovia nos Estados Unidos é de 120 quilômetros por hora. Um dispositivo é configurado para medir a velocidade dos veículos que passam. Suponha que o dispositivo irá realizar três medições da velocidade de um veículo que passa, registrando como uma amostra aleatória X 1 , X 2 , X 3 . A polícia de trânsito vai multar ou não os motoristas dependendo da velocidade média . Ou seja, a estatística de teste

Além disso, supomos que as medidas X 1 , X 2 , X 3 são modeladas como distribuição normal N (µ, 4). Então, deve seguir N (μ, 4/3) e o parâmetro μ representa a velocidade real de passagem do veículo. Neste experimento, a hipótese nula H 0 e a hipótese alternativa H 1 devem ser

H 0 : μ = 120 contra H 1 : μ 1 > 120.

Se realizarmos o nível estatístico em α = 0,05, então um valor crítico c deve ser calculado para resolver

De acordo com a regra de mudança de unidades para a distribuição normal. Referindo-se à tabela Z , podemos obter

Aqui, a região crítica. Ou seja, se a velocidade registrada de um veículo for maior que o valor crítico 121,9, o motorista será multado. No entanto, ainda existem 5% dos motoristas que são multados falsamente, pois a velocidade média registrada é superior a 121,9, mas a velocidade real não passa de 120, o que dizemos, um erro tipo I.

O erro do tipo II corresponde ao caso em que a velocidade real de um veículo é superior a 120 quilômetros por hora, mas o motorista não é multado. Por exemplo, se a velocidade real de um veículo μ = 125, a probabilidade de o motorista não ser multado pode ser calculada como

ou seja, se a velocidade real de um veículo for 125, o drive tem probabilidade de 0,36% de evitar a multa quando a estatística for realizada no nível 125, uma vez que a velocidade média registrada é inferior a 121,9. Se a velocidade real estiver mais próxima de 121,9 do que de 125, a probabilidade de evitar a multa também será maior.

As compensações entre o erro do tipo I e o erro do tipo II também devem ser consideradas. Ou seja, neste caso, se a polícia de trânsito não quiser multar falsamente motoristas inocentes, o nível α pode ser definido com um valor menor, como 0,01. No entanto, se for esse o caso, mais motoristas cuja velocidade real é superior a 120 quilômetros por hora, como 125, estariam mais propensos a evitar a multa.

Etimologia

Em 1928, Jerzy Neyman (1894-1981) e Egon Pearson (1895-1980), ambos eminentes estatísticos, discutiram os problemas associados com "decidir se uma amostra específica pode ser julgada como provável de ter sido sorteada aleatoriamente de uma determinada população ": e, como observou Florence Nightingale David ," é necessário lembrar que o adjetivo 'aleatório' [no termo 'amostra aleatória'] deve ser aplicado ao método de extração da amostra e não à amostra em si ".

Eles identificaram "duas fontes de erro", a saber:

(a) o erro de rejeitar uma hipótese que não deveria ter sido rejeitada, e
(b) o erro de não rejeitar uma hipótese que deveria ter sido rejeitada.

Em 1930, eles elaboraram sobre essas duas fontes de erro, observando que:

... ao testar hipóteses, duas considerações devem ser mantidas em vista, devemos ser capazes de reduzir a chance de rejeitar uma hipótese verdadeira a um valor tão baixo quanto desejado; o teste deve ser planejado de forma a rejeitar a hipótese testada quando é provável que seja falsa.

Em 1933, eles observaram que esses "problemas raramente são apresentados de forma que possamos discriminar com certeza entre a hipótese verdadeira e a falsa". Eles também observaram que, ao decidir se não rejeitava ou rejeitava uma determinada hipótese entre um "conjunto de hipóteses alternativas", H 1 , H 2 ..., era fácil cometer um erro:

... [e] esses erros serão de dois tipos:

(I) rejeitamos H 0 [ou seja, a hipótese a ser testada] quando for verdadeira,
(II) falhamos em rejeitar H 0 quando alguma hipótese alternativa H A ou H 1 é verdadeira. (Existem várias notações para a alternativa).

Em todos os artigos co-escritos por Neyman e Pearson, a expressão H 0 sempre significa "a hipótese a ser testada".

No mesmo artigo, eles chamam essas duas fontes de erro, erros do tipo I e erros do tipo II, respectivamente.

Termos relacionados

Hipótese nula

É prática padrão para os estatísticos conduzirem testes para determinar se uma " hipótese especulativa " relativa aos fenômenos observados do mundo (ou de seus habitantes) pode ser sustentada. Os resultados de tais testes determinam se um determinado conjunto de resultados concorda razoavelmente (ou não) com a hipótese especulada.

Com base em que sempre se assume, por convenção estatística , que a hipótese especulada está errada, e a chamada " hipótese nula " que os fenômenos observados simplesmente ocorrem ao acaso (e que, como consequência, o agente especulado não tem efeito) - o teste irá determinar se esta hipótese está certa ou errada. É por isso que a hipótese em teste é freqüentemente chamada de hipótese nula (provavelmente, cunhada por Fisher (1935, p. 19)), porque é essa hipótese que deve ser anulada ou não pelo teste. Quando a hipótese nula é anulada, é possível concluir que os dados suportam a " hipótese alternativa " (que é a hipótese original especulada).

A aplicação consistente por estatísticos da convenção de Neyman e Pearson de representar " a hipótese a ser testada " (ou " a hipótese a ser anulada ") com a expressão H 0 levou a circunstâncias em que muitos entendem o termo " a hipótese nula " como significado " a hipótese nula " - uma afirmação de que os resultados em questão surgiram por acaso. Este não é necessariamente o caso - a principal restrição, de acordo com Fisher (1966), é que " a hipótese nula deve ser exata, isto é, livre de imprecisão e ambigüidade, porque deve fornecer a base do 'problema de distribuição' do qual o teste de significância é a solução. ”Como consequência disso, na ciência experimental a hipótese nula é geralmente uma afirmação de que um determinado tratamento não tem efeito ; na ciência observacional, é que não há diferença entre o valor de uma determinada variável medida e o de uma previsão experimental.

Significado estatístico

Se a probabilidade de obter um resultado tão extremo quanto o obtido, supondo que a hipótese nula fosse verdadeira, for inferior a uma probabilidade de corte pré-especificada (por exemplo, 5%), então o resultado é considerado estatisticamente significativo e a hipótese nula é rejeitada.

O estatístico britânico Sir Ronald Aylmer Fisher (1890–1962) enfatizou que a "hipótese nula":

... nunca é provado ou estabelecido, mas é possivelmente refutado, no decorrer da experimentação. Pode-se dizer que todo experimento existe apenas para dar aos fatos uma chance de refutar a hipótese nula.

-  Fisher, 1935, p.19

Domínios de aplicativo

Medicina

Na prática da medicina, as diferenças entre as aplicações de rastreio e teste são consideráveis.

Triagem médica

A triagem envolve testes relativamente baratos que são administrados a grandes populações, nenhuma das quais manifesta qualquer indicação clínica de doença (por exemplo, esfregaço de Papanicolaou ).

Os testes envolvem procedimentos muito mais caros, geralmente invasivos, que são administrados apenas àqueles que manifestam alguma indicação clínica de doença e são mais frequentemente aplicados para confirmar um diagnóstico suspeito.

Por exemplo, a maioria dos estados dos EUA exige que os recém-nascidos sejam examinados para fenilcetonúria e hipotireoidismo , entre outras doenças congênitas .

Hipótese: “Os recém-nascidos têm fenilcetonúria e hipotireoidismo”

Hipótese nula (H 0 ): “Os recém-nascidos não têm fenilcetonúria e hipotireoidismo,”

Erro tipo I (falso positivo): O verdadeiro fato é que os recém-nascidos não têm fenilcetonúria e hipotireoidismo, mas consideramos que tenham os distúrbios de acordo com os dados.

Erro tipo II (falso negativo): O verdadeiro fato é que os recém-nascidos têm fenilcetonúria e hipotireoidismo, mas consideramos que eles não apresentam as doenças de acordo com os dados.

Embora exibam uma alta taxa de falsos positivos, os testes de triagem são considerados valiosos porque aumentam muito a probabilidade de detectar esses distúrbios em um estágio muito mais precoce.

Os exames de sangue simples usados ​​para examinar possíveis doadores de sangue para HIV e hepatite apresentam uma taxa significativa de falsos positivos; entretanto, os médicos usam testes muito mais caros e precisos para determinar se uma pessoa está realmente infectada com algum desses vírus.

Talvez os falsos positivos mais amplamente discutidos no rastreamento médico venham da mamografia do procedimento de rastreamento do câncer de mama . A taxa de mamografias falso-positivas nos EUA é de até 15%, a mais alta do mundo. Uma consequência da alta taxa de falsos positivos nos Estados Unidos é que, em qualquer período de 10 anos, metade das mulheres americanas examinadas recebe uma mamografia de falsos positivos. Mamografias falso-positivas são caras, com mais de US $ 100 milhões gastos anualmente nos Estados Unidos em testes de acompanhamento e tratamento. Eles também causam ansiedade desnecessária às mulheres. Como resultado da alta taxa de falsos positivos nos EUA, cerca de 90–95% das mulheres que obtêm uma mamografia positiva não apresentam a doença. A menor taxa do mundo está na Holanda, 1%. As taxas mais baixas são geralmente no norte da Europa, onde os filmes de mamografia são lidos duas vezes e um limite alto para testes adicionais é definido (o limite alto diminui a potência do teste).

O teste de rastreamento populacional ideal seria barato, fácil de administrar e produzir zero falso-negativo, se possível. Esses testes geralmente produzem mais falsos positivos, que podem ser posteriormente classificados por testes mais sofisticados (e caros).

Teste médico

Falsos negativos e falsos positivos são questões significativas em testes médicos .

Hipótese: “Os pacientes têm a doença específica.”

Hipótese nula (H 0 ): “Os pacientes não têm a doença específica.”

Erro tipo I (falso positivo): “O verdadeiro fato é que os pacientes não têm uma doença específica, mas os médicos julgam que os pacientes estavam doentes de acordo com os relatórios dos testes.”

Os falsos positivos também podem produzir problemas sérios e contra-intuitivos quando a condição que está sendo pesquisada é rara, como na triagem. Se um teste tem uma taxa de falsos positivos de um em dez mil, mas apenas uma em um milhão de amostras (ou pessoas) é um verdadeiro positivo, a maioria dos positivos detectados por esse teste será falsa. A probabilidade de que um resultado positivo observado seja um falso positivo pode ser calculada usando o teorema de Bayes .

Erro do tipo II (falso negativo): “O verdadeiro fato é que a doença está realmente presente, mas os relatórios dos testes fornecem uma mensagem falsamente tranquilizadora aos pacientes e médicos de que a doença está ausente”.

Os falsos negativos produzem problemas sérios e contra-intuitivos, especialmente quando a condição que está sendo pesquisada é comum. Se um teste com uma taxa de falsos negativos de apenas 10% for usado para testar uma população com uma taxa de ocorrência verdadeira de 70%, muitos dos negativos detectados pelo teste serão falsos.

Isso às vezes leva a um tratamento inapropriado ou inadequado tanto para o paciente quanto para sua doença. Um exemplo comum é confiar em testes de estresse cardíaco para detectar aterosclerose coronariana, embora os testes de estresse cardíaco sejam conhecidos por detectar apenas limitações do fluxo sanguíneo da artéria coronária devido à estenose avançada .

Biometria

A correspondência biométrica, como para reconhecimento de impressão digital , reconhecimento facial ou reconhecimento de íris , é suscetível a erros do tipo I e do tipo II.

Hipótese: “A entrada não identifica alguém na lista de pessoas pesquisada”

Hipótese nula: “A entrada identifica alguém na lista de pessoas pesquisada”

Erro tipo I (taxa de rejeição falsa): “O verdadeiro fato é que a pessoa é alguém na lista pesquisada, mas o sistema conclui que a pessoa não está de acordo com os dados.”

Erro de tipo II (taxa de correspondência falsa): “O verdadeiro fato é que a pessoa não é alguém na lista pesquisada, mas o sistema conclui que a pessoa é alguém que estamos procurando de acordo com os dados.”

A probabilidade de erros do tipo I é chamada de "taxa de falsa rejeição" (FRR) ou taxa de falsa não correspondência (FNMR), enquanto a probabilidade de erros do tipo II é chamada de "taxa de falsa aceitação" (FAR) ou taxa de falsa correspondência ( FMR).

Se o sistema for projetado para raramente corresponder a suspeitos, a probabilidade de erros do tipo II pode ser chamada de " taxa de falso alarme ". Por outro lado, se o sistema é usado para validação (e aceitação é a norma), então o FAR é uma medida de segurança do sistema, enquanto o FRR mede o nível de inconveniência do usuário.

Rastreio de segurança

Artigos principais: detecção de explosivos e detector de metais

Falsos positivos são encontrados rotineiramente todos os dias nas triagens de segurança dos aeroportos , que são, em última análise, sistemas de inspeção visual . Os alarmes de segurança instalados têm como objetivo evitar que armas sejam trazidas para as aeronaves; no entanto, eles costumam ser ajustados para uma sensibilidade tão alta que disparam alarmes muitas vezes ao dia para itens menores, como chaves, fivelas de cintos, moedas, telefones celulares e tachas nos sapatos.

Aqui, a hipótese é: “O item é uma arma”.

A hipótese nula: “O item não é uma arma.”

Erro tipo I (falso positivo): “O fato verdadeiro é que o item não é uma arma, mas o sistema ainda dá alarme.”

Erro tipo II (falso negativo) “O fato verdadeiro é que o item é uma arma, mas o sistema se mantém em silêncio neste momento.”

A proporção de falsos positivos (identificando um viajante inocente como terrorista) e verdadeiros positivos (detectando um suposto terrorista) é, portanto, muito alta; e como quase todos os alarmes são falsos positivos, o valor preditivo positivo desses testes de triagem é muito baixo.

O custo relativo de resultados falsos determina a probabilidade de os criadores do teste permitirem que esses eventos ocorram. Como o custo de um falso negativo neste cenário é extremamente alto (não detectar uma bomba sendo trazida para um avião pode resultar em centenas de mortes), enquanto o custo de um falso positivo é relativamente baixo (uma inspeção adicional razoavelmente simples), o mais apropriado teste é aquele com uma especificidade estatística baixa, mas alta sensibilidade estatística (que permite uma alta taxa de falsos positivos em troca de falsos negativos mínimos).

Computadores

As noções de falsos positivos e falsos negativos têm ampla aceitação no reino dos computadores e aplicativos de computador, incluindo segurança de computador , filtragem de spam , malware , reconhecimento óptico de caracteres e muitos outros.

Por exemplo, no caso da filtragem de spam, a hipótese aqui é que a mensagem é um spam.

Assim, hipótese nula: “A mensagem não é spam.”

Erro tipo I (falso positivo): “As técnicas de filtragem de spam ou bloqueio de spam classificam incorretamente uma mensagem de e-mail legítima como spam e, como resultado, interfere na sua entrega”.

Embora a maioria das táticas anti-spam possa bloquear ou filtrar uma alta porcentagem de e-mails indesejados, fazer isso sem criar resultados falsos positivos significativos é uma tarefa muito mais exigente.

Erro de tipo II (falso negativo): “O e-mail de spam não foi detectado como spam, mas foi classificado como não spam.” Um baixo número de falsos negativos é um indicador da eficiência da filtragem de spam.

Veja também

Referências

Bibliografia

  • Betz, MA & Gabriel, KR , "Type IV Errors and Analysis of Simple Effects", Journal of Educational Statistics , Vol.3, No.2, (Summer 1978), pp. 121-144.
  • David, FN, "A Power Function for Tests of Randomness in a Sequence of Alternatives", Biometrika , Vol.34, Nos.3 / 4, (December 1947), pp. 335-339.
  • Fisher, RA, The Design of Experiments , Oliver & Boyd (Edimburgo), 1935.
  • Gambrill, W., "False Positives on Newborns 'Disease Tests Worry Parents", Health Day , (5 de junho de 2006). [1]
  • Kaiser, HF, "Directional Statistical Decisions", Psychological Review , Vol.67, No.3, (May 1960), pp. 160-167.
  • Kimball, AW, "Erros do terceiro tipo em consultoria estatística", Journal of the American Statistical Association , Vol.52, No.278, (junho de 1957), pp. 133-142.
  • Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological Measurement , Vol.21, No.4, (Winter 1961), pp. 807-817.
  • Marascuilo, LA & Levin, JR, "Comparações Post Hoc Apropriadas para Interação e Hipóteses aninhadas em Análise de Projetos de Variância: A Eliminação de Erros Tipo-IV", American Educational Research Journal , Vol.7., No.3, (maio de 1970 ), pp. 397–421.
  • Mitroff, II & Featheringham, TR, "On Systemic Problem Solving and the Error of the Third Kind", Behavioral Science , Vol.19, No.6, (novembro de 1974), pp. 383-393.
  • Mosteller, F., "A k -Sample Slippage Test for an Extreme Population", The Annals of Mathematical Statistics , Vol.19, No.1, (março de 1948), pp. 58-65.
  • Moulton, RT, "Network Security", Datamation , Vol.29, No.7, (julho de 1983), pp. 121-127.
  • Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty , Addison – Wesley, (Reading), 1968.

links externos

  • Preconceito e confusão  - apresentação de Nigel Paneth, Escola de Graduação em Saúde Pública da Universidade de Pittsburgh