Análise de variação - Analysis of variance


Da Wikipédia, a enciclopédia livre

Análise de variância ( ANOVA ) é uma colecção de modelos estatísticos e os seus processos de estimativa associados (tais como a "variação" entre e entre grupos) utilizado para analisar as diferenças entre as médias de grupos, em uma amostra . ANOVA foi desenvolvido pelo estatístico e biólogo evolucionário Ronald Fisher . Na configuração ANOVA, a observada variação em uma variável particular está dividida em componentes atribuíveis a diferentes fontes de variação. Na sua forma mais simples, ANOVA fornece um teste estatístico de se a população significa de vários grupos são iguais, e, por conseguinte, generaliza a t-test para mais do que dois grupos. ANOVA é útil para a comparação (teste), três ou mais grupo meios para significância estatística . É conceptualmente similar a várias-t de duas amostras testes , mas é mais conservadora, resultando em menos de tipo I erros , e é, portanto, adequado para uma ampla gama de problemas práticos.

História

Enquanto a análise de variância alcançado fruição no século 20, antecedentes estender séculos no passado de acordo com Stigler. Estes incluem testes de hipóteses, a partio de somas dos quadrados, técnicas experimentais e o modelo de aditivo. Laplace foi realização de testes de hipóteses na década de 1770. O desenvolvimento de métodos de mínimos quadrados de Laplace e Gauss cerca de 1800 fornecido um método melhorado de combinação de observações (sobre as práticas actuais, em seguida, utilizados em astronomia e geodésia). Ele também iniciou muito estudo das contribuições para somas de quadrados. Laplace sabia como para estimar a variância de uma soma de quadrados residual (um total, em vez de). Em 1827, foi Laplace usando mínimos quadrados métodos para lidar com os problemas referentes às medições ANOVA de marés atmosféricas. Antes de 1800, os astrônomos tinham isolado erros de observação resultantes de tempos de reação (a " equação pessoal ") e tinha desenvolvido métodos de reduzir os erros. Os métodos experimentais usados no estudo da equação pessoal foram posteriormente aceite pelo campo emergente da psicologia que se desenvolveu forte (fatorial completo) métodos experimentais para que a randomização e mascaramento foram adicionados em breve. Uma explicação não-matemática eloquente do modelo de efeitos aditivos estava disponível em 1885.

Ronald Fisher introduziu o termo variância e propôs a sua análise formal em um artigo 1918 A correlação entre parentes na suposição de mendeliana Herança . Sua primeira aplicação da análise de variância foi publicado em 1921. A análise de variância se tornou amplamente conhecido após ser incluído em 1925 o livro de Fisher métodos estatísticos para investigadores .

Modelos de randomização foram desenvolvidos por diversos pesquisadores. O primeiro foi publicado em polonês por Jerzy Neyman em 1923.

Um dos atributos de ANOVA que garantiram sua popularidade inicial foi elegância computacional. A estrutura do modelo de aditivo permite solução para os coeficientes de aditivo por simples álgebra em vez de por cálculos de matrizes. Na era das calculadoras mecânicas esta simplicidade era crítica. A determinação de significância estatística também exigiu acesso às tabelas da função F que foram fornecidos pelos textos de estatísticas iniciais.

exemplo motivador

Sem ajuste.
ajuste Fair
Muito bom ajuste

A análise de variância pode ser usado como uma ferramenta exploratória para explicar observações. A exposição de cães fornece um exemplo. A exposição de cães não é uma amostragem aleatória da raça: é normalmente limitada a cães que são adultos, de raça pura, e exemplar. Um histograma dos pesos de cão a partir de uma apresentação pode plausivelmente ser bastante complexo, como a distribuição de amarelo-laranja mostrado nas ilustrações. Suponha que queríamos para prever o peso de um cão com base em um determinado conjunto de características de cada cão. Uma maneira de fazer isso é para explicar a distribuição de pesos, dividindo a população de cães em grupos com base nessas características. Um agrupamento de sucesso vai dividir cães de tal modo que (a) cada grupo tem uma baixa variação de pesos do cão (significando que o grupo é relativamente homogénea) e (b) a média de cada grupo é distinta (se dois grupos têm a mesma média, então não é razoável concluir que os grupos são, de fato, separar de forma significativa).

Nas ilustrações para a direita, os grupos são identificados como X 1 , X 2 , etc. Na primeira ilustração, os cães são divididos de acordo com o produto (interação) de dois agrupamentos binários: jovens contra velho e de cabelos curtos vs longa -haired (por exemplo, grupo 1 é jovem, cães de pêlo curto, o grupo 2 é jovem, cães de cabelos compridos, etc.). Uma vez que as distribuições de peso do cão em cada um dos grupos (mostrado em azul) tem uma relativamente grande variância, e uma vez que os meios são muito semelhantes em todos os grupos, o agrupamento cães por estas características não produz uma forma eficaz para explicar a variação de pesos cão : saber qual grupo um cão está em não nos permite prever o seu peso muito melhor do que simplesmente saber o cão está em uma exposição de cães. Assim, este agrupamento não consegue explicar a variação na distribuição global (amarelo-laranja).

Uma tentativa de explicar a distribuição de peso, agrupando cães como animais de estimação vs raça de trabalho e menos atlético vs mais atlético provavelmente seria um pouco mais bem sucedido (ajuste justo). Os cães da mostra mais pesadas tendem a ser grandes fortes raças de trabalho, enquanto raças mantidos como animais de estimação tendem a ser menores e, portanto, mais leve. Como mostrado pela segunda ilustração, as distribuições têm variações que são consideravelmente menores do que no primeiro caso, e os meios são mais distinguíveis. No entanto, a sobreposição das distribuições significativa, por exemplo, significa que não pode distinguir X 1 e X 2 com fiabilidade. Agrupamento cães de acordo com um coin flip pode produzir distribuições que parecem semelhantes.

Uma tentativa de explicar peso por raça é susceptível de produzir um ajuste muito bom. Todos os Chihuahuas são leves e todas as St Bernards são pesados. A diferença de pesos entre setters e ponteiros não justifica raças separadas. A análise de variância fornece as ferramentas formais para justificar esses julgamentos intuitivos. Uma utilização comum do método é a análise de dados experimentais ou o desenvolvimento de modelos. O método tem algumas vantagens sobre correlação: nem todos os dados devem ser numérico e um resultado do método é um juízo na confiança em uma relação de motivos.

Antecedentes e terminologia

ANOVA é uma forma de testes de hipóteses muito utilizada na análise de dados experimentais. Um resultado de teste (calculado a partir da hipótese nula e a amostra) é chamado estatisticamente significativa se for considerado improvável que tenha ocorrido por acaso, assumindo a verdade da hipótese nula . Um resultado estatisticamente significativa, quando uma probabilidade ( valor de p ) é menos do que um (nível de significância) limiar pré-especificado, justifica a rejeição da hipótese nula , mas apenas se a probabilidade a priori da hipótese nula de não é alta.

Na aplicação típica de ANOVA, a hipótese nula é de que todos os grupos são amostras aleatórias a partir da mesma população. Por exemplo, quando se estuda o efeito de diferentes tratamentos sobre amostras semelhantes de doentes, a hipótese nula seria a de que todos os tratamentos têm o mesmo efeito (talvez nenhuma). Rejeição da hipótese nula é tomado para significar que as diferenças nos efeitos observados entre os grupos de tratamento não são susceptíveis de ser devidas ao acaso.

Por construção, testes de hipóteses limita a taxa de erros de I Tipo (falsos positivos) a um nível de significância. Experimentadores também desejam limitar os erros de Tipo II (falsos negativos). A taxa de erros do tipo II depende em grande parte do tamanho da amostra (a taxa é maior para as amostras mais pequenas), o nível de significância (quando o nível de prova é alta, as chances de vista para uma descoberta também são elevadas) e tamanho do efeito (um tamanho efeito menor é mais propenso a erro tipo II).

A terminologia de ANOVA é em grande parte a partir da estatística de criação de experiências . O experimentador ajusta fatores e respostas medidas em uma tentativa de determinar um efeito. Factores são atribuídos às unidades experimentais por uma combinação de randomização e de bloqueio para garantir a validade dos resultados. Blinding mantém a imparcialidade pesagem. Respostas mostrar uma variabilidade que é parcialmente o resultado do efeito e é parcialmente erro aleatório.

ANOVA é a síntese de várias ideias e é usado para várias finalidades. Como consequência, é difícil definir de forma concisa ou precisamente.

"Clássico" ANOVA para dados equilibrada faz três coisas ao mesmo tempo:

  1. Como análise exploratória de dados , uma ANOVA emprega uma decomposição dados aditivo, e suas somas dos quadrados indicam a variação de cada componente da decomposição (ou, de forma equivalente, cada conjunto de termos de um modelo linear).
  2. As comparações dos quadrados médios, juntamente com um F -test  ... permitir o teste de uma sequência aninhada de modelos.
  3. Intimamente relacionado com o ANOVA é um ajuste do modelo linear com estimativas dos coeficientes e erros padrão.

Em suma, ANOVA é uma ferramenta estatística usada de várias maneiras para desenvolver e confirmar uma explicação para os dados observados.

Além disso:

  1. É computacionalmente elegante e relativamente robusta contra as violações dos seus pressupostos.
  2. ANOVA fornece análise forte (comparação múltipla amostra) estatística.
  3. Foi adaptado para a análise de uma variedade de modelos experimentais.

Como resultado: ANOVA "tem desfrutado o status de ser o mais utilizado técnica (alguns diriam abusado) estatística na pesquisa psicológica." ANOVA "é provavelmente o mais útil técnica no campo da inferência estatística."

ANOVA é difícil de ensinar, especialmente para experimentos complexos, com parcelas subdivididas projetos sendo notório. Em alguns casos, a correcta aplicação do método é melhor determinado pelo reconhecimento de padrões problema seguido pela consulta de um teste de autoridade clássico.

termos Design-de-experimentos

(Condensado do "NIST Engenharia Statistics Manual":. Seção 5.7 Um Glossário de DOE Terminologia).

design equilibrado
Um design experimental em que todas as células (isto é, tratamento de combinações) têm o mesmo número de observações.
Bloqueio
Uma programação para a realização de combinações de tratamentos em estudo experimental de tal modo que quaisquer efeitos nos resultados experimentais, devido a uma alteração conhecida na matéria-prima, operadores, máquinas, etc, tornam-se concentrado nos níveis da variável de bloqueio. A razão para o bloqueio é isolar um efeito sistemático e impedi-lo de obscurecer os principais efeitos. O bloqueio é alcançado através da restrição da randomização.
desenhar
Um conjunto de ensaios experimentais que permite o ajuste de um modelo particular e da estimativa de efeitos.
CORÇA
Projeto de experimentos. Uma abordagem para a resolução de problemas envolvendo coleta de dados que irá apoiar a conclusões válidas, defensáveis, e suportáveis.
Efeito
Como alterar as configurações de um fator altera a resposta. O efeito de um único fator também é chamado de efeito principal.
Erro
variação inexplicada em um conjunto de observações. DOE de normalmente exigem compreensão tanto erro aleatório e falta de erro de ajuste.
unidade experimental
A entidade à qual é aplicada uma combinação de tratamento específico.
fatores
entradas do processo que um investigador manipula para causar uma mudança na saída.
Falta-of-fit de erro
Erro que ocorre quando a análise omite uma ou mais importantes termos ou factores do modelo do processo. Incluindo a replicação em uma EOD permite a separação de erro experimental nos seus componentes: falta de ajuste e erro aleatório (puro).
Modelo
relação matemática que relaciona alterações em uma dada resposta a alterações em um ou mais factores.
Erro aleatório
Erro que ocorre devido à variação natural no processo. O erro aleatório é assumida normalmente a ser distribuído normalmente com média igual a zero e uma variância constante. O erro aleatório é também chamado de erro experimental.
Randomization
Uma programação de atribuição de material de tratamento e para a realização de combinações de tratamento em uma EOD de tal modo que as condições em um prazo nem dependem das condições de execução anterior nem prever as condições nas execuções subsequentes.
Replicação
Realizando a mesma combinação de tratamento mais do que uma vez. Incluindo replicação permite uma estimativa do erro aleatório independente de qualquer falta de erro ajuste.
respostas
A saída (s) de um processo. Às vezes chamada variável dependente (s).
Tratamento
Um tratamento é uma combinação específica de níveis de factor cujo efeito é para ser comparado com outros tratamentos.

tabela ANOVA

One-way ANOVA
Fontes df SS MSS F -ratio
entre o tratamento k-1 SST MST (TSM / (k-1)) MST / MSE
Erro N-k SSE MSE (SSE / (N-k))
Total N-1
  • SSE - Sum-of-Praça devido a erro
  • SST - Sum of-Praça de Tratamento
  • MST - Média Soma de esquadro tratamento
  • MSE - Média Sum-of-quadrado de erro
  • DF - Graus de Liberdade
ANOVA two-way
Fonte df SS MSS F -ratio
entre o tratamento k-1 SSR MST (SSR / (k-1)) MST / MSE ( F -ratio fileira)
entre o bloco h-1 SSC MSV (SSC / (h-1)) MSV / MSE ( F -ratio coluna)
Erro (H-1) (k-1) SSE MSE (SSE / ((h-1) (k-1)))
Total N-1
  • SSR - Sum of-Praça do tratamento em linhas (SST)
  • SSC - Sum of-Praça entre Column
  • MSV - Média Soma de Variância

Classes de modelos

Há três classes de modelos utilizados na análise de variância, e estes são descritos aqui.

modelos de efeitos fixos

O modelo de efeitos fixos (classe I) de análise de variância aplica-se às situações em que o experimentador se aplica um ou mais tratamentos para os sujeitos da experiência para ver se as variável de resposta valores mudar. Isto permite que o experimentador para estimar as gamas de valores da variável de resposta que o tratamento se geram na população como um todo.

modelos de efeitos aleatórios

Modelo de efeitos aleatórios (classe II) é utilizado quando os tratamentos não são fixas. Isto ocorre quando os vários níveis do factor são amostrados a partir de uma população maior. Uma vez que os próprios níveis são variáveis aleatórias , alguns pressupostos e o método de contrastar os tratamentos uma generalização (multi-variável de diferenças simples) diferem do modelo de efeitos fixos.

modelos de efeitos mistos

Um modelo de efeitos mistos (classe III) contém factores experimentais de ambos os tipos fixos e de efeitos aleatórios, com apropriadamente diferentes interpretações e análise para os dois tipos.

Exemplo: experiências de ensino poderia ser realizada por um departamento de faculdade ou universidade para encontrar um bom livro introdutório, com cada texto considerado um tratamento. O modelo de efeitos fixos seria comparar uma lista de textos candidatos. O modelo de efeitos aleatórios iria determinar se existem diferenças importantes entre uma lista de textos selecionados aleatoriamente. O modelo de efeitos mistos iria comparar os textos titulares (fixo) para as alternativas seleccionadas aleatoriamente.

Definindo fixo e efeitos aleatórios provou indescritível, com definições concorrentes, sem dúvida, que conduz para um atoleiro linguística.

Suposições

A análise da variância foi estudado a partir de várias abordagens, a mais comum das quais utiliza um modelo linear que relaciona a resposta aos tratamentos e blocos. Note-se que o modelo é linear nos parâmetros, mas pode ser não-linear entre os níveis de fator. Interpretação é fácil quando os dados é equilibrado entre fatores, mas compreensão muito mais profunda é necessária para dados desbalanceados.

análise Textbook usando uma distribuição normal

A análise de variância pode ser apresentado em termos de um modelo linear , o que faz as seguintes suposições sobre a distribuição de probabilidade das respostas:

  • Independência de observações - esta é uma suposição do modelo que simplifica a análise estatística.
  • Normalidade - as distribuições dos resíduos são normais .
  • Igualdade (ou "homogeneidade") de variâncias, chamado homoscedasticidade - a variância dos dados em grupos devem ser o mesmo.

Os pressupostos separadas do modelo livro implica que os erros são de forma independente, de maneira idêntica, e, normalmente, distribuídos por modelos de efeitos fixos, ou seja, que os erros ( ) são independentes e

análise baseada em randomização

Em uma experiência controlada randomizado , os tratamentos são atribuídos aleatoriamente a unidades experimentais, seguindo o protocolo experimental. Este randomização é objetiva e declarou antes do experimento é realizado. O random-atribuição objetivo é usado para testar a significância da hipótese nula, seguindo as ideias de CS Peirce e Ronald Fisher . Esta análise baseada em projeto foi discutido e desenvolvido por Francis J. Anscombe na Estação Experimental Rothamsted e por Oscar Kempthorne em Iowa State University . Kempthorne e seus alunos fazer uma suposição de aditividade tratamento unidade , que é discutido nos livros de Kempthorne e David R. Cox .

aditividade unidade de tratamento

Na sua forma mais simples, o pressuposto de aditividade-tratamento unidade indica que a resposta observada de unidade experimental , quando a receber tratamento pode ser escrita como a soma da resposta da unidade e o efeito de tratamento , que é

A hipótese de aditividade-tratos unidade implica que, para cada tratamento , o tratamento th tem exatamente o mesmo efeito em cada unidade experimental.

A suposição de aditividade tratamento unidade geralmente não pode ser directamente falsificadas , de acordo com a Cox e Kempthorne. No entanto, muitas conseqüências de tratamento unidade aditividade pode ser falsificada. Para um experimento randomizado, a suposição de aditividade-unitária de tratamento implica que a variância é constante para todos os tratamentos. Portanto, por contraposição , uma condição necessária para aditividade-tratamento unidade é que a variância é constante.

O uso de aditividade tratamento unidade de randomização e é semelhante à inferência à base de desenho que é padrão no finito-população de amostragem levantamento .

modelo linear derivado

Kempthorne utiliza a randomização-distribuição e a assunção de aditividade unitária de tratamento para produzir um modelo linear derivado , muito semelhante ao modelo de livro discutido anteriormente. As estatísticas de teste do presente modelo linear derivada estão estreitamente aproximada por as estatísticas do teste de um modelo normal linear apropriado, de acordo com os teoremas de aproximação e estudos de simulação. No entanto, existem diferenças. Por exemplo, os resultados da análise à base de randomização em uma pequena correlação negativa mas (estritamente) entre as observações. Na análise à base de randomização, não há nenhuma suposição de um normal de distribuição e, certamente, nenhuma suposição de independência . Pelo contrário, as observações são dependentes !

A análise à base de randomização tem a desvantagem de que sua exposição envolve álgebra tedioso e tempo extenso. Desde a análise à base de randomização é complicado e está intimamente aproximada pela abordagem usando um modelo linear normal, a maioria dos professores enfatizam a abordagem do modelo linear normal. Poucos estatísticos opor-se a análise baseada em modelos de experimentos aleatórios equilibradas.

Os modelos estatísticos para os dados de observação

No entanto, quando aplicados a dados de experiências não aleatorizados ou estudos de observação , a análise baseada em modelo carece do mandado de randomização. Para os dados observacionais, a derivação de intervalos de confiança deve usar subjetivas modelos, como enfatizado por Ronald Fisher e seus seguidores. Na prática, as estimativas de tratamento efeitos de estudos observacionais geralmente são muitas vezes inconsistentes. Na prática, "modelos estatísticos" e dados observacionais são úteis para sugerir hipóteses que devem ser tratados com muita cautela por parte do público.

Resumo das premissas

A-modelo normal baseado análise ANOVA assume a independência, a normalidade e homogeneidade das variâncias dos resíduos. A análise à base de randomização assume apenas a homogeneidade das variâncias dos resíduos (como uma consequência do tratamento aditividade-unidade) e utiliza o procedimento de aleatorização do experimento. Ambas as análises requerem homoscedasticidade , como uma hipótese para a análise do modelo normal e como uma consequência da randomização e aditividade para a análise à base de randomização.

No entanto, estudos de processos que alteram variâncias em vez de meios (chamados efeitos de dispersão) foram realizados com sucesso utilizando ANOVA. Existem pressupostos necessários para ANOVA em toda sua generalidade, mas a F -teste usado para testes de hipóteses ANOVA tem premissas e limitações práticas que são de interesse de continuar.

Problemas que não preencham os pressupostos da ANOVA muitas vezes pode ser transformada para satisfazer os pressupostos. A propriedade de aditividade-tratos unidade não é invariante sob uma "mudança de escala", então os estatísticos costumam usar transformações para alcançar aditividade-tratos unidade. Se a variável de resposta é esperado que siga uma família paramétrico de distribuições de probabilidade, então o estatístico pode especificar (no protocolo para a experiência ou estudo de observação) que as respostas ser transformado para estabilizar a variância. Além disso, um estatístico pode especificar que transformações logarítmicas ser aplicado para as respostas, que são acreditados para seguir um modelo multiplicativo. De acordo com a Cauchy equação funcional teorema, o logaritmo é a única transformação contínua que transforma multiplicação real para adição.

Características

ANOVA é utilizado na análise de experiências comparativas, aqueles em que só a diferença nos resultados é de interesse. A significância estatística da experiência é determinada por uma relação de dois desvios. Esta relação é independente de possíveis várias alterações às observações experimentais: A adição de uma constante para todas as observações não altera significado. Multiplicando todas as observações por uma constante não altera significado. Assim ANOVA resultado significância estatística é independente da polarização e erros de escalonamento constante, bem como as unidades utilizadas na expressão de observações. Na era de cálculo mecânica era comum para subtrair uma constante de todas as observações (quando equivalente a cair dígitos principais) para simplificar a entrada de dados. Este é um exemplo de dados de codificação .

Lógica

Os cálculos de ANOVA pode ser caracterizado como calcular um número de médias e variâncias, a divisão de dois desvios e comparando o rácio com um valor manual para determinar a significância estatística. O cálculo de um efeito do tratamento é então trivial "o efeito de qualquer tratamento é estimada pela diferença entre a média das observações que recebem o tratamento e a média geral".

Particionamento da soma dos quadrados

ANOVA utiliza uma terminologia padronizada tradicional. A equação de definição de variância da amostra é , em que o divisor é chamado os graus de liberdade (DF), o somatório é chamada a soma dos quadrados (SS), o resultado é chamado a raiz quadrada da média (MS) e os termos ao quadrado são desvios a média da amostra. ANOVA estima 3 desvios da amostra: uma variância total com base em todos os desvios de observação a partir do grande média, uma variância de erro com base em todos os desvios de observação de seus meios de tratamento adequados, e uma variância tratamento. A variância de tratamento baseia-se os desvios de tratamento significa que a partir da média geral, o resultado a ser multiplicado pelo número de observações em cada tratamento para ter em conta a diferença entre a variação de observações e a variância de meios.

A técnica fundamental é uma divisão do total soma dos quadrados SS em componentes relacionados com os efeitos utilizados no modelo. Por exemplo, o modelo para uma análise de variância simplificados com um tipo de tratamento em diferentes níveis.

O número de graus de liberdade DF pode ser dividida de um modo semelhante: um destes componentes (que, por erro) especifica uma distribuição do Qui-quadrado , que descreve a soma associado de quadrados, enquanto o mesmo é verdadeiro para os "tratamentos" se houver nenhum efeito do tratamento.

Veja também Falta-of-fit soma dos quadrados .

O F -test

O F -test é usada para comparar os factores de desvio total. Por exemplo, em sentido único, ou do factor único ANOVA, significância estatística é testado para comparando a estatística de teste F

em que MS é o quadrado da média, = número de tratamentos e = número total de casos

à F -Distribuição com , graus de liberdade. Usando o F -distribuição é um candidato natural porque a estatística de teste é a relação entre duas somas dimensionados de quadrados cada um dos quais se segue uma imagem em escala de distribuição do Qui-quadrado .

O valor esperado de F é (em que n é o tamanho da amostra de tratamento), que é um efeito sem qualquer tratamento. Como valores de aumento F acima de 1, a evidência cada vez mais é inconsistente com a hipótese nula. Dois métodos experimentais aparentes de aumento F estão a aumentar o tamanho da amostra e reduzindo a variância do erro por controlos experimentais apertados.

Existem dois métodos de concluir o teste de hipótese ANOVA, os quais produzem o mesmo resultado:

  • O método de livro de texto é para comparar o valor observado de F com o valor critico de F determinado a partir de tabelas. O valor critico de F é uma função dos graus de liberdade do o nível de significância (α) numerador e o denominador e. Se F ≥ F Critical , a hipótese nula é rejeitada.
  • O método de computador calcula a probabilidade (valor de p) de um valor de F maior do que ou igual ao valor observado. A hipótese nula é rejeitada se esta probabilidade é igual ou inferior ao nível de significância (α).

A ANOVA F -test é conhecida por ser quase óptima, no sentido de minimizar o erro negativos falsos para uma taxa fixa de falsos erros positivos (ou seja, poder maximizar para um nível de significância fixo). Por exemplo, para testar a hipótese de que vários tratamentos médicos têm exactamente o mesmo efeito, o F -test 's p -Valores aproximam os teste de permutação de valores p : A aproximação é particularmente estreita, quando o desenho é equilibrado. Tais testes de permutação caracterizar testes com potência máxima contra todas as hipóteses alternativas , conforme observado por Rosenbaum. A ANOVA F -test (do nulo-hipótese de que todos os tratamentos têm exactamente o mesmo efeito) é recomendado como um teste prático, devido à sua robustez contra várias distribuições alternativos.

lógica estendida

ANOVA consiste de partes separáveis; fontes de particionamento de variância e teste de hipóteses pode ser usado individualmente. ANOVA é usado para apoiar outras ferramentas estatísticas. Regressão é primeiro utilizado para ajustar modelos mais complexos de dados, então ANOVA é usado para comparar os modelos com o objectivo de seleccionar modelos simples (r) que descrevem de forma adequada os dados. "Tais modelos poderiam ser em forma sem qualquer referência à análise de variância, mas ferramentas ANOVA poderia então ser utilizado para fazer algum sentido dos modelos ajustados, e para testar hipóteses sobre lotes de coeficientes." "[W] e pensar na análise de variância, como forma de compreensão e estruturação multinível modelos, não como uma alternativa à regressão, mas como uma ferramenta para resumir complexos inferências alto-dimensional ..."

Para um único fator

A experiência mais simples adequado para a análise de variância é o experimento completamente ao acaso, com um único factor. Experimentos mais complexos, com um único fator envolvem restrições sobre randomização e incluem blocos casualizados e quadrados latinos (e variantes: quadrados greco-latino, etc.). Os experimentos mais complexos compartilham muitas das complexidades de múltiplos fatores. Uma discussão relativamente completa da análise (modelos, resumos de dados, a tabela ANOVA) do experimento completamente aleatorizado é disponível .

Para múltiplos fatores

ANOVA generaliza para o estudo dos efeitos de vários factores. Quando o experimento inclui observações em todas as combinações de níveis de cada um dos factores, que é denominado factorial . Experiências factoriais é mais eficiente do que uma série de experiências de factores individuais e a eficiência aumenta à medida que o número de factores aumenta. Consequentemente, fatoriais são muito utilizadas.

O uso de ANOVA para estudar os efeitos de vários factores tem uma complicação. Num 3-way ANOVA com factores de x, y e z, o modelo ANOVA inclui termos para os efeitos principais (x, y, z) e os termos de interacções (XY, XZ, YZ, xyz). Todos os termos exigem testes de hipóteses. A proliferação de termos de interação aumenta o risco de que alguns teste de hipótese irá produzir um falso positivo por acaso. Felizmente, a experiência diz que as interações de alta ordem são raros. A capacidade para detectar interacções é uma grande vantagem do factor múltiplo ANOVA. Testando um fator de cada vez esconde interações, mas produz resultados experimentais aparentemente inconsistentes.

Aconselha-se cuidado quando se deparam com interacções; termos de interação teste primeiro e expandir a análise para além ANOVA se as interações são encontrados. Textos variam nas suas recomendações relativas a continuação do procedimento ANOVA depois de encontrar uma interacção. Interacções complicar a interpretação dos dados experimentais. Nem os cálculos de importância nem os efeitos do tratamento estimados podem ser tomadas pelo seu valor nominal. "A interação significativa, muitas vezes, mascarar a importância dos efeitos principais." métodos gráficos são recomendados para melhorar a compreensão. Regressão é frequentemente útil. A longa discussão sobre interações está disponível em Cox (1958). Alguns interacções pode ser removido (por transformações) enquanto outros não.

Uma variedade de técnicas são utilizadas com o factor múltiplo ANOVA para reduzir a despesa. Uma técnica utilizada em modelos factoriais é minimizar a replicação (possivelmente nenhuma replicação com suporte de artifícios analítico ) e combinar grupos de quando os efeitos encontram-se estatisticamente (ou praticamente) insignificante. Uma experiência com muitos factores insignificantes pode entrar em colapso em uma com alguns factores suportados por muitas repetições.

exemplos numéricos trabalhadas

Vários exemplos numéricos totalmente trabalharam estão disponíveis. Um caso simples usa one-way (um único fator) análise. Um caso mais complexo utiliza bidireccional análise (de dois factores).

análise associado

Alguns análise é necessário em apoio da concepção da experiência enquanto outras análises é realizada depois de mudanças nos factores encontram-se formalmente para produzir alterações estatisticamente significativas nas respostas. Uma vez que a experimentação é iterativa, os resultados de uma experiência para alterar os planos experiências seguintes.

análise preparatória

O número de unidades experimentais

Na concepção de uma experiência, o número de unidades experimentais está prevista para satisfazer os objectivos da experiência. A experimentação é muitas vezes seqüencial.

Os primeiros experimentos são frequentemente concebidos para fornecer estimativas de média-imparciais sobre os efeitos do tratamento e do erro experimental. experiências posteriores são frequentemente concebidos para testar a hipótese de que um efeito de tratamento tem uma magnitude importante; neste caso, o número de unidades experimentais é escolhido de modo que a experiência é dentro do orçamento e tem poder adequado, entre outros objetivos.

Reportando análise de tamanho de amostra é geralmente necessário em psicologia. "Fornecer informações sobre o tamanho da amostra e o processo que levou para provar decisões de tamanho." A análise, que é escrito no protocolo experimental, antes da experiência é conduzida, é examinada em aplicações de concessão e avaliação placas administrativos.

Para além da análise de potência, há menos métodos formais para seleccionar o número de unidades experimentais. Estes incluem métodos gráficos com base em limitar a probabilidade de erros de falsos negativos, métodos gráficos com base em um aumento variação esperada (acima dos resíduos) e métodos com base na obtenção de um intervalo de confiança desejado.

análise de poder

Análise de poder é muitas vezes aplicada no contexto de análise de variância para avaliar a probabilidade de rejeitar com sucesso a hipótese nula se assumirmos um determinado projeto ANOVA, dimensão do efeito no nível da população, tamanho da amostra e significado. Análise de poder pode ajudar no desenho do estudo, determinando o tamanho da amostra seria necessário para ter uma chance razoável de rejeitar a hipótese nula quando a hipótese alternativa é verdade.

efeito tamanho

Várias medidas padronizadas de efeito têm sido propostas para a ANOVA para resumir a força de associação entre um preditor (s) e a variável dependente ou a diferença normalizada global do modelo completo. estimativas efeito de tamanho padronizado facilitar a comparação dos resultados entre os estudos e disciplinas. No entanto, embora os tamanhos de efeito padronizados são comumente utilizados em grande parte da literatura profissional, uma medida não normalizada de tamanho do efeito que tem imediatamente unidades "significativas" pode ser preferível para fins de relatório.

análise de acompanhamento

É sempre apropriado considerar cuidadosamente os outliers. Eles têm um impacto desproporcional sobre conclusões estatísticas e são frequentemente o resultado de erros.

confirmação modelo

É prudente verificar se os pressupostos da ANOVA foram cumpridos. Os resíduos são analisados ou analisadas para confirmar homoscedasticidade e normalidade bruto. Resíduos deve ter a aparência de (zero distribuição média normal) ruído quando plotados em função de qualquer coisa, incluindo valores de dados modelados tempo e. Tendências dica em interacções entre factores ou entre observações. Uma regra de ouro: "Se o maior desvio padrão é menos de duas vezes o desvio padrão menor, podemos utilizar métodos baseados na suposição de desvios igual padrão e nossos resultados ainda será aproximadamente correta"

Follow-up testes

Um efeito estatisticamente significativa na ANOVA é muitas vezes acompanhados por um ou mais testes de acompanhamento diferentes. Isso pode ser feito, a fim de avaliar quais grupos são diferentes a partir do qual outros grupos ou para testar várias outras hipóteses focalizados. Os exames para acompanhamento são muitas vezes distinguido em termos de saber se elas são planejadas ( a priori ) ou post hoc . Testes planejados são determinados antes de olhar para os dados e testes post hoc são realizados depois de olhar para os dados.

Muitas vezes, um dos "tratamentos" é nenhum, de modo que o grupo de tratamento pode actuar como um controlo. Teste de Dunnett (uma modificação do teste-t) testa se cada um dos outros grupos de tratamento tem o mesmo significativo como o controlo.

Testes post hoc como o Teste de Tukey mais comumente comparar cada grupo dizer com todos os outros grupos média e normalmente incorporam algum método de controle de erros do tipo I. As comparações, as quais são mais comumente previstas, pode ser simples ou composto. Comparações simples comparar uma média de grupo com uma outra média do grupo. Comparações compostos tipicamente comparar dois conjuntos de grupos significa onde um conjunto tem dois ou mais grupos (por exemplo, comparar grupo significa média do grupo A, B e C com o grupo D). Comparações também pode olhar para os testes de tendência, como linear e quadrática relacionamentos, quando a variável independente envolve níveis de ordenados.

Seguindo ANOVA com testes de comparações múltiplas de pares tem sido criticado por várias razões. Existem muitos desses ensaios (10) em uma tabela e recomendações relativos a sua utilização está vago ou em conflito.

desenhos de estudo

Existem vários tipos de ANOVA. Muitos estatísticos basear ANOVA sobre a concepção da experiência , especialmente no protocolo que especifica a atribuição aleatória de tratamentos para os sujeitos; Descrição do protocolo do mecanismo de atribuição deverá incluir uma especificação da estrutura dos tratamentos e de qualquer bloqueio . Também é comum a aplicar ANOVA para dados de observação usando um modelo estatístico adequado.

Alguns projetos populares usar os seguintes tipos de ANOVA:

  • ANOVA de uma via é usada para testar as diferenças entre dois ou mais independentes grupos (meios), por exemplo, diferentes níveis de aplicação de ureia em uma cultura, ou os diferentes níveis de acção antibiótica sobre várias espécies bacterianas diferentes, ou diferentes níveis de efeito de algum medicamento em grupos de pacientes. No entanto, deve destes grupos não serem independentes, e existe uma ordem nos grupos (tais como a doença ligeira, moderada e grave), ou na dose de uma droga (tal como 5 mg / ml, 10 mg / ml, 20 mg / mL) administrado ao mesmo grupo de pacientes, em seguida, uma estimativa tendência linear deve ser usado. Tipicamente, no entanto, o ANOVA de uma via é usada para testar as diferenças entre pelo menos três grupos, uma vez que no caso de dois grupos pode ser coberto por um t-teste . Quando existem apenas dois meios para comparar, o teste t e o ANOVA F -test são equivalentes; a relação entre ANOVA e t é dado por M  =  t 2 .
  • Fatorial ANOVA é utilizado quando o experimentador deseja estudar os efeitos de interacção entre os tratamentos.
  • Medidas repetidas ANOVA é usado quando os mesmos sujeitos são usados para cada tratamento (por exemplo, em um estudo longitudinal ).
  • A análise multivariada de variância (MANOVA) é utilizado quando existe mais do que uma variável de resposta .

precauções

Experimentos equilibradas (aqueles com um tamanho de amostra igual para cada tratamento) são relativamente fáceis de interpretar; Experimentos desbalanceados oferecer mais complexidade. Para factor único (unidirecional) ANOVA, o ajuste para os dados desequilibrada é fácil, mas a análise desequilibrada carece tanto robustez e potência. Para projetos mais complexos a falta de equilíbrio leva a complicações posteriores. "A propriedade de ortogonalidade de efeitos principais e interações presentes em dados balanceados não transitar para o caso desequilibrado. Isto significa que a habitual análise de técnicas de variância não se aplicam. Consequentemente, a análise dos fatoriais desequilibradas é muito mais difícil do que para equilibrada projetos ". No caso geral, "A análise de variância pode também ser aplicada aos dados desequilibrada, mas então as somas dos quadrados, quadrados médios, e F -ratios dependerá da ordem em que as fontes de variação são consideradas." As técnicas mais simples para a manipulação de restaurar dados desbalanceados equilíbrio por qualquer jogando fora de dados ou sintetizando dados em falta. Técnicas mais complexas usar regressão.

ANOVA é (em parte) um teste de significância. A American Psychological Association considera que simplesmente relatando significado é insuficiente e que relatórios limites de confiança é o preferido.

Enquanto ANOVA é conservadora (na manutenção de um nível de significância) contra comparações múltiplas em uma dimensão, que não é conservadora em contra comparações múltiplas dimensões.

generalizações

ANOVA é considerado um caso especial de regressão linear que por sua vez é um caso especial do modelo linear geral . Tudo considerar as observações como sendo a soma de um modelo (ajuste) e um residual (erro) a ser minimizada.

O teste de Kruskal-Wallis e o teste de Friedman são não-paramétricos testes, que não se baseiam na suposição de normalidade.

Conexão à regressão linear

A seguir, tornar clara a conexão entre multi-way ANOVA e regressão linear. Linearmente reordenar os dados de modo que a observação está associada com uma resposta e factores que indica os diferentes factores e é o número total de factores. Em ANOVA de uma via e em ANOVA de duas vias . Além disso, assumimos o fator tem níveis, a saber . Agora, podemos one-quente codificar os fatores para o vetor dimensional .

A função de um-quente codificação é definida de tal modo que a entrada de é

O vector é a concatenação de todos os vectores acima de tudo . Assim, . A fim de obter uma totalmente geral ANOVA interação de direcções devemos também concatenar cada termo de interação adicional no vector e, em seguida, adicionar um termo de intercepto. Deixe que vector ser .

Com esta notação no lugar, agora temos a conexão exata com a regressão linear. Nós simplesmente regredir resposta contra o vector . No entanto, existe uma preocupação sobre identificabilidade. Para superar esses problemas, assumimos que a soma dos parâmetros dentro de cada conjunto de interações é igual a zero. A partir daqui, pode-se usar F -Estatísticas ou outros métodos para determinar a relevância dos fatores individuais.

Exemplo

Podemos considerar o exemplo de interação 2-way onde assumimos que o primeiro fator tem 2 níveis e o segundo fator tem 3 níveis.

Definir se e se , ou seja, é a codificação de um-quente do primeiro factor e é a codificação de um-quente do segundo factor.

Com isso,

onde o último termo é um termo de intercepto. Para um exemplo mais concreto supor que
Então,

Veja também

notas de rodapé

Notas

Referências

Outras leituras

links externos