Análise de variância bidirecional - Two-way analysis of variance

Em estatística , a análise de variância ( ANOVA ) bidirecional é uma extensão da ANOVA unilateral que examina a influência de duas variáveis independentes categóricas diferentes em uma variável dependente contínua . A ANOVA bidirecional não visa apenas avaliar o efeito principal de cada variável independente, mas também se há alguma interação entre elas.

História

Em 1925, Ronald Fisher menciona a ANOVA bidirecional em seu livro célebre, Statistical Methods for Research Workers (capítulos 7 e 8). Em 1934, Frank Yates publicou procedimentos para o caso desequilibrado. Desde então, uma extensa literatura foi produzida. O tópico foi revisado em 1993 por Yasunori Fujikoshi . Em 2005, Andrew Gelman propôs uma abordagem diferente de ANOVA, vista como um modelo multinível .

Conjunto de dados

Vamos imaginar um conjunto de dados para o qual uma variável dependente pode ser influenciada por dois fatores que são fontes potenciais de variação. O primeiro fator possui níveis ( ) e o segundo possui níveis ( ) . Cada combinação define um tratamento , para um total de tratamentos. Representamos o número de repetições para tratamento por , e seja o índice da replicação neste tratamento ( ) . ${\ displaystyle I}$ ${\ displaystyle i \ in \ {1, \ ldots, I \}}$ ${\ displaystyle J}$ ${\ displaystyle j \ in \ {1, \ ldots, J \}}$ ${\ displaystyle (i, j)}$ ${\ displaystyle I \ times J}$ ${\ displaystyle (i, j)}$ ${\ displaystyle n_ {ij}}$ ${\ displaystyle k}$ ${\ displaystyle k \ in \ {1, \ ldots, n_ {ij} \}}$

A partir desses dados, podemos construir uma tabela de contingência , onde e , e o número total de repetições é igual a . ${\ displaystyle n_ {i +} = \ sum _ {j = 1} ^ {J} n_ {ij}}$ ${\ displaystyle n _ {+ j} = \ sum _ {i = 1} ^ {I} n_ {ij}}$ ${\ displaystyle n = \ sum _ {i, j} n_ {ij} = \ sum _ {i} n_ {i +} = \ sum _ {j} n _ {+ j}}$

O desenho experimental é balanceado se cada tratamento tiver o mesmo número de repetições ,. Nesse caso, o design também é dito ortogonal , permitindo distinguir completamente os efeitos de ambos os fatores. Portanto, podemos escrever , e . ${\ displaystyle K}$ ${\ displaystyle \ forall i, j \; n_ {ij} = K}$ ${\ displaystyle \ forall i, j \; n_ {ij} = {\ frac {n_ {i +} \ cdot n _ {+ j}} {n}}}$

Modelo

Ao observar a variação entre todos os pontos de dados, por exemplo, por meio de um histograma , "a probabilidade pode ser usada para descrever essa variação". Vamos, por conseguinte, indicar pela variável aleatória que o valor observado é a medida -ésimo para tratamento . A ANOVA bidirecional modela todas essas variáveis como variando de forma independente e normalmente em torno de uma média , com uma variância constante, ( homocedasticidade ): ${\ displaystyle n}$ ${\ displaystyle Y_ {ijk}}$ ${\ displaystyle y_ {ijk}}$ ${\ displaystyle k}$ ${\ displaystyle (i, j)}$ ${\ displaystyle \ mu _ {ij}}$ ${\ displaystyle \ sigma ^ {2}}$

${\ displaystyle Y_ {ijk} \, | \, \ mu _ {ij}, \ sigma ^ {2} \; {\ overset {\ mathrm {iid}} {\ sim}} \; {\ mathcal {N} } (\ mu _ {ij}, \ sigma ^ {2})}$ .

Especificamente, a média da variável de resposta é modelada como uma combinação linear das variáveis explicativas:

${\ displaystyle \ mu _ {ij} = \ mu + \ alpha _ {i} + \ beta _ {j} + \ gamma _ {ij}}$ ,

onde é a grande média, é o efeito principal aditivo do nível do primeiro fator ( i -ésima linha na tabela de contingência), é o efeito principal aditivo do nível do segundo fator ( j- ésima coluna na tabela de contingência) e é o efeito de interação não aditivo do tratamento de ambos os fatores (célula na linha i e coluna j na tabela de contingência). ${\ displaystyle \ mu}$ ${\ displaystyle \ alpha _ {i}}$ ${\ displaystyle i}$ ${\ displaystyle \ beta _ {j}}$ ${\ displaystyle j}$ ${\ displaystyle \ gamma _ {ij}}$ ${\ displaystyle (i, j)}$

Outra forma equivalente de descrever a ANOVA bidirecional é mencionando que, além da variação explicada pelos fatores, permanece algum ruído estatístico . Essa quantidade de variação inexplicada é tratada através da introdução de uma variável aleatória por ponto de dados,, chamada de erro . Essas variáveis aleatórias são vistas como desvios das médias e são consideradas independentes e normalmente distribuídas: ${\ displaystyle \ epsilon _ {ijk}}$ ${\ displaystyle n}$

${\ displaystyle Y_ {ijk} = \ mu _ {ij} + \ epsilon _ {ijk} {\ text {with}} \ epsilon _ {ijk} {\ overset {\ mathrm {iid}} {\ sim}} { \ mathcal {N}} (0, \ sigma ^ {2})}$ .

Premissas

Seguindo Gelman e Hill, as suposições da ANOVA e, mais geralmente, o modelo linear geral , são, em ordem decrescente de importância:

os pontos de dados são relevantes no que diz respeito à questão científica sob investigação;
a média da variável resposta é influenciada aditivamente (senão o termo de interação) e linearmente pelos fatores;
os erros são independentes;
os erros têm a mesma variância;
os erros são normalmente distribuídos.

Estimativa de parâmetro

Para garantir a identificabilidade dos parâmetros, podemos adicionar as seguintes restrições de "soma para zero":

${\ displaystyle \ sum _ {i} \ alpha _ {i} = \ sum _ {j} \ beta _ {j} = \ sum _ {i} \ gamma _ {ij} = \ sum _ {j} \ gamma _ {ij} = 0}$

Testando hipóteses

Na abordagem clássica, o teste de hipóteses nulas (de que os fatores não têm efeito) é obtido por meio de sua significância, que requer o cálculo de somas de quadrados .

Testar se o termo de interação é significativo pode ser difícil devido ao número potencialmente grande de graus de liberdade .

Veja também

Análise de variação
Teste F ( inclui um exemplo de ANOVA unilateral )
Modelo misto
Análise multivariada de variância (MANOVA)
ANOVA unilateral
ANOVA de medidas repetidas
Teste de aditividade de Tukey

Notas

Referências

George Casella (18 de abril de 2008). Desenho estatístico . Springer Textos em Estatística. Springer . ISBN 978-0-387-75965-4.

Languages

In other projects