Desvios quadrados da média (SDM) estão envolvidos em vários cálculos. Em teoria de probabilidade e estatística , a definição de variância é o valor esperado do SDM (ao considerar uma distribuição teórica ) ou seu valor médio (para dados experimentais reais). Os cálculos para análise de variância envolvem o particionamento de uma soma de SDM.
Introdução
Uma compreensão dos cálculos envolvidos é muito melhorada por um estudo do valor estatístico
E
(
X
2
)
{\ displaystyle \ operatorname {E} (X ^ {2})}
, onde é o operador de valor esperado.
E
{\ displaystyle \ operatorname {E}}
Para uma variável aleatória com média e variância ,
X
{\ displaystyle X}
µ
{\ displaystyle \ mu}
σ
2
{\ displaystyle \ sigma ^ {2}}
σ
2
=
E
(
X
2
)
-
µ
2
.
{\ displaystyle \ sigma ^ {2} = \ operatorname {E} (X ^ {2}) - \ mu ^ {2}.}
Portanto,
E
(
X
2
)
=
σ
2
+
µ
2
.
{\ displaystyle \ operatorname {E} (X ^ {2}) = \ sigma ^ {2} + \ mu ^ {2}.}
Do exposto, o seguinte pode ser derivado:
E
(
∑
(
X
2
)
)
=
n
σ
2
+
n
µ
2
,
{\ displaystyle \ operatorname {E} \ left (\ sum \ left (X ^ {2} \ right) \ right) = n \ sigma ^ {2} + n \ mu ^ {2},}
E
(
(
∑
X
)
2
)
=
n
σ
2
+
n
2
µ
2
.
{\ displaystyle \ operatorname {E} \ left (\ left (\ sum X \ right) ^ {2} \ right) = n \ sigma ^ {2} + n ^ {2} \ mu ^ {2}.}
Variância da amostra
A soma dos desvios quadrados necessários para calcular a variância da amostra (antes de decidir se deve dividir por n ou n - 1) é mais facilmente calculada como
S
=
∑
x
2
-
(
∑
x
)
2
n
{\ displaystyle S = \ sum x ^ {2} - {\ frac {\ left (\ sum x \ right) ^ {2}} {n}}}
A partir das duas expectativas derivadas acima, o valor esperado desta soma é
E
(
S
)
=
n
σ
2
+
n
µ
2
-
n
σ
2
+
n
2
µ
2
n
{\ displaystyle \ operatorname {E} (S) = n \ sigma ^ {2} + n \ mu ^ {2} - {\ frac {n \ sigma ^ {2} + n ^ {2} \ mu ^ {2 }} {n}}}
que implica
E
(
S
)
=
(
n
-
1
)
σ
2
.
{\ displaystyle \ operatorname {E} (S) = (n-1) \ sigma ^ {2}.}
Isso prova efetivamente o uso do divisor n - 1 no cálculo de uma estimativa de amostra não enviesada de σ 2 .
Partição - análise de variância
Na situação em que os dados estão disponíveis para k grupos de tratamento diferentes com tamanho n i onde i varia de 1 a k , então assume-se que a média esperada de cada grupo é
E
(
µ
eu
)
=
µ
+
T
eu
{\ displaystyle \ operatorname {E} (\ mu _ {i}) = \ mu + T_ {i}}
e a variância de cada grupo de tratamento permanece inalterada em relação à variância da população .
σ
2
{\ displaystyle \ sigma ^ {2}}
De acordo com a hipótese nula de que os tratamentos não têm efeito, cada um deles será zero.
T
eu
{\ displaystyle T_ {i}}
Agora é possível calcular três somas de quadrados:
Individual
eu
=
∑
x
2
{\ displaystyle I = \ sum x ^ {2}}
E
(
eu
)
=
n
σ
2
+
n
µ
2
{\ displaystyle \ operatorname {E} (I) = n \ sigma ^ {2} + n \ mu ^ {2}}
Tratamentos
T
=
∑
eu
=
1
k
(
(
∑
x
)
2
/
n
eu
)
{\ displaystyle T = \ sum _ {i = 1} ^ {k} \ left (\ left (\ sum x \ right) ^ {2} / n_ {i} \ right)}
E
(
T
)
=
k
σ
2
+
∑
eu
=
1
k
n
eu
(
µ
+
T
eu
)
2
{\ displaystyle \ operatorname {E} (T) = k \ sigma ^ {2} + \ sum _ {i = 1} ^ {k} n_ {i} (\ mu + T_ {i}) ^ {2}}
E
(
T
)
=
k
σ
2
+
n
µ
2
+
2
µ
∑
eu
=
1
k
(
n
eu
T
eu
)
+
∑
eu
=
1
k
n
eu
(
T
eu
)
2
{\ displaystyle \ operatorname {E} (T) = k \ sigma ^ {2} + n \ mu ^ {2} +2 \ mu \ sum _ {i = 1} ^ {k} (n_ {i} T_ { i}) + \ sum _ {i = 1} ^ {k} n_ {i} (T_ {i}) ^ {2}}
Sob a hipótese nula de que os tratamentos não causam diferenças e todos são zero, a expectativa se simplifica para
T
eu
{\ displaystyle T_ {i}}
E
(
T
)
=
k
σ
2
+
n
µ
2
.
{\ displaystyle \ operatorname {E} (T) = k \ sigma ^ {2} + n \ mu ^ {2}.}
Combinação
C
=
(
∑
x
)
2
/
n
{\ displaystyle C = \ left (\ sum x \ right) ^ {2} / n}
E
(
C
)
=
σ
2
+
n
µ
2
{\ displaystyle \ operatorname {E} (C) = \ sigma ^ {2} + n \ mu ^ {2}}
Soma dos desvios quadrados
Sob a hipótese nula, a diferença de qualquer par de I , T e C não contém nenhuma dependência de , apenas .
µ
{\ displaystyle \ mu}
σ
2
{\ displaystyle \ sigma ^ {2}}
E
(
eu
-
C
)
=
(
n
-
1
)
σ
2
{\ displaystyle \ operatorname {E} (IC) = (n-1) \ sigma ^ {2}}
desvios quadrados totais, também conhecido como soma total dos quadrados
E
(
T
-
C
)
=
(
k
-
1
)
σ
2
{\ displaystyle \ operatorname {E} (TC) = (k-1) \ sigma ^ {2}}
tratamento de desvios quadrados, também conhecido como soma explicada de quadrados
E
(
eu
-
T
)
=
(
n
-
k
)
σ
2
{\ displaystyle \ operatorname {E} (IT) = (nk) \ sigma ^ {2}}
desvios quadrados residuais, também conhecidos como soma residual dos quadrados
As constantes ( n - 1), ( k - 1) e ( n - k ) são normalmente referidas como o número de graus de liberdade .
Exemplo
Em um exemplo muito simples, 5 observações surgem de dois tratamentos. O primeiro tratamento fornece três valores 1, 2 e 3, e o segundo tratamento fornece dois valores 4 e 6.
eu
=
1
2
1
+
2
2
1
+
3
2
1
+
4
2
1
+
6
2
1
=
66
{\ displaystyle I = {\ frac {1 ^ {2}} {1}} + {\ frac {2 ^ {2}} {1}} + {\ frac {3 ^ {2}} {1}} + {\ frac {4 ^ {2}} {1}} + {\ frac {6 ^ {2}} {1}} = 66}
T
=
(
1
+
2
+
3
)
2
3
+
(
4
+
6
)
2
2
=
12
+
50
=
62
{\ displaystyle T = {\ frac {(1 + 2 + 3) ^ {2}} {3}} + {\ frac {(4 + 6) ^ {2}} {2}} = 12 + 50 = 62 }
C
=
(
1
+
2
+
3
+
4
+
6
)
2
5
=
256
/
5
=
51,2
{\ displaystyle C = {\ frac {(1 + 2 + 3 + 4 + 6) ^ {2}} {5}} = 256/5 = 51,2}
Dando
Desvios quadrados totais = 66 - 51,2 = 14,8 com 4 graus de liberdade.
Desvios quadrados de tratamento = 62 - 51,2 = 10,8 com 1 grau de liberdade.
Desvios quadrados residuais = 66 - 62 = 4 com 3 graus de liberdade.
Análise de variância bidirecional
O exemplo hipotético a seguir fornece os rendimentos de 15 plantas sujeitas a duas variações ambientais diferentes e três fertilizantes diferentes.
CO 2 extra
Umidade extra
Sem fertilizante
7, 2, 1
7, 6
Nitrato
11, 6
10, 7, 3
Fosfato
5, 3, 4
11, 4
Cinco somas de quadrados são calculadas:
Fator
Cálculo
Soma
σ
2
{\ displaystyle \ sigma ^ {2}}
Individual
7
2
+
2
2
+
1
2
+
7
2
+
6
2
+
11
2
+
6
2
+
10
2
+
7
2
+
3
2
+
5
2
+
3
2
+
4
2
+
11
2
+
4
2
{\ displaystyle 7 ^ {2} + 2 ^ {2} + 1 ^ {2} + 7 ^ {2} + 6 ^ {2} + 11 ^ {2} + 6 ^ {2} + 10 ^ {2} + 7 ^ {2} + 3 ^ {2} + 5 ^ {2} + 3 ^ {2} + 4 ^ {2} + 11 ^ {2} + 4 ^ {2}}
641
15
Fertilizante × Meio Ambiente
(
7
+
2
+
1
)
2
3
+
(
7
+
6
)
2
2
+
(
11
+
6
)
2
2
+
(
10
+
7
+
3
)
2
3
+
(
5
+
3
+
4
)
2
3
+
(
11
+
4
)
2
2
{\ displaystyle {\ frac {(7 + 2 + 1) ^ {2}} {3}} + {\ frac {(7 + 6) ^ {2}} {2}} + {\ frac {(11+ 6) ^ {2}} {2}} + {\ frac {(10 + 7 + 3) ^ {2}} {3}} + {\ frac {(5 + 3 + 4) ^ {2}} { 3}} + {\ frac {(11 + 4) ^ {2}} {2}}}
556,1667
6
Fertilizante
(
7
+
2
+
1
+
7
+
6
)
2
5
+
(
11
+
6
+
10
+
7
+
3
)
2
5
+
(
5
+
3
+
4
+
11
+
4
)
2
5
{\ displaystyle {\ frac {(7 + 2 + 1 + 7 + 6) ^ {2}} {5}} + {\ frac {(11 + 6 + 10 + 7 + 3) ^ {2}} {5 }} + {\ frac {(5 + 3 + 4 + 11 + 4) ^ {2}} {5}}}
525,4
3
Meio Ambiente
(
7
+
2
+
1
+
11
+
6
+
5
+
3
+
4
)
2
8
+
(
7
+
6
+
10
+
7
+
3
+
11
+
4
)
2
7
{\ displaystyle {\ frac {(7 + 2 + 1 + 11 + 6 + 5 + 3 + 4) ^ {2}} {8}} + {\ frac {(7 + 6 + 10 + 7 + 3 + 11 +4) ^ {2}} {7}}}
519,2679
2
Composto
(
7
+
2
+
1
+
11
+
6
+
5
+
3
+
4
+
7
+
6
+
10
+
7
+
3
+
11
+
4
)
2
15
{\ displaystyle {\ frac {(7 + 2 + 1 + 11 + 6 + 5 + 3 + 4 + 7 + 6 + 10 + 7 + 3 + 11 + 4) ^ {2}} {15}}}
504,6
1
Finalmente, as somas dos desvios quadrados necessários para a análise de variância podem ser calculadas.
Fator
Soma
σ
2
{\ displaystyle \ sigma ^ {2}}
Total
Meio Ambiente
Fertilizante
Fertilizante × Meio Ambiente
Residual
Individual
641
15
1
1
Fertilizante × Meio Ambiente
556,1667
6
1
-1
Fertilizante
525,4
3
1
-1
Meio Ambiente
519,2679
2
1
-1
Composto
504,6
1
-1
-1
-1
1
Desvios quadrados
136,4
14.668
20,8
16.099
84.833
Graus de liberdade
14
1
2
2
9
Veja também
Referências
^ Mood & Graybill: Uma introdução à teoria das estatísticas (McGraw Hill)
<img src="https://en.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">