Partição de somas de quadrados - Partition of sums of squares

A partição de somas de quadrados é um conceito que permeia grande parte da estatística inferencial e da estatística descritiva . Mais propriamente, é o particionamento de somas de desvios ou erros quadrados . Matematicamente, a soma dos desvios quadrados é uma medida de dispersão fora de escala ou não ajustada (também chamada de variabilidade ). Quando dimensionado para o número de graus de liberdade , ele estima a variância ou dispersão das observações sobre seu valor médio. O particionamento da soma dos desvios quadrados em vários componentes permite que a variabilidade geral em um conjunto de dados seja atribuída a diferentes tipos ou fontes de variabilidade, com a importância relativa de cada um sendo quantificada pelo tamanho de cada componente da soma total dos quadrados.

Fundo

A distância de qualquer ponto em uma coleção de dados, até a média dos dados, é o desvio. Isso pode ser escrito como , onde é o iº ponto de dados e é a estimativa da média. Se todos esses desvios são quadrados, então somados, como em , isso dá a "soma dos quadrados" para esses dados.

Quando mais dados são adicionados à coleção, a soma dos quadrados aumentará, exceto em casos improváveis, como os novos dados serem iguais à média. Normalmente, a soma dos quadrados aumentará com o tamanho da coleta de dados. Essa é uma manifestação do fato de que não tem escala.

Em muitos casos, o número de graus de liberdade é simplesmente o número de dados na coleção, menos um. Escrevemos isso como n  - 1, onde n é o número de dados.

Escala (também conhecido como normalização) significa ajustar a soma dos quadrados para que ela não cresça conforme o tamanho da coleção de dados aumenta. Isso é importante quando queremos comparar amostras de tamanhos diferentes, como uma amostra de 100 pessoas em comparação com uma amostra de 20 pessoas. Se a soma dos quadrados não fosse normalizada, seu valor sempre seria maior para a amostra de 100 pessoas do que para a amostra de 20 pessoas. Para dimensionar a soma dos quadrados, nós a dividimos pelos graus de liberdade, ou seja, calculamos a soma dos quadrados por grau de liberdade, ou variância. O desvio padrão , por sua vez, é a raiz quadrada da variância.

O acima descreve como a soma dos quadrados é usada na estatística descritiva; veja o artigo sobre a soma total dos quadrados para uma aplicação desse princípio amplo à estatística inferencial .

Particionando a soma dos quadrados na regressão linear

Teorema. Dado um modelo de regressão linear incluindo uma constante , com base em uma amostra contendo n observações, a soma total dos quadrados pode ser particionada da seguinte forma na soma explicada dos quadrados (ESS) e na soma residual dos quadrados (RSS):

onde esta equação é equivalente a cada uma das seguintes formas:

onde é o valor estimado pela linha de regressão tendo , , ..., como os estimados coeficientes .

Prova

O requisito de que o modelo inclua uma constante ou equivalentemente que a matriz de design contenha uma coluna de uns garante que , ie .

A prova também pode ser expressa em forma de vetor, como segue:

A eliminação de termos na última linha, utilizou o fato de que

Mais particionamento

Observe que a soma residual dos quadrados pode ser dividida posteriormente como a soma dos quadrados por falta de ajuste mais a soma dos quadrados devido ao erro puro.

Veja também

Referências