Soma de quadrados explicada - Explained sum of squares

Em estatística , a soma dos quadrados explicada ( ESS ), alternativamente conhecida como a soma dos quadrados do modelo ou soma dos quadrados devido à regressão ( SSR - não deve ser confundida com a soma dos quadrados residuais (RSS) ou soma dos quadrados dos erros) , é uma quantidade usada para descrever o quão bem um modelo, geralmente um modelo de regressão , representa os dados que estão sendo modelados. Em particular, a soma dos quadrados explicada mede quanta variação existe nos valores modelados e isso é comparado à soma total dos quadrados (TSS), que mede quanta variação há nos dados observados, e à soma residual de quadrados , que mede a variação do erro entre os dados observados e os valores modelados.

Definição

A soma dos quadrados explicados (ESS) é a soma dos quadrados dos desvios dos valores previstos do valor médio de uma variável de resposta, em um modelo de regressão padrão - por exemplo, y i = a + b 1 x 1 i + b 2 x 2 i + ... + ε i , onde y i é o i th observação da variável de resposta , x ji é o i th observação do j th variável de motivos , um e b j são coeficientes , i indexa os observações de 1 a n , e ε i é o i  ésimo valor do termo de erro . Em geral, quanto maior o ESS, melhor será o desempenho do modelo estimado.

Se e são os coeficientes estimados , então

é o i  ésimo valor previsto da variável de resposta. O ESS é então:

onde o valor estimado pela linha de regressão.

Em alguns casos (veja abaixo): soma total dos quadrados  (TSS) = soma explicada dos quadrados (ESS) + soma residual dos quadrados  (RSS).

Particionamento em regressão linear simples

A seguinte igualdade, afirmando que a soma total dos quadrados (TSS) é igual à soma dos quadrados residuais (= SSE: a soma dos erros quadrados da previsão) mais a soma dos quadrados explicada (SSR: a soma dos quadrados devido à regressão ou explicada soma dos quadrados), geralmente é verdadeiro na regressão linear simples:

Derivação simples

Quadrar ambos os lados e somar todos os i :

Aqui está como o último termo acima é zero da regressão linear simples

Então,

Portanto,

Particionamento no modelo de mínimos quadrados ordinários geral

O modelo de regressão geral com n observações e k explicadores, o primeiro dos quais é um vetor unitário constante cujo coeficiente é a interceptação da regressão, é

onde y é um vetor n × 1 de observações de variáveis ​​dependentes, cada coluna da matriz n × k X é um vetor de observações em um dos k explicadores, é um vetor k × 1 de coeficientes verdadeiros e e é um n × 1 vetor dos verdadeiros erros subjacentes. O estimador de mínimos quadrados ordinários para é

O vetor residual é , então a soma residual dos quadrados é, após simplificação,

Denote como o vetor constante, cujos elementos são a média da amostra dos valores da variável dependente no vetor y . Então, a soma total dos quadrados é

A soma dos quadrados explicada, definida como a soma dos desvios quadrados dos valores previstos da média observada de y , é

Usando nisto, e simplificando para obter , dá o resultado que TSS = ESS + RSS se e somente se . O lado esquerdo disso é vezes a soma dos elementos de y , e o lado direito é vezes a soma dos elementos de , então a condição é que a soma dos elementos de y seja igual à soma dos elementos de , ou equivalentemente que a soma dos erros de predição (resíduos) é zero. Isso pode ser visto como verdadeiro observando a conhecida propriedade OLS de que o vetor k × 1 : uma vez que a primeira coluna de X é um vetor de uns, o primeiro elemento desse vetor é a soma dos resíduos e é igual a zero. Isso prova que a condição é válida para o resultado que TSS = ESS + RSS .

Em termos de álgebra linear, temos , , . A prova pode ser simplificada observando isso . A prova é a seguinte:

Desse modo,

que novamente dá o resultado que TSS = ESS + RSS , desde .

Veja também

Notas

Referências

  • SE Maxwell e HD Delaney (1990), "Projetando experimentos e analisando dados: Uma perspectiva de comparação de modelos". Wadsworth. pp. 289–290.
  • GA Milliken e DE Johnson (1984), "Analysis of messy data", Vol. I: Experimentos planejados. Van Nostrand Reinhold. pp. 146–151.
  • BG Tabachnick e LS Fidell (2007), "Experimental design using ANOVA". Duxbury. p. 220
  • BG Tabachnick e LS Fidell (2007), "Usando estatísticas multivariadas", 5ª ed. Pearson Education. pp. 217–218.