Soma de quadrados de falta de ajuste - Lack-of-fit sum of squares

Em estatísticas , uma soma dos quadrados devido à falta de ajuste , ou mais concisamente uma soma de falta de ajuste de quadrados , é um dos componentes de uma partição da soma dos quadrados dos resíduos numa análise de variância , utilizado no numerador em um teste F da hipótese nula que diz que um modelo proposto se ajusta bem. O outro componente é a soma dos quadrados dos erros puros .

A soma dos quadrados do erro puro é a soma dos desvios quadrados de cada valor da variável dependente do valor médio sobre todas as observações que compartilham seu (s) valor (es) de variável independente . Esses são erros que nunca poderiam ser evitados por qualquer equação preditiva que atribuísse um valor previsto para a variável dependente como uma função do (s) valor (es) da (s) variável (is) independente (s). O restante da soma residual dos quadrados é atribuído à falta de ajuste do modelo, uma vez que seria matematicamente possível eliminar totalmente esses erros.

Esboço da ideia

Para que a soma dos quadrados por falta de ajuste difira da soma dos quadrados dos resíduos , deve haver mais de um valor da variável de resposta para pelo menos um dos valores do conjunto de variáveis ​​preditoras. Por exemplo, considere ajustar uma linha

pelo método dos mínimos quadrados . Toma-se como estimativas de α e β os valores que minimizam a soma dos quadrados dos resíduos, ou seja, a soma dos quadrados das diferenças entre o valor y observado e o valor y ajustado . Para ter uma soma de quadrados sem ajuste que difere da soma residual de quadrados, deve-se observar mais de um valor y para cada um ou mais dos valores x . Em seguida, particiona-se a "soma dos quadrados devido ao erro", ou seja, a soma dos quadrados dos resíduos, em dois componentes:

soma dos quadrados devido ao erro = (soma dos quadrados devido ao erro "puro") + (soma dos quadrados devido à falta de ajuste).

A soma dos quadrados devido ao erro "puro" é a soma dos quadrados das diferenças entre cada valor y observado e a média de todos os valores y correspondentes ao mesmo valor x .

A soma dos quadrados devido à falta de ajuste é a soma ponderada dos quadrados das diferenças entre cada média dos valores y correspondentes ao mesmo valor x e o valor y ajustado correspondente , o peso em cada caso sendo simplesmente o número de observados valores y para esse valor x . Como é uma propriedade da regressão de mínimos quadrados que o vetor cujos componentes são "erros puros" e o vetor de componentes de falta de ajuste sejam ortogonais entre si, a seguinte igualdade é válida:

Conseqüentemente, a soma residual dos quadrados foi completamente decomposta em dois componentes.

Detalhes matemáticos

Considere ajustar uma linha com uma variável preditora. Defina i como um índice de cada um dos n valores distintos de x , j como um índice das observações da variável de resposta para um determinado valor de x e n i como o número de valores de y associados ao i ésimo valor de x . O valor de cada observação variável de resposta pode ser representado por

Deixar

ser as estimativas de mínimos quadrados dos parâmetros não observáveis α e β com base nos valores observados de x i e Y i j .   

Deixar

ser os valores ajustados da variável de resposta. Então

são os resíduos , que são estimativas observáveis ​​dos valores não observáveis ​​do termo de erro  ε ij . Devido à natureza do método dos mínimos quadrados, todo o vetor de resíduos, com  

componentes escalares, necessariamente satisfaz as duas restrições

Portanto, é restrito a se situar em um  subespaço ( N - 2) -dimensional de R N , ou seja, há N  - 2 " graus de liberdade para erro".  

Agora deixe

ser a média de todos os valores de Y associados ao i- ésimo valor de x .

Dividimos a soma dos quadrados devido ao erro em dois componentes:

Distribuições de probabilidade

Soma dos quadrados

Suponha que os termos de erro ε i j sejam independentes e normalmente distribuídos com valor esperado  0 e variância σ 2 . Tratamos x i como constante em vez de aleatório. Então, as variáveis ​​de resposta Y i j são aleatórias apenas porque os erros ε i j são aleatórios.      

Pode-se demonstrar que se o modelo linear estiver correto, então a soma dos quadrados devido ao erro dividida pela variância do erro,

tem uma distribuição qui-quadrada com N  - 2 graus de liberdade.

Além disso, dado o número total de observações N , o número de níveis da variável independente n e o número de parâmetros no modelo p :

  • A soma dos quadrados devido ao erro puro, dividida pela variância do erro σ 2 , tem uma distribuição qui-quadrada com N  -  n graus de liberdade;
  • A soma dos quadrados devido à falta de ajuste, dividida pela variância do erro σ 2 , tem uma distribuição qui-quadrada com n  -  p graus de liberdade (aqui p  = 2 porque há dois parâmetros no modelo de linha reta);
  • As duas somas de quadrados são probabilisticamente independentes.

A estatística de teste

Segue-se então que a estatística

tem uma distribuição F com o número correspondente de graus de liberdade no numerador e no denominador, desde que o modelo esteja correto. Se o modelo estiver errado, então a distribuição de probabilidade do denominador ainda é conforme declarado acima, e o numerador e o denominador ainda são independentes. Mas o numerador tem uma distribuição qui-quadrada não central e, conseqüentemente, o quociente como um todo tem uma distribuição F não central .

Usamos essa estatística F para testar a hipótese nula de que o modelo linear está correto. Uma vez que a distribuição F não central é estocasticamente maior do que a distribuição F (central), rejeita-se a hipótese nula se a estatística F for maior do que o valor F crítico. Os corresponde valor crítico para a função de distribuição cumulativa da distribuição F com x igual para o desejado nível de confiança , e graus de liberdade d 1  = ( n  -  p ) e d 2  = ( N  -  N ).

Pode-se demonstrar que as suposições de distribuição normal de erros e independência implicam que esse teste de falta de ajuste é o teste de razão de verossimilhança dessa hipótese nula.

Veja também

Notas