Graus de liberdade (estatísticas) - Degrees of freedom (statistics)

Em estatística , o número de graus de liberdade é o número de valores no cálculo final de uma estatística que podem variar livremente.

O número de maneiras independentes pelas quais um sistema dinâmico pode se mover, sem violar qualquer restrição imposta a ele, é chamado de número de graus de liberdade. Em outras palavras, o número de graus de liberdade pode ser definido como o número mínimo de coordenadas independentes que podem especificar o espaço de fase , ou seja, posições e momento na mecânica clássica , do sistema completamente.

As estimativas de parâmetros estatísticos podem ser baseadas em diferentes quantidades de informações ou dados. O número de informações independentes que entram na estimativa de um parâmetro é chamado de graus de liberdade. Em geral, os graus de liberdade de uma estimativa de um parâmetro são iguais ao número de pontuações independentes que vão para a estimativa menos o número de parâmetros usados ​​como etapas intermediárias na estimativa do próprio parâmetro (na maioria das vezes, a variância da amostra tem N  - 1 graus de liberdade, uma vez que é calculado a partir de N pontuações aleatórias menos o único parâmetro estimado como etapa intermediária, que é a média da amostra).

Matematicamente, graus de liberdade é o número de dimensões do domínio de um vetor aleatório , ou essencialmente o número de componentes "livres" (quantos componentes precisam ser conhecidos antes que o vetor seja totalmente determinado).

O termo é mais frequentemente usado no contexto de modelos lineares ( regressão linear , análise de variância ), onde certos vetores aleatórios são restringidos a se situar em subespaços lineares e o número de graus de liberdade é a dimensão do subespaço . Os graus de liberdade também são comumente associados aos comprimentos quadrados (ou "soma dos quadrados" das coordenadas) de tais vetores e aos parâmetros de qui-quadrado e outras distribuições que surgem em problemas de teste estatístico associados.

Embora os livros didáticos introdutórios possam introduzir graus de liberdade como parâmetros de distribuição ou por meio de testes de hipóteses, é a geometria subjacente que define os graus de liberdade e é crítica para uma compreensão adequada do conceito.

História

Embora o conceito básico de graus de liberdade tenha sido reconhecido já em 1821 no trabalho do astrônomo e matemático alemão Carl Friedrich Gauss , sua definição e uso modernos foram elaborados pela primeira vez pelo estatístico inglês William Sealy Gosset em seu artigo de 1908 na Biometrika "The Provable Error of a Mean ", publicado com o pseudônimo" Student ". Embora Gosset não tenha realmente usado o termo 'graus de liberdade', ele explicou o conceito durante o desenvolvimento do que ficou conhecido como distribuição t de Student . O próprio termo foi popularizado pelo estatístico e biólogo inglês Ronald Fisher , começando com seu trabalho de 1922 sobre quadrados de chi.

Notação

Nas equações, o símbolo típico para graus de liberdade é ν (letra grega minúscula nu ). Em textos e tabelas, a abreviatura "df" é comumente usada. RA Fisher usou n para simbolizar graus de liberdade, mas o uso moderno normalmente reserva n para o tamanho da amostra.

De vetores aleatórios

Geometricamente, os graus de liberdade podem ser interpretados como a dimensão de certos subespaços vetoriais. Como ponto de partida, suponha que temos uma amostra de observações normalmente distribuídas independentes,

Isso pode ser representado como um vetor aleatório n- dimensional :

Como esse vetor aleatório pode estar em qualquer lugar no espaço n- dimensional, ele tem n graus de liberdade.

Agora, deixe ser a média da amostra . O vetor aleatório pode ser decomposto como a soma da média da amostra mais um vetor de resíduos:

O primeiro vetor no lado direito é restrito a ser um múltiplo do vetor de 1's, e a única quantidade livre é . Portanto, tem 1 grau de liberdade.

O segundo vetor é restringido pela relação . Os primeiros n  - 1 componentes desse vetor podem ser qualquer coisa. No entanto, uma vez que você sabe a primeira n  - 1 componentes, a restrição diz-lhe o valor do n º componente. Portanto, este vetor possui n  - 1 graus de liberdade.

Matematicamente, o primeiro vetor é a projeção oblíqua do vetor de dados no subespaço medido pelo vetor de 1's. O 1 grau de liberdade é a dimensão deste subespaço. O segundo vetor residual é a projeção de mínimos quadrados no complemento ortogonal ( n  - 1) -dimensional deste subespaço, e tem n  - 1 graus de liberdade.

Em aplicações de teste estatístico, muitas vezes a pessoa não está diretamente interessada nos vetores de componentes, mas sim em seus comprimentos quadrados. No exemplo acima, a soma dos quadrados residual é

Se os pontos de dados são normalmente distribuídos com média 0 e variância , então a soma residual dos quadrados tem uma distribuição qui-quadrada escalonada (escalonada pelo fator ), com n  - 1 graus de liberdade. Os graus de liberdade, aqui um parâmetro da distribuição, ainda podem ser interpretados como a dimensão de um subespaço vetorial subjacente.

Da mesma forma, a estatística de teste t de uma amostra ,

segue uma distribuição t de Student com n  - 1 graus de liberdade quando a média hipotética está correta. Novamente, os graus de liberdade surgem do vetor residual no denominador.

Em modelos de equações estruturais

Quando os resultados dos modelos de equações estruturais (SEM) são apresentados, eles geralmente incluem um ou mais índices de ajuste geral do modelo, o mais comum dos quais é uma estatística χ 2 . Isso forma a base para outros índices comumente relatados. Embora sejam essas outras estatísticas as mais comumente interpretadas, os graus de liberdade do χ 2 são essenciais para entender o ajuste do modelo, bem como a natureza do próprio modelo.

Graus de liberdade em SEM são calculados como uma diferença entre o número de peças únicas de informação que são usadas como entrada na análise, às vezes chamadas de conhecidos, e o número de parâmetros que são estimados exclusivamente, às vezes chamados de desconhecidos. Por exemplo, em uma análise fatorial confirmatória de um fator com 4 itens, há 10 conhecidos (as seis covariâncias únicas entre os quatro itens e as quatro variâncias do item) e 8 incógnitas (4 cargas fatoriais e 4 variâncias de erro) para 2 graus de liberdade. Graus de liberdade são importantes para a compreensão do ajuste do modelo se por nenhuma outra razão além disso, se todo o resto for igual, quanto menos graus de liberdade, melhores índices como χ 2 serão.

Foi demonstrado que graus de liberdade podem ser usados ​​por leitores de artigos que contêm SEMs para determinar se os autores desses artigos estão de fato relatando as estatísticas de ajuste de modelo corretas. Nas ciências organizacionais, por exemplo, quase metade dos artigos publicados nos principais periódicos relatam graus de liberdade que são inconsistentes com os modelos descritos nesses artigos, fazendo com que o leitor se pergunte quais modelos foram realmente testados.

De resíduos

Uma maneira comum de pensar em graus de liberdade é como o número de informações independentes disponíveis para estimar outra informação. Mais concretamente, o número de graus de liberdade é o número de observações independentes em uma amostra de dados que estão disponíveis para estimar um parâmetro da população da qual essa amostra é retirada. Por exemplo, se temos duas observações, ao calcular a média, temos duas observações independentes; entretanto, ao calcular a variância, temos apenas uma observação independente, uma vez que as duas observações estão igualmente distantes da média da amostra.

No ajuste de modelos estatísticos aos dados, os vetores de resíduos são restringidos para ficar em um espaço de dimensão menor do que o número de componentes no vetor. Essa dimensão menor é o número de graus de liberdade para o erro , também chamados de graus de liberdade residuais .

Exemplo

Talvez o exemplo mais simples seja este. Suponha

são variáveis ​​aleatórias, cada uma com valor esperado μ , e deixe

ser a "média da amostra". Então as quantidades

são resíduos que podem ser considerados estimativas dos erros X i  -  μ . A soma dos resíduos (ao contrário da soma dos erros) é necessariamente 0. Se conhecermos os valores de qualquer n  - 1 dos resíduos, podemos encontrar o último. Isso significa que eles são forçados a ficar em um espaço de dimensão n  - 1. Diz-se que há n  - 1 graus de liberdade para erros.

Um exemplo que é apenas um pouco menos simples é o da estimativa de mínimos quadrados de a e b no modelo

onde x i é dado, mas e i e, portanto, Y i são aleatórios. Sejam e sejam as estimativas de quadrados mínimos de a e b . Então os resíduos

são constrangidos a ficar dentro do espaço definido pelas duas equações

Diz-se que existem n  - 2 graus de liberdade para o erro.

Notacionalmente, a letra maiúscula Y é usada na especificação do modelo, enquanto a minúscula y na definição dos resíduos; isso ocorre porque as primeiras são variáveis ​​aleatórias hipotetizadas e as últimas são dados reais.

Podemos generalizar isso para regressão múltipla envolvendo p parâmetros e covariáveis ​​(por exemplo, p  - 1 preditores e uma média (= interceptação na regressão)), caso em que o custo em graus de liberdade do ajuste é p , deixando n - p graus de liberdade para erros

Em modelos lineares

A demonstração das distribuições t e qui-quadrado para problemas de uma amostra acima é o exemplo mais simples onde surgem graus de liberdade. No entanto, geometrias semelhantes e decomposições de vetores fundamentam grande parte da teoria dos modelos lineares , incluindo regressão linear e análise de variância . Um exemplo explícito baseado na comparação de três meios é apresentado aqui; a geometria dos modelos lineares é discutida em detalhes mais completos por Christensen (2002).

Suponha que observações independentes sejam feitas para três populações , e . A restrição a três grupos e tamanhos de amostra iguais simplifica a notação, mas as idéias são facilmente generalizadas.

As observações podem ser decompostas como

onde estão as médias das amostras individuais e é a média de todas as 3 n observações. Em notação vetorial, esta decomposição pode ser escrita como

O vetor de observação, no lado esquerdo, tem 3 n graus de liberdade. No lado direito, o primeiro vetor tem um grau de liberdade (ou dimensão) para a média geral. O segundo vetor depende de três variáveis ​​aleatórias , e . No entanto, eles devem somar 0 e, portanto, são restritos; o vetor, portanto, deve estar em um subespaço bidimensional e tem 2 graus de liberdade. Os restantes 3 n  - 3 graus de liberdade estão no vetor residual (composto de n  - 1 graus de liberdade dentro de cada uma das populações).

Em análise de variância (ANOVA)

Em problemas de teste estatístico, geralmente não se está interessado nos vetores componentes em si, mas em seus comprimentos quadrados, ou Soma dos Quadrados. Os graus de liberdade associados a uma soma de quadrados são os graus de liberdade dos vetores componentes correspondentes.

O exemplo de três populações acima é um exemplo de Análise de Variância unilateral . O modelo, ou tratamento, soma dos quadrados é o comprimento quadrado do segundo vetor,

com 2 graus de liberdade. A soma dos quadrados residual, ou erro, é

com 3 ( n −1) graus de liberdade. É claro que os livros introdutórios sobre ANOVA geralmente afirmam fórmulas sem mostrar os vetores, mas é essa geometria subjacente que dá origem às fórmulas SS e mostra como determinar inequivocamente os graus de liberdade em qualquer situação.

Sob a hipótese nula de nenhuma diferença entre as médias populacionais (e assumindo que as suposições de regularidade ANOVA padrão sejam satisfeitas), as somas dos quadrados têm distribuições qui-quadradas escalonadas, com os graus de liberdade correspondentes. A estatística do teste F é a proporção, depois de escalonada pelos graus de liberdade. Se não há diferença entre médias da população este rácio segue um F -distribuição com 2 e 3 n  - 3 graus de liberdade.

Em algumas configurações complicadas, como projetos de plotagem dividida não balanceada , as somas dos quadrados não têm mais distribuições qui-quadradas em escala. A comparação da soma dos quadrados com os graus de liberdade não é mais significativa, e o software pode relatar certos 'graus de liberdade' fracionários nesses casos. Esses números não têm uma interpretação genuína de graus de liberdade, mas simplesmente fornecem uma distribuição qui-quadrada aproximada para a soma dos quadrados correspondente. Os detalhes de tais aproximações estão além do escopo desta página.

Em distribuições de probabilidade

Várias distribuições estatísticas comumente encontradas ( t de Student , qui-quadrado , F ) têm parâmetros que são comumente referidos como graus de liberdade . Essa terminologia simplesmente reflete que, em muitas aplicações onde essas distribuições ocorrem, o parâmetro corresponde aos graus de liberdade de um vetor aleatório subjacente, como no exemplo ANOVA anterior. Outro exemplo simples é: se forem variáveis ​​aleatórias normais independentes , a estatística

segue uma distribuição qui-quadrada com n  - 1 grau de liberdade. Aqui, os graus de liberdade surgem da soma dos quadrados residuais no numerador e, por sua vez, os n  - 1 graus de liberdade do vetor residual subjacente .

Na aplicação dessas distribuições a modelos lineares, os parâmetros de graus de liberdade podem assumir apenas valores inteiros . As famílias subjacentes de distribuições permitem valores fracionários para os parâmetros de graus de liberdade, que podem surgir em usos mais sofisticados. Um conjunto de exemplos são problemas em que aproximações qui-quadradas baseadas em graus de liberdade efetivos são usadas. Em outras aplicações, como modelagem de dados de cauda pesada , distribuição em ou F pode ser usada como um modelo empírico. Nesses casos, não há graus de liberdade de interpretação específicos para os parâmetros de distribuição, mesmo que a terminologia possa continuar a ser usada.

Em regressão não padrão

Muitos métodos de regressão não padrão, incluindo mínimos quadrados regularizados (por exemplo, regressão de crista ), suaves lineares , splines de suavização e regressão semiparamétrica não são baseados em projeções de mínimos quadrados ordinários , mas sim em mínimos quadrados regularizados ( generalizados e / ou penalizados) e, portanto, os graus de liberdade definidos em termos de dimensionalidade geralmente não são úteis para esses procedimentos. No entanto, esses procedimentos ainda são lineares nas observações, e os valores ajustados da regressão podem ser expressos na forma

onde é o vetor de valores ajustados em cada um dos valores da covariável original do modelo ajustado, y é o vetor original de respostas e H é a matriz hat ou, mais geralmente, matriz mais suave.

Para inferência estatística, as somas dos quadrados ainda podem ser formadas: o modelo da soma dos quadrados é ; a soma dos quadrados residual é . No entanto, porque H não corresponde a um ajuste de mínimos quadrados ordinários (ou seja, não é uma projeção ortogonal), essas somas de quadrados não têm mais distribuições qui-quadradas (em escala, não centrais) e graus de -liberdade não é útil.

Os graus de liberdade efetivos do ajuste podem ser definidos de várias maneiras para implementar testes de adequação , validação cruzada e outros procedimentos de inferência estatística . Aqui pode-se distinguir entre regressão graus de liberdade efetivos e residuais graus de liberdade efetivos .

Graus de liberdade efetivos da regressão

Para os graus de liberdade efetivos da regressão, as definições apropriadas podem incluir o traço da matriz hat, tr ( H ), o traço da forma quadrática da matriz hat, tr ( H'H ), a forma tr (2 H - H H ' ), ou a aproximação de Satterthwaite , tr ( H'H ) 2 / tr ( H'HH'H ) . No caso de regressão linear, a matriz de chapéu H é X ( X  ' X ) −1 X' , e todas essas definições se reduzem aos graus de liberdade usuais. Notar que

os graus de liberdade de regressão (não residuais) em modelos lineares são "a soma das sensibilidades dos valores ajustados em relação aos valores de resposta observados", ou seja, a soma das pontuações de alavancagem .

Uma maneira de ajudar a conceituar isso é considerar uma matriz de suavização simples como um borrão Gaussiano , usado para mitigar o ruído de dados. Em contraste com um ajuste linear ou polinomial simples, calcular os graus de liberdade efetivos da função de suavização não é simples. Nestes casos, é importante estimar os Graus de liberdade permitidos pela matriz de forma que os graus de liberdade residuais possam ser usados ​​para estimar testes estatísticos como .

Graus de liberdade efetivos residuais

Existem correspondentes definições de residual eficaz graus de liberdade (REDF), com H substituído por I  -  H . Por exemplo, se o objetivo é estimar a variância do erro, o redf seria definido como tr (( I  -  H ) '( I  -  H )), e a estimativa não enviesada é (com ),

ou:

A última aproximação acima reduz o custo computacional de O ( n 2 ) para apenas O ( n ). Em geral, o numerador seria a função objetivo sendo minimizada; por exemplo, se a matriz hat inclui uma matriz de covariância de observação, Σ, então se torna .

Em geral

Observe que, ao contrário do caso original, graus de liberdade não inteiros são permitidos, embora o valor geralmente ainda deva ser restrito entre 0 e n .

Considere, como exemplo, o k - vizinho mais próximo mais suave, que é a média dos k valores medidos mais próximos do ponto dado. Então, em cada um dos n pontos medidos, o peso do valor original na combinação linear que compõe o valor previsto é de apenas 1 / k . Assim, o traço da matriz hat é n / k . Assim, os custos uniformes n / k graus de liberdade efetivos.

Como outro exemplo, considere a existência de observações quase duplicadas. A aplicação ingênua da fórmula clássica, n - p , levaria a uma superestimação do grau de liberdade dos resíduos, como se cada observação fosse independente. Mais realisticamente, entretanto, a matriz hat H = X ( X  'Σ −1 X ) −1 X' Σ −1 envolveria uma matriz de covariância de observação Σ indicando a correlação diferente de zero entre as observações.

A formulação mais geral do grau de liberdade efetivo resultaria em uma estimativa mais realista para, por exemplo, a variância do erro σ 2 , que por sua vez dimensiona o desvio padrão a posteriori dos parâmetros desconhecidos ; o grau de liberdade também afetará o fator de expansão necessário para produzir uma elipse de erro para um determinado nível de confiança .

Outras formulações

Conceitos semelhantes são os graus de liberdade equivalentes na regressão não paramétrica , o grau de liberdade do sinal em estudos atmosféricos e o grau de liberdade não inteiro na geodésia.

A soma dos quadrados residual tem uma distribuição qui-quadrada generalizada , e a teoria associada a essa distribuição fornece um caminho alternativo para as respostas fornecidas acima.

Veja também

Referências

Leitura adicional

links externos