Modelo linear geral - General linear model

O modelo linear geral ou modelo de regressão multivariado geral é uma forma compacta de escrever simultaneamente vários modelos de regressão linear múltipla . Nesse sentido, não é um modelo linear estatístico separado . Os vários modelos de regressão linear múltipla podem ser escritos de forma compacta como

onde Y é uma matriz com uma série de medições multivariadas (cada coluna sendo um conjunto de medições em uma das variáveis ​​dependentes ), X é uma matriz de observações em variáveis ​​independentes que pode ser uma matriz de design (cada coluna sendo um conjunto de observações em uma das variáveis ​​independentes), B é uma matriz que contém parâmetros que geralmente devem ser estimados e U é uma matriz que contém erros (ruído). Os erros geralmente são considerados não correlacionados nas medições e seguem uma distribuição normal multivariada . Se os erros não seguem uma distribuição normal multivariada, modelos lineares generalizados podem ser usadas para relaxar suposições sobre Y e U .

O modelo linear geral incorpora um número de diferentes modelos estatísticos: ANOVA , ANCOVA , MANOVA , MANCOVA , comum de regressão linear , t -teste e F -test . O modelo linear geral é uma generalização da regressão linear múltipla para o caso de mais de uma variável dependente. Se Y , B e U fossem vetores de coluna , a equação da matriz acima representaria a regressão linear múltipla.

Os testes de hipóteses com o modelo linear geral podem ser feitos de duas maneiras: multivariados ou como vários testes univariados independentes . Nos testes multivariados, as colunas de Y são testadas juntas, enquanto nos testes univariados as colunas de Y são testadas independentemente, ou seja, como testes univariados múltiplos com a mesma matriz de design.

Comparação com regressão linear múltipla

A regressão linear múltipla é uma generalização da regressão linear simples para o caso de mais de uma variável independente e um caso especial de modelos lineares gerais, restrito a uma variável dependente. O modelo básico para regressão linear múltipla é

para cada observação i = 1, ..., n .

Na fórmula acima, consideramos n observações de uma variável dependente ep variáveis ​​independentes. Assim, Y i é a i ésima observação da variável dependente, X ij é a i ésima observação da j ésima variável independente, j = 1, 2, ..., p . Os valores β j representam parâmetros a serem estimados, e ε i é o i ésimo erro normal distribuído de forma independente e idêntica.

Na regressão linear multivariada mais geral, há uma equação da forma acima para cada uma das m > 1 variáveis ​​dependentes que compartilham o mesmo conjunto de variáveis ​​explicativas e, portanto, são estimadas simultaneamente entre si:

para todas as observações indexadas como i = 1, ..., n e para todas as variáveis ​​dependentes indexadas como j = 1, ..., m .

Observe que, uma vez que cada variável dependente tem seu próprio conjunto de parâmetros de regressão a serem ajustados, do ponto de vista computacional a regressão multivariada geral é simplesmente uma sequência de regressões lineares múltiplas padrão usando as mesmas variáveis ​​explicativas.

Comparação com o modelo linear generalizado

O modelo linear geral e o modelo linear generalizado (GLM) são duas famílias comumente usadas de métodos estatísticos para relacionar algum número de preditores contínuos e / ou categóricos a uma única variável de resultado .

A principal diferença entre as duas abordagens é que o modelo linear geral assume estritamente que os resíduos seguirão uma distribuição condicionalmente normal , enquanto o GLM afrouxa essa suposição e permite uma variedade de outras distribuições da família exponencial para os resíduos. De notar que o modelo linear geral é um caso especial do GLM no qual a distribuição dos resíduos segue uma distribuição condicionalmente normal.

A distribuição dos resíduos depende muito do tipo e da distribuição da variável de resultado; diferentes tipos de variáveis ​​de resultado levam à variedade de modelos dentro da família GLM. Os modelos comumente usados ​​na família GLM incluem regressão logística binária para resultados binários ou dicotômicos, regressão de Poisson para resultados de contagem e regressão linear para resultados contínuos normalmente distribuídos. Isso significa que o GLM pode ser considerado uma família geral de modelos estatísticos ou modelos específicos para tipos de resultados específicos.

Modelo linear geral Modelo linear generalizado
Método de estimativa típico Mínimos quadrados , melhor previsão linear imparcial Máxima verossimilhança ou bayesiana
Exemplos ANOVA , ANCOVA , regressão linear regressão linear , regressão logística , regressão de Poisson , regressão gama, modelo linear geral
Extensões e métodos relacionados MANOVA , MANCOVA , modelo linear misto modelo linear generalizado misto (GLMM), equações de estimativa generalizadas (GEE)
Pacote R e função lm () no pacote de estatísticas (base R) glm () no pacote de estatísticas (base R)
Função Matlab mvregress () glmfit ()
Procedimentos SAS PROC GLM , PROC REG PROC GENMOD , PROC LOGISTIC (para resultados categóricos binários e ordenados ou não ordenados)
Comando Stata regressar glm
Comando SPSS regressão , glm genlin, logística
Função Wolfram Language e Mathematica LinearModelFit [] GeneralizedLinearModelFit []
Comando EViews ls glm

Formulários

Uma aplicação do modelo linear geral aparece na análise de múltiplas varreduras cerebrais em experimentos científicos onde Y contém dados de scanners cerebrais, X contém variáveis ​​de projeto experimental e confunde. Geralmente é testado de forma univariada (normalmente referido como univariada de massa neste cenário) e é frequentemente referido como mapeamento paramétrico estatístico .

Veja também

Notas

Referências

  • Christensen, Ronald (2002). Respostas planas a questões complexas: a teoria dos modelos lineares (terceira edição). Nova York: Springer. ISBN 0-387-95361-2.
  • Wichura, Michael J. (2006). A abordagem livre de coordenadas para modelos lineares . Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge: Cambridge University Press. pp. xiv + 199. ISBN 978-0-521-86842-6. MR  2283455 .
  • Rawlings, John O .; Pantula, Sastry G .; Dickey, David A., eds. (1998). "Análise de regressão aplicada". Springer Textos em Estatística. doi : 10.1007 / b98890 . ISBN 0-387-98454-2. Citar diário requer |journal=( ajuda )