Análise de regressão - Regression analysis

Linha de regressão para 50 pontos aleatórios em uma distribuição gaussiana em torno da linha y=1,5x+2 (não mostrada).

Na modelagem estatística , a análise de regressão é um conjunto de processos estatísticos para estimar as relações entre uma variável dependente (geralmente chamada de variável de 'resultado' ou 'resposta') e uma ou mais variáveis ​​independentes (geralmente chamadas de 'preditores', 'covariáveis', 'variáveis ​​explicativas' ou 'características'). A forma mais comum de análise de regressão é a regressão linear , na qual se encontra a linha (ou uma combinação linear mais complexa ) que mais se ajusta aos dados de acordo com um critério matemático específico. Por exemplo, o método dos mínimos quadrados ordinários calcula a linha exclusiva (ou hiperplano ) que minimiza a soma das diferenças quadradas entre os dados verdadeiros e essa linha (ou hiperplano). Por razões matemáticas específicas (ver regressão linear ), isso permite ao pesquisador estimar a expectativa condicional (ou valor médio populacional ) da variável dependente quando as variáveis ​​independentes assumem um determinado conjunto de valores. Formas menos comuns de regressão usam procedimentos ligeiramente diferentes para estimar parâmetros de localização alternativos (por exemplo, regressão quantílica ou análise de condição necessária) ou estimar a expectativa condicional em uma coleção mais ampla de modelos não lineares (por exemplo, regressão não paramétrica ).

A análise de regressão é usada principalmente para dois propósitos conceitualmente distintos.

Primeiro, a análise de regressão é amplamente utilizada para previsão e previsão , onde seu uso tem uma sobreposição substancial com o campo de aprendizado de máquina .

Em segundo lugar, em algumas situações, a análise de regressão pode ser usada para inferir relações causais entre as variáveis ​​independentes e dependentes. É importante ressaltar que as regressões por si só revelam relações entre uma variável dependente e uma coleção de variáveis ​​independentes em um conjunto de dados fixo. Para usar regressões para previsão ou para inferir relações causais, respectivamente, um pesquisador deve justificar cuidadosamente por que as relações existentes têm poder preditivo para um novo contexto ou por que uma relação entre duas variáveis ​​tem uma interpretação causal. Este último é especialmente importante quando os pesquisadores esperam estimar relações causais usando dados observacionais .

História

A forma mais antiga de regressão foi o método dos mínimos quadrados , que foi publicado por Legendre em 1805 e por Gauss em 1809. Legendre e Gauss aplicaram o método ao problema de determinar, a partir de observações astronômicas, as órbitas dos corpos em torno do Sol. (principalmente cometas, mas também mais tarde os planetas menores recém-descobertos). Gauss publicou um desenvolvimento adicional da teoria dos mínimos quadrados em 1821, incluindo uma versão do teorema de Gauss-Markov .

O termo "regressão" foi cunhado por Francis Galton no século 19 para descrever um fenômeno biológico. O fenômeno foi que as alturas dos descendentes de ancestrais altos tendem a regredir para uma média normal (um fenômeno também conhecido como regressão para a média ). Para Galton, a regressão tinha apenas esse significado biológico, mas seu trabalho foi posteriormente estendido por Udny Yule e Karl Pearson para um contexto estatístico mais geral. No trabalho de Yule e Pearson, a distribuição conjunta da resposta e das variáveis ​​explicativas é assumida como gaussiana . Essa suposição foi enfraquecida por RA Fisher em seus trabalhos de 1922 e 1925. Fisher assumiu que a distribuição condicional da variável de resposta é gaussiana, mas a distribuição conjunta não precisa ser. A este respeito, a suposição de Fisher está mais próxima da formulação de Gauss de 1821.

Nas décadas de 1950 e 1960, os economistas usavam "calculadoras" eletromecânicas de mesa para calcular regressões. Antes de 1970, às vezes levava até 24 horas para receber o resultado de uma regressão.

Os métodos de regressão continuam a ser uma área de pesquisa ativa. Nas últimas décadas, novos métodos foram desenvolvidos para regressão robusta , regressão envolvendo respostas correlacionadas como séries temporais e curvas de crescimento , regressão em que o preditor (variável independente) ou variáveis ​​de resposta são curvas, imagens, gráficos ou outros objetos de dados complexos, métodos de regressão acomodando vários tipos de dados perdidos, regressão não paramétrica , métodos bayesianos para regressão, regressão em que as variáveis ​​preditoras são medidas com erro, regressão com mais variáveis ​​preditoras do que observações e inferência causal com regressão.

Modelo de regressão

Na prática, os pesquisadores primeiro selecionam um modelo que gostariam de estimar e depois usam o método escolhido (por exemplo, mínimos quadrados ordinários ) para estimar os parâmetros desse modelo. Os modelos de regressão envolvem os seguintes componentes:

  • Os parâmetros desconhecidos , muitas vezes denotados como escalares ou vetoriais .
  • As variáveis ​​independentes , que são observadas nos dados e geralmente são denotadas como um vetor (onde denota uma linha de dados).
  • A variável dependente , que são observadas nos dados e muitas vezes denotadas usando o escalar .
  • Os termos de erro , que não são observados diretamente nos dados e geralmente são denotados usando o escalar .

Em vários campos de aplicação , diferentes terminologias são usadas no lugar de variáveis ​​dependentes e independentes .

A maioria dos modelos de regressão propõe que é uma função de e , representando um termo de erro aditivo que pode substituir determinantes não modelados ou ruído estatístico aleatório:

O objetivo dos pesquisadores é estimar a função que mais se ajusta aos dados. Para realizar a análise de regressão, a forma da função deve ser especificada. Às vezes, a forma dessa função é baseada no conhecimento sobre a relação entre e que não depende dos dados. Se esse conhecimento não estiver disponível, uma forma flexível ou conveniente é escolhida. Por exemplo, uma simples regressão univariada pode propor , sugerindo que o pesquisador acredita ser uma aproximação razoável para o processo estatístico gerador dos dados.

Uma vez que os pesquisadores determinam seu modelo estatístico preferido , diferentes formas de análise de regressão fornecem ferramentas para estimar os parâmetros . Por exemplo, os mínimos quadrados (incluindo sua variante mais comum, os mínimos quadrados ordinários ) encontra o valor de que minimiza a soma dos erros quadrados . Um determinado método de regressão fornecerá uma estimativa de , geralmente indicada para distinguir a estimativa do valor do parâmetro verdadeiro (desconhecido) que gerou os dados. Usando essa estimativa, o pesquisador pode então usar o valor ajustado para previsão ou para avaliar a precisão do modelo na explicação dos dados. Se o pesquisador está intrinsecamente interessado na estimativa ou no valor previsto dependerá do contexto e de seus objetivos. Conforme descrito em mínimos quadrados ordinários , os mínimos quadrados são amplamente utilizados porque a função estimada se aproxima da expectativa condicional . No entanto, variantes alternativas (por exemplo, desvios absolutos mínimos ou regressão quantílica ) são úteis quando os pesquisadores desejam modelar outras funções .

É importante notar que deve haver dados suficientes para estimar um modelo de regressão. Por exemplo, suponha que um pesquisador tenha acesso a linhas de dados com uma variável dependente e duas variáveis ​​independentes: . Suponha ainda que o pesquisador queira estimar um modelo linear bivariado via mínimos quadrados : . Se o pesquisador tiver acesso apenas a pontos de dados, ele poderá encontrar infinitas combinações que explicam os dados igualmente bem: qualquer combinação pode ser escolhida que satisfaça , todas as quais levam a e são, portanto, soluções válidas que minimizam a soma dos resíduos quadrados . Para entender por que existem infinitas opções, observe que o sistema de equações deve ser resolvido para 3 incógnitas, o que torna o sistema subdeterminado . Alternativamente, pode-se visualizar infinitos planos tridimensionais que passam por pontos fixos.

De forma mais geral, para estimar um modelo de mínimos quadrados com parâmetros distintos, deve-se ter pontos de dados distintos. Se , então geralmente não existe um conjunto de parâmetros que se ajustem perfeitamente aos dados. A quantidade aparece frequentemente na análise de regressão e é referida como os graus de liberdade no modelo. Além disso, para estimar um modelo de mínimos quadrados, as variáveis ​​independentes devem ser linearmente independentes : não se deve poder reconstruir nenhuma das variáveis ​​independentes somando e multiplicando as variáveis ​​independentes restantes. Conforme discutido em mínimos quadrados ordinários , essa condição garante que é uma matriz invertível e, portanto, que existe uma solução única .

Suposições subjacentes

Por si só, uma regressão é simplesmente um cálculo usando os dados. Para interpretar a saída de uma regressão como uma quantidade estatística significativa que mede as relações do mundo real, os pesquisadores geralmente se baseiam em várias suposições clássicas . Estes geralmente incluem:

  • A amostra é representativa da população em geral.
  • As variáveis ​​independentes são medidas sem erro.
  • Os desvios do modelo têm um valor esperado de zero, condicionado às covariáveis:
  • A variância dos resíduos é constante entre as observações ( homocedasticidade ).
  • Os resíduos não são correlacionados entre si. Matematicamente, a matriz de variância-covariância dos erros é diagonal .

Um punhado de condições são suficientes para que o estimador de mínimos quadrados possua propriedades desejáveis: em particular, as suposições de Gauss-Markov implicam que as estimativas de parâmetros serão imparciais , consistentes e eficientes na classe de estimadores lineares não enviesados. Os praticantes desenvolveram uma variedade de métodos para manter algumas ou todas essas propriedades desejáveis ​​em ambientes do mundo real, porque é improvável que essas suposições clássicas se mantenham exatamente. Por exemplo, a modelagem de erros em variáveis pode levar a estimativas razoáveis ​​de que variáveis ​​independentes são medidas com erros. Os erros padrão consistentes com a heterocedasticidade permitem que a variação de mude entre os valores de . Erros correlacionados que existem em subconjuntos de dados ou seguem padrões específicos podem ser tratados usando erros padrão agrupados, regressão geográfica ponderada ou erros padrão Newey-West , entre outras técnicas. Quando as linhas de dados correspondem a localizações no espaço, a escolha de como modelar dentro de unidades geográficas pode ter consequências importantes. O subcampo da econometria é amplamente focado no desenvolvimento de técnicas que permitem aos pesquisadores tirar conclusões razoáveis ​​do mundo real em ambientes do mundo real, onde as suposições clássicas não se sustentam exatamente.

Regressão linear

Na regressão linear, a especificação do modelo é que a variável dependente, seja uma combinação linear dos parâmetros (mas não precisa ser linear nas variáveis ​​independentes ). Por exemplo, na regressão linear simples para pontos de dados de modelagem , há uma variável independente: , e dois parâmetros, e :

linha reta:

Na regressão linear múltipla, existem várias variáveis ​​independentes ou funções de variáveis ​​independentes.

Adicionando um termo à regressão anterior dá:

parábola:

Isso ainda é regressão linear; embora a expressão do lado direito seja quadrática na variável independente , ela é linear nos parâmetros , e

Em ambos os casos, é um termo de erro e o subscrito indexa uma observação particular.

Voltando nossa atenção para o caso da linha reta: Dada uma amostra aleatória da população, estimamos os parâmetros populacionais e obtemos o modelo de regressão linear amostral:

O resíduo , , é a diferença entre o valor da variável dependente prevista pelo modelo, , e o valor verdadeiro da variável dependente, . Um método de estimativa é o dos mínimos quadrados ordinários . Este método obtém estimativas de parâmetros que minimizam a soma dos resíduos quadrados , SSR :

A minimização desta função resulta em um conjunto de equações normais , um conjunto de equações lineares simultâneas nos parâmetros, que são resolvidas para produzir os estimadores de parâmetro, .

Ilustração de regressão linear em um conjunto de dados.

No caso de regressão simples, as fórmulas para as estimativas de mínimos quadrados são

onde é a média (média) dos valores e é a média dos valores.

Sob a suposição de que o termo de erro da população tem uma variância constante, a estimativa dessa variância é dada por:

Isso é chamado de erro quadrático médio (MSE) da regressão. O denominador é o tamanho da amostra reduzido pelo número de parâmetros do modelo estimados a partir dos mesmos dados, para regressores ou se for utilizado um intercepto. Neste caso, então o denominador é .

Os erros padrão das estimativas dos parâmetros são dados por

Sob a suposição adicional de que o termo de erro da população é normalmente distribuído, o pesquisador pode usar esses erros padrão estimados para criar intervalos de confiança e realizar testes de hipóteses sobre os parâmetros da população .

Modelo linear geral

No modelo de regressão múltipla mais geral, existem variáveis ​​independentes:

onde é a -ésima observação na -ésima variável independente. Se a primeira variável independente assume o valor 1 para todos , , então é chamada de interceptação de regressão .

As estimativas dos parâmetros de mínimos quadrados são obtidas a partir de equações normais. O resíduo pode ser escrito como

As equações normais são

Em notação matricial, as equações normais são escritas como

onde o elemento de é , o elemento do vetor coluna é , e o elemento de é . Assim é , é , e é . A solução é

Diagnóstico

Uma vez que um modelo de regressão tenha sido construído, pode ser importante confirmar a qualidade do ajuste do modelo e a significância estatística dos parâmetros estimados. Verificações de qualidade de ajuste comumente usadas incluem o R-quadrado , análises do padrão de resíduos e testes de hipóteses. A significância estatística pode ser verificada por um teste F do ajuste geral, seguido por testes t de parâmetros individuais.

As interpretações desses testes diagnósticos baseiam-se fortemente nas suposições do modelo. Embora o exame dos resíduos possa ser usado para invalidar um modelo, os resultados de um teste t ou teste F às vezes são mais difíceis de interpretar se as suposições do modelo forem violadas. Por exemplo, se o termo de erro não tiver distribuição normal, em amostras pequenas os parâmetros estimados não seguirão distribuições normais e complicarão a inferência. Com amostras relativamente grandes, no entanto, um teorema do limite central pode ser invocado de modo que o teste de hipóteses possa prosseguir usando aproximações assintóticas.

Variáveis ​​dependentes limitadas

Variáveis ​​dependentes limitadas , que são variáveis ​​de resposta que são variáveis ​​categóricas ou são variáveis ​​restritas a cair apenas em um determinado intervalo, geralmente surgem em econometria .

A variável de resposta pode ser não contínua ("limitada" para estar em algum subconjunto da linha real). Para variáveis ​​binárias (zero ou um), se a análise prosseguir com regressão linear de mínimos quadrados, o modelo é chamado de modelo de probabilidade linear . Modelos não lineares para variáveis ​​dependentes binárias incluem o modelo probit e logit . O modelo probit multivariado é um método padrão para estimar uma relação conjunta entre várias variáveis ​​dependentes binárias e algumas variáveis ​​independentes. Para variáveis ​​categóricas com mais de dois valores existe o logit multinomial . Para variáveis ​​ordinais com mais de dois valores, existem os modelos logit ordenado e probit ordenado . Modelos de regressão censurados podem ser usados ​​quando a variável dependente é observada apenas algumas vezes, e modelos do tipo correção de Heckman podem ser usados ​​quando a amostra não é selecionada aleatoriamente da população de interesse. Uma alternativa a tais procedimentos é a regressão linear baseada na correlação policórica (ou correlações polisseriadas) entre as variáveis ​​categóricas. Tais procedimentos diferem nas suposições feitas sobre a distribuição das variáveis ​​na população. Se a variável for positiva com valores baixos e representar a repetição da ocorrência de um evento, podem ser utilizados modelos de contagem como a regressão de Poisson ou o modelo binomial negativo .

Regressão não linear

Quando a função do modelo não é linear nos parâmetros, a soma dos quadrados deve ser minimizada por um procedimento iterativo. Isso introduz muitas complicações que estão resumidas em Diferenças entre mínimos quadrados lineares e não lineares .

Interpolação e extrapolação

No meio, a linha reta interpolada representa o melhor equilíbrio entre os pontos acima e abaixo desta linha. As linhas pontilhadas representam as duas linhas extremas. As primeiras curvas representam os valores estimados. As curvas externas representam uma previsão para uma nova medição.

Os modelos de regressão preveem um valor da variável Y dados valores conhecidos das variáveis X. A previsão dentro do intervalo de valores no conjunto de dados usado para ajuste de modelo é conhecida informalmente como interpolação . A previsão fora desse intervalo de dados é conhecida como extrapolação . A execução da extrapolação depende fortemente das suposições de regressão. Quanto mais a extrapolação for além dos dados, mais espaço haverá para o modelo falhar devido a diferenças entre as suposições e os dados da amostra ou os valores verdadeiros.

Geralmente é aconselhável que ao realizar a extrapolação, deve-se acompanhar o valor estimado da variável dependente com um intervalo de previsão que representa a incerteza. Tais intervalos tendem a se expandir rapidamente à medida que os valores das variáveis ​​independentes se movem para fora do intervalo coberto pelos dados observados.

Por essas e outras razões, alguns tendem a dizer que pode ser imprudente realizar a extrapolação.

No entanto, isso não abrange todo o conjunto de erros de modelagem que podem ser cometidos: em particular, a suposição de uma forma particular para a relação entre Y e X . Uma análise de regressão adequadamente conduzida incluirá uma avaliação de quão bem a forma assumida corresponde aos dados observados, mas só pode fazê-lo dentro da faixa de valores das variáveis ​​independentes realmente disponíveis. Isso significa que qualquer extrapolação depende particularmente das suposições feitas sobre a forma estrutural da relação de regressão. O conselho de melhor prática aqui é que um relacionamento linear em variáveis ​​e linear em parâmetros não deve ser escolhido simplesmente por conveniência computacional, mas que todo o conhecimento disponível deve ser implantado na construção de um modelo de regressão. Se esse conhecimento inclui o fato de que a variável dependente não pode sair de um determinado intervalo de valores, isso pode ser usado na seleção do modelo – mesmo que o conjunto de dados observado não tenha valores particularmente próximos a esses limites. As implicações desta etapa de escolha de uma forma funcional adequada para a regressão podem ser grandes quando se considera a extrapolação. No mínimo, pode garantir que qualquer extrapolação decorrente de um modelo ajustado seja "realista" (ou de acordo com o que é conhecido).

Cálculos de poder e tamanho da amostra

Não há métodos geralmente aceitos para relacionar o número de observações versus o número de variáveis ​​independentes no modelo. Um método conjecturado por Good e Hardin é , onde é o tamanho da amostra, é o número de variáveis ​​independentes e é o número de observações necessárias para atingir a precisão desejada se o modelo tivesse apenas uma variável independente. Por exemplo, um pesquisador está construindo um modelo de regressão linear usando um conjunto de dados que contém 1.000 pacientes ( ). Se o pesquisador decidir que são necessárias cinco observações para definir com precisão uma linha reta ( ), então o número máximo de variáveis ​​independentes que o modelo pode suportar é 4, porque

Outros métodos

Embora os parâmetros de um modelo de regressão sejam geralmente estimados usando o método dos mínimos quadrados, outros métodos que têm sido usados ​​incluem:

Programas

Todos os principais pacotes de software estatístico realizam análise e inferência de regressão por mínimos quadrados . A regressão linear simples e a regressão múltipla usando mínimos quadrados podem ser feitas em alguns aplicativos de planilha e em algumas calculadoras. Embora muitos pacotes de software estatístico possam realizar vários tipos de regressão não paramétrica e robusta, esses métodos são menos padronizados; pacotes de software diferentes implementam métodos diferentes, e um método com um determinado nome pode ser implementado de forma diferente em pacotes diferentes. Um software de regressão especializado foi desenvolvido para uso em áreas como análise de pesquisa e neuroimagem.

Veja também

Referências

Leitura adicional

Evan J. Williams, "I. Regressão", pp. 523-41.
Julian C. Stanley , "II. Análise de Variância", pp. 541-554.

links externos