Modelo de equações simultâneas - Simultaneous equations model

Modelos de equações simultâneas são um tipo de modelo estatístico no qual as variáveis ​​dependentes são funções de outras variáveis ​​dependentes, em vez de apenas variáveis ​​independentes. Isso significa que algumas das variáveis ​​explicativas são determinadas em conjunto com a variável dependente, o que em economia geralmente é a consequência de algum mecanismo de equilíbrio subjacente . Pegue o modelo típico de oferta e demanda : embora normalmente se determine a quantidade fornecida e demandada como uma função do preço estabelecido pelo mercado, também é possível que o inverso seja verdadeiro, onde os produtores observam a quantidade que os consumidores demandam e em seguida, defina o preço.

A simultaneidade apresenta desafios para a estimativa dos parâmetros estatísticos de interesse, porque a suposição de Gauss-Markov de exogeneidade estrita dos regressores é violada. E embora seja natural estimar todas as equações simultâneas de uma vez, isso geralmente leva a um problema de otimização não linear de custo computacional, mesmo para o sistema mais simples de equações lineares . Essa situação levou ao desenvolvimento, liderado pela Comissão Cowles nas décadas de 1940 e 1950, de várias técnicas que estimam cada equação no modelo seriatim, mais notavelmente a verossimilhança limitada de máxima verossimilhança e os mínimos quadrados de dois estágios .

Forma estrutural e reduzida

Suponha que haja m equações de regressão da forma

onde i é o número da equação e t = 1, ..., T é o índice de observação. Nestas equações x que é o k i × um vector de variáveis exógenas, y que é a variável dependente, y -i, t é o n i × um vector de todas as outras variáveis endógenas que introduzir o i th equação na direita lado, e u -lo são os termos de erro. A notação “- i ” indica que o vetor y −i, t pode conter qualquer um dos y , exceto y it (uma vez que já está presente no lado esquerdo). Os coeficientes de regressão β i e γ i são de dimensões k i × 1 e n i × 1 correspondentemente. Empilhando verticalmente as observações T correspondentes à i ésima equação, podemos escrever cada equação em forma de vetor como

onde y i e u i são vetores T × 1, X i é uma matriz T × k i de regressores exógenos, e Y −i é uma matriz T × n i de regressores endógenos no lado direito da i ésima equação . Finalmente, podemos mover todas as variáveis ​​endógenas para o lado esquerdo e escrever as m equações conjuntamente na forma de vetor como

Essa representação é conhecida como forma estrutural . Nesta equação, Y = [ y 1 y 2 ... y m ] é a matriz T × m das variáveis ​​dependentes. Cada uma das matrizes Y -i é, de facto, um n i -columned submatriz deste Y . A matriz m × m Γ, que descreve a relação entre as variáveis ​​dependentes, tem uma estrutura complicada. Ele tem uns na diagonal, e todos os outros elementos de cada coluna i são os componentes do vetor −γ i ou zeros, dependendo de quais colunas de Y foram incluídas na matriz Y −i . A matriz T × k X contém todos os regressores exógenos de todas as equações, mas sem repetições (ou seja, a matriz X deve ser de classificação completa). Assim, cada X i é um K i -columned submatriz de X . A matriz Β tem tamanho k × m , e cada uma de suas colunas consiste nos componentes dos vetores β i e zeros, dependendo de quais dos regressores de X foram incluídos ou excluídos de X i . Finalmente, U = [ u 1 u 2 ... u m ] é uma matriz T × m dos termos de erro.

Após multiplicar a equação estrutural por Γ  −1 , o sistema pode ser escrito na forma reduzida como

Este já é um modelo linear geral simples e pode ser estimado, por exemplo, por mínimos quadrados ordinários . Infelizmente, a tarefa de decompor a matriz estimada nos fatores individuais Β e Γ  −1 é bastante complicada e, portanto, a forma reduzida é mais adequada para predição, mas não para inferência.

Suposições

Em primeiro lugar, a classificação da matriz X de regressores exógenos deve ser igual a k , tanto em amostras finitas quanto no limite como T → ∞ (este último requisito significa que no limite a expressão deve convergir para uma matriz k × k não degenerada ) . A matriz Γ também é considerada não degenerada.

Em segundo lugar, os termos de erro são considerados independentes em série e distribuídos de forma idêntica . Ou seja, se a t- ésima linha da matriz U é denotada por u ( t ) , então a sequência de vetores { u ( t ) } deve ser iid, com média zero e alguma matriz de covariância Σ (que é desconhecida). Em particular, isso implica que E [ U ] = 0 e E [ U′U ] = T  Σ .

Por último, as suposições são necessárias para a identificação.

Identificação

As condições de identificação requerem que o sistema de equações lineares seja solucionável para os parâmetros desconhecidos.

Mais especificamente, a condição de ordem , uma condição necessária para a identificação, é que para cada equação k i + n i ≤ k , que pode ser formulada como "o número de variáveis ​​exógenas excluídas é maior ou igual ao número de variáveis ​​endógenas incluídas" .

A condição de classificação , uma condição mais forte que é necessária e suficiente, é que a classificação de Π i 0 é igual a n i , onde Π i 0 é uma matriz ( k - k i ) × n i que é obtida de Π riscando aquelas colunas que correspondem às variáveis ​​endógenas excluídas e as linhas que correspondem às variáveis ​​exógenas incluídas.

Usando restrições de equação cruzada para alcançar a identificação

Em modelos de equações simultâneas, o método mais comum para obter identificação é impondo restrições de parâmetros dentro da equação. No entanto, a identificação também é possível usando restrições de equação cruzada.

Para ilustrar como as restrições de equação cruzada podem ser usadas para identificação, considere o seguinte exemplo de Wooldridge

onde z's não estão correlacionados com u's e y's são variáveis endógenas . Sem outras restrições, a primeira equação não é identificada porque não há variável exógena excluída. A segunda equação é apenas identificada se δ 13 ≠ 0 , o que é considerado verdadeiro para o resto da discussão.

Agora impomos a restrição da equação cruzada de δ 12 = δ 22 . Uma vez que a segunda equação é identificada, podemos tratar δ 12 como conhecido para o propósito de identificação. Então, a primeira equação se torna:

Então, podemos usar ( z 1 , z 2 , z 3 ) como instrumentos para estimar os coeficientes na equação acima, uma vez que há uma variável endógena ( y 2 ) e uma variável exógena excluída ( z 2 ) no lado direito. Portanto, as restrições de equação cruzada em vez de restrições dentro da equação podem alcançar a identificação.

Estimativa

Mínimos quadrados de dois estágios (2SLS)

O método de estimação mais simples e mais comum para o modelo de equações simultâneas é o chamado método dos mínimos quadrados em dois estágios , desenvolvido independentemente por Theil (1953) e Basmann (1957) . É uma técnica de equação por equação, em que os regressores endógenos no lado direito de cada equação estão sendo instrumentados com os regressores X de todas as outras equações. O método é chamado de "dois estágios" porque realiza a estimativa em duas etapas:

Passo 1 : Regressar Y −i em X e obter os valores previstos ;
Passo 2 : Estime γ i , β i pela regressão de mínimos quadrados ordinários de y i on e X i .

Se a i ésima equação no modelo é escrita como

onde Z i é uma matriz T × ( n i  + k i ) de ambos os regressores endógenos e exógenos na i ésima equação, e δ i é um vetor de coeficientes de regressão ( n i  + k i ) dimensional, então o estimador 2SLS de δ i será dado por

onde P = X  ( X  ' X ) -1 X  ' é a matriz de projecção no espaço linear gerado pelo exógeno regressores X .

Mínimos quadrados indiretos

Mínimos quadrados indiretos é uma abordagem em econometria onde os coeficientes em um modelo de equações simultâneas são estimados a partir do modelo de forma reduzida usando mínimos quadrados ordinários . Para isso, o sistema estrutural de equações é transformado primeiro na forma reduzida. Uma vez que os coeficientes são estimados, o modelo é colocado de volta na forma estrutural.

Máxima probabilidade de informação limitada (LIML)

O método de máxima verossimilhança de "informação limitada" foi sugerido por MA Girshick em 1947 e formalizado por TW Anderson e H. Rubin em 1949. É usado quando se está interessado em estimar uma única equação estrutural por vez (daí seu nome de informação limitada ), diga para observação i:

As equações estruturais para as variáveis ​​endógenas restantes Y −i não são especificadas e são dadas em sua forma reduzida:

A notação neste contexto é diferente do que para o caso IV simples . Um tem:

  • : As variáveis ​​endógenas.
  • : As variáveis ​​exógenas
  • : O (s) instrumento (s) (freqüentemente denotados )

A fórmula explícita para o LIML é:

onde M = I - X  ( X  ′ X ) −1 X  ′ , e λ é a menor raiz característica da matriz:

onde, de forma semelhante, M i = I - X i  ( X i X i ) −1 X i .

Em outras palavras, λ é a menor solução do problema de autovalor generalizado , consulte Theil (1971 , p. 503):

Estimadores de classe K

O LIML é um caso especial dos estimadores da classe K:

com:

Vários estimadores pertencem a esta classe:

  • κ = 0: OLS
  • κ = 1: 2SLS. Observe de fato que, neste caso, a matriz de projeção usual do 2SLS
  • κ = λ: LIML
  • κ = λ - α (nK): estimador Fuller (1977) . Aqui, K representa o número de instrumentos, n o tamanho da amostra e α uma constante positiva a ser especificada. Um valor de α = 1 produzirá um estimador que é aproximadamente imparcial.

Mínimos quadrados de três estágios (3SLS)

O estimador de mínimos quadrados de três estágios foi introduzido por Zellner & Theil (1962) . Pode ser visto como um caso especial de GMM de múltiplas equações, onde o conjunto de variáveis ​​instrumentais é comum a todas as equações. Se todos os regressores são de fato predeterminados, então o 3SLS se reduz a regressões aparentemente não relacionadas (SUR). Portanto, também pode ser visto como uma combinação de mínimos quadrados de dois estágios (2SLS) com SUR.

Aplicações em ciências sociais

Em todos os campos e disciplinas, modelos de equações simultâneas são aplicados a vários fenômenos observacionais. Essas equações são aplicadas quando os fenômenos são assumidos como reciprocamente causais. O exemplo clássico é a oferta e a demanda na economia . Em outras disciplinas, há exemplos como avaliações de candidatos e identificação partidária ou opinião pública e política social em ciências políticas ; investimento em estradas e demanda de viagens na geografia; e realização educacional e entrada da paternidade na sociologia ou demografia . O modelo de equação simultânea requer uma teoria de causalidade recíproca que inclui características especiais se os efeitos causais devem ser estimados como feedback simultâneo em oposição a 'blocos' unilaterais de uma equação onde um pesquisador está interessado no efeito causal de X em Y enquanto mantém o efeito causal de Y em X constante, ou quando o pesquisador sabe a quantidade exata de tempo que leva para cada efeito causal ocorrer, ou seja, a duração dos atrasos causais. Em vez de efeitos retardados, feedback simultâneo significa estimar o impacto simultâneo e perpétuo de X e Y um no outro. Isso requer uma teoria de que os efeitos causais são simultâneos no tempo, ou tão complexos que parecem se comportar simultaneamente; um exemplo comum são os humores dos colegas de quarto. Para estimar modelos de feedback simultâneo, uma teoria de equilíbrio também é necessária - que X e Y estão em estados relativamente estáveis ​​ou são parte de um sistema (sociedade, mercado, sala de aula) que está em um estado relativamente estável.

Veja também

Referências

Leitura adicional

links externos