Interação (estatísticas) - Interaction (statistics)
Em estatística , uma interação pode surgir ao considerar a relação entre três ou mais variáveis e descreve uma situação em que o efeito de uma variável causal em um resultado depende do estado de uma segunda variável causal (isto é, quando os efeitos das duas causas não são aditivas ). Embora comumente pensado em termos de relações causais, o conceito de uma interação também pode descrever associações não causais. As interações são frequentemente consideradas no contexto de análises de regressão ou experimentos fatoriais .
A presença de interações pode ter implicações importantes para a interpretação de modelos estatísticos. Se duas variáveis de interesse interagem, a relação entre cada uma das variáveis de interação e uma terceira "variável dependente" depende do valor da outra variável de interação. Na prática, isso torna mais difícil prever as consequências da alteração do valor de uma variável, especialmente se as variáveis com as quais ela interage são difíceis de medir ou controlar.
A noção de "interação" está intimamente relacionada à de moderação que é comum na pesquisa em ciências sociais e da saúde: a interação entre uma variável explicativa e uma variável ambiental sugere que o efeito da variável explicativa foi moderado ou modificado pela variável ambiental .
Introdução
Uma variável de interação ou recurso de interação é uma variável construída a partir de um conjunto original de variáveis para tentar representar toda a interação presente ou alguma parte dela. Em análises estatísticas exploratórias é comum usar produtos de variáveis originais como base para testar se a interação está presente com a possibilidade de substituir outras variáveis de interação mais realistas em um estágio posterior. Quando há mais de duas variáveis explicativas, várias variáveis de interação são construídas, com produtos de pares representando interações de pares e produtos de ordem superior representando interações de ordem superior.
Assim, para uma resposta Y e duas variáveis x 1 e x 2 um aditivo modelo seria:
Em contraste com isso,
é um exemplo de um modelo com uma interacção entre as variáveis x 1 e x 2 ( "erro" refere-se a variável aleatória cujo valor é que, através da qual Y for diferente do valor esperado de Y ; ver erros e resíduos nas estatísticas ). Freqüentemente, os modelos são apresentados sem o termo de interação , mas isso confunde o efeito principal e o efeito de interação (ou seja, sem especificar o termo de interação, é possível que qualquer efeito principal encontrado seja realmente devido a uma interação).
Na modelagem
Em ANOVA
Uma configuração simples em que as interações podem surgir é um experimento de dois fatores analisado usando Análise de Variância (ANOVA). Suponha que temos dois fatores binários A e B . Por exemplo, esses fatores podem indicar se um dos dois tratamentos foi administrado a um paciente, com os tratamentos aplicados isoladamente ou em combinação. Podemos então considerar a resposta média ao tratamento (por exemplo, os níveis de sintomas após o tratamento) para cada paciente, como uma função da combinação de tratamento que foi administrada. A tabela a seguir mostra uma situação possível:
B = 0 | B = 1 | |
---|---|---|
A = 0 | 6 | 7 |
A = 1 | 4 | 5 |
Neste exemplo, não há interação entre os dois tratamentos - seus efeitos são aditivos. A razão para isso é que a diferença na resposta média entre os indivíduos que recebem o tratamento A e aqueles que não recebem o tratamento A é −2, independentemente de o tratamento B ser administrado (−2 = 4 - 6) ou não (−2 = 5 - 7 ) Observe que segue-se automaticamente que a diferença na resposta média entre os indivíduos que recebem o tratamento B e aqueles que não recebem o tratamento B é a mesma, independentemente de o tratamento A ser administrado (7 - 6 = 5 - 4).
Em contraste, se as seguintes respostas médias forem observadas
B = 0 | B = 1 | |
---|---|---|
A = 0 | 1 | 4 |
A = 1 | 7 | 6 |
então há uma interação entre os tratamentos - seus efeitos não são aditivos. Supondo que um maior número de correspondência para uma resposta melhor, nesta situação o tratamento B é útil, em média, se o sujeito não está também a receber tratamento de um , mas é prejudicial, em média, se administrado em combinação com o tratamento com um . Tratamento Um é útil, em média, independentemente de se o tratamento B também é administrado, mas é mais útil, tanto em termos absolutos e relativos, se administrado sozinho, em vez de em combinação com tratamento B . Observações semelhantes são feitas para este exemplo específico na próxima seção.
Interações qualitativas e quantitativas
Em muitas aplicações, é útil distinguir entre interações qualitativas e quantitativas. Uma interacção quantitativa entre A e B é uma situação em que a magnitude do efeito de B depende do valor de A , mas a direcção do efeito de B é constante para todos Uma . Uma interação qualitativa entre A e B refere-se a uma situação em que a magnitude e a direção do efeito de cada variável podem depender do valor da outra variável.
A tabela de médias à esquerda, abaixo, mostra uma interação quantitativa - o tratamento A é benéfico tanto quando B é dado, quanto quando B não é dado, mas o benefício é maior quando B não é dado (ou seja, quando A é dado sozinho) . A tabela de meios à direita mostra uma interação qualitativa. A é prejudicial quando B é dado, mas é benéfico quando B não é dado. Observe que a mesma interpretação seria válida se considerarmos o benefício de B com base no fato de A ser dado.
B = 0 | B = 1 | B = 0 | B = 1 | |||||||
---|---|---|---|---|---|---|---|---|---|---|
A = 0 | 2 | 1 | A = 0 | 2 | 6 | |||||
A = 1 | 5 | 3 | A = 1 | 5 | 3 |
A distinção entre interações qualitativas e quantitativas depende da ordem em que as variáveis são consideradas (em contraste, a propriedade de aditividade é invariante à ordem das variáveis). Na tabela a seguir, se nos concentrarmos no efeito do tratamento A , há uma interação quantitativa - administrar o tratamento A melhorará o resultado em média, independentemente de o tratamento B já estar ou não sendo administrado (embora o benefício seja maior se o tratamento A é fornecido sozinho). No entanto, se nos concentrarmos no efeito do tratamento B , há uma interação qualitativa - dar o tratamento B a um sujeito que já está recebendo o tratamento A (em média) piorará as coisas, enquanto dar o tratamento B a um sujeito que não está recebendo o tratamento A melhorará o resultado em média.
B = 0 | B = 1 | |
---|---|---|
A = 0 | 1 | 4 |
A = 1 | 7 | 6 |
Aditividade de tratamento de unidade
Em sua forma mais simples, a suposição de aditividade da unidade de tratamento afirma que a resposta observada y ij da unidade experimental i ao receber o tratamento j pode ser escrita como a soma y ij = y i + t j . A suposição de aditividade de tratamento de unidade implica que todo tratamento tem exatamente o mesmo efeito aditivo em cada unidade experimental. Uma vez que qualquer unidade experimental pode ser submetida a apenas um dos tratamentos, a suposição de aditividade do tratamento da unidade é uma hipótese que não é diretamente falsificável, de acordo com Cox e Kempthorne.
No entanto, muitas consequências da aditividade da unidade de tratamento podem ser falsificadas. Para um experimento randomizado, a suposição de aditividade do tratamento implica que a variância é constante para todos os tratamentos. Portanto, por contraposição, uma condição necessária para a aditividade do tratamento unitário é que a variância seja constante.
A propriedade de aditividade de tratamento de unidade não é invariável sob uma mudança de escala, portanto, os estatísticos costumam usar transformações para atingir a aditividade de tratamento de unidade. Se se espera que a variável de resposta siga uma família paramétrica de distribuições de probabilidade, o estatístico pode especificar (no protocolo para o experimento ou estudo observacional) que as respostas sejam transformadas para estabilizar a variância. Em muitos casos, um estatístico pode especificar que as transformações logarítmicas sejam aplicadas às respostas, que se acredita que sigam um modelo multiplicativo.
A suposição de aditividade de tratamento de unidade foi enunciada no projeto experimental por Kempthorne e Cox. O uso de aditividade e randomização de tratamento de unidade por Kempthorne é semelhante à análise baseada em projeto de amostragem de pesquisa de população finita.
Nos últimos anos, tornou-se comum usar a terminologia de Donald Rubin, que usa contrafactuais. Suponha que estejamos comparando dois grupos de pessoas com relação a algum atributo y . Por exemplo, o primeiro grupo pode consistir de pessoas que recebem um tratamento padrão para uma condição médica, com o segundo grupo consistindo de pessoas que recebem um novo tratamento com efeito desconhecido. Tomando uma perspectiva "contrafactual", podemos considerar um indivíduo cujo atributo tem valor y se esse indivíduo pertence ao primeiro grupo, e cujo atributo tem valor τ ( y ) se o indivíduo pertence ao segundo grupo. A suposição de "aditividade de tratamento por unidade" é que τ ( y ) = τ , ou seja, o "efeito do tratamento" não depende de y . Uma vez que não podemos observar y e τ ( y ) para um determinado indivíduo, isso não é testável no nível individual. No entanto, a aditividade do tratamento unitário implica que as funções de distribuição cumulativa F 1 e F 2 para os dois grupos satisfaçam F 2 ( y ) = F 1 ( y - τ ), desde que a atribuição dos indivíduos aos grupos 1 e 2 seja independente de todos os outros fatores que influenciam y (ou seja, não há fatores de confusão ). A falta de aditividade de tratamento de unidade pode ser vista como uma forma de interação entre a atribuição de tratamento (por exemplo, para os grupos 1 ou 2) e a linha de base, ou valor não tratado de y .
Variáveis categóricas
Às vezes, as variáveis de interação são variáveis categóricas em vez de números reais e o estudo pode então ser tratado como um problema de análise de variância . Por exemplo, os membros de uma população podem ser classificados por religião e profissão. Se alguém deseja prever a altura de uma pessoa com base apenas em sua religião e ocupação, um modelo aditivo simples , ou seja, um modelo sem interação, acrescentaria a uma altura média geral um ajuste para uma religião particular e outro para uma ocupação particular. Um modelo com interação, ao contrário de um modelo aditivo , poderia adicionar um ajuste adicional para a "interação" entre aquela religião e aquela ocupação. Este exemplo pode fazer com que alguém suspeite que a palavra interação é um nome impróprio.
Estatisticamente, a presença de uma interação entre variáveis categóricas é geralmente testada usando uma forma de análise de variância (ANOVA). Se uma ou mais das variáveis são de natureza contínua, entretanto, normalmente seriam testadas usando regressão múltipla moderada. Isso é assim chamado porque um moderador é uma variável que afeta a força de uma relação entre duas outras variáveis.
Experimentos projetados
Genichi Taguchi afirmou que as interações podem ser eliminadas de um sistema pela escolha apropriada da variável de resposta e transformação. No entanto, George Box e outros argumentaram que este não é o caso em geral.
Tamanho do modelo
Dados n preditores, o número de termos em um modelo linear que inclui uma constante, todo preditor e toda interação possível é . Uma vez que essa quantidade cresce exponencialmente, torna-se facilmente impraticávelmente grande. Um método para limitar o tamanho do modelo é limitar a ordem das interações. Por exemplo, se apenas interações bidirecionais forem permitidas, o número de termos se torna . A tabela abaixo mostra o número de termos para cada número de preditores e ordem máxima de interação.
Preditores | Incluindo até interações m- way | ||||
---|---|---|---|---|---|
2 | 3 | 4 | 5 | ∞ | |
1 | 2 | 2 | 2 | 2 | 2 |
2 | 4 | 4 | 4 | 4 | 4 |
3 | 7 | 8 | 8 | 8 | 8 |
4 | 11 | 15 | 16 | 16 | 16 |
5 | 16 | 26 | 31 | 32 | 32 |
6 | 22 | 42 | 57 | 63 | 64 |
7 | 29 | 64 | 99 | 120 | 128 |
8 | 37 | 93 | 163 | 219 | 256 |
9 | 46 | 130 | 256 | 382 | 512 |
10 | 56 | 176 | 386 | 638 | 1.024 |
11 | 67 | 232 | 562 | 1.024 | 2.048 |
12 | 79 | 299 | 794 | 1.586 | 4.096 |
13 | 92 | 378 | 1.093 | 2.380 | 8.192 |
14 | 106 | 470 | 1.471 | 3.473 | 16.384 |
15 | 121 | 576 | 1.941 | 4.944 | 32.768 |
20 | 211 | 1.351 | 6.196 | 21.700 | 1.048.576 |
25 | 326 | 2.626 | 15.276 | 68.406 | 33.554.432 |
50 | 1.276 | 20.876 | 251.176 | 2.369.936 | 10 15 |
100 | 5.051 | 166.751 | 4.087.976 | 79.375.496 | 10 30 |
1.000 | 500.501 | 166.667.501 | 10 10 | 10 12 | 10 300 |
Em regressão
A abordagem mais geral para modelar efeitos de interação envolve regressão, começando com a versão elementar fornecida acima:
onde o termo de interação pode ser formado explicitamente pela multiplicação de duas (ou mais) variáveis, ou implicitamente usando notação fatorial em pacotes estatísticos modernos, como Stata . Os componentes x 1 e x 2, pode ser medições ou {0,1} manequim variáveis em qualquer combinação. As interações envolvendo uma variável fictícia multiplicada por uma variável de medição são denominadas variáveis fictícias de inclinação , porque estimam e testam a diferença nas inclinações entre os grupos 0 e 1.
Quando variáveis de medição são empregadas em interações, geralmente é desejável trabalhar com versões centralizadas, onde a média da variável (ou algum outro valor razoavelmente central) é definida como zero. A centralização pode tornar os efeitos principais nos modelos de interação mais interpretáveis, pois reduz a multicolinearidade entre o termo de interação e os efeitos principais. O coeficiente a na equação acima, por exemplo, representa o efeito de x 1 quando x 2 é igual a zero.
As abordagens de regressão para modelagem de interação são muito gerais porque podem acomodar preditores adicionais e muitas especificações alternativas ou estratégias de estimativa além dos mínimos quadrados ordinários . Modelos robustos , quantílicos e de efeitos mistos ( multinível ) estão entre as possibilidades, assim como a modelagem linear generalizada que abrange uma ampla gama de variáveis dependentes categóricas, ordenadas, contadas ou limitadas de outra forma. O gráfico representa uma interação educação * política, a partir de uma análise de regressão logit ponderada por probabilidade de dados de pesquisa.
Gráficos de interação
Os gráficos de interação mostram as possíveis interações entre as variáveis.
Exemplo: interação de espécies e temperatura do ar e seu efeito na temperatura corporal
Considere um estudo da temperatura corporal de diferentes espécies em diferentes temperaturas do ar, em graus Fahrenheit. Os dados são mostrados na tabela abaixo.
O gráfico de interação pode usar a temperatura do ar ou a espécie como eixo x. O segundo fator é representado por linhas no gráfico de interação.
Existe uma interação entre os dois fatores (temperatura do ar e espécie) no seu efeito na resposta (temperatura corporal), pois o efeito da temperatura do ar depende da espécie. A interação é indicada no gráfico porque as linhas não são paralelas.
Exemplo: efeito da gravidade do AVC e tratamento na recuperação
Como um segundo exemplo, considere um ensaio clínico sobre a interação entre a gravidade do AVC e a eficácia de um medicamento na sobrevida do paciente. Os dados são mostrados na tabela abaixo.
No gráfico de interação, as linhas para os grupos de AVC leve e moderado são paralelas, indicando que o medicamento tem o mesmo efeito em ambos os grupos, portanto não há interação. A linha para o grupo de AVC grave não é paralela às outras linhas, indicando que há uma interação entre a gravidade do AVC e o efeito da droga na sobrevivência. A linha para o grupo de AVC grave é plana, indicando que, entre esses pacientes, não há diferença na sobrevida entre os tratamentos com medicamento e placebo. Em contraste, as linhas para os grupos de AVC leve e moderado inclinam-se para a direita, indicando que, entre esses pacientes, o grupo placebo tem sobrevida menor do que o grupo tratado com drogas.
Testes de hipótese para interações
A análise de variância e a análise de regressão são usadas para testar interações significativas.
Exemplo: interação de temperatura e tempo no cozimento de biscoitos
O rendimento de bons biscoitos é afetado pela temperatura de cozimento e pelo tempo no forno? A tabela mostra dados para 8 lotes de cookies.
Os dados mostram que o rendimento de bons biscoitos é melhor quando (i) a temperatura é alta e o tempo no forno é curto, ou (ii) a temperatura é baixa e o tempo no forno é longo. Se os biscoitos forem deixados no forno por muito tempo em alta temperatura, eles ficam queimados e o rendimento é baixo.
A partir do gráfico e dos dados, percebe-se que as linhas não são paralelas, indicando que existe uma interação. Isso pode ser testado usando a análise de variância (ANOVA). O primeiro modelo ANOVA não incluirá o termo de interação. Ou seja, o primeiro modelo ANOVA ignora uma possível interação. O segundo modelo ANOVA incluirá o termo de interação. Ou seja, o segundo modelo ANOVA executa explicitamente um teste de hipótese para interação.
ANOVA modelo 1: sem termo de interação; rendimento ~ temperatura + tempo
No modelo ANOVA que ignora a interação, nem a temperatura nem o tempo têm um efeito significativo no rendimento (p = 0,91), o que é claramente a conclusão incorreta. O modelo ANOVA mais apropriado deve testar uma possível interação.
ANOVA modelo 2: inclui o termo de interação; rendimento ~ temperatura * tempo
O termo de interação temperatura: tempo é significativo (p = 0,000180). Com base no teste de interação e no gráfico de interação, parece que o efeito do tempo no rendimento depende da temperatura e vice-versa.
Exemplos
Exemplos de interação do mundo real incluem:
- Interação entre adicionar açúcar ao café e mexer o café. Nenhuma das duas variáveis individuais tem muito efeito sobre a doçura, mas uma combinação das duas tem.
- Interação entre adicionar carbono ao aço e têmpera . Nenhum dos dois individualmente tem muito efeito na força, mas uma combinação dos dois tem um efeito dramático.
- Interação entre fumar e inalar fibras de amianto : Ambos aumentam o risco de carcinoma de pulmão, mas a exposição ao amianto multiplica o risco de câncer em fumantes e não fumantes. Aqui, o efeito conjunto da inalação de amianto e do fumo é maior do que a soma de ambos os efeitos.
- Interação entre fatores de risco genéticos para diabetes tipo 2 e dieta (especificamente, um padrão alimentar "ocidental"). O padrão alimentar ocidental mostrou aumentar o risco de diabetes para indivíduos com uma alta "pontuação de risco genético", mas não para outros indivíduos.
- Interação entre educação e orientação política, afetando as percepções do público em geral sobre as mudanças climáticas. Por exemplo, as pesquisas nos Estados Unidos costumam descobrir que a aceitação da realidade da mudança climática antropogênica aumenta com a educação entre os entrevistados moderados ou liberais, mas diminui com a educação entre os mais conservadores. Observou-se que interações semelhantes afetam algumas ciências não climáticas ou percepções ambientais e operam com a alfabetização científica ou outros indicadores de conhecimento no lugar da educação.
Veja também
- Análise de variação
- Experimento fatorial
- Desenho de bloco aleatório generalizado
- Modelo linear
- Efeito principal
- Interação
- Teste de aditividade de Tukey
Referências
Leitura adicional
- Cox, David R. e Reid, Nancy M. (2000) A teoria do projeto de experimentos , Chapman & Hall / CRC. ISBN 1-58488-195-X
- Southwood, KE (1978). "Teoria substantiva e interação estatística: cinco modelos". The American Journal of Sociology . 83 (5): 1154–1203. doi : 10.1086 / 226678 .
- Brambor, T .; Clark, WR (2006). "Compreendendo os modelos de interação: aprimorando as análises empíricas". Análise Política . 14 (1): 63–82. doi : 10.1093 / pan / mpi014 .
- Hayes, AF; Matthes, J. (2009). "Procedimentos computacionais para interações de sondagem em OLS e regressão logística: implementações SPSS e SAS" . Métodos de pesquisa do comportamento . 41 (3): 924–936. doi : 10.3758 / BRM.41.3.924 . PMID 19587209 .
- Balli, HO; Sørensen, BE (2012). "Efeitos de interação em econometria". Economia empírica . 43 (x): 1-21. CiteSeerX 10.1.1.691.4349 . doi : 10.1007 / s00181-012-0604-2 . S2CID 53504187 .
links externos
- "Usando indicadores e variáveis de interação" (PDF) . Arquivado do original (PDF) em 03/03/2016 . Página visitada em 03-02-2010 . (158 KiB )
- Credibilidade e a variável de interação estatística: defendendo a multiplicação como fonte de compreensão
- Fundamentos de interações estatísticas: Qual é a diferença entre "efeitos principais" e "efeitos de interação"?