Interação (estatísticas) - Interaction (statistics)

Efeito de interação da educação e da ideologia na preocupação com a elevação do nível do mar

Em estatística , uma interação pode surgir ao considerar a relação entre três ou mais variáveis ​​e descreve uma situação em que o efeito de uma variável causal em um resultado depende do estado de uma segunda variável causal (isto é, quando os efeitos das duas causas não são aditivas ). Embora comumente pensado em termos de relações causais, o conceito de uma interação também pode descrever associações não causais. As interações são frequentemente consideradas no contexto de análises de regressão ou experimentos fatoriais .

A presença de interações pode ter implicações importantes para a interpretação de modelos estatísticos. Se duas variáveis ​​de interesse interagem, a relação entre cada uma das variáveis ​​de interação e uma terceira "variável dependente" depende do valor da outra variável de interação. Na prática, isso torna mais difícil prever as consequências da alteração do valor de uma variável, especialmente se as variáveis ​​com as quais ela interage são difíceis de medir ou controlar.

A noção de "interação" está intimamente relacionada à de moderação que é comum na pesquisa em ciências sociais e da saúde: a interação entre uma variável explicativa e uma variável ambiental sugere que o efeito da variável explicativa foi moderado ou modificado pela variável ambiental .

Introdução

Uma variável de interação ou recurso de interação é uma variável construída a partir de um conjunto original de variáveis ​​para tentar representar toda a interação presente ou alguma parte dela. Em análises estatísticas exploratórias é comum usar produtos de variáveis ​​originais como base para testar se a interação está presente com a possibilidade de substituir outras variáveis ​​de interação mais realistas em um estágio posterior. Quando há mais de duas variáveis ​​explicativas, várias variáveis ​​de interação são construídas, com produtos de pares representando interações de pares e produtos de ordem superior representando interações de ordem superior.

O factor de binário UM e a quantitativa variável X interagem (são não-aditiva) quando analisada com relação à variável resultado Y .

Assim, para uma resposta Y e duas variáveis x 1 e x 2 um aditivo modelo seria:

Em contraste com isso,

é um exemplo de um modelo com uma interacção entre as variáveis x 1 e x 2 ( "erro" refere-se a variável aleatória cujo valor é que, através da qual Y for diferente do valor esperado de Y ; ver erros e resíduos nas estatísticas ). Freqüentemente, os modelos são apresentados sem o termo de interação , mas isso confunde o efeito principal e o efeito de interação (ou seja, sem especificar o termo de interação, é possível que qualquer efeito principal encontrado seja realmente devido a uma interação).

Na modelagem

Em ANOVA

Uma configuração simples em que as interações podem surgir é um experimento de dois fatores analisado usando Análise de Variância (ANOVA). Suponha que temos dois fatores binários A e B . Por exemplo, esses fatores podem indicar se um dos dois tratamentos foi administrado a um paciente, com os tratamentos aplicados isoladamente ou em combinação. Podemos então considerar a resposta média ao tratamento (por exemplo, os níveis de sintomas após o tratamento) para cada paciente, como uma função da combinação de tratamento que foi administrada. A tabela a seguir mostra uma situação possível:

B  = 0 B  = 1
A  = 0 6 7
A  = 1 4 5

Neste exemplo, não há interação entre os dois tratamentos - seus efeitos são aditivos. A razão para isso é que a diferença na resposta média entre os indivíduos que recebem o tratamento A e aqueles que não recebem o tratamento A é −2, independentemente de o tratamento B ser administrado (−2 = 4 - 6) ou não (−2 = 5 - 7 ) Observe que segue-se automaticamente que a diferença na resposta média entre os indivíduos que recebem o tratamento B e aqueles que não recebem o tratamento B é a mesma, independentemente de o tratamento A ser administrado (7 - 6 = 5 - 4).

Em contraste, se as seguintes respostas médias forem observadas

B  = 0 B  = 1
A  = 0 1 4
A  = 1 7 6

então há uma interação entre os tratamentos - seus efeitos não são aditivos. Supondo que um maior número de correspondência para uma resposta melhor, nesta situação o tratamento B é útil, em média, se o sujeito não está também a receber tratamento de um , mas é prejudicial, em média, se administrado em combinação com o tratamento com um . Tratamento Um é útil, em média, independentemente de se o tratamento B também é administrado, mas é mais útil, tanto em termos absolutos e relativos, se administrado sozinho, em vez de em combinação com tratamento B . Observações semelhantes são feitas para este exemplo específico na próxima seção.

Interações qualitativas e quantitativas

Em muitas aplicações, é útil distinguir entre interações qualitativas e quantitativas. Uma interacção quantitativa entre A e B é uma situação em que a magnitude do efeito de B depende do valor de A , mas a direcção do efeito de B é constante para todos Uma . Uma interação qualitativa entre A e B refere-se a uma situação em que a magnitude e a direção do efeito de cada variável podem depender do valor da outra variável.

A tabela de médias à esquerda, abaixo, mostra uma interação quantitativa - o tratamento A é benéfico tanto quando B é dado, quanto quando B não é dado, mas o benefício é maior quando B não é dado (ou seja, quando A é dado sozinho) . A tabela de meios à direita mostra uma interação qualitativa. A é prejudicial quando B é dado, mas é benéfico quando B não é dado. Observe que a mesma interpretação seria válida se considerarmos o benefício de B com base no fato de A ser dado.

B  = 0 B  = 1 B  = 0 B  = 1
A  = 0 2 1 A  = 0 2 6
A  = 1 5 3 A  = 1 5 3

A distinção entre interações qualitativas e quantitativas depende da ordem em que as variáveis ​​são consideradas (em contraste, a propriedade de aditividade é invariante à ordem das variáveis). Na tabela a seguir, se nos concentrarmos no efeito do tratamento A , há uma interação quantitativa - administrar o tratamento A melhorará o resultado em média, independentemente de o tratamento B já estar ou não sendo administrado (embora o benefício seja maior se o tratamento A é fornecido sozinho). No entanto, se nos concentrarmos no efeito do tratamento B , há uma interação qualitativa - dar o tratamento B a um sujeito que já está recebendo o tratamento A (em média) piorará as coisas, enquanto dar o tratamento B a um sujeito que não está recebendo o tratamento A melhorará o resultado em média.

B  = 0 B  = 1
A  = 0 1 4
A  = 1 7 6

Aditividade de tratamento de unidade

Em sua forma mais simples, a suposição de aditividade da unidade de tratamento afirma que a resposta observada y ij da unidade experimental i ao receber o tratamento j pode ser escrita como a soma y ij  =  y i  +  t j . A suposição de aditividade de tratamento de unidade implica que todo tratamento tem exatamente o mesmo efeito aditivo em cada unidade experimental. Uma vez que qualquer unidade experimental pode ser submetida a apenas um dos tratamentos, a suposição de aditividade do tratamento da unidade é uma hipótese que não é diretamente falsificável, de acordo com Cox e Kempthorne.

No entanto, muitas consequências da aditividade da unidade de tratamento podem ser falsificadas. Para um experimento randomizado, a suposição de aditividade do tratamento implica que a variância é constante para todos os tratamentos. Portanto, por contraposição, uma condição necessária para a aditividade do tratamento unitário é que a variância seja constante.

A propriedade de aditividade de tratamento de unidade não é invariável sob uma mudança de escala, portanto, os estatísticos costumam usar transformações para atingir a aditividade de tratamento de unidade. Se se espera que a variável de resposta siga uma família paramétrica de distribuições de probabilidade, o estatístico pode especificar (no protocolo para o experimento ou estudo observacional) que as respostas sejam transformadas para estabilizar a variância. Em muitos casos, um estatístico pode especificar que as transformações logarítmicas sejam aplicadas às respostas, que se acredita que sigam um modelo multiplicativo.

A suposição de aditividade de tratamento de unidade foi enunciada no projeto experimental por Kempthorne e Cox. O uso de aditividade e randomização de tratamento de unidade por Kempthorne é semelhante à análise baseada em projeto de amostragem de pesquisa de população finita.

Nos últimos anos, tornou-se comum usar a terminologia de Donald Rubin, que usa contrafactuais. Suponha que estejamos comparando dois grupos de pessoas com relação a algum atributo y . Por exemplo, o primeiro grupo pode consistir de pessoas que recebem um tratamento padrão para uma condição médica, com o segundo grupo consistindo de pessoas que recebem um novo tratamento com efeito desconhecido. Tomando uma perspectiva "contrafactual", podemos considerar um indivíduo cujo atributo tem valor y se esse indivíduo pertence ao primeiro grupo, e cujo atributo tem valor τ ( y ) se o indivíduo pertence ao segundo grupo. A suposição de "aditividade de tratamento por unidade" é que τ ( y ) =  τ , ou seja, o "efeito do tratamento" não depende de y . Uma vez que não podemos observar y e τ ( y ) para um determinado indivíduo, isso não é testável no nível individual. No entanto, a aditividade do tratamento unitário implica que as funções de distribuição cumulativa F 1 e F 2 para os dois grupos satisfaçam F 2 ( y ) =  F 1 ( y - τ ), desde que a atribuição dos indivíduos aos grupos 1 e 2 seja independente de todos os outros fatores que influenciam y (ou seja, não há fatores de confusão ). A falta de aditividade de tratamento de unidade pode ser vista como uma forma de interação entre a atribuição de tratamento (por exemplo, para os grupos 1 ou 2) e a linha de base, ou valor não tratado de y .

Variáveis ​​categóricas

Às vezes, as variáveis ​​de interação são variáveis ​​categóricas em vez de números reais e o estudo pode então ser tratado como um problema de análise de variância . Por exemplo, os membros de uma população podem ser classificados por religião e profissão. Se alguém deseja prever a altura de uma pessoa com base apenas em sua religião e ocupação, um modelo aditivo simples , ou seja, um modelo sem interação, acrescentaria a uma altura média geral um ajuste para uma religião particular e outro para uma ocupação particular. Um modelo com interação, ao contrário de um modelo aditivo , poderia adicionar um ajuste adicional para a "interação" entre aquela religião e aquela ocupação. Este exemplo pode fazer com que alguém suspeite que a palavra interação é um nome impróprio.

Estatisticamente, a presença de uma interação entre variáveis ​​categóricas é geralmente testada usando uma forma de análise de variância (ANOVA). Se uma ou mais das variáveis ​​são de natureza contínua, entretanto, normalmente seriam testadas usando regressão múltipla moderada. Isso é assim chamado porque um moderador é uma variável que afeta a força de uma relação entre duas outras variáveis.

Experimentos projetados

Genichi Taguchi afirmou que as interações podem ser eliminadas de um sistema pela escolha apropriada da variável de resposta e transformação. No entanto, George Box e outros argumentaram que este não é o caso em geral.

Tamanho do modelo

Dados n preditores, o número de termos em um modelo linear que inclui uma constante, todo preditor e toda interação possível é . Uma vez que essa quantidade cresce exponencialmente, torna-se facilmente impraticávelmente grande. Um método para limitar o tamanho do modelo é limitar a ordem das interações. Por exemplo, se apenas interações bidirecionais forem permitidas, o número de termos se torna . A tabela abaixo mostra o número de termos para cada número de preditores e ordem máxima de interação.

Número de termos
Preditores Incluindo até interações m- way
2 3 4 5
1 2 2 2 2 2
2 4 4 4 4 4
3 7 8 8 8 8
4 11 15 16 16 16
5 16 26 31 32 32
6 22 42 57 63 64
7 29 64 99 120 128
8 37 93 163 219 256
9 46 130 256 382 512
10 56 176 386 638 1.024
11 67 232 562 1.024 2.048
12 79 299 794 1.586 4.096
13 92 378 1.093 2.380 8.192
14 106 470 1.471 3.473 16.384
15 121 576 1.941 4.944 32.768
20 211 1.351 6.196 21.700 1.048.576
25 326 2.626 15.276 68.406 33.554.432
50 1.276 20.876 251.176 2.369.936 10 15
100 5.051 166.751 4.087.976 79.375.496 10 30
1.000 500.501 166.667.501 10 10 10 12 10 300

Em regressão

A abordagem mais geral para modelar efeitos de interação envolve regressão, começando com a versão elementar fornecida acima:

onde o termo de interação pode ser formado explicitamente pela multiplicação de duas (ou mais) variáveis, ou implicitamente usando notação fatorial em pacotes estatísticos modernos, como Stata . Os componentes x 1 e x 2, pode ser medições ou {0,1} manequim variáveis em qualquer combinação. As interações envolvendo uma variável fictícia multiplicada por uma variável de medição são denominadas variáveis ​​fictícias de inclinação , porque estimam e testam a diferença nas inclinações entre os grupos 0 e 1.

Quando variáveis ​​de medição são empregadas em interações, geralmente é desejável trabalhar com versões centralizadas, onde a média da variável (ou algum outro valor razoavelmente central) é definida como zero. A centralização pode tornar os efeitos principais nos modelos de interação mais interpretáveis, pois reduz a multicolinearidade entre o termo de interação e os efeitos principais. O coeficiente a na equação acima, por exemplo, representa o efeito de x 1 quando x 2 é igual a zero.

Interação da educação e do partido político afetando as crenças sobre as mudanças climáticas

As abordagens de regressão para modelagem de interação são muito gerais porque podem acomodar preditores adicionais e muitas especificações alternativas ou estratégias de estimativa além dos mínimos quadrados ordinários . Modelos robustos , quantílicos e de efeitos mistos ( multinível ) estão entre as possibilidades, assim como a modelagem linear generalizada que abrange uma ampla gama de variáveis ​​dependentes categóricas, ordenadas, contadas ou limitadas de outra forma. O gráfico representa uma interação educação * política, a partir de uma análise de regressão logit ponderada por probabilidade de dados de pesquisa.

Gráficos de interação

Os gráficos de interação mostram as possíveis interações entre as variáveis.

Exemplo: interação de espécies e temperatura do ar e seu efeito na temperatura corporal

Considere um estudo da temperatura corporal de diferentes espécies em diferentes temperaturas do ar, em graus Fahrenheit. Os dados são mostrados na tabela abaixo.

Dados de espécies de temperatura corporal

O gráfico de interação pode usar a temperatura do ar ou a espécie como eixo x. O segundo fator é representado por linhas no gráfico de interação.

gráfico de interação temperatura corporal

gráfico de interação temperatura corporal 2

Existe uma interação entre os dois fatores (temperatura do ar e espécie) no seu efeito na resposta (temperatura corporal), pois o efeito da temperatura do ar depende da espécie. A interação é indicada no gráfico porque as linhas não são paralelas.

Exemplo: efeito da gravidade do AVC e tratamento na recuperação

Como um segundo exemplo, considere um ensaio clínico sobre a interação entre a gravidade do AVC e a eficácia de um medicamento na sobrevida do paciente. Os dados são mostrados na tabela abaixo.

dados de sobrevivência de AVC de interação

interação plotagem sobrevivência a acidente vascular cerebral

No gráfico de interação, as linhas para os grupos de AVC leve e moderado são paralelas, indicando que o medicamento tem o mesmo efeito em ambos os grupos, portanto não há interação. A linha para o grupo de AVC grave não é paralela às outras linhas, indicando que há uma interação entre a gravidade do AVC e o efeito da droga na sobrevivência. A linha para o grupo de AVC grave é plana, indicando que, entre esses pacientes, não há diferença na sobrevida entre os tratamentos com medicamento e placebo. Em contraste, as linhas para os grupos de AVC leve e moderado inclinam-se para a direita, indicando que, entre esses pacientes, o grupo placebo tem sobrevida menor do que o grupo tratado com drogas.

Testes de hipótese para interações

A análise de variância e a análise de regressão são usadas para testar interações significativas.

Exemplo: interação de temperatura e tempo no cozimento de biscoitos

O rendimento de bons biscoitos é afetado pela temperatura de cozimento e pelo tempo no forno? A tabela mostra dados para 8 lotes de cookies.

dados de rendimento de cookie de interação

interação enredo assando biscoitos

Os dados mostram que o rendimento de bons biscoitos é melhor quando (i) a temperatura é alta e o tempo no forno é curto, ou (ii) a temperatura é baixa e o tempo no forno é longo. Se os biscoitos forem deixados no forno por muito tempo em alta temperatura, eles ficam queimados e o rendimento é baixo.

A partir do gráfico e dos dados, percebe-se que as linhas não são paralelas, indicando que existe uma interação. Isso pode ser testado usando a análise de variância (ANOVA). O primeiro modelo ANOVA não incluirá o termo de interação. Ou seja, o primeiro modelo ANOVA ignora uma possível interação. O segundo modelo ANOVA incluirá o termo de interação. Ou seja, o segundo modelo ANOVA executa explicitamente um teste de hipótese para interação.

ANOVA modelo 1: sem termo de interação; rendimento ~ temperatura + tempo

cookie anova modelo 1

No modelo ANOVA que ignora a interação, nem a temperatura nem o tempo têm um efeito significativo no rendimento (p = 0,91), o que é claramente a conclusão incorreta. O modelo ANOVA mais apropriado deve testar uma possível interação.

ANOVA modelo 2: inclui o termo de interação; rendimento ~ temperatura * tempo

Cookie anova modelo 2

O termo de interação temperatura: tempo é significativo (p = 0,000180). Com base no teste de interação e no gráfico de interação, parece que o efeito do tempo no rendimento depende da temperatura e vice-versa.

Exemplos

Exemplos de interação do mundo real incluem:

  • Interação entre adicionar açúcar ao café e mexer o café. Nenhuma das duas variáveis ​​individuais tem muito efeito sobre a doçura, mas uma combinação das duas tem.
  • Interação entre adicionar carbono ao aço e têmpera . Nenhum dos dois individualmente tem muito efeito na força, mas uma combinação dos dois tem um efeito dramático.
  • Interação entre fumar e inalar fibras de amianto : Ambos aumentam o risco de carcinoma de pulmão, mas a exposição ao amianto multiplica o risco de câncer em fumantes e não fumantes. Aqui, o efeito conjunto da inalação de amianto e do fumo é maior do que a soma de ambos os efeitos.
  • Interação entre fatores de risco genéticos para diabetes tipo 2 e dieta (especificamente, um padrão alimentar "ocidental"). O padrão alimentar ocidental mostrou aumentar o risco de diabetes para indivíduos com uma alta "pontuação de risco genético", mas não para outros indivíduos.
  • Interação entre educação e orientação política, afetando as percepções do público em geral sobre as mudanças climáticas. Por exemplo, as pesquisas nos Estados Unidos costumam descobrir que a aceitação da realidade da mudança climática antropogênica aumenta com a educação entre os entrevistados moderados ou liberais, mas diminui com a educação entre os mais conservadores. Observou-se que interações semelhantes afetam algumas ciências não climáticas ou percepções ambientais e operam com a alfabetização científica ou outros indicadores de conhecimento no lugar da educação.

Veja também

Referências

Leitura adicional

links externos