Variação explicada - Explained variation

Em estatística , a variação explicada mede a proporção em que um modelo matemático é responsável pela variação ( dispersão ) de um determinado conjunto de dados. Freqüentemente, a variação é quantificada como variância ; então, o termo mais específico variância explicada pode ser usado.

A parte complementar da variação total é chamada de variação inexplicada ou residual .

Definição em termos de ganho de informação

Ganho de informações por meio de uma modelagem melhor

Seguindo Kent (1983), usamos as informações de Fraser (Fraser 1965)

onde é a densidade de probabilidade de uma variável aleatória , e com ( ) são duas famílias de modelos paramétricos. A família de modelos 0 é a mais simples, com um espaço de parâmetros restrito .

Os parâmetros são determinados por estimativa de máxima verossimilhança ,

O ganho de informação do modelo 1 sobre o modelo 0 é escrito como

onde um fator de 2 é incluído por conveniência. Γ é sempre não negativo; mede até que ponto o melhor modelo da família 1 é melhor do que o melhor modelo da família 0 para explicar g ( r ).

Ganho de informação por um modelo condicional

Suponha uma variável aleatória bidimensional onde X deve ser considerado como uma variável explicativa e Y como uma variável dependente. Os modelos da família 1 "explicam" Y em termos de X ,

,

enquanto na família 0, X e Y são considerados independentes. Definimos a aleatoriedade de Y por , e a aleatoriedade de Y , dado X , por . Então,

pode ser interpretado como proporção da dispersão de dados que é "explica" por X .

Casos especiais e uso generalizado

Regressão linear

A fração de variância inexplicada é um conceito estabelecido no contexto da regressão linear . A definição usual do coeficiente de determinação é baseada no conceito fundamental de variância explicada.

Coeficiente de correlação como medida de variância explicada

Seja X um vetor aleatório e Y uma variável aleatória modelada por uma distribuição normal com centro . Nesse caso, a proporção derivada acima da variação explicada é igual ao coeficiente de correlação quadrado .

Observe as fortes suposições do modelo: o centro da distribuição Y deve ser uma função linear de X e, para qualquer x dado , a distribuição Y deve ser normal. Em outras situações, geralmente não se justifica interpretar como proporção da variância explicada.

Na análise de componentes principais

A variância explicada é usada rotineiramente na análise de componentes principais . A relação com o ganho de informação da Fraser-Kent ainda precisa ser esclarecida.

Crítica

Como a fração da "variância explicada" é igual ao coeficiente de correlação ao quadrado , ela compartilha todas as desvantagens deste: ela reflete não apenas a qualidade da regressão, mas também a distribuição das variáveis ​​independentes (condicionantes).

Nas palavras de um crítico: "Assim, dá a 'porcentagem de variância explicada' pela regressão, uma expressão que, para a maioria dos cientistas sociais, tem um significado duvidoso, mas grande valor retórico. Se esse número for grande, a regressão dá uma boa e não há muito sentido em procurar variáveis ​​adicionais. Outras equações de regressão em diferentes conjuntos de dados são consideradas menos satisfatórias ou menos poderosas se forem mais baixas. Nada sobre apóia essas afirmações ". E, depois de construir um exemplo onde é aprimorado apenas pela consideração conjunta de dados de duas populações diferentes: "'Variância explicada' não explica nada."

Veja também

Referências

links externos