Entropia cruzada - Cross entropy

Na teoria da informação , a entropia cruzada entre duas distribuições de probabilidade e sobre o mesmo conjunto subjacente de eventos mede o número médio de bits necessários para identificar um evento retirado do conjunto se um esquema de codificação usado para o conjunto for otimizado para uma distribuição de probabilidade estimada , em vez da distribuição verdadeira .

Definição

A entropia cruzada da distribuição relativa a uma distribuição sobre um determinado conjunto é definida da seguinte forma:

,

onde é o operador de valor esperado em relação à distribuição .

A definição pode ser formulada usando a divergência de Kullback-Leibler , divergência de de (também conhecida como a entropia relativa de em relação a ).

,

onde está a entropia de .

Para distribuições de probabilidade discretas e com o mesmo suporte, isso significa

 

 

 

 

( Eq.1 )

A situação para distribuições contínuas é análoga. Temos que assumir que e são absolutamente contínuos com respeito a alguma medida de referência (geralmente é uma medida de Lebesgue em uma σ-álgebra de Borel ). Let and be funções de densidade de probabilidade de e em relação a . Então

e portanto

 

 

 

 

( Eq.2 )

NB: A notação também é usada para um conceito diferente, a entropia conjunta de e .

Motivação

Em teoria da informação , a Kraft-McMillan teorema estabelece que qualquer esquema de codificação directamente descodificável para codificar uma mensagem para identificar um valor de um conjunto de possibilidades pode ser vista como representando uma distribuição de probabilidade implícito ao longo , onde é o comprimento do código para em bits. Portanto, a entropia cruzada pode ser interpretada como o comprimento de mensagem esperado por dado quando uma distribuição errada é assumida enquanto os dados realmente seguem uma distribuição . É por isso que a expectativa é assumida sobre a distribuição de probabilidade verdadeira e não . Na verdade, o comprimento esperado da mensagem na distribuição verdadeira é,

Estimativa

Existem muitas situações em que a entropia cruzada precisa ser medida, mas a distribuição é desconhecida. Um exemplo é a modelagem de linguagem , em que um modelo é criado com base em um conjunto de treinamento e, em seguida, sua entropia cruzada é medida em um conjunto de teste para avaliar a precisão do modelo na previsão dos dados de teste. Neste exemplo, é a verdadeira distribuição de palavras em qualquer corpus e é a distribuição de palavras conforme previsto pelo modelo. Como a distribuição verdadeira é desconhecida, a entropia cruzada não pode ser calculada diretamente. Nestes casos, uma estimativa de entropia cruzada é calculada usando a seguinte fórmula:

onde é o tamanho do conjunto de teste e é a probabilidade de evento estimada a partir do conjunto de treinamento. Em outras palavras, é a estimativa de probabilidade do modelo de que é a i-ésima palavra do texto . A soma é a média das palavras do teste. Esta é uma estimativa de Monte Carlo da entropia cruzada verdadeira, de onde o conjunto de teste é tratado como uma amostra .

Relação com log de probabilidade

Em problemas de classificação, queremos estimar a probabilidade de resultados diferentes. Deixe a probabilidade estimada de resultado ser com parâmetros a serem otimizados e deixe a frequência (probabilidade empírica) de resultado no conjunto de treinamento ser . Dadas N amostras condicionalmente independentes no conjunto de treinamento, então a probabilidade dos parâmetros do modelo no conjunto de treinamento é

então o log-verossimilhança, dividido por é

de modo que maximizar a probabilidade em relação aos parâmetros é o mesmo que minimizar a entropia cruzada.

Minimização de entropia cruzada

A minimização de entropia cruzada é freqüentemente usada na otimização e estimativa de probabilidade de evento raro. Ao comparar uma distribuição com uma distribuição de referência fixa , a entropia cruzada e a divergência KL são idênticas até uma constante aditiva (uma vez que é fixa): ambas assumem seus valores mínimos quando , que é para divergência KL e para entropia cruzada. Na literatura de engenharia, o princípio de minimizar a Divergência KL (" Princípio da Informação de Discriminação Mínima " de Kullback ) é freqüentemente chamado de Princípio da Entropia Cruzada Mínima (MCE), ou Minxent .

No entanto, conforme discutido no artigo Divergência de Kullback-Leibler , às vezes a distribuição é a distribuição de referência anterior fixa e a distribuição é otimizada para ser o mais próximo possível, sujeito a alguma restrição. Neste caso, as duas minimizações não são equivalentes. Isso levou a alguma ambigüidade na literatura, com alguns autores tentando resolver a inconsistência redefinindo a entropia cruzada como , em vez de .

Função de perda de entropia cruzada e regressão logística

A entropia cruzada pode ser usada para definir uma função de perda no aprendizado e otimização de máquina . A probabilidade verdadeira é o rótulo verdadeiro e a distribuição fornecida é o valor previsto do modelo atual.

Mais especificamente, considere a regressão logística , que (entre outras coisas) pode ser usada para classificar as observações em duas classes possíveis (muitas vezes simplesmente rotuladas como e ). A saída do modelo para uma dada observação, dado um vetor de características de entrada , pode ser interpretada como uma probabilidade, que serve de base para a classificação da observação. A probabilidade é modelada usando a função logística onde é alguma função do vetor de entrada , normalmente apenas uma função linear. A probabilidade da saída é dada por

onde o vetor de pesos é otimizado por meio de algum algoritmo apropriado, como gradiente descendente . Da mesma forma, a probabilidade complementar de encontrar a saída é simplesmente dada por

Tendo configurado nossa notação, e , podemos usar entropia cruzada para obter uma medida de dissimilaridade entre e :

A regressão logística normalmente otimiza a perda de log para todas as observações nas quais é treinada, o que é o mesmo que otimizar a entropia cruzada média na amostra. Por exemplo, suponha que temos amostras com cada amostra indexada por . A média da função de perda é então dada por:

onde , com a função logística como antes.

A perda logística é às vezes chamada de perda de entropia cruzada. Também é conhecido como perda de log (neste caso, o rótulo binário geralmente é denotado por {-1, + 1}).

Observação: O gradiente da perda de entropia cruzada para regressão logística é o mesmo que o gradiente da perda de erro quadrático para regressão linear . Ou seja, defina

Então temos o resultado

A prova é a seguinte. Para qualquer um , temos

De maneira semelhante, eventualmente obtemos o resultado desejado.

Veja também

Referências

links externos