Máquina de Boltzmann restrita - Restricted Boltzmann machine

Diagrama de uma máquina de Boltzmann restrita com três unidades visíveis e quatro unidades ocultas (sem unidades de polarização).

Uma máquina de Boltzmann restrita ( RBM ) é uma rede neural artificial estocástica gerativa que pode aprender uma distribuição de probabilidade sobre seu conjunto de entradas.

Os RBMs foram inicialmente inventados sob o nome de Harmonium por Paul Smolensky em 1986, e ganharam destaque depois que Geoffrey Hinton e colaboradores inventaram algoritmos de aprendizado rápido para eles em meados de 2000. Os RBMs encontraram aplicações em redução de dimensionalidade , classificação , filtragem colaborativa , aprendizado de recursos , modelagem de tópicos e até mesmo em muitos mecanismos quânticos do corpo . Eles podem ser treinados de forma supervisionada ou não , dependendo da tarefa.

Como seu nome indica, os RBMs são uma variante das máquinas de Boltzmann , com a restrição de que seus neurônios devem formar um grafo bipartido : um par de nós de cada um dos dois grupos de unidades (comumente chamados de "visíveis" e "ocultos" unidades respectivamente) podem ter uma conexão simétrica entre eles; e não há conexões entre nós dentro de um grupo. Em contraste, as máquinas Boltzmann "irrestritas" podem ter conexões entre unidades ocultas . Essa restrição permite algoritmos de treinamento mais eficientes do que os disponíveis para a classe geral de máquinas de Boltzmann, em particular o algoritmo de divergência contrastiva baseado em gradiente .

As máquinas Boltzmann restritas também podem ser usadas em redes de aprendizagem profunda . Em particular, as redes de crença profunda podem ser formadas por "empilhamento" de RBMs e, opcionalmente, o ajuste fino da rede profunda resultante com descida gradiente e retropropagação .

Estrutura

O tipo padrão de RBM possui unidades ocultas e visíveis de valor binário ( Booleano ) e consiste em uma matriz de pesos de tamanho . Cada elemento de peso da matriz está associado à conexão entre a unidade visível (entrada) e a unidade oculta . Além disso, existem ponderações de polarização (deslocamentos) para e para . Dados os pesos e vieses, a energia de uma configuração (par de vetores booleanos) ( v , h ) é definida como

ou, em notação de matriz,

Esta função de energia é análoga à de uma rede Hopfield . Tal como acontece com as máquinas de Boltzmann gerais, a distribuição de probabilidade conjunta para os vetores visíveis e ocultos é definida em termos da função de energia da seguinte forma,

onde é uma função de partição definida como a soma de todas as configurações possíveis, que pode ser interpretada como uma constante de normalização para garantir que as probabilidades somam 1. A probabilidade marginal de um vetor visível é a soma de todas as configurações de camada oculta possíveis,

,

e vice versa. Uma vez que a estrutura gráfica subjacente do RBM é bipartida (o que significa que não há conexões intra-camada), as ativações das unidades ocultas são mutuamente independentes, dadas as ativações das unidades visíveis. Por outro lado, as ativações das unidades visíveis são mutuamente independentes, dadas as ativações das unidades ocultas. Isto é, para m unidades visíveis e n unidades escondidas, a probabilidade condicional de uma configuração das unidades visíveis V , dada uma configuração das unidades escondido h , está

.

Por outro lado, a probabilidade condicional de h dado v é

.

As probabilidades de ativação individuais são dadas por

e

onde denota o sigmóide logístico .

As unidades visíveis da Máquina Boltzmann Restrita podem ser multinomiais , embora as unidades ocultas sejam Bernoulli . Neste caso, a função logística para unidades visíveis é substituída pela função softmax

onde K é o número de valores discretos que os valores visíveis têm. Eles são aplicados na modelagem de tópicos e sistemas de recomendação .

Relação com outros modelos

As máquinas de Boltzmann restritas são um caso especial de máquinas de Boltzmann e campos aleatórios de Markov . Seu modelo gráfico corresponde ao da análise fatorial .

Algoritmo de treinamento

As máquinas Boltzmann restritas são treinadas para maximizar o produto das probabilidades atribuídas a algum conjunto de treinamento (uma matriz, cada linha tratada como um vetor visível ),

ou de forma equivalente, para maximizar a probabilidade de log esperada de uma amostra de treinamento selecionada aleatoriamente a partir de :

O algoritmo mais utilizado para treinar RBMs, ou seja, para otimizar o vetor de peso , é o algoritmo de divergência contrastiva (CD) de Hinton , originalmente desenvolvido para treinar modelos PoE ( produto de experts ). O algoritmo realiza a amostragem de Gibbs e é usado dentro de um procedimento de gradiente descendente (semelhante à forma como a retropropagação é usada dentro de tal procedimento ao treinar redes neurais feedforward) para calcular a atualização de peso.

O procedimento básico de divergência contrastiva de etapa única (CD-1) para uma única amostra pode ser resumido da seguinte forma:

  1. Pegue uma amostra de treinamento v , calcule as probabilidades das unidades ocultas e faça uma amostra de um vetor de ativação oculto h a partir dessa distribuição de probabilidade.
  2. Calcule o produto externo de v e he chame isso de gradiente positivo .
  3. De h , faça uma amostra de uma reconstrução v ' das unidades visíveis e, em seguida , faça uma nova amostra das ativações ocultas h' a partir disso. (Etapa de amostragem de Gibbs)
  4. Calcule o produto externo de v ' e h' e chame isso de gradiente negativo .
  5. Deixe a atualização para a matriz de pesos ser o gradiente positivo menos o gradiente negativo, tempos, alguns taxa de aprendizagem: .
  6. Atualizar os preconceitos um e b analogamente: , .

Um Guia Prático para RBMs de treinamento escrito por Hinton pode ser encontrado em sua página inicial.

Literatura

  • Fischer, Asja; Igel, Christian (2012), "An Introduction to Restricted Boltzmann Machines" , Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications , Berlim, Heidelberg: Springer Berlin Heidelberg, pp. 14-36 , recuperado em 2021-09-19

Veja também

Referências

links externos