Aprendizagem não supervisionada - Unsupervised learning

O aprendizado não supervisionado é um tipo de aprendizado de máquina no qual o algoritmo não é fornecido com nenhum rótulo pré-atribuído ou pontuação para os dados de treinamento. Como resultado, os algoritmos de aprendizagem não supervisionados devem primeiro autodescobrir quaisquer padrões que ocorrem naturalmente nesse conjunto de dados de treinamento. Exemplos comuns incluem clustering , onde o algoritmo agrupa automaticamente seus exemplos de treinamento em categorias com recursos semelhantes e análise de componente principal , onde o algoritmo encontra maneiras de compactar o conjunto de dados de treinamento, identificando quais recursos são mais úteis para discriminar entre diferentes exemplos de treinamento, e descartando o resto. Isso contrasta com o aprendizado supervisionado, no qual os dados de treinamento incluem rótulos de categoria pré-atribuídos (geralmente por um humano ou da saída de um algoritmo de classificação de não aprendizagem). Outros níveis intermediários no espectro de supervisão incluem aprendizagem por reforço , onde apenas pontuações numéricas estão disponíveis para cada exemplo de treinamento, em vez de tags detalhadas, e aprendizagem semissupervisionada, onde apenas uma parte dos dados de treinamento foram marcados.

As vantagens da aprendizagem não supervisionada incluem uma carga de trabalho mínima para preparar e auditar o conjunto de treinamento, em contraste com as técnicas de aprendizagem supervisionada em que uma quantidade considerável de trabalho humano especializado é necessária para atribuir e verificar as marcas iniciais e maior liberdade para identificar e explorar padrões anteriormente não detectados que pode não ter sido notado pelos "especialistas". Isso muitas vezes vem ao custo de técnicas não supervisionadas que exigem uma maior quantidade de dados de treinamento e convergindo mais lentamente para um desempenho aceitável, maiores requisitos computacionais e de armazenamento durante o processo exploratório e potencialmente maior suscetibilidade a artefatos ou anomalias nos dados de treinamento que podem ser obviamente irrelevantes ou reconhecidos como errôneos por um humano, mas são atribuídos a uma importância indevida pelo algoritmo de aprendizagem não supervisionado.

Abordagens

Famílias comuns de algoritmos usados ​​na aprendizagem não supervisionada incluem: (1) agrupamento, (2) detecção de anomalias, (3) redes neurais (observe que nem todas as redes neurais são não supervisionadas; elas podem ser treinadas por supervisionadas, não supervisionadas, semissupervisionadas ou métodos de reforço) e (4) modelos de variáveis ​​latentes.

Método dos momentos

Uma abordagem estatística para aprendizagem não supervisionada é o método dos momentos . No método dos momentos, os parâmetros desconhecidos de interesse no modelo estão relacionados aos momentos de uma ou mais variáveis ​​aleatórias. Esses momentos são estimados empiricamente a partir das amostras de dados disponíveis e usados ​​para calcular as distribuições de valores mais prováveis ​​para cada parâmetro. O método dos momentos mostra-se eficaz na aprendizagem dos parâmetros dos modelos de variáveis ​​latentes , onde além das variáveis ​​observadas disponíveis nos conjuntos de dados de treinamento e de entrada, uma série de variáveis ​​latentes não observadas também são assumidas para existir e para determinar a categorização de cada um. Um exemplo prático de modelos de variáveis ​​latentes no aprendizado de máquina é a modelagem de tópicos , que é um modelo estatístico para prever as palavras (variáveis ​​observadas) em um documento com base no tópico (variável latente) do documento. O método dos momentos (técnicas de decomposição de tensores) demonstrou recuperar de forma consistente os parâmetros de uma grande classe de modelos de variáveis ​​latentes sob certas suposições.

O algoritmo de maximização de expectativa é outro método prático para aprender modelos de variáveis ​​latentes. No entanto, ele pode ficar preso em ótimos locais e não é garantido que converta para os verdadeiros parâmetros desconhecidos do modelo. Em contraste, usando o método dos momentos, a convergência global é garantida sob algumas condições.

Redes neurais

As próximas cinco subseções contêm material básico. Mais materiais de nível intermediário seguem-no em Comparação de Redes e Redes Específicas. Os materiais avançados têm suas próprias entradas na Wikipedia.

Tarefas x métodos

Tendência para uma tarefa de empregar métodos supervisionados vs. não supervisionados. A separação pode ser desfocada.

Tradicionalmente, os métodos supervisionados são usados ​​para tarefas de reconhecimento e os métodos não supervisionados são usados ​​para tarefas generativas. À medida que o progresso avança, algumas tarefas empregam ambos os métodos, e algumas tarefas mudam de um método para outro. Por exemplo, o reconhecimento de imagem começou como altamente supervisionado, mas tornou-se híbrido ao empregar um pré-treinamento não supervisionado e, em seguida, mudou para a supervisão novamente com o advento das taxas de abandono, relu e aprendizagem adaptativa.

Treinamento

Durante a fase de aprendizagem, uma rede não supervisionada tenta imitar os dados fornecidos e usa o erro em sua saída simulada para se corrigir (ou seja, corrigir seus pesos e tendências). Isso se assemelha ao comportamento de imitação das crianças enquanto aprendem um idioma. Às vezes, o erro é expresso como uma baixa probabilidade de que ocorra uma saída incorreta ou pode ser expresso como um estado instável de alta energia na rede.

Em contraste com o uso dominante do método supervisionado de retropropagação, os métodos não supervisionados empregam vários algoritmos de aprendizagem, incluindo: regra de aprendizagem de Hopfield, regra de aprendizagem de Boltzmann, divergência contrastiva, sono desperto, inferência variacional, máximo A posteriori, amostragem de Gibbs, retropropagação do erro de reconstrução ou retropropagação do reparametrizações de estados ocultos. Veja a tabela abaixo para mais detalhes.

Energia

Nas máquinas Boltzmann, a energia desempenha o papel da função Custo. Uma função de energia é uma medida macroscópica do estado de uma rede. Essa analogia com a física é inspirada na análise de Ludwig Boltzmann da energia macroscópica de um gás a partir das probabilidades microscópicas de movimento das partículas p e E / kT , onde k é a constante de Boltzmann e T é a temperatura. Na rede RBM a relação é p = e −E / Z, onde p & E variam em todos os padrões de ativação possíveis e Z = e -E (padrão) . Para ser mais preciso, p (a) = e -E (a) / Z, onde a é um padrão de ativação de todos os neurônios (visíveis e ocultos). Conseqüentemente, as primeiras redes neurais têm o nome de Máquina de Boltzmann. Paul Smolensky chama -E de Harmonia. Uma rede busca baixa energia com alta harmonia.

Redes

Esta tabela mostra diagramas de conexão de várias redes não supervisionadas, cujos detalhes serão fornecidos na seção Comparação de Rede. Das redes com nomes de pessoas, apenas Hopfield trabalhava diretamente com redes neurais. Boltzmann e Helmholtz viveram antes da invenção das redes neurais artificiais, mas inspiraram os métodos analíticos usados.

Hopfield Boltzmann RBM Helmholtz Autoencoder VAE
Uma rede baseada em domínios magnéticos em ferro com uma única camada auto-conectada.
2 camadas. Usa pesos bidirecionais simétricos. Seguindo a termodinâmica de Boltzmann, as probabilidades individuais dão origem a energias macroscópicas.
Máquina Boltzmann restrita. Esta é uma máquina Boltzmann onde as conexões laterais dentro de uma camada são proibidas para tornar a análise tratável.
Em vez da conexão simétrica bidirecional de uma máquina Boltzmann, temos conexões unidirecionais separadas para formar um loop. Faz geração e discriminação.
Uma rede feed forward que visa encontrar uma boa representação da camada intermediária de seu mundo de entrada.
Aplica inferência variacional ao codificador automático. A camada intermediária é um conjunto de médias e variações para distribuições gaussianas.

História

1969 Perceptrons de Minsky & Papert mostra um perceptron sem falhas de camadas ocultas no XOR
Década de 1970 (datas aproximadas) AI inverno I
1974 Modelo magnético de Ising proposto por WA Little para cognição
1980 Fukushima introduz o neocognitron, que mais tarde é chamado de rede neural de convolução. É mais usado no SL, mas merece uma menção aqui.
1982 A variante de Ising Hopfield descrita como CAMs e classificadores por John Hopfield.
1983 Máquina de Boltzmann variante de Ising com neurônios probabilísticos descritos por Hinton & Sejnowski seguindo o trabalho de 1975 de Sherington & Kirkpatrick.
1986 Paul Smolensky publica a Teoria da Harmonia, que é uma RBM com praticamente a mesma função de energia de Boltzmann. Smolensky não deu um esquema de treinamento prático. Hinton fez em meados dos anos 2000
1995 Schmidthuber apresenta o neurônio LSTM para idiomas.
1995 Dayan e Hinton apresentam máquina Helmholtz
1995-2005 (datas aproximadas) AI inverno II
2013 Kingma, Rezende, & co. introduziu os Autoencoders Variacionais como rede de probabilidade gráfica Bayesiana, com redes neurais como componentes.

Redes Específicas

Aqui, destacamos algumas características de cada rede. Ferromagnetismo inspirou redes Hopfield, máquinas Boltzmann e RBMs. Um neurônio corresponde a um domínio de ferro com momentos magnéticos binários para cima e para baixo, e as conexões neurais correspondem à influência do domínio entre si. Conexões simétricas permitem uma formulação de energia global. Durante a inferência, a rede atualiza cada estado usando a função de etapa de ativação padrão. Pesos simétricos garantem a convergência para um padrão de ativação estável.

Hopfield
as redes são usadas como CAMs e têm a garantia de se estabelecer em algum padrão. Sem pesos simétricos, a rede é muito difícil de analisar. Com a função de energia certa, uma rede convergirá.
Máquinas Boltzmann
Estas são redes de Hopfield estocásticas. Seu valor de estado é amostrado a partir dessa fdp da seguinte maneira: suponha que um neurônio binário dispare com a probabilidade de Bernoulli p (1) = 1/3 e repouse com p (0) = 2/3. Uma amostra dele pegando um número aleatório distribuído UNIFORMENTE y e conectando-o à função de distribuição cumulativa invertida, que neste caso é a função de degrau com limiar de 2/3. A função inversa = {0 se x <= 2/3, 1 se x> 2/3}
Helmholtz
Essas são as primeiras inspirações para os codificadores automáticos variacionais. São 2 redes combinadas em uma - os pesos avançados operam o reconhecimento e os pesos reversos implementam a imaginação. É talvez a primeira rede a fazer as duas coisas. Helmholtz não trabalhou em aprendizado de máquina, mas inspirou a visão de "mecanismo de inferência estatística cuja função é inferir causas prováveis ​​de entrada sensorial" (3). o neurônio binário estocástico emite uma probabilidade de que seu estado é 0 ou 1. A entrada de dados normalmente não é considerada uma camada, mas no modo de geração da máquina de Helmholtz, a camada de dados recebe a entrada da camada do meio tem pesos separados para este propósito, então é considerado uma camada. Portanto, esta rede possui 3 camadas.
Variational Autoencoder
Eles são inspirados nas máquinas de Helmholtz e combinam rede de probabilidade com redes neurais. Um Autoencoder é uma rede CAM de 3 camadas, em que a camada do meio deve ser uma representação interna dos padrões de entrada. A rede neural do codificador é uma distribuição de probabilidade q φ (z dado x) e a rede do decodificador é p θ (x dado z). Os pesos são denominados phi & theta em vez de W e V como em Helmholtz - uma diferença cosmética. Essas 2 redes aqui podem ser totalmente conectadas ou usar outro esquema NN.

Comparação de Redes

Hopfield Boltzmann RBM Helmholtz Autoencoder VAE
uso e notáveis CAM, problema do caixeiro viajante CAM. A liberdade de conexões torna esta rede difícil de analisar. reconhecimento de padrão (MNIST, reconhecimento de fala) imaginação, mimetismo linguagem: escrita criativa, tradução. Visão: aprimorando imagens borradas gerar dados realistas
neurônio estado binário determinístico. Ativação = {0 (ou -1) se x for negativo, 1 caso contrário} neurônio hopfield binário estocástico binário estocástico. Estendido para valor real em meados de 2000 estocástico, binário, sigmóide idioma: LSTM. visão: campos receptivos locais. ativação relu geralmente valorizada real. neurônios da camada média codificam médias e variações para gaussianas. No modo de execução (inferência), a saída da camada intermediária são valores amostrados das gaussianas.
conexões 1 camada com pesos simétricos. Sem auto-conexões. 2 camadas. 1 oculto e 1 visível. pesos simétricos. <- mesmo.
sem conexões laterais dentro de uma camada.
3 camadas: pesos assimétricos. 2 redes combinadas em 1. 3 camadas. A entrada é considerada uma camada, embora não tenha pesos de entrada. camadas recorrentes para PNL. convoluções feedforward para a visão. entrada e saída têm as mesmas contagens de neurônios. 3 camadas: entrada, codificador, decodificador de amostrador de distribuição. o amostrador não é considerado uma camada (e)
inferência e energia a energia é dada pela medida de probabilidade de Gibbs: ← mesmo ← mesmo minimizar a divergência KL inferência é apenas feed-forward. redes UL anteriores funcionavam para frente E para trás minimizar o erro = erro de reconstrução - KLD
Treinamento Δw ij = s i * s j , para neurônio + 1 / -1 Δw ij = e * (p ij - p ' ij ). Isso é derivado da minimização de KLD. e = taxa de aprendizagem, p '= prevista ep = distribuição real. divergência contrastiva com amostragem de Gibbs treino de 2 fases acordar-dormir propagar de volta o erro de reconstrução reparameterizar estado oculto para backprop
força assemelha-se a sistemas físicos, então herda suas equações <--- mesmo. neurônios ocultos agem como representação interna do mundo externo esquema de treinamento mais prático mais rápido do que as máquinas Boltzmann ligeiramente anatômico. analisável com teoria da informação e mecânica estatística
fraqueza difícil de treinar devido às conexões laterais

Hebbian Learning, ART, SOM
O exemplo clássico de aprendizagem não supervisionada no estudo de redes neurais é o princípio de Donald Hebb , ou seja, neurônios que disparam juntos se conectam. Na aprendizagem Hebbian , a conexão é reforçada independentemente de um erro, mas é exclusivamente uma função da coincidência entre os potenciais de ação entre os dois neurônios. Uma versão semelhante que modifica os pesos sinápticos leva em consideração o tempo entre os potenciais de ação ( plasticidade dependente do tempo de pico ou STDP). A hipótese do Hebbian Learning é a base de uma série de funções cognitivas, como reconhecimento de padrões e aprendizagem experiencial.

Entre os modelos de rede neural , o mapa de auto-organização (SOM) e a teoria de ressonância adaptativa (ART) são comumente usados ​​em algoritmos de aprendizagem não supervisionados. O SOM é uma organização topográfica na qual os locais próximos no mapa representam entradas com propriedades semelhantes. O modelo ART permite que o número de clusters varie com o tamanho do problema e permite que o usuário controle o grau de similaridade entre os membros dos mesmos clusters por meio de uma constante definida pelo usuário chamada de parâmetro de vigilância. As redes ART são usadas para muitas tarefas de reconhecimento de padrões, como reconhecimento automático de alvos e processamento de sinais sísmicos.

Veja também

Referências

Leitura adicional