Rede adversária geradora - Generative adversarial network

Uma rede adversária gerativa ( GAN ) é uma classe de frameworks de aprendizado de máquina desenvolvida por Ian Goodfellow e seus colegas em junho de 2014. Duas redes neurais competem entre si em um jogo (na forma de um jogo de soma zero , em que o ganho de um agente é a perda de outro agente).

Dado um conjunto de treinamento, essa técnica aprende a gerar novos dados com as mesmas estatísticas do conjunto de treinamento. Por exemplo, um GAN treinado em fotografias pode gerar novas fotografias que parecem pelo menos superficialmente autênticas para observadores humanos, com muitas características realistas. Embora originalmente proposto como uma forma de modelo gerador para aprendizado não supervisionado , os GANs também se mostraram úteis para aprendizado semi-supervisionado , aprendizado totalmente supervisionado e aprendizado por reforço .

A ideia central de um GAN é baseada no treinamento "indireto" através do discriminador, que também está sendo atualizado dinamicamente. Isso basicamente significa que o gerador não é treinado para minimizar a distância a uma imagem específica, mas sim para enganar o discriminador. Isso permite que o modelo aprenda de maneira não supervisionada.

Método

A rede generativa gera candidatos enquanto a rede discriminativa os avalia. O concurso opera em termos de distribuição de dados. Normalmente, a rede generativa aprende a mapear de um espaço latente para uma distribuição de dados de interesse, enquanto a rede discriminativa distingue os candidatos produzidos pelo gerador da distribuição de dados verdadeira. O objetivo de treinamento da rede generativa é aumentar a taxa de erro da rede discriminativa (isto é, "enganar" a rede discriminadora produzindo novos candidatos que o discriminador pensa não serem sintetizados (são parte da distribuição de dados verdadeira)).

Um conjunto de dados conhecido serve como dados de treinamento inicial para o discriminador. O treinamento envolve a apresentação de amostras do conjunto de dados de treinamento, até que atinja uma precisão aceitável. O gerador treina com base no sucesso em enganar o discriminador. Normalmente, o gerador é semeado com entrada aleatória que é amostrada de um espaço latente predefinido (por exemplo, uma distribuição normal multivariada ). Depois disso, os candidatos sintetizados pelo gerador são avaliados pelo discriminador. Procedimentos de retropropagação independentes são aplicados a ambas as redes para que o gerador produza melhores amostras, enquanto o discriminador se torna mais hábil em sinalizar amostras sintéticas. Quando usado para geração de imagens, o gerador é normalmente uma rede neural deconvolucional e o discriminador é uma rede neural convolucional .

As GANs geralmente sofrem de um "colapso de modo", em que falham em generalizar adequadamente, perdendo modos inteiros dos dados de entrada. Por exemplo, um GAN treinado no conjunto de dados MNIST contendo muitas amostras de cada dígito pode, no entanto, omitir timidamente um subconjunto dos dígitos de sua saída. Alguns pesquisadores percebem que a raiz do problema é uma rede discriminativa fraca que não consegue perceber o padrão de omissão, enquanto outros atribuem a culpa a uma má escolha da função objetivo . Muitas soluções foram propostas. A convergência de GANs é um problema aberto.

GANs são modelos generativos implícitos , o que significa que eles não modelam explicitamente a função de verossimilhança nem fornecem meios para encontrar a variável latente correspondente a uma determinada amostra, ao contrário de alternativas como o modelo generativo baseado em fluxo .

Formulários

Os aplicativos GAN aumentaram rapidamente.

Moda, arte e publicidade

Os GANs podem ser usados ​​para gerar arte; The Verge escreveu em março de 2019 que "as imagens criadas por GANs se tornaram o visual definidor da arte contemporânea de IA". Os GANs também podem ser usados ​​para pintar fotografias ou criar fotos de modelos de moda imaginários, sem a necessidade de contratar uma modelo, fotógrafo ou maquiador, ou pagar por estúdio e transporte.

Ciência

GANs podem melhorar imagens astronômicas e simular lentes gravitacionais para pesquisas de matéria escura. Eles foram usados ​​em 2019 para modelar com sucesso a distribuição da matéria escura em uma direção específica no espaço e para prever as lentes gravitacionais que ocorrerão.

Os GANs foram propostos como uma forma rápida e precisa de modelar a formação de jatos de alta energia e modelar chuveiros por meio de calorímetros de experimentos de física de alta energia . Os GANs também foram treinados para aproximar com precisão os gargalos em simulações computacionalmente caras de experimentos de física de partículas. Aplicações no contexto dos experimentos atuais e propostos do CERN demonstraram o potencial desses métodos para acelerar a simulação e / ou melhorar a fidelidade da simulação.

Jogos de vídeo

Em 2018, os GANs alcançaram a comunidade de modding de videogame , como um método de escalonamento de texturas 2D de baixa resolução em videogames antigos, recriando-as em resoluções 4k ou mais altas por meio de treinamento de imagem e, em seguida, down-sampling para caber no jogo nativo resolução (com resultados semelhantes ao método de superamostragem de suavização de serrilhado ). Com o treinamento adequado, os GANs fornecem uma imagem de textura 2D mais clara e nítida com magnitudes de imagem com qualidade superior à do original, enquanto mantêm totalmente o nível de detalhes, cores, etc. do original. Exemplos conhecidos de uso extensivo de GAN incluem Final Fantasy VIII , Final Fantasy IX , Residente Evil REmake HD Remaster e Max Payne .

Preocupações com aplicativos maliciosos

Uma imagem gerada por um StyleGAN que se parece enganosamente com a fotografia de uma pessoa real. Esta imagem foi gerada por um StyleGAN com base na análise de retratos.
Outro exemplo de aprendizado profundo deepfake GAN

Foram levantadas preocupações sobre o uso potencial de síntese de imagem humana baseada em GAN para fins sinistros, por exemplo, para produzir fotos e vídeos falsos, possivelmente incriminadores. Os GANs podem ser usados ​​para gerar fotos de perfil realistas e exclusivas de pessoas que não existem, a fim de automatizar a criação de perfis de mídia social falsos.

Em 2019, o estado da Califórnia considerou e aprovou em 3 de outubro de 2019 o projeto de lei AB-602 , que proíbe o uso de tecnologias de síntese de imagem humana para fazer pornografia falsa sem o consentimento das pessoas retratadas, e o projeto de lei AB-730 , que proíbe a distribuição de vídeos manipulados de um candidato político dentro de 60 dias de uma eleição. Ambos os projetos foram de autoria do membro da Assembleia Marc Berman e assinados pelo governador Gavin Newsom . As leis entrarão em vigor em 2020.

O programa Media Forensics da DARPA estuda maneiras de neutralizar mídia falsa, incluindo mídia falsa produzida usando GANs.

Aprendizagem de transferência

A pesquisa de aprendizagem de transferência de última geração usa GANs para impor o alinhamento do espaço de recursos latentes, como no aprendizado por reforço profundo. Isso funciona alimentando os embeddings da tarefa de origem e de destino para o discriminador que tenta adivinhar o contexto. A perda resultante é então (inversamente) retropropogada através do codificador.

Aplicativos diversos

O GAN pode ser usado para detectar imagens glaucomatosas auxiliando no diagnóstico precoce, que é essencial para evitar a perda parcial ou total da visão.

Os GANs que produzem imagens fotorrealistas podem ser usados ​​para visualizar design de interiores , design industrial , sapatos, bolsas e itens de vestuário ou itens para cenas de jogos de computador . Essas redes foram relatadas como sendo usadas pelo Facebook .

Os GANs podem reconstruir modelos 3D de objetos a partir de imagens , gerar novos objetos como nuvens de pontos 3D e modelar padrões de movimento em vídeo.

GANs podem ser usados ​​para envelhecer fotos de rosto para mostrar como a aparência de um indivíduo pode mudar com a idade.

Os GANs também podem ser usados ​​para transferir estilos de mapa na cartografia ou aumentar as imagens do Street View.

O feedback de relevância sobre GANs pode ser usado para gerar imagens e substituir os sistemas de pesquisa de imagens.

Uma variação dos GANs é usada no treinamento de uma rede para gerar entradas de controle ideais para sistemas dinâmicos não lineares . Onde a rede discriminatória é conhecida como uma crítica que verifica a otimalidade da solução e a rede generativa é conhecida como uma rede adaptativa que gera o controle ótimo. A rede crítica e a rede adaptativa treinam uma à outra para se aproximar de um controle ótimo não linear.

Os GANs têm sido usados ​​para visualizar o efeito que a mudança climática terá em casas específicas.

Um modelo GAN chamado Speech2Face pode reconstruir uma imagem do rosto de uma pessoa depois de ouvir sua voz.

Em 2016, os GANs foram usados ​​para gerar novas moléculas para uma variedade de alvos proteicos implicados no câncer, inflamação e fibrose. Em 2019, moléculas geradas por GAN foram validadas experimentalmente em camundongos.

Considerando que a maioria dos aplicativos GAN está no processamento de imagens, o trabalho também foi feito com dados de séries temporais. Por exemplo, GANs recorrentes (R-GANs) têm sido usados ​​para gerar dados de energia para aprendizado de máquina.

História

A inspiração mais direta para GANs foi a estimativa de ruído contrastivo, que usa a mesma função de perda dos GANs e que Goodfellow estudou durante seu doutorado em 2010–2014.

Outras pessoas tiveram ideias semelhantes, mas não as desenvolveram da mesma forma. Uma ideia envolvendo redes adversárias foi publicada em um post de blog de Olli Niemitalo em 2010. Esta ideia nunca foi implementada e não envolveu estocasticidade no gerador e, portanto, não foi um modelo generativo. Agora é conhecido como GAN condicional ou cGAN. Uma ideia semelhante aos GANs foi usada para modelar o comportamento animal por Li, Gauci e Gross em 2013.

O aprendizado de máquina adversário tem outros usos além da modelagem generativa e pode ser aplicado a modelos diferentes de redes neurais. Na teoria de controle, o aprendizado adversarial baseado em redes neurais foi usado em 2006 para treinar controladores robustos no sentido teórico do jogo, alternando as iterações entre uma política de minimizador, o controlador, e uma política de maximizador, a perturbação.

Em 2017, um GAN foi usado para aprimoramento de imagem com foco em texturas realistas em vez de precisão de pixel, produzindo uma qualidade de imagem superior em alta ampliação. Em 2017, foram gerados os primeiros rostos. Estes foram exibidos em fevereiro de 2018 no Grand Palais. Rostos gerados por StyleGAN em 2019 foram comparados com deepfakes .

A partir de 2017, a tecnologia GAN começou a fazer sentir a sua presença na arena das artes plásticas com o aparecimento de uma implementação recentemente desenvolvida que teria ultrapassado o limiar de ser capaz de gerar pinturas abstratas únicas e apelativas e, por isso, apelidado de "CAN ", para" rede adversária criativa ". Um sistema GAN foi usado para criar a pintura Edmond de Belamy 2018 , que foi vendida por US $ 432.500. Um artigo do início de 2019, escrito por membros da equipe CAN original, discutiu o progresso adicional com esse sistema e também considerou as perspectivas gerais de uma arte habilitada para IA.

Em maio de 2019, pesquisadores da Samsung demonstraram um sistema baseado em GAN que produz vídeos de uma pessoa falando, recebendo apenas uma foto dessa pessoa.

Em agosto de 2019, um grande conjunto de dados consistindo de 12.197 músicas MIDI, cada uma com letras emparelhadas e alinhamento de melodia, foi criado para geração de melodia neural a partir de letras usando GAN-LSTM condicional (consulte as fontes em GitHub AI Melody Generation from Lyrics ).

Em maio de 2020, os pesquisadores da Nvidia ensinaram um sistema de IA (denominado "GameGAN") a recriar o jogo do Pac-Man simplesmente assistindo-o sendo jogado.

Classificação

GAN bidirecional

Enquanto o modelo GAN padrão aprende um mapeamento de um espaço latente para a distribuição de dados, modelos inversos como GAN bidirecional (BiGAN) e Autoencoders Adversarial também aprendem um mapeamento de dados para o espaço latente. Este mapeamento inverso permite que exemplos de dados reais ou gerados sejam projetados de volta no espaço latente, semelhante ao codificador de um autoencoder variacional . Aplicações de modelos bidirecionais incluem aprendizado semi-supervisionado , aprendizado de máquina interpretável , e de tradução automática neural .

Referências

links externos