Reconhecimento de emoção - Emotion recognition

O reconhecimento da emoção é o processo de identificação da emoção humana . As pessoas variam muito em sua precisão em reconhecer as emoções dos outros. O uso de tecnologia para ajudar as pessoas a reconhecer emoções é uma área de pesquisa relativamente incipiente. Geralmente, a tecnologia funciona melhor se usar várias modalidades no contexto. Até o momento, a maioria dos trabalhos foi realizada na automação do reconhecimento de expressões faciais de vídeo, expressões faladas de áudio, expressões escritas de texto e fisiologia medida por wearables.

Humano

Os humanos apresentam uma grande variabilidade em suas habilidades de reconhecer emoções. Um ponto-chave a ter em mente ao aprender sobre o reconhecimento automático de emoções é que existem várias fontes de "verdade fundamental", ou verdade sobre o que é a emoção real. Suponha que estejamos tentando reconhecer as emoções de Alex. Uma fonte é "o que a maioria das pessoas diria que Alex está sentindo?" Nesse caso, a 'verdade' pode não corresponder ao que Alex sente, mas pode corresponder ao que a maioria das pessoas diria que parece que Alex sente. Por exemplo, Alex pode realmente se sentir triste, mas abre um grande sorriso e a maioria das pessoas diz que ele parece feliz. Se um método automatizado atinge os mesmos resultados que um grupo de observadores, pode ser considerado preciso, mesmo que não meça o que Alex realmente sente. Outra fonte de 'verdade' é perguntar a Alex o que ele realmente sente. Isso funciona se Alex tiver um bom senso de seu estado interno e quiser dizer a você o que ele é e for capaz de colocá-lo em palavras ou números com precisão. No entanto, algumas pessoas são alexitímicas e não têm um bom senso de seus sentimentos internos, ou não são capazes de comunicá-los com precisão com palavras e números. Em geral, chegar à verdade sobre qual emoção está realmente presente pode dar algum trabalho, pode variar dependendo dos critérios que são selecionados e geralmente envolve a manutenção de algum nível de incerteza.

Automático

Décadas de pesquisa científica foram conduzidas desenvolvendo e avaliando métodos para reconhecimento automático de emoções. Existe agora uma extensa literatura propondo e avaliando centenas de diferentes tipos de métodos, aproveitando técnicas de várias áreas, como processamento de sinais , aprendizado de máquina , visão computacional e processamento de fala . Diferentes metodologias e técnicas podem ser empregadas para interpretar as emoções, como as redes bayesianas . , Modelos de mistura gaussiana e modelos de Markov ocultos e redes neurais profundas .

Abordagens

A precisão do reconhecimento de emoções geralmente é melhorada quando ele combina a análise de expressões humanas de formas multimodais, como textos, fisiologia, áudio ou vídeo. Diferentes tipos de emoções são detectados por meio da integração de informações de expressões faciais , movimentos e gestos corporais e fala. Diz-se que a tecnologia contribui para o surgimento da chamada Internet emocional ou emotiva .

As abordagens existentes no reconhecimento de emoções para classificar certos tipos de emoções podem ser geralmente classificadas em três categorias principais: técnicas baseadas no conhecimento, métodos estatísticos e abordagens híbridas.

Técnicas baseadas no conhecimento

As técnicas baseadas no conhecimento (às vezes chamadas de técnicas baseadas no léxico ), utilizam o conhecimento do domínio e as características semânticas e sintáticas da linguagem para detectar certos tipos de emoção . Nessa abordagem, é comum usar recursos baseados em conhecimento durante o processo de classificação de emoções , como WordNet , SenticNet, ConceptNet e EmotiNet, para citar alguns. Uma das vantagens desta abordagem é a acessibilidade e economia proporcionadas pela grande disponibilidade de tais recursos baseados no conhecimento. Uma limitação desta técnica, por outro lado, é sua incapacidade de lidar com nuances de conceitos e regras linguísticas complexas.

As técnicas baseadas em conhecimento podem ser classificadas principalmente em duas categorias: abordagens baseadas em dicionário e abordagens baseadas em corpus. As abordagens baseadas em dicionário encontram palavras-semente de opinião ou emoção em um dicionário e procuram seus sinônimos e antônimos para expandir a lista inicial de opiniões ou emoções . As abordagens baseadas em corpus, por outro lado, começam com uma lista de sementes de palavras de opinião ou emoção e expandem o banco de dados encontrando outras palavras com características específicas do contexto em um grande corpus . Embora as abordagens baseadas em corpus levem em consideração o contexto, seu desempenho ainda varia em diferentes domínios, uma vez que uma palavra em um domínio pode ter uma orientação diferente em outro domínio.

Métodos estatísticos

Os métodos estatísticos comumente envolvem o uso de diferentes algoritmos de aprendizado de máquina supervisionado , nos quais um grande conjunto de dados anotados é alimentado nos algoritmos para que o sistema aprenda e preveja os tipos de emoção apropriados . Os algoritmos de aprendizado de máquina geralmente fornecem uma precisão de classificação mais razoável em comparação com outras abordagens, mas um dos desafios para obter bons resultados no processo de classificação é a necessidade de um conjunto de treinamento suficientemente grande.

Alguns dos algoritmos de aprendizado de máquina mais comumente usados incluem Support Vector Machines (SVM) , Naive Bayes e Entropia Máxima . O aprendizado profundo , que pertence à família não supervisionada do aprendizado de máquina , também é amplamente empregado no reconhecimento de emoções. Algoritmos de aprendizagem profunda bem conhecidos incluem diferentes arquiteturas de Rede Neural Artificial (ANN) , como Rede Neural Convolucional (CNN) , Memória de Longo Prazo (LSTM) e Máquina de Aprendizagem Extrema (ELM) . A popularidade das abordagens de aprendizagem profunda no domínio do reconhecimento de emoções pode ser atribuída principalmente ao seu sucesso em aplicações relacionadas, como em visão computacional , reconhecimento de fala e Processamento de Linguagem Natural (PNL) .

Abordagens híbridas

As abordagens híbridas no reconhecimento de emoções são essencialmente uma combinação de técnicas baseadas no conhecimento e métodos estatísticos, que exploram características complementares de ambas as técnicas. Alguns dos trabalhos que aplicaram um conjunto de elementos lingüísticos orientados ao conhecimento e métodos estatísticos incluem a computação sentic e o iFeel, os quais adotaram o recurso baseado em conhecimento em nível de conceito SenticNet. O papel de tais recursos baseados em conhecimento na implementação de abordagens híbridas é altamente importante no processo de classificação de emoções . Uma vez que as técnicas híbridas ganham com os benefícios oferecidos pelas abordagens baseadas em conhecimento e estatísticas, elas tendem a ter um melhor desempenho de classificação em oposição ao emprego de métodos baseados em conhecimento ou estatísticos independentemente. Uma desvantagem de usar técnicas híbridas, no entanto, é a complexidade computacional durante o processo de classificação.

Conjuntos de dados

Os dados são parte integrante das abordagens existentes no reconhecimento de emoções e, na maioria dos casos, é um desafio obter dados anotados que são necessários para treinar algoritmos de aprendizagem de máquina . Para a tarefa de classificar diferentes tipos de emoções de fontes multimodais na forma de textos, áudio, vídeos ou sinais fisiológicos, os seguintes conjuntos de dados estão disponíveis:

  1. HUMAINE: fornece clipes naturais com palavras de emoção e rótulos de contexto em várias modalidades
  2. Banco de dados de Belfast: fornece clipes com uma ampla gama de emoções de programas de TV e gravações de entrevistas
  3. SEMAINE: fornece gravações audiovisuais entre uma pessoa e um agente virtual e contém anotações de emoções como raiva, alegria, medo, nojo, tristeza, desprezo e diversão
  4. IEMOCAP: fornece gravações de sessões diádicas entre atores e contém anotações de emoções , como felicidade, raiva, tristeza, frustração e estado neutro
  5. eNTERFACE: fornece gravações audiovisuais de assuntos de sete nacionalidades e contém anotações de emoções como felicidade, raiva, tristeza, surpresa, nojo e medo
  6. DEAP: fornece eletroencefalografia ( EEG ), eletrocardiografia ( ECG ) e gravações de vídeo de rosto, bem como anotações de emoção em termos de valência , excitação e dominância de pessoas assistindo a clipes de filme
  7. DREAMER: fornece gravações de eletroencefalografia ( EEG ) e eletrocardiografia ( ECG ), bem como anotações de emoções em termos de valência , excitação e dominância de pessoas assistindo a clipes de filme
  8. MELD: é um conjunto de dados de conversação multipartidária em que cada expressão é marcada com emoção e sentimento. O MELD fornece conversas em formato de vídeo e, portanto, adequado para reconhecimento de emoção multimodal e análise de sentimento . O MELD é útil para análise de sentimento multimodal e reconhecimento de emoção, sistemas de diálogo e reconhecimento de emoção em conversas .
  9. MuSe: fornece gravações audiovisuais de interações naturais entre uma pessoa e um objeto. Possui anotações de emoção discretas e contínuas em termos de valência, excitação e confiabilidade, bem como tópicos de fala úteis para análise de sentimento multimodal e reconhecimento de emoção.
  10. UIT-VSMEC: é um padrão vietnamita de Social Media Emotion Corpus (UIT-VSMEC) com cerca de 6.927 frases anotadas por humanos com seis rótulos de emoção, contribuindo para a pesquisa de reconhecimento de emoção em vietnamita, que é uma linguagem de poucos recursos em Processamento de Linguagem Natural (PNL) .
  11. BED: fornece registros de eletroencefalografia ( EEG ), bem como anotações de emoções em termos de valência e excitação das pessoas que assistem às imagens. Também inclui gravações de eletroencefalografia ( EEG ) de pessoas expostas a vários estímulos ( SSVEP , descansando com os olhos fechados, descansando com os olhos abertos, tarefas cognitivas) para a tarefa de biometria baseada em EEG .

Formulários

O reconhecimento de emoções é usado na sociedade por vários motivos. A Affectiva , que saiu do MIT , fornece um software de inteligência artificial que torna mais eficiente a realização de tarefas anteriormente feitas manualmente por pessoas, principalmente para coletar informações de expressão facial e vocal relacionadas a contextos específicos onde os espectadores consentiram em compartilhar essas informações. Por exemplo, em vez de preencher uma longa pesquisa sobre como você se sente a cada momento ao assistir a um vídeo ou anúncio educacional, você pode consentir que uma câmera observe seu rosto e ouça o que você diz, e observe em quais partes da experiência você mostre expressões como tédio, interesse, confusão ou sorriso. (Observe que isso não significa que ele está lendo seus sentimentos mais íntimos - ele apenas lê o que você expressa externamente.) Outros usos da Affectiva incluem ajudar crianças com autismo, ajudar pessoas cegas a ler expressões faciais, ajudar robôs a interagir de forma mais inteligente com as pessoas. , e monitorar sinais de atenção ao dirigir em um esforço para aumentar a segurança do motorista.

Uma patente registrada pelo Snapchat em 2015 descreve um método de extração de dados sobre multidões em eventos públicos por meio do reconhecimento de emoções algorítmicas em selfies com geo- tagging dos usuários .

A Emotient era uma empresa iniciante que aplicou o reconhecimento de emoções para ler carrancas, sorrisos e outras expressões em rostos, nomeadamente inteligência artificial para prever "atitudes e ações com base em expressões faciais". A Apple comprou a Emotient em 2016 e usa tecnologia de reconhecimento de emoção para aprimorar a inteligência emocional de seus produtos.

A nViso fornece reconhecimento de emoção em tempo real para aplicativos da web e móveis por meio de uma API em tempo real . Visage Technologies AB oferece estimativa de emoções como parte de seu Visage SDK para marketing e pesquisa científica e propósitos semelhantes.

A Eyeris é uma empresa de reconhecimento de emoções que trabalha com fabricantes de sistemas embarcados, incluindo fabricantes de automóveis e empresas de robótica social na integração de seu software de análise facial e reconhecimento de emoções; bem como com criadores de conteúdo de vídeo para ajudá-los a medir a eficácia percebida de seu criativo de vídeo de formato curto e longo.

Muitos produtos também existem para agregar informações de emoções comunicadas online, incluindo por meio de pressionamentos de botões "como" e por meio de contagens de frases positivas e negativas no texto e o reconhecimento de afeto é cada vez mais usado em alguns tipos de jogos e realidade virtual, tanto para fins educacionais quanto para dar aos jogadores um controle mais natural sobre seus avatares sociais.

Subcampos de reconhecimento de emoção

O reconhecimento de emoções provavelmente terá o melhor resultado se aplicar várias modalidades , combinando diferentes objetos, incluindo texto (conversa), áudio, vídeo e fisiologia para detectar emoções.

Reconhecimento de emoção no texto

Os dados de texto são um objeto de pesquisa favorável para o reconhecimento de emoções quando são gratuitos e estão disponíveis em todos os lugares da vida humana. Em comparação com outros tipos de dados, o armazenamento de dados de texto é mais leve e fácil de compactar para o melhor desempenho devido à frequente repetição de palavras e caracteres nos idiomas. As emoções podem ser extraídas de duas formas de texto essenciais: textos escritos e conversas (diálogos). Para textos escritos, muitos estudiosos se concentram em trabalhar com o nível de frase para extrair "palavras / frases" que representam emoções.

Reconhecimento de emoção em áudio

Diferente do reconhecimento de emoção em texto, os sinais vocais são usados ​​para o reconhecimento para extrair emoções do áudio .

Reconhecimento de emoção em vídeo

Os dados de vídeo são uma combinação de dados de áudio, dados de imagem e, às vezes, textos (no caso de legendas ).

Reconhecimento de emoções na conversa

O reconhecimento de emoção na conversa (ERC) extrai opiniões entre os participantes de dados de conversação massivos em plataformas sociais , como Facebook , Twitter , YouTube e outros. O ERC pode receber dados de entrada como texto, áudio, vídeo ou uma forma combinada para detectar várias emoções, como medo, luxúria, dor e prazer.

Veja também

Referências