Análise de sentimento multimodal - Multimodal sentiment analysis

A análise de sentimento multimodal é uma nova dimensão da análise de sentimento tradicional baseada em texto , que vai além da análise de textos e inclui outras modalidades , como dados de áudio e visuais. Pode ser bimodal, que inclui diferentes combinações de duas modalidades, ou trimodal, que incorpora três modalidades. Com a extensa quantidade de dados de mídia social disponíveis online em diferentes formas, como vídeos e imagens, a análise de sentimento baseada em texto convencional evoluiu para modelos mais complexos de análise de sentimento multimodal, que podem ser aplicados no desenvolvimento de assistentes virtuais , análise de Críticas de filmes no YouTube, análise de vídeos de notícias e reconhecimento de emoções (também conhecido como detecção de emoções ), como monitoramento de depressão , entre outros.

Semelhante à análise de sentimento tradicional , uma das tarefas mais básicas na análise de sentimento multimodal é a classificação de sentimento , que classifica diferentes sentimentos em categorias como positivo, negativo ou neutro. A complexidade de analisar recursos de texto, áudio e visuais para realizar tal tarefa requer a aplicação de diferentes técnicas de fusão, como nível de recurso, nível de decisão e fusão híbrida. O desempenho dessas técnicas de fusão e os algoritmos de classificação aplicados são influenciados pelo tipo de recursos textuais, de áudio e visuais empregados na análise.

Características

A engenharia de recursos , que envolve a seleção de recursos que são alimentados em algoritmos de aprendizado de máquina , desempenha um papel fundamental no desempenho da classificação de sentimento. Na análise de sentimento multimodal, uma combinação de diferentes recursos textuais, de áudio e visuais são empregados.

Características textuais

Semelhante à análise de sentimento baseada em texto convencional , alguns dos recursos textuais mais comumente usados ​​na análise de sentimento multimodal são unigramas e n-gramas , que são basicamente uma sequência de palavras em um determinado documento textual. Esses recursos são aplicados usando representações de recurso de saco de palavras ou saco de conceitos, em que palavras ou conceitos são representados como vetores em um espaço adequado.

Recursos de áudio

Características de sentimento e emoção são proeminentes em diferentes propriedades fonéticas e prosódicas contidas em recursos de áudio. Alguns do áudio mais importante recursos empregados na análise de sentimentos multimodal são cepstro mel-frequência (MFCC) , centroid espectral , fluxo espectral , batida histograma, soma batida, forte batida, duração da pausa, e arremesso . OpenSMILE e Praat são kits de ferramentas de código aberto populares para extrair esses recursos de áudio.

Recursos visuais

Uma das principais vantagens de analisar vídeos em relação a textos apenas é a presença de ricas pistas de sentimento nos dados visuais. As características visuais incluem expressões faciais , que são de suma importância na captura de sentimentos e emoções , pois são o principal canal para formar o estado de espírito atual de uma pessoa. Especificamente, o sorriso é considerado uma das pistas visuais mais preditivas na análise de sentimento multimodal. OpenFace é um kit de ferramentas de análise facial de código aberto disponível para extrair e compreender esses recursos visuais.

Técnicas de fusão

Ao contrário da análise de sentimento baseada em texto tradicional , a análise de sentimento multimodal passa por um processo de fusão no qual dados de diferentes modalidades (texto, áudio ou visual) são fundidos e analisados ​​juntos. As abordagens existentes na fusão de dados de análise de sentimento multimodal podem ser agrupadas em três categorias principais: nível de recurso, nível de decisão e fusão híbrida, e o desempenho da classificação de sentimento depende de qual tipo de técnica de fusão é empregada.

Fusão em nível de recurso

A fusão de nível de recurso (às vezes conhecida como fusão inicial) reúne todos os recursos de cada modalidade (texto, áudio ou visual) e os une em um único vetor de recurso, que é eventualmente alimentado em um algoritmo de classificação. Uma das dificuldades na implementação desta técnica é a integração das características heterogêneas.

Fusão de nível de decisão

A fusão no nível de decisão (às vezes conhecida como fusão tardia), alimenta dados de cada modalidade (texto, áudio ou visual) independentemente em seu próprio algoritmo de classificação e obtém os resultados finais da classificação de sentimento fundindo cada resultado em um único vetor de decisão. Uma das vantagens dessa técnica de fusão é que ela elimina a necessidade de fundir dados heterogêneos, e cada modalidade pode utilizar seu algoritmo de classificação mais adequado .

Fusão híbrida

A fusão híbrida é uma combinação de técnicas de fusão de nível de recurso e de decisão, que explora informações complementares de ambos os métodos durante o processo de classificação. Geralmente envolve um procedimento de duas etapas em que a fusão de nível de recurso é inicialmente realizada entre duas modalidades e a fusão de nível de decisão é então aplicada como uma segunda etapa, para fundir os resultados iniciais da fusão de nível de recurso, com a modalidade restante .

Formulários

Semelhante à análise de sentimento baseada em texto, a análise de sentimento multimodal pode ser aplicada no desenvolvimento de diferentes formas de sistemas de recomendação , como na análise de vídeos gerados por usuários de resenhas de filmes e resenhas gerais de produtos, para prever os sentimentos dos clientes e, posteriormente, criar recomendações de produtos ou serviços. A análise de sentimento multimodal também desempenha um papel importante no avanço dos assistentes virtuais por meio da aplicação de processamento de linguagem natural (PNL) e técnicas de aprendizado de máquina . No domínio da saúde, a análise de sentimento multimodal pode ser utilizada para detectar certas condições médicas, como estresse , ansiedade ou depressão . A análise de sentimento multimodal também pode ser aplicada na compreensão dos sentimentos contidos nos telejornais, o que é considerado um domínio complicado e desafiador, uma vez que os sentimentos expressos pelos repórteres tendem a ser menos óbvios ou neutros.

Referências