Computação afetiva - Affective computing

A computação afetiva é o estudo e desenvolvimento de sistemas e dispositivos que podem reconhecer, interpretar, processar e simular os afetos humanos . É um campo interdisciplinar que abrange ciência da computação , psicologia e ciências cognitivas . Enquanto algumas idéias centrais no campo podem ser rastreadas desde as primeiras investigações filosóficas sobre emoção , o ramo mais moderno da ciência da computação se originou com o artigo de Rosalind Picard de 1995 sobre computação afetiva e seu livro Affective Computing publicado pela MIT Press . Uma das motivações da pesquisa é a capacidade de dar inteligência emocional às máquinas, inclusive para simular empatia . A máquina deve interpretar o estado emocional dos humanos e adaptar seu comportamento a eles, dando uma resposta adequada a essas emoções.

Áreas

Detectando e reconhecendo informações emocionais

A detecção de informações emocionais geralmente começa com sensores passivos que capturam dados sobre o estado físico ou comportamento do usuário sem interpretar a entrada. Os dados coletados são análogos às pistas que os humanos usam para perceber emoções nos outros. Por exemplo, uma câmera de vídeo pode capturar expressões faciais, postura corporal e gestos, enquanto um microfone pode capturar a fala. Outros sensores detectam pistas emocionais medindo diretamente dados fisiológicos , como temperatura da pele e resistência galvânica .

O reconhecimento de informações emocionais requer a extração de padrões significativos dos dados coletados. Isso é feito usando técnicas de aprendizado de máquina que processam diferentes modalidades , como reconhecimento de fala , processamento de linguagem natural ou detecção de expressão facial . O objetivo da maioria dessas técnicas é produzir rótulos que correspondam aos rótulos que um observador humano daria na mesma situação: por exemplo, se uma pessoa fizer uma expressão facial franzindo a testa, o sistema de visão por computador pode ser ensinado a rotular seu rosto parecia "confuso" ou "concentrado" ou "ligeiramente negativo" (em oposição a positivo, o que poderia ser dito se eles estivessem sorrindo de uma forma feliz). Esses rótulos podem ou não corresponder ao que a pessoa está realmente sentindo.

Emoção nas máquinas

Outra área dentro da computação afetiva é o projeto de dispositivos computacionais propostos para exibir capacidades emocionais inatas ou que são capazes de simular emoções de forma convincente. Uma abordagem mais prática, baseada nas capacidades tecnológicas atuais, é a simulação de emoções em agentes conversacionais com o objetivo de enriquecer e facilitar a interatividade entre homem e máquina.

Marvin Minsky , um dos cientistas da computação pioneiros em inteligência artificial , relaciona as emoções às questões mais amplas da inteligência da máquina, afirmando em The Emotion Machine que a emoção "não é especialmente diferente dos processos que chamamos de 'pensamento'".

Tecnologias

Na psicologia, nas ciências cognitivas e na neurociência, existem duas abordagens principais para descrever como os humanos percebem e classificam a emoção: contínua ou categórica. A abordagem contínua tende a usar dimensões como negativo x positivo, calmo x excitado.

A abordagem categórica tende a usar classes discretas, como feliz, triste, zangado, com medo, surpresa, nojo. Diferentes tipos de regressão de aprendizado de máquina e modelos de classificação podem ser usados ​​para que as máquinas produzam rótulos contínuos ou discretos. Às vezes, também são construídos modelos que permitem combinações entre as categorias, por exemplo, um rosto surpreso e feliz ou um rosto surpreso com medo.

As seções a seguir consideram muitos dos tipos de dados de entrada usados ​​para a tarefa de reconhecimento de emoções .

Discurso emocional

Várias mudanças no sistema nervoso autônomo podem alterar indiretamente a fala de uma pessoa, e as tecnologias afetivas podem alavancar essas informações para reconhecer a emoção. Por exemplo, a fala produzida em um estado de medo, raiva ou alegria torna-se rápida, alta e precisamente enunciada, com uma amplitude cada vez mais ampla, enquanto emoções como cansaço, tédio ou tristeza tendem a gerar lentidão, baixa discurso agudo e arrastado. Algumas emoções foram identificadas com mais facilidade computacionalmente, como raiva ou aprovação.

As tecnologias de processamento de fala emocional reconhecem o estado emocional do usuário usando a análise computacional das características da fala. Parâmetros vocais e recursos prosódicos , como variáveis ​​de pitch e velocidade de fala, podem ser analisados ​​por meio de técnicas de reconhecimento de padrões.

A análise da fala é um método eficaz de identificação do estado afetivo, tendo uma precisão média relatada de 70 a 80% em pesquisas recentes. Esses sistemas tendem a superar a precisão humana média (aproximadamente 60%), mas são menos precisos do que os sistemas que empregam outras modalidades de detecção de emoções, como estados fisiológicos ou expressões faciais. No entanto, como muitas características da fala são independentes da semântica ou da cultura, essa técnica é considerada um caminho promissor para pesquisas futuras.

Algoritmos

O processo de detecção de efeitos de fala / texto requer a criação de um banco de dados confiável , base de conhecimento ou modelo de espaço vetorial , amplo o suficiente para atender a todas as necessidades de sua aplicação, bem como a seleção de um classificador bem-sucedido que permitirá rapidez e precisão identificação de emoção.

Atualmente, os classificadores mais frequentemente usados ​​são classificadores discriminantes lineares (LDC), k-vizinho mais próximo (k-NN), modelo de mistura gaussiana (GMM), máquinas de vetores de suporte (SVM), redes neurais artificiais (ANN), algoritmos de árvore de decisão e modelos ocultos de Markov (HMMs). Vários estudos mostraram que a escolha do classificador apropriado pode melhorar significativamente o desempenho geral do sistema. A lista abaixo fornece uma breve descrição de cada algoritmo:

  • LDC - A classificação ocorre com base no valor obtido a partir da combinação linear dos valores das características, que normalmente são fornecidos na forma de feições vetoriais.
  • k-NN - A classificação acontece localizando o objeto no espaço de recursos e comparando-o com os k vizinhos mais próximos (exemplos de treinamento). A maioria dos votos decide sobre a classificação.
  • GMM - é um modelo probabilístico usado para representar a existência de subpopulações na população geral. Cada subpopulação é descrita usando a distribuição de mistura, que permite a classificação das observações nas subpopulações.
  • SVM - é um tipo de classificador linear (geralmente binário) que decide em qual das duas (ou mais) classes possíveis, cada entrada pode cair.
  • ANN - é um modelo matemático, inspirado em redes neurais biológicas, que pode compreender melhor as possíveis não linearidades do espaço de feições.
  • Algoritmos de árvore de decisão - funcionam com base em seguir uma árvore de decisão em que as folhas representam o resultado da classificação e os ramos representam a conjunção de recursos subsequentes que levam à classificação.
  • HMMs - um modelo estatístico de Markov no qual os estados e as transições de estado não estão diretamente disponíveis para observação. Em vez disso, a série de saídas dependentes dos estados são visíveis. No caso de reconhecimento de afeto, as saídas representam a sequência de vetores de características da fala, que permitem a dedução das sequências de estados através das quais o modelo progrediu. Os estados podem consistir em várias etapas intermediárias na expressão de uma emoção, e cada uma delas tem uma distribuição de probabilidade sobre os possíveis vetores de saída. As sequências de estados nos permitem predizer o estado afetivo que estamos tentando classificar, e esta é uma das técnicas mais comumente usadas na área de detecção de efeitos da fala.

Está provado que tendo suficiente evidência acústica disponível, o estado emocional de uma pessoa pode ser classificado por um conjunto de classificadores de votação por maioria. O conjunto de classificadores proposto é baseado em três classificadores principais: kNN, C4.5 e SVM-RBF Kernel. Este conjunto atinge melhor desempenho do que cada classificador básico considerado separadamente. Ele é comparado com dois outros conjuntos de classificadores: um-contra-todos (OAA) SVM multiclasse com kernels híbridos e o conjunto de classificadores que consiste nos dois classificadores básicos a seguir: C5.0 e Rede Neural. A variante proposta atinge melhor desempenho do que os outros dois conjuntos de classificadores.

Bancos de dados

A grande maioria dos sistemas atuais depende de dados. Isso cria um dos maiores desafios na detecção de emoções com base na fala, pois implica a escolha de um banco de dados apropriado para treinar o classificador. A maioria dos dados atualmente possuídos foi obtida de atores e é, portanto, uma representação de emoções arquetípicas. Esses chamados bancos de dados de ação geralmente são baseados na teoria das Emoções Básicas (de Paul Ekman ), que assume a existência de seis emoções básicas (raiva, medo, nojo, surpresa, alegria, tristeza), sendo as outras simplesmente uma mistura de antigos. No entanto, eles ainda oferecem alta qualidade de áudio e classes balanceadas (embora muitas vezes muito poucas), o que contribui para altas taxas de sucesso no reconhecimento de emoções.

No entanto, para aplicação na vida real, dados naturalísticos são preferidos. Um banco de dados naturalístico pode ser produzido pela observação e análise de assuntos em seu contexto natural. Em última análise, esse banco de dados deve permitir que o sistema reconheça emoções com base em seu contexto, bem como definir os objetivos e resultados da interação. A natureza deste tipo de dados permite uma implementação autêntica na vida real, pois descreve estados que ocorrem naturalmente durante a interação homem-computador (IHC).

Apesar das inúmeras vantagens que os dados naturalísticos têm sobre os dados atuados, eles são difíceis de obter e geralmente apresentam baixa intensidade emocional. Além disso, dados obtidos em contexto natural apresentam qualidade de sinal inferior, devido ao ruído do entorno e à distância dos sujeitos do microfone. A primeira tentativa de produzir esse banco de dados foi o FAU Aibo Emotion Corpus para CEICES (Combinar esforços para melhorar a classificação automática dos estados emocionais do usuário), desenvolvido com base em um contexto realista de crianças (de 10 a 13 anos) brincando com o animal de estimação robô Aibo da Sony . Da mesma forma, produzir um banco de dados padrão para todas as pesquisas emocionais forneceria um método de avaliação e comparação de diferentes sistemas de reconhecimento de afeto.

Descritores de fala

A complexidade do processo de reconhecimento de afeto aumenta com o número de classes (afetos) e descritores de fala usados ​​no classificador. É, portanto, crucial selecionar apenas as características mais relevantes, a fim de garantir a capacidade do modelo em identificar emoções com sucesso, bem como aumentar o desempenho, o que é particularmente significativo para a detecção em tempo real. O leque de escolhas possíveis é vasto, com alguns estudos mencionando a utilização de mais de 200 funcionalidades distintas. É crucial identificar aquelas que são redundantes e indesejáveis, a fim de otimizar o sistema e aumentar a taxa de sucesso da detecção correta de emoções. As características de fala mais comuns são categorizadas nos seguintes grupos.

  1. Características de frequência
    • Forma de acento - afetada pela taxa de mudança da frequência fundamental.
    • Tom médio - descrição de quão alto / baixo o falante fala em relação ao discurso normal.
    • Inclinação do contorno - descreve a tendência da mudança de frequência ao longo do tempo, podendo ser crescente, decrescente ou nivelada.
    • Redução final - o valor pelo qual a frequência cai no final de um enunciado.
    • Faixa de tom - mede a dispersão entre a frequência máxima e mínima de um enunciado.
  2. Recursos relacionados ao tempo:
    • Taxa de fala - descreve a taxa de palavras ou sílabas pronunciadas ao longo de uma unidade de tempo
    • Frequência de estresse - mede a taxa de ocorrências de declarações de tom acentuado
  3. Parâmetros de qualidade de voz e descritores de energia:
    • Sopro - mede o ruído de aspiração na fala
    • Brilho - descreve a predominância de frequências altas ou baixas na fala
    • Loudness - mede a amplitude da forma de onda da fala, traduz-se na energia de um enunciado
    • Pausa de descontinuidade - descreve as transições entre som e silêncio
    • Descontinuidade de tom - descreve as transições da frequência fundamental.

Detecção de afeto facial

A detecção e o processamento da expressão facial são obtidos por meio de vários métodos, como fluxo óptico , modelos de Markov ocultos , processamento de rede neural ou modelos de aparência ativa. Mais de uma modalidade pode ser combinada ou fundida (reconhecimento multimodal, por exemplo, expressões faciais e prosódia de fala, expressões faciais e gestos manuais ou expressões faciais com fala e texto para dados multimodais e análise de metadados) para fornecer uma estimativa mais robusta do estado emocional do sujeito Estado. A Affectiva é uma empresa (cofundada por Rosalind Picard e Rana El Kaliouby ) diretamente relacionada à computação afetiva e tem como objetivo a investigação de soluções e softwares para detecção de afeto facial.

Banco de dados de expressão facial

A criação de um banco de dados de emoções é uma tarefa difícil e demorada. No entanto, a criação de banco de dados é uma etapa essencial na criação de um sistema que reconhecerá as emoções humanas. A maioria dos bancos de dados de emoções disponíveis ao público inclui apenas expressões faciais postas. Em bancos de dados de expressão posta, os participantes são solicitados a exibir diferentes expressões emocionais básicas, enquanto no banco de dados de expressão espontânea, as expressões são naturais. A eliciação espontânea de emoções requer um esforço significativo na seleção dos estímulos adequados, que podem levar a uma rica exibição das emoções pretendidas. Em segundo lugar, o processo envolve marcação de emoções por indivíduos treinados manualmente, o que torna os bancos de dados altamente confiáveis. Uma vez que a percepção das expressões e sua intensidade é de natureza subjetiva, a anotação por especialistas é essencial para o propósito de validação.

Os pesquisadores trabalham com três tipos de bancos de dados, como um banco de dados apenas de imagens de expressão de pico, um banco de dados de sequências de imagens que retratam uma emoção do neutro ao seu pico e clipes de vídeo com anotações emocionais. Muitos bancos de dados de expressão facial foram criados e divulgados para fins de reconhecimento de expressão. Duas das bases de dados amplamente utilizadas são CK + e JAFFE.

Classificação de emoção

Ao fazer pesquisas interculturais em Papua Nova Guiné, sobre os Homens da Tribo Fore, no final da década de 1960, Paul Ekman propôs a ideia de que as expressões faciais de emoção não são culturalmente determinadas, mas universais. Assim, ele sugeriu que são de origem biológica e podem, portanto, ser categorizados de forma segura e correta. Ele, portanto, expressou oficialmente seis emoções básicas, em 1972:

No entanto, na década de 1990, Ekman expandiu sua lista de emoções básicas, incluindo uma gama de emoções positivas e negativas, nem todas codificadas nos músculos faciais. As emoções recém-incluídas são:

  1. Diversão
  2. Desprezo
  3. Contentamento
  4. Embaraço
  5. Excitação
  6. Culpa
  7. Orgulho em conquistas
  8. Alívio
  9. Satisfação
  10. Prazer sensorial
  11. Vergonha

Sistema de codificação de ação facial

Um sistema foi concebido por psicólogos para categorizar formalmente a expressão física das emoções nos rostos. O conceito central do Sistema de Codificação de Ação Facial, ou FACS, criado por Paul Ekman e Wallace V. Friesen em 1978 com base em trabalhos anteriores de Carl-Herman Hjortsjö são unidades de ação (AU). São, basicamente, uma contração ou relaxamento de um ou mais músculos. Os psicólogos propuseram a seguinte classificação de seis emoções básicas, de acordo com suas unidades de ação ("+" aqui significa "e"):

Emoção Unidades de ação
Felicidade 6 + 12
Tristeza 1 + 4 + 15
Surpresa 1 + 2 + 5B + 26
Medo 1 + 2 + 4 + 5 + 20 + 26
Raiva 4 + 5 + 7 + 23
Nojo 9 + 15 + 16
Desprezo R12A + R14A

Desafios na detecção facial

Como acontece com toda prática computacional, na detecção de afeto por processamento facial, alguns obstáculos precisam ser superados, a fim de desbloquear totalmente o potencial oculto do algoritmo geral ou método empregado. Nos primeiros dias de quase todos os tipos de detecção baseada em IA (reconhecimento de voz, reconhecimento de rosto, reconhecimento de afeto), a precisão da modelagem e rastreamento tem sido um problema. Conforme o hardware evolui, conforme mais dados são coletados e novas descobertas são feitas e novas práticas são introduzidas, essa falta de precisão diminui, deixando para trás problemas de ruído. No entanto, existem métodos para remoção de ruído, incluindo média de vizinhança, suavização gaussiana linear , filtragem de mediana ou métodos mais novos, como o algoritmo de otimização de forrageamento bacteriano.

Outros desafios incluem

  • O fato de que as expressões postas, como usadas pela maioria dos sujeitos dos vários estudos, não são naturais e, portanto, os algoritmos treinados nelas podem não se aplicar às expressões naturais.
  • A falta de liberdade de movimento rotacional. A detecção de afeto funciona muito bem com o uso frontal, mas ao girar a cabeça mais de 20 graus, "houve problemas".
  • As expressões faciais nem sempre correspondem a uma emoção subjacente que corresponda a elas (por exemplo, podem ser colocadas ou fingidas, ou uma pessoa pode sentir emoções, mas manter uma "cara de pau").
  • O FACS não incluiu dinâmica, enquanto a dinâmica pode ajudar a desambiguar (por exemplo, sorrisos de felicidade genuína tendem a ter uma dinâmica diferente dos sorrisos de "tentar parecer feliz".)
  • As combinações FACS não correspondem de forma 1: 1 com as emoções que os psicólogos propuseram originalmente (note que esta falta de mapeamento 1: 1 também ocorre no reconhecimento de fala com homófonos e homônimos e muitas outras fontes de ambiguidade, e pode ser mitigado pela introdução de outros canais de informação).
  • A precisão do reconhecimento é melhorada adicionando contexto; no entanto, adicionar contexto e outras modalidades aumenta o custo computacional e a complexidade

Gesto corporal

Os gestos podem ser usados ​​de forma eficiente como um meio de detectar um estado emocional específico do usuário, especialmente quando usados ​​em conjunto com o reconhecimento de fala e rosto. Dependendo da ação específica, os gestos podem ser respostas reflexivas simples, como levantar os ombros quando você não sabe a resposta a uma pergunta, ou podem ser complexos e significativos como ao se comunicar com a linguagem de sinais. Sem fazer uso de nenhum objeto ou ambiente circundante, podemos acenar, bater palmas ou acenar. Por outro lado, ao usar objetos, podemos apontá-los, movê-los, tocá-los ou manuseá-los. Um computador deve ser capaz de reconhecê-los, analisar o contexto e responder de forma significativa, a fim de ser usado de forma eficiente para a Interação Humano-Computador.

Existem muitos métodos propostos para detectar o gesto corporal. Alguma literatura diferencia 2 abordagens diferentes no reconhecimento de gestos: um modelo 3D baseado e um baseado na aparência. O método principal faz uso de informações 3D de elementos-chave das partes do corpo para obter vários parâmetros importantes, como a posição da palma da mão ou ângulos articulares. Por outro lado, os sistemas baseados em aparência usam imagens ou vídeos para interpretação direta. Os gestos das mãos têm sido um foco comum dos métodos de detecção de gestos corporais.

Monitoramento fisiológico

Isso pode ser usado para detectar o estado afetivo de um usuário monitorando e analisando seus sinais fisiológicos. Esses sinais variam de alterações na frequência cardíaca e condutância da pele a minúsculas contrações dos músculos faciais e alterações no fluxo sanguíneo facial. Esta área está ganhando impulso e agora estamos vendo produtos reais que implementam as técnicas. Os quatro principais sinais fisiológicos geralmente analisados ​​são: pulso de volume sanguíneo , resposta galvânica da pele , eletromiografia facial e padrões de cores faciais.

Pulso de volume sanguíneo

Visão geral

O pulso de volume sanguíneo (BVP) de um sujeito pode ser medido por um processo chamado fotopletismografia, que produz um gráfico que indica o fluxo sanguíneo pelas extremidades. Os picos das ondas indicam um ciclo cardíaco em que o coração bombeia sangue para as extremidades. Se o sujeito sentir medo ou se assustar, seu coração geralmente 'pula' e bate rapidamente por algum tempo, fazendo com que a amplitude do ciclo cardíaco aumente. Isso pode ser visto claramente em um fotopletismógrafo quando a distância entre o vale e o pico da onda diminuiu. À medida que o assunto se acalma e o núcleo interno do corpo se expande, permitindo que mais sangue flua de volta para as extremidades, o ciclo volta ao normal.

Metodologia

A luz infravermelha é emitida sobre a pele por um hardware de sensor especial, e a quantidade de luz refletida é medida. A quantidade de luz refletida e transmitida se correlaciona com o BVP, pois a luz é absorvida pela hemoglobina, que é encontrada ricamente na corrente sanguínea.

Desvantagens

Pode ser incômodo garantir que o sensor que ilumina uma luz infravermelha e monitora a luz refletida esteja sempre apontando para a mesma extremidade, especialmente visto que os sujeitos frequentemente se alongam e reajustam suas posições ao usar um computador. Existem outros fatores que podem afetar o pulso de volume sanguíneo. Por ser uma medida do fluxo sanguíneo pelas extremidades, se o sujeito sente calor, ou particularmente frio, então seu corpo pode permitir que mais ou menos sangue flua para as extremidades, tudo isso independente do estado emocional do sujeito.

O músculo corrugador supercílio e o músculo zigomático maior são os 2 principais músculos utilizados para medir a atividade elétrica, na eletromiografia facial

Eletromiografia facial

A eletromiografia facial é uma técnica usada para medir a atividade elétrica dos músculos faciais, amplificando os minúsculos impulsos elétricos que são gerados pelas fibras musculares quando se contraem. O rosto expressa uma grande quantidade de emoção, no entanto, existem dois grupos principais de músculos faciais que geralmente são estudados para detectar emoção: O músculo corrugador supercílio, também conhecido como o músculo 'carrancudo', puxa a sobrancelha para baixo e, portanto, é o melhor teste para uma resposta emocional desagradável e negativa. O músculo zigomático maior é responsável por puxar os cantos da boca para trás quando você sorri e, portanto, é o músculo usado para testar uma resposta emocional positiva.

Aqui podemos ver um gráfico da resistência da pele medida usando GSR e tempo enquanto o sujeito jogava um videogame. Existem vários picos que ficam claros no gráfico, o que sugere que o GSR é um bom método de diferenciar entre um estado excitado e um não excitado. Por exemplo, no início do jogo onde geralmente não há muito jogo emocionante, há um alto nível de resistência registrado, o que sugere um baixo nível de condutividade e, portanto, menos excitação. Isso está em claro contraste com a depressão repentina em que o jogador é morto, já que normalmente fica muito estressado e tenso quando seu personagem é morto no jogo

Resposta galvânica da pele

Resposta galvânica da pele (GSR) é um termo desatualizado para um fenômeno mais geral conhecido como [Atividade eletrodérmica] ou EDA. EDA é um fenômeno geral pelo qual as propriedades elétricas da pele mudam. A pele é inervada pelo [sistema nervoso simpático], portanto, medir sua resistência ou condutância fornece uma maneira de quantificar pequenas mudanças no ramo simpático do sistema nervoso autônomo. À medida que as glândulas sudoríparas são ativadas, mesmo antes que a pele pareça suada, o nível de EDA pode ser capturado (geralmente usando condutância) e usado para discernir pequenas mudanças na excitação autonômica. Quanto mais excitado um sujeito está, maior tende a ser a condutância da pele.

A condutância da pele geralmente é medida usando dois pequenos eletrodos de cloreto de prata-prata colocados em algum lugar da pele e aplicando uma pequena voltagem entre eles. Para maximizar o conforto e reduzir a irritação, os eletrodos podem ser colocados no pulso, nas pernas ou nos pés, o que deixa as mãos totalmente livres para as atividades diárias.

Cor facial

Visão geral

A superfície do rosto humano é inervada por uma grande rede de vasos sanguíneos. As variações do fluxo sanguíneo nesses vasos produzem mudanças de cor visíveis na face. Quer as emoções faciais ativem ou não os músculos faciais, ocorrem variações no fluxo sanguíneo, na pressão sanguínea, nos níveis de glicose e outras mudanças. Além disso, o sinal de cor facial é independente daquele fornecido pelos movimentos dos músculos faciais.

Metodologia

As abordagens são baseadas nas mudanças de cor facial. A triangulação de Delaunay é usada para criar as áreas locais triangulares. Alguns desses triângulos que definem o interior da boca e dos olhos (esclera e íris) são removidos. Use os pixels das áreas triangulares esquerdas para criar vetores de recursos. Ele mostra que a conversão da cor de pixel do espaço de cores RGB padrão em um espaço de cores como o espaço de cores oRGB ou canais LMS tem melhor desempenho ao lidar com rostos. Portanto, mapeie o vetor acima no melhor espaço de cores e decomponha em canais vermelho-verde e amarelo-azul. Em seguida, use métodos de aprendizado profundo para encontrar emoções equivalentes.

Estética visual

A estética, no mundo da arte e da fotografia, remete aos princípios da natureza e da valorização da beleza. Julgar a beleza e outras qualidades estéticas é uma tarefa altamente subjetiva. Os cientistas da computação da Penn State tratam o desafio de inferir automaticamente a qualidade estética das imagens usando seu conteúdo visual como um problema de aprendizado de máquina, com um site de compartilhamento de fotos on-line avaliado por colegas como fonte de dados. Eles extraem certos recursos visuais com base na intuição de que podem discriminar entre imagens esteticamente agradáveis ​​e desagradáveis.

Aplicações potenciais

Educação

O afeto influencia o estado de aprendizagem dos alunos. Usando a tecnologia de computação afetiva, os computadores podem julgar a afeição e o estado de aprendizagem dos alunos, reconhecendo suas expressões faciais. Na educação, o professor pode usar o resultado da análise para compreender a capacidade de aprendizagem e aceitação do aluno e, então, formular planos de ensino razoáveis. Ao mesmo tempo, eles podem prestar atenção aos sentimentos internos dos alunos, o que é útil para a saúde psicológica dos alunos. Principalmente na educação a distância, devido à separação de tempo e espaço, não há incentivo emocional entre professores e alunos para a comunicação bidirecional. Sem a atmosfera proporcionada pelo aprendizado tradicional em sala de aula, os alunos ficam facilmente entediados e afetam o efeito do aprendizado. A aplicação da computação afetiva no sistema de educação a distância pode efetivamente melhorar esta situação.

Cuidados de saúde

Os robôs sociais , assim como um número crescente de robôs usados ​​na área de saúde, se beneficiam da consciência emocional porque podem julgar melhor os estados emocionais dos usuários e pacientes e alterar suas ações / programação de forma adequada. Isso é especialmente importante nos países com populações cada vez mais envelhecidas e / ou com falta de trabalhadores mais jovens para atender às suas necessidades.

A computação afetiva também está sendo aplicada ao desenvolvimento de tecnologias comunicativas para uso por pessoas com autismo. O componente afetivo de um texto também vem ganhando cada vez mais atenção, principalmente seu papel na chamada Internet emocional ou emocional .

Jogos de vídeo

Os videogames afetivos podem acessar os estados emocionais de seus jogadores por meio de dispositivos de biofeedback . Uma forma particularmente simples de biofeedback está disponível por meio de gamepads que medem a pressão com a qual um botão é pressionado: isso foi mostrado para se correlacionar fortemente com o nível de excitação dos jogadores ; na outra extremidade da escala estão as interfaces cérebro-computador . Jogos afetivos têm sido usados ​​em pesquisas médicas para apoiar o desenvolvimento emocional de crianças autistas .

Outras aplicações

Outras aplicações potenciais estão centradas no monitoramento social. Por exemplo, um carro pode monitorar a emoção de todos os ocupantes e adotar medidas adicionais de segurança, como alertar outros veículos se detectar que o motorista está zangado. A computação afetiva tem aplicações potenciais na interação humano-computador , como espelhos afetivos que permitem ao usuário ver como ele ou ela se comporta; agentes de monitoramento de emoção enviando um aviso antes de enviar um e-mail com raiva; ou até mesmo reprodutores de música selecionando faixas com base no humor.

Uma ideia apresentada pelo pesquisador romeno Dr. Nicu Sebe em uma entrevista é a análise do rosto de uma pessoa enquanto ela está usando um determinado produto (ele citou o sorvete como exemplo). As empresas poderiam então usar essa análise para inferir se seu produto será ou não bem recebido pelo respectivo mercado.

Pode-se também usar o reconhecimento do estado afetivo para avaliar o impacto de um anúncio de TV por meio de uma gravação de vídeo em tempo real dessa pessoa e do estudo subsequente de sua expressão facial. Fazendo a média dos resultados obtidos em um grande grupo de assuntos, pode-se dizer se aquele comercial (ou filme) surtiu o efeito desejado e quais são os elementos que mais interessam ao espectador.

Abordagens cognitivistas vs. interacionais

No campo da interação humano-computador , o conceito de emoção cognitivista ou "modelo de informação" de Rosalind Picard foi criticado e contrastado com a abordagem pragmatista "pós-cognitivista" ou "interativa" adotada por Kirsten Boehner e outros que vêem a emoção como inerentemente social.

O foco de Picard é a interação humano-computador, e seu objetivo para a computação afetiva é "dar aos computadores a capacidade de reconhecer, expressar e, em alguns casos, 'ter' emoções". Em contraste, a abordagem interacional busca ajudar "as pessoas a compreender e vivenciar suas próprias emoções" e a melhorar a comunicação interpessoal mediada por computador. Ele não busca necessariamente mapear a emoção em um modelo matemático objetivo para a interpretação da máquina, mas permite que os humanos entendam as expressões emocionais uns dos outros de maneiras abertas que podem ser ambíguas, subjetivas e sensíveis ao contexto.

Os críticos de Picard descrevem seu conceito de emoção como "objetivo, interno, privado e mecanicista". Eles dizem que reduz a emoção a um sinal psicológico discreto que ocorre dentro do corpo que pode ser medido e que é uma entrada para a cognição, minando a complexidade da experiência emocional.

A abordagem interacional afirma que, embora a emoção tenha aspectos biofísicos, ela é "culturalmente fundamentada, vivenciada dinamicamente e, até certo ponto, construída na ação e na interação". Dito de outra forma, considera a "emoção como um produto social e cultural experimentado por meio de nossas interações".

Veja também

Citações

Fontes gerais

  • Hudlicka, Eva (2003). “Sentir ou não sentir: O papel do afeto na interação humano-computador”. International Journal of Human-Computer Studies . 59 (1–2): 1–32. CiteSeerX  10.1.1.180.6429 . doi : 10.1016 / s1071-5819 (03) 00047-8 .
  • Scherer, Klaus R; Bänziger, Tanja; Roesch, Etienne B (2010). A Blueprint for Affective Computing: A Sourcebook and Manual . Oxford: Oxford University Press.

links externos