Desambiguação de sentido de palavra - Word-sense disambiguation

A desambiguação do sentido de palavra ( WSD ) é um problema aberto em linguística computacional preocupada em identificar qual sentido de uma palavra é usado em uma frase . A solução para esse problema impacta outras formas de escrita relacionadas ao computador, como discurso , aprimoramento da relevância dos mecanismos de busca , resolução de anáforas , coerência e inferência .

Devido ao fato de que a linguagem natural requer reflexão da realidade neurológica, conforme moldada pelas habilidades fornecidas pelas redes neurais do cérebro , a ciência da computação tem um desafio de longo prazo em desenvolver a capacidade dos computadores de fazer processamento de linguagem natural e aprendizado de máquina .

Muitas técnicas foram pesquisadas, incluindo métodos baseados em dicionário que usam o conhecimento codificado em recursos lexicais, métodos de aprendizado de máquina supervisionados nos quais um classificador é treinado para cada palavra distinta em um corpus de exemplos manualmente anotados com sentido e métodos completamente não supervisionados que agrupam ocorrências de palavras, induzindo assim os sentidos das palavras. Entre eles, as abordagens de aprendizagem supervisionada têm sido os algoritmos de maior sucesso até hoje.

A precisão dos algoritmos atuais é difícil de definir sem uma série de ressalvas. Em inglês, a precisão no nível de granulação grossa ( homógrafo ) é rotineiramente acima de 90%, com alguns métodos em homógrafos particulares atingindo mais de 96%. Em distinções de sentido mais refinadas, as precisões superiores de 59,1% a 69,0% foram relatadas em exercícios de avaliação (SemEval-2007, Senseval-2), onde a precisão da linha de base do algoritmo mais simples possível de sempre escolher o sentido mais frequente foi de 51,4% e 57%, respectivamente.

Sobre a desambiguação do sentido das palavras

A desambiguação requer duas entradas estritas: um dicionário para especificar os sentidos que devem ser eliminados e um corpus de dados de linguagem a ser eliminado (em alguns métodos, um corpus de treinamento de exemplos de linguagem também é necessário). A tarefa WSD tem duas variantes: "amostra lexical" (elimina a ambigüidade das ocorrências de uma pequena amostra de palavras-alvo previamente selecionadas) e tarefa "todas as palavras" (desambiguação de todas as palavras em um texto em execução). A tarefa "Todas as palavras" geralmente é considerada uma forma mais realista de avaliação, mas a produção do corpus é mais cara porque os anotadores humanos precisam ler as definições de cada palavra na sequência sempre que precisam fazer um julgamento de marcação, em vez de uma vez para um bloco de instâncias para a mesma palavra de destino.

História

O WSD foi formulado pela primeira vez como uma tarefa computacional distinta durante os primeiros dias da tradução automática na década de 1940, tornando-se um dos problemas mais antigos em linguística computacional. Warren Weaver introduziu o problema pela primeira vez em um contexto computacional em seu memorando de 1949 sobre tradução. Mais tarde, Bar-Hillel (1960) argumentou que WSD não poderia ser resolvido por "computador eletrônico" devido à necessidade em geral de modelar todo o conhecimento do mundo.

Na década de 1970, WSD era uma subtarefa de sistemas de interpretação semântica desenvolvidos no campo da inteligência artificial, começando com a semântica de preferência de Wilks . No entanto, como os sistemas WSD na época eram amplamente baseados em regras e codificados manualmente, eles estavam sujeitos a um gargalo de aquisição de conhecimento.

Na década de 1980, recursos lexicais em grande escala, como o Oxford Advanced Learner's Dictionary of Current English (OALD), tornaram-se disponíveis: a codificação manual foi substituída pelo conhecimento automaticamente extraído desses recursos, mas a desambiguação ainda era baseada no conhecimento ou no dicionário .

Na década de 1990, a revolução estatística avançou a linguística computacional e o WSD tornou-se um problema paradigmático para a aplicação de técnicas de aprendizado de máquina supervisionado.

A década de 2000 viu as técnicas supervisionadas atingirem um platô em precisão e, portanto, a atenção mudou para sentidos mais grosseiros, adaptação de domínio , sistemas baseados em corpus semissupervisionados e não supervisionados, combinações de diferentes métodos e o retorno de sistemas baseados em conhecimento via gráfico métodos baseados em Ainda assim, os sistemas supervisionados continuam a funcionar melhor.

Dificuldades

Diferenças entre dicionários

Um problema com a desambiguação do sentido das palavras é decidir quais são os sentidos, já que diferentes dicionários e tesauros fornecem diferentes divisões de palavras em sentidos. Alguns pesquisadores sugeriram escolher um dicionário específico e usar seu conjunto de sentidos para lidar com esse uso problemático. Geralmente, no entanto, os resultados da pesquisa usando distinções amplas de sentidos têm sido muito melhores do que aqueles que usam distinções estreitas. A maioria dos pesquisadores continua trabalhando em WSD de baixa granularidade .

A maioria das pesquisas no campo do WSD é realizada usando o WordNet como um inventário de sentido de referência para o inglês. WordNet é um léxico computacional que codifica conceitos como conjuntos de sinônimos (por exemplo, o conceito de carro é codificado como {carro, automóvel, automóvel, máquina, automóvel}). Outros recursos usados ​​para fins de desambiguação incluem o Thesaurus de Roget e a Wikipedia . Mais recentemente, o BabelNet , um dicionário enciclopédico multilíngue, foi usado para WSD multilíngue.

Marcação de parte da fala

Em qualquer teste real, a marcação de classe gramatical e a marcação de sentido provaram estar intimamente relacionadas com cada uma delas potencialmente criando restrições para a outra. A questão se essas tarefas devem ser mantidas juntas ou dissociadas ainda não foi resolvida de forma unânime, mas recentemente os cientistas se inclinaram a testar essas coisas separadamente (por exemplo, nas competições Senseval / SemEval , partes do discurso são fornecidas como entrada para o texto eliminar a ambigüidade ).

Ambas as marcações de classes gramaticais WSM envolvem desambiguação ou marcação com palavras. No entanto, os algoritmos usados ​​para um não tendem a funcionar bem para o outro, principalmente porque a classe gramatical de uma palavra é determinada principalmente pela imediatamente adjacente a três palavras, enquanto o sentido de uma palavra pode ser determinado por palavras mais distantes . A taxa de sucesso para algoritmos de marcação de classes gramaticais é atualmente muito maior do que para WSD, sendo o estado da arte em torno de 96% de precisão ou melhor, em comparação com menos de 75% de precisão na desambiguação do sentido da palavra com aprendizagem supervisionada . Esses números são típicos para o inglês e podem ser muito diferentes daqueles para outros idiomas.

Variância entre juízes

Outro problema é a variância entre juízes . Os sistemas WSD são normalmente testados tendo seus resultados em uma tarefa comparados com os de um ser humano. No entanto, embora seja relativamente fácil atribuir partes do discurso ao texto, treinar as pessoas para marcar os sentidos tem se mostrado muito mais difícil. Embora os usuários possam memorizar todas as classes gramaticais possíveis que uma palavra pode assumir, muitas vezes é impossível para os indivíduos memorizar todos os sentidos que uma palavra pode assumir. Além disso, os humanos não concordam com a tarefa em mãos - dê uma lista de sentidos e sentenças, e os humanos nem sempre concordarão sobre qual palavra pertence a qual sentido.

Como o desempenho humano serve de padrão, é um limite superior para o desempenho do computador. O desempenho humano, no entanto, é muito melhor em distinções de granulação grossa do que em distinções de granulação fina , então, novamente, é por isso que a pesquisa sobre distinções de granulação grossa foi posta à prova em exercícios de avaliação WSD recentes.

Pragmáticos

Alguns pesquisadores de IA , como Douglas Lenat, argumentam que não se pode analisar significados de palavras sem alguma forma de ontologia de senso comum . Essa questão linguística é chamada de pragmática . Conforme acordado pelos pesquisadores, para identificar adequadamente os sentidos das palavras, é preciso conhecer os fatos do bom senso. Além disso, às vezes o bom senso é necessário para eliminar a ambigüidade de tais palavras, como pronomes, no caso de haver anáforas ou cataforas no texto.

Detectar inventário e algoritmos de dependência de tarefa

Um inventário de sentido independente da tarefa não é um conceito coerente: cada tarefa requer sua própria divisão do significado da palavra em sentidos relevantes para a tarefa. Além disso, algoritmos completamente diferentes podem ser exigidos por aplicativos diferentes. Na tradução automática, o problema assume a forma de seleção de palavras-alvo. Os "sentidos" são palavras no idioma de destino, que muitas vezes correspondem a distinções de significado significativas no idioma de origem ("banco" poderia ser traduzido para o francês "banque" - isto é, 'banco financeiro' ou "rive" - ​​isto é, 'beira do rio'). Na recuperação da informação, um inventário de sentido não é necessariamente necessário, pois basta saber que uma palavra é usada no mesmo sentido na consulta e em um documento recuperado; que sentido isso é, não é importante.

Discreta dos sentidos

Finalmente, a própria noção de " sentido das palavras " é escorregadia e controversa. A maioria das pessoas pode concordar em distinções no nível do homógrafo de granulação grosseira (por exemplo, a caneta como instrumento de escrita ou invólucro), mas desça um nível para a polissemia de granulação fina e surgem desacordos. Por exemplo, em Senseval-2, que usou distinções de sentido refinadas, os anotadores humanos concordaram em apenas 85% das ocorrências de palavras. O significado da palavra é, em princípio, infinitamente variável e sensível ao contexto. Não se divide facilmente em sub-significados distintos ou discretos. Os lexicógrafos freqüentemente descobrem em corpora significados de palavras soltos e sobrepostos, e significados padrão ou convencionais estendidos, modulados e explorados de uma variedade desconcertante de maneiras. A arte da lexicografia é generalizar a partir do corpus para definições que evocam e explicam toda a gama de significado de uma palavra, fazendo com que pareça que as palavras são semanticamente bem comportadas. No entanto, não está nada claro se essas mesmas distinções de significado são aplicáveis ​​em aplicações computacionais , uma vez que as decisões dos lexicógrafos são geralmente conduzidas por outras considerações. Em 2009, uma tarefa - denominada substituição lexical - foi proposta como uma possível solução para o problema da discretização dos sentidos. A tarefa consiste em fornecer um substituto para uma palavra em um contexto que preserva o significado da palavra original (potencialmente, substitutos podem ser escolhidos do léxico completo da língua de destino, superando assim a discrição).

Abordagens e métodos

Existem duas abordagens principais para WSD - abordagens profundas e abordagens superficiais.

Abordagens profundas presumem acesso a um corpo abrangente de conhecimento mundial . Essas abordagens geralmente não são consideradas muito bem-sucedidas na prática, principalmente porque tal corpo de conhecimento não existe em um formato legível por computador, fora de domínios muito limitados. Além disso, devido à longa tradição em linguística computacional , de tentar tais abordagens em termos de conhecimento codificado e, em alguns casos, pode ser difícil distinguir entre conhecimento envolvido em conhecimento linguístico ou conhecimento de mundo. A primeira tentativa foi a de Margaret Masterman e seus colegas, na Cambridge Language Research Unit, na Inglaterra, na década de 1950. Esta tentativa utilizou como dados uma versão em cartão perfurado do Thesaurus de Roget e suas "cabeças" numeradas, como um indicador de tópicos e buscou repetições no texto, usando um algoritmo de interseção definido. Não foi muito bem-sucedido, mas tinha fortes relacionamentos com trabalhos posteriores, especialmente a otimização de aprendizado de máquina de um método de dicionário de sinônimos de Yarowsky na década de 1990.

Abordagens superficiais não tentam entender o texto, mas consideram as palavras ao redor. Essas regras podem ser derivadas automaticamente pelo computador, usando um corpus de treinamento de palavras marcadas com seus sentidos de palavra. Esta abordagem, embora teoricamente não seja tão poderosa quanto as abordagens profundas, dá resultados superiores na prática, devido ao conhecimento de mundo limitado do computador.

Existem quatro abordagens convencionais para WSD:

Quase todas essas abordagens funcionam definindo uma janela de n palavras de conteúdo em torno de cada palavra a ser eliminada da ambigüidade no corpus e analisando estatisticamente essas n palavras ao redor. Duas abordagens rasas usadas para treinar e depois eliminar a ambigüidade são os classificadores Naïve Bayes e as árvores de decisão . Em pesquisas recentes, métodos baseados em kernel , como máquinas de vetores de suporte , mostraram desempenho superior no aprendizado supervisionado . Abordagens baseadas em gráficos também ganharam muita atenção da comunidade de pesquisa e atualmente alcançam um desempenho próximo ao estado da arte.

Métodos baseados em dicionário e conhecimento

O algoritmo Lesk é o método seminal baseado em dicionário. Parte-se da hipótese de que as palavras utilizadas em conjunto no texto estão relacionadas entre si e que a relação pode ser observada nas definições das palavras e seus sentidos. Duas (ou mais) palavras são eliminadas ao encontrar o par de sentidos do dicionário com a maior sobreposição de palavras em suas definições de dicionário. Por exemplo, ao eliminar a ambigüidade das palavras em "pinha", as definições dos sentidos apropriados incluem as palavras sempre-viva e árvore (pelo menos em um dicionário). Uma abordagem semelhante procura o caminho mais curto entre duas palavras: a segunda palavra é pesquisada iterativamente entre as definições de cada variante semântica da primeira palavra, depois entre as definições de cada variante semântica de cada palavra nas definições anteriores e assim por diante. Finalmente, a primeira palavra é eliminada pela seleção da variante semântica que minimiza a distância da primeira para a segunda palavra.

Uma alternativa para o uso das definições é a de considerar geral palavra-sentido parentesco e para calcular a semelhança semântica de cada par de sentidos da palavra com base em uma determinada base de conhecimento lexical, como WordNet . Métodos baseados em gráficos , reminiscentes da disseminação da pesquisa de ativação dos primeiros dias da pesquisa em IA, foram aplicados com algum sucesso. Abordagens mais complexas baseadas em gráficos demonstraram ter um desempenho quase tão bom quanto os métodos supervisionados, ou mesmo superando-os em domínios específicos. Recentemente, foi relatado que medidas simples de conectividade de gráfico , como grau , executam WSD de última geração na presença de uma base de conhecimento lexical suficientemente rica. Além disso, a transferência automática de conhecimento na forma de relações semânticas da Wikipedia para o WordNet demonstrou impulsionar métodos simples baseados em conhecimento, permitindo que rivalizem com os melhores sistemas supervisionados e até superem-nos em um ambiente específico de domínio.

O uso de preferências seletivas (ou restrições seletivas) também é útil, por exemplo, sabendo que normalmente se cozinha comida, pode-se eliminar a ambigüidade da palavra baixo em "Estou cozinhando baixos" (ou seja, não é um instrumento musical).

Métodos supervisionados

Os métodos supervisionados baseiam-se no pressuposto de que o contexto pode fornecer evidências suficientes por si mesmo para eliminar a ambiguidade das palavras (portanto, o bom senso e o raciocínio são considerados desnecessários). Provavelmente, todo algoritmo de aprendizado de máquina em andamento foi aplicado ao WSD, incluindo técnicas associadas, como seleção de recursos , otimização de parâmetros e aprendizado de conjunto . As máquinas de vetores de suporte e o aprendizado baseado em memória têm se mostrado as abordagens mais bem-sucedidas, até o momento, provavelmente porque podem lidar com a alta dimensionalidade do espaço de recursos. No entanto, esses métodos supervisionados estão sujeitos a um novo gargalo de aquisição de conhecimento, uma vez que dependem de quantidades substanciais de corpora manualmente marcados com sentido para treinamento, que são trabalhosos e caros de criar.

Métodos semissupervisionados

Devido à falta de dados de treinamento, muitos algoritmos de desambiguação de sentido de palavra usam aprendizagem semissupervisionada , que permite dados marcados e não marcados. O algoritmo de Yarowsky foi um dos primeiros exemplos de tal algoritmo. Ele usa as propriedades 'Um sentido por colocação' e 'Um sentido por discurso' das línguas humanas para a desambiguação do sentido das palavras. Da observação, as palavras tendem a exibir apenas um sentido na maioria dos discursos dados e em uma dada colocação.

A abordagem de bootstrapping começa com uma pequena quantidade de dados iniciais para cada palavra: exemplos de treinamento marcados manualmente ou um pequeno número de regras de decisão infalíveis (por exemplo, 'tocar' no contexto de 'baixo' quase sempre indica o instrumento musical). As sementes são usadas para treinar um classificador inicial , usando qualquer método supervisionado. Esse classificador é então usado na parte não marcada do corpus para extrair um conjunto de treinamento maior, no qual apenas as classificações mais confiáveis ​​são incluídas. O processo se repete, cada novo classificador sendo treinado em um corpus de treinamento sucessivamente maior, até que todo o corpus seja consumido, ou até que um determinado número máximo de iterações seja alcançado.

Outras técnicas semissupervisionadas usam grandes quantidades de corpora não marcados para fornecer informações de co-ocorrência que complementam os corpora marcados. Essas técnicas têm o potencial de auxiliar na adaptação de modelos supervisionados a diferentes domínios.

Além disso, uma palavra ambígua em um idioma é frequentemente traduzida em palavras diferentes em um segundo idioma, dependendo do sentido da palavra. Corpora bilíngues alinhados com palavras têm sido usados ​​para inferir distinções de sentido interlinguístico, uma espécie de sistema semissupervisionado.

Métodos não supervisionados

O aprendizado não supervisionado é o maior desafio para os pesquisadores do WSD. A suposição subjacente é que sentidos semelhantes ocorrem em contextos semelhantes e, portanto, sentidos podem ser induzidos a partir do texto agrupando ocorrências de palavras usando alguma medida de similaridade de contexto, uma tarefa conhecida como indução ou discriminação de sentido de palavra . Então, novas ocorrências da palavra podem ser classificadas nos grupos / sentidos induzidos mais próximos. O desempenho tem sido inferior ao dos outros métodos descritos acima, mas as comparações são difíceis, pois os sentidos induzidos devem ser mapeados para um dicionário conhecido de sentidos de palavras. Se um mapeamento para um conjunto de sentidos do dicionário não for desejado, avaliações baseadas em cluster (incluindo medidas de entropia e pureza) podem ser realizadas. Alternativamente, os métodos de indução de sentido de palavra podem ser testados e comparados dentro de um aplicativo. Por exemplo, foi demonstrado que a indução de sentido de palavra melhora o agrupamento de resultados de pesquisa na Web, aumentando a qualidade dos agrupamentos de resultados e o grau de diversificação das listas de resultados. Espera-se que o aprendizado não supervisionado supere o gargalo de aquisição de conhecimento, porque eles não dependem de esforço manual.

Representar palavras considerando seu contexto por meio de vetores densos de tamanho fixo ( embeddings de palavras ) tornou-se um dos blocos mais fundamentais em vários sistemas de PNL. Embora a maioria das técnicas de incorporação de palavras tradicionais combinem palavras com vários significados em uma única representação vetorial, elas ainda podem ser usadas para melhorar o WSD. Além das técnicas de embeddings de palavras, bancos de dados lexicais (por exemplo, WordNet , ConceptNet , BabelNet ) também podem auxiliar sistemas não supervisionados a mapear palavras e seus sentidos como dicionários. Algumas técnicas que combinam bancos de dados lexicais e embeddings de palavras são apresentadas em AutoExtend e Most Adequado Sense Annotation (MSSA). No AutoExtend, eles apresentam um método que desacopla a representação de entrada de um objeto em suas propriedades, como palavras e seus sentidos de palavras. AutoExtend usa uma estrutura de gráfico para mapear objetos de palavras (por exemplo, texto) e não-palavras (por exemplo, conjuntos de sincronia em WordNet ) como nós e o relacionamento entre nós como arestas. As relações (arestas) em AutoExtend podem expressar a adição ou semelhança entre seus nós. O primeiro captura a intuição por trás do cálculo do deslocamento, enquanto o último define a similaridade entre dois nós. No MSSA, um sistema de desambiguação não supervisionado usa a similaridade entre os sentidos da palavra em uma janela de contexto fixa para selecionar o sentido da palavra mais adequado usando um modelo de incorporação de palavras pré-treinado e WordNet . Para cada janela de contexto, o MSSA calcula o centroide de cada definição de sentido de palavra calculando a média dos vetores de palavras de suas palavras nas glosas do WordNet (ou seja, glosas de definição curta e um ou mais exemplos de uso) usando um modelo de incorporação de palavras pré-treinado. Esses centróides são usados ​​posteriormente para selecionar o sentido da palavra com a maior similaridade de uma palavra-alvo com seus vizinhos imediatamente adjacentes (isto é, palavras predecessoras e sucessoras). Depois que todas as palavras forem anotadas e eliminadas a ambigüidade, elas podem ser usadas como um corpus de treinamento em qualquer técnica de incorporação de palavras padrão. Em sua versão aprimorada, o MSSA pode fazer uso de embeddings de sentido de palavra para repetir seu processo de desambiguação iterativamente.

Outras abordagens

Outras abordagens podem variar de maneira diferente em seus métodos:

Outras línguas

  • Hindi  : A falta de recursos lexicais em Hindi tem dificultado o desempenho dos modelos supervisionados de WSD, enquanto os modelos não supervisionados sofrem devido à extensa morfologia. Uma possível solução para este problema é o projeto de um modelo WSD por meio de corpora paralelos . A criação do Hindi WordNet abriu caminho para vários métodos supervisionados que comprovadamente produzem uma maior precisão na eliminação de ambiguidades de substantivos.

Impedimentos locais e resumo

O gargalo de aquisição de conhecimento é talvez o principal impedimento para resolver o problema de WSD. Os métodos não supervisionados dependem do conhecimento sobre os sentidos das palavras, que são apenas esparsamente formulados em dicionários e bancos de dados lexicais. Os métodos supervisionados dependem crucialmente da existência de exemplos anotados manualmente para cada sentido de palavra, um requisito que pode até agora ser atendido apenas por um punhado de palavras para fins de teste, como é feito nos exercícios Senseval .

Uma das tendências mais promissoras na pesquisa do WSD é usar o maior corpus já acessível, a World Wide Web , para adquirir informações lexicais automaticamente. WSD tem sido tradicionalmente entendido como uma tecnologia de engenharia de linguagem intermediária que pode melhorar aplicações como recuperação de informação (IR). Nesse caso, no entanto, o inverso também é verdadeiro: os mecanismos de pesquisa da web implementam técnicas de IR simples e robustas que podem explorar com sucesso a web em busca de informações para usar em WSD. A falta histórica de dados de treinamento tem provocado o surgimento de alguns novos algoritmos e técnicas, conforme descrito em Aquisição automática de corpora com tags de sentido .

Fontes externas de conhecimento

O conhecimento é um componente fundamental do WSD. As fontes de conhecimento fornecem dados essenciais para associar os sentidos às palavras. Eles podem variar de corpora de textos, não rotulados ou anotados com os sentidos das palavras, a dicionários legíveis por máquina, tesauros, glossários, ontologias, etc. Eles podem ser classificados da seguinte forma:

Estruturada:

  1. Dicionários legíveis por máquina (MRDs)
  2. Ontologias
  3. Thesauri

Não estruturado:

  1. Recursos de colocação
  2. Outros recursos (como listas de frequência de palavras , listas proibidas , rótulos de domínio, etc.)
  3. Corpora : corpora brutos e corpora com anotações de sentido

Avaliação

Comparar e avaliar diferentes sistemas WSD é extremamente difícil, devido aos diferentes conjuntos de testes, inventários de sentido e recursos de conhecimento adotados. Antes da organização de campanhas de avaliação específicas, a maioria dos sistemas era avaliada em conjuntos de dados internos, muitas vezes em pequena escala . Para testar o algoritmo de um, os desenvolvedores devem gastar seu tempo anotando todas as ocorrências de palavras. E comparar métodos mesmo no mesmo corpus não é elegível se houver diferentes inventários de sentido.

A fim de definir conjuntos de dados e procedimentos de avaliação comuns, campanhas públicas de avaliação foram organizadas. Senseval (agora renomeado SemEval ) é uma competição internacional de desambiguação de sentido de palavra, realizada a cada três anos desde 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), e seu sucessor, SemEval (2007) . O objetivo do concurso é organizar diferentes palestras, preparar e fazer anotações manuais para sistemas de teste, realizar uma avaliação comparativa de sistemas WSD em vários tipos de tarefas, incluindo WSD de todas as palavras e amostras lexicais para diferentes idiomas e, mais recentemente , novas tarefas como rotulagem de função semântica , gloss WSD, substituição lexical , etc. Os sistemas submetidos para avaliação para essas competições geralmente integram técnicas diferentes e muitas vezes combinam métodos supervisionados e baseados em conhecimento (especialmente para evitar mau desempenho na falta de exemplos de treinamento) .

Nos últimos anos de 2007 a 2012 , as opções de tarefas de avaliação do WSD aumentaram e o critério de avaliação do WSD mudou drasticamente, dependendo da variante da tarefa de avaliação do WSD. Abaixo enumera a variedade de tarefas WSD:

Opções de design de tarefa

Conforme a tecnologia evolui, as tarefas Word Sense Disambiguation (WSD) crescem em diferentes sabores em várias direções de pesquisa e para mais idiomas:

  • Tarefas de avaliação WSD monolíngües clássicas usam WordNet como o inventário de sentido e são amplamente baseadas na classificação supervisionada / semissupervisionada com os corpora anotados de sentido manualmente:
    • O WSD de inglês clássico usa Princeton WordNet para detectar o inventário e a entrada de classificação primária normalmente é baseada no corpus SemCor .
    • O WSD clássico para outros idiomas usa seu respectivo WordNet como inventários de sentido e corpora anotado de sentido marcados em seus respectivos idiomas. Freqüentemente, os pesquisadores também acessam o corpus SemCor e bitexts alinhados com o inglês como idioma de origem
  • A tarefa de avaliação de WSD multilíngue também é focada em WSD em 2 ou mais idiomas simultaneamente. Ao contrário das tarefas WSD multilíngües, em vez de fornecer exemplos manualmente com anotações de sentido para cada sentido de um substantivo polissêmico, o inventário de sentido é construído com base em corpora paralelos, por exemplo, corpus Europarl.
  • Tarefas de avaliação de WSD multilíngue focadas em WSD em 2 ou mais idiomas simultaneamente, usando seus respectivos WordNets como seus inventários de sentido ou BabelNet como inventário de sentido multilíngue. Ele evoluiu das tarefas de avaliação do WSD de tradução que ocorreram no Senseval-2. Uma abordagem popular é realizar WSD monolíngüe e, em seguida, mapear os sentidos do idioma de origem nas traduções das palavras-alvo correspondentes.
  • A tarefa de indução e desambiguação de sentido de palavra é uma avaliação de tarefa combinada onde o inventário de sentido é primeiro induzido a partir de um conjunto de dados de treinamento fixo , consistindo em palavras polissêmicas e a frase em que elas ocorreram, então o WSD é realizado em um conjunto de dados de teste diferente .

Programas

  • Babelfy, um sistema unificado de última geração para desambiguação de sentido de palavras multilíngue e vinculação de entidades
  • BabelNet API, uma API Java para desambiguação de sentido de palavras multilíngue baseada em conhecimento em 6 idiomas diferentes usando a rede semântica BabelNet
  • WordNet :: SenseRelate, um projeto que inclui sistemas de código aberto gratuitos para desambiguação de sentido de palavra e desambiguação de sentido de amostra lexical
  • UKB: Graph Base WSD, uma coleção de programas para realizar Desambiguação de Sentido de Palavras com base em gráficos e similaridade / parentesco lexical usando uma Base de Conhecimento Lexical preexistente
  • pyWSD, implementações python de tecnologias Word Sense Disambiguation (WSD)

Veja também

Notas

Trabalhos citados

Links externos e sugestões de leitura