Expansão da consulta - Query expansion

Expansão de consulta ( QE ) é o processo de reformulação de uma determinada consulta para melhorar o desempenho de recuperação em operações de recuperação de informações , particularmente no contexto de compreensão de consulta . No contexto dos mecanismos de pesquisa , a expansão da consulta envolve a avaliação da entrada de um usuário (quais palavras foram digitadas na área de consulta da pesquisa e, às vezes, outros tipos de dados ) e a expansão da consulta de pesquisa para corresponder a documentos adicionais. A expansão da consulta envolve técnicas como:

A expansão de consulta é uma metodologia estudada no campo da ciência da computação , particularmente no domínio do processamento de linguagem natural e recuperação de informação .

Compromissos de precisão e recall

Os mecanismos de pesquisa invocam a expansão da consulta para aumentar a qualidade dos resultados da pesquisa do usuário. Presume-se que os usuários nem sempre formulam consultas de pesquisa usando os melhores termos. O melhor neste caso pode ser porque o banco de dados não contém os termos inseridos pelo usuário.

Ao eliminar um termo inserido pelo usuário, mais documentos são correspondidos, já que as formas de palavras alternativas para um termo inserido pelo usuário também são correspondidas, aumentando a rechamada total . Isso ocorre em detrimento da redução da precisão . Ao expandir uma consulta de pesquisa para pesquisar os sinônimos de um termo inserido pelo usuário, a recuperação também é aumentada em detrimento da precisão. Isso se deve à natureza da equação de como a precisão é calculada, em que uma recuperação maior causa implicitamente uma diminuição na precisão, visto que os fatores de recuperação fazem parte do denominador. Também se infere que um recall maior afeta negativamente a qualidade geral dos resultados da pesquisa, uma vez que muitos usuários não querem mais resultados para vasculhar, independentemente da precisão.

O objetivo da expansão da consulta a esse respeito é aumentar o recall, a precisão pode potencialmente aumentar (em vez de diminuir conforme equacionado matematicamente), incluindo no conjunto de resultados as páginas que são mais relevantes (de maior qualidade), ou pelo menos igualmente relevantes. As páginas que não seriam incluídas no conjunto de resultados, que têm o potencial de ser mais relevantes para a consulta desejada do usuário, são incluídas e, sem a consulta, a expansão não teria, independentemente da relevância. Ao mesmo tempo, muitos dos mecanismos de pesquisa comerciais atuais usam a frequência de palavras ( tf-idf ) para auxiliar na classificação. Ao classificar as ocorrências de palavras e sinônimos inseridos pelo usuário e formas morfológicas alternativas, os documentos com uma densidade mais alta (alta frequência e proximidade) tendem a migrar mais para cima nos resultados da pesquisa, levando a uma qualidade mais alta dos resultados da pesquisa perto do topo dos resultados, apesar do recall maior.

Métodos de expansão de consulta

Métodos automáticos para expansão de consultas foram propostos em 1960 por Maron e Kuhns. Os métodos modernos de expansão de consulta implicam em análise de coleção de documentos (global ou local) ou são baseados em dicionário ou ontologia. A análise global da coleção de documentos é aplicada para pesquisar relações entre termos. A análise local refere-se ao feedback de relevância introduzido por Rocchio. Rocchio propôs julgar manualmente alguns dos documentos recuperados e usar essas informações de feedback para expandir a consulta. Visto que coletar o julgamento dos usuários pode ser desafiador, apenas os primeiros documentos mais recuperados são considerados relevantes. Isso é chamado de feedback de pseudo- relevância (PRF). O feedback de pseudo-relevância é eficiente em média, mas pode prejudicar os resultados de algumas consultas, especialmente as difíceis, uma vez que os principais documentos recuperados provavelmente não são relevantes. Documentos pseudo-relevantes são usados ​​para localizar termos candidatos à expansão que coocorrem com muitos termos de consulta. Esta ideia foi posteriormente desenvolvida dentro do formalismo do modelo de linguagem de relevância em modelos de relevância posicional e de relevância de proximidade que consideram a distância para consultar termos nos documentos pseudo-relevantes. Outra direção na expansão da consulta é a aplicação de embeddings de palavras .

Uma alternativa para a expansão da consulta é a expansão do documento , que reformula o texto dos documentos pesquisados ​​em vez do texto da consulta.

Veja também

Bibliotecas de software

  • Código aberto QueryTermAnalyzer , C #. Peso do termo de consulta baseado em aprendizado de máquina e analisador de sinônimos para expansão de consulta.
  • LucQE - código aberto, Java. Fornece uma estrutura junto com várias implementações que permitem realizar a expansão da consulta com o uso do Apache Lucene .
  • Xapian é uma biblioteca de pesquisa de código aberto que inclui suporte para expansão de consulta
  • ReQue código aberto, Python. Uma estrutura de software configurável e uma coleção de conjuntos de dados padrão ouro para treinamento e avaliação de métodos de expansão de consulta supervisionada.

Referências

Citações

Origens

  • D. Abberley, D. Kirby, S. Renals e T. Robinson, o sistema de recuperação de notícias de transmissão THISL. Em Proc. ESCA ETRW Workshop Accessing Information in Spoken Audio , (Cambridge), pp. 14-19, 1999. Section on Query Expansion - Concise, mathematical Overview.
  • R. Navigli, P. Velardi. Uma análise de estratégias de expansão de consulta baseadas em ontologia . Proc. of Workshop on Adaptive Text Extraction and Mining (ATEM 2003) , na 14ª Conferência Europeia sobre Aprendizado de Máquina (ECML 2003) , Cavtat-Dubrovnik, Croácia, 22-26 de setembro de 2003, pp. 42-49 - Uma análise da expansão da consulta métodos baseados no WordNet como ontologia de referência.
  • Y. Qiu e HP Frei. Expansão de consulta baseada em conceito . Em Proceedings of SIGIR-93, 16ª Conferência Internacional ACM sobre Pesquisa e Desenvolvimento em Recuperação de Informação , Pittsburgh, SIGIR Forum, ACM Press, junho de 1993 - Documento acadêmico sobre um método específico de expansão de consulta
  • Efthimis N. Efthimiadis. Expansão da consulta . In: Martha E. Williams (ed.), Revisão Anual de Sistemas de Informação e Tecnologia (ARIST) , v31, pp 121–187, 1996 - Uma introdução para visualizadores menos técnicos.