Apache Lucene - Apache Lucene
Desenvolvedor (s) | Apache Software Foundation |
---|---|
lançamento inicial | 1999 |
Versão estável | 8.10.1 / 18 de outubro de 2021
|
Repositório | |
Escrito em | Java |
Sistema operacional | Plataforma cruzada |
Modelo | Pesquisar e indexar |
Licença | Licença Apache 2.0 |
Local na rede Internet | lucene |
Apache Lucene é uma biblioteca de software de mecanismo de pesquisa de código aberto , originalmente escrita em Java por Doug Cutting . É suportado pela Apache Software Foundation e é lançado sob a Licença de Software Apache . Lucene é amplamente utilizado como base padrão para aplicativos de pesquisa que não sejam de pesquisa.
Lucene foi portado para outras linguagens de programação, incluindo Object Pascal , Perl , C # , C ++ , Python , Ruby e PHP .
História
Doug Cutting originalmente escreveu Lucene em 1999. Lucene foi seu quinto mecanismo de pesquisa, tendo escrito anteriormente dois enquanto estava no Xerox PARC, um na Apple e um quarto na Excite. Ele estava inicialmente disponível para download em sua página inicial no site da SourceForge . Ela se juntou à família Jakarta de produtos Java de código aberto da Apache Software Foundation em setembro de 2001 e se tornou seu próprio projeto Apache de nível superior em fevereiro de 2005. O nome Lucene é o nome do meio da esposa de Doug Cutting e o primeiro nome de sua avó materna.
Lucene anteriormente incluía vários subprojetos, como Lucene.NET, Mahout , Tika e Nutch . Esses três são agora projetos independentes de nível superior.
Em março de 2010, o servidor de pesquisa Apache Solr se juntou como um subprojeto Lucene, fundindo as comunidades de desenvolvedores.
A versão 4.0 foi lançada em 12 de outubro de 2012.
Em março de 2021, Lucene mudou seu logotipo e o Apache Solr tornou-se um projeto Apache de nível superior novamente, independente do Lucene.
Recursos e uso comum
Embora seja adequado para qualquer aplicativo que requeira indexação de texto completo e capacidade de pesquisa, o Lucene é reconhecido por sua utilidade na implementação de mecanismos de pesquisa da Internet e pesquisa local em um único site.
O Lucene inclui um recurso para realizar uma pesquisa difusa com base na distância de edição .
Lucene também foi usado para implementar sistemas de recomendação. Por exemplo, a classe 'MoreLikeThis' do Lucene pode gerar recomendações para documentos semelhantes. Em uma comparação do termo abordagem de similaridade baseada em vetor de 'MoreLikeThis' com medidas de similaridade de documento baseadas em citações, como co-citação e análise de proximidade de co-citação, a abordagem de Lucene se destacou em recomendar documentos com características estruturais muito semelhantes e parentesco mais estreito . Em contraste, as medidas de similaridade de documentos baseadas em citações tendem a ser mais adequadas para recomendar documentos relacionados de forma mais ampla, o que significa que as abordagens baseadas em citações podem ser mais adequadas para gerar recomendações fortuitas , desde que os documentos a serem recomendados contenham citações no texto.
Projetos baseados em Lucene
O próprio Lucene é apenas uma biblioteca de indexação e pesquisa e não contém a funcionalidade de rastreamento e análise de HTML . No entanto, vários projetos estendem a capacidade do Lucene:
- Apache Nutch - fornece rastreamento da web e análise de HTML
- Apache Solr - um servidor de pesquisa corporativa
- Compass - o predecessor do Elasticsearch
- CrateDB - banco de dados SQL distribuído de código aberto construído no Lucene
- DocFetcher - um aplicativo de pesquisa de desktop multiplataforma
- Elasticsearch - um servidor de pesquisa corporativa lançado em 2010
- Kinosearch - um motor de busca escrito em Perl e C e uma solta port do Lucene. O software wiki Socialtext usa este mecanismo de busca, assim como o wiki MojoMojo . Ele também é usado pelo banco de dados de metaboloma humano (HMDB) e o banco de dados de toxinas e alvos de toxinas (T3DB).
- MongoDB Atlas Search - um aplicativo de pesquisa corporativa nativo da nuvem baseado em MongoDB e Apache Lucene
- OpenSearch - um servidor de pesquisa empresarial de código aberto baseado em um fork do Elasticsearch 7
- Swiftype - uma startup de pesquisa corporativa baseada em Lucene
Veja também
- Pesquisa corporativa
- Extração de informação
- Lista de bibliotecas de recuperação de informação
- Mineração de texto
Referências
Bibliografia
- Gospodnetic, Otis; Erik Hatcher; Michael McCandless (28 de junho de 2009). Lucene em ação (2ª ed.). Manning Publications . ISBN 978-1-9339-8817-7.
- Gospodnetic, Otis; Erik Hatcher (1 de dezembro de 2004). Lucene em ação (1ª ed.). Manning Publications . ISBN 978-1-9323-9428-3.