Wikcionário - Wiktionary

Wikcionário
WiktionaryEn - DP Derivative.svg
Logotipo do Wikcionário em inglês
Captura de tela
English Wiktionary Main Page.png
Página principal do Wikcionário em inglês em 14 de janeiro de 2019
Tipo de site
Dicionário online
Disponível em Multilíngue (158 ativos)
Proprietário Fundação Wikimedia
Criado por Jimmy Wales e a comunidade Wikimedia
URL wiktionary .org
Comercial Não
Cadastro Opcional
Lançado 12 de dezembro de 2002 ; 18 anos atras ( 12/12/2002 )
Status atual ativo

O Wikcionário é um projeto multilíngue baseado na web para criar um dicionário de termos de conteúdo gratuito (incluindo palavras , frases , provérbios , reconstruções linguísticas , etc.) em todas as línguas naturais e em várias línguas artificiais . Essas entradas podem conter definições , imagens para ilustrações, pronúncias , etimologias , inflexões , exemplos de uso, citações , termos relacionados e traduções de palavras em outros idiomas, entre outros recursos. É editado de forma colaborativa por meio de um wiki . Seu nome é uma maleta das palavras wiki e dicionário . Ele está disponível em 182 idiomas e em inglês simples . Como seu projeto irmão Wikipedia , o Wikcionário é administrado pela Fundação Wikimedia e é escrito em colaboração por voluntários , apelidado de "Wikcionários". Seu software wiki , MediaWiki , permite que quase qualquer pessoa com acesso ao site crie e edite entradas.

Como o Wikcionário não é limitado por considerações de espaço de impressão, a maioria das edições em idiomas do Wikcionário fornecem definições e traduções de palavras de muitos idiomas, e algumas edições oferecem informações adicionais normalmente encontradas em tesauros .

Os dados do Wikcionário são freqüentemente usados ​​em várias tarefas de processamento de linguagem natural .

História e desenvolvimento

O Wikcionário foi colocado online em 12 de dezembro de 2002, seguindo uma proposta de Daniel Alston e uma ideia de Larry Sanger , co-fundador da Wikipedia. Em 28 de março de 2004, os primeiros Wikcionários não ingleses foram iniciados em francês e polonês . Desde então, foram iniciados Wikcionários em várias outras línguas. O Wikcionário foi hospedado em um nome de domínio temporário (wiktionary.wikipedia.org) até 1 de maio de 2004, quando mudou para o nome de domínio atual. Em julho de 2021, o Wikcionário apresentava mais de 30 milhões de artigos (e ainda mais entradas) em suas edições. A maior das edições linguísticas é o Wikcionário em inglês, com mais de 6,8 milhões de entradas, seguido pelo Wikcionário francês com mais de 4,2 milhões e o Wikcionário malgaxe com mais de 1,7 milhões de entradas. Quarenta e três edições em idiomas do Wikcionário contêm mais de 100.000 entradas cada.

O uso de bots para gerar um grande número de artigos é visível como "surtos de crescimento" neste gráfico de contagens de artigos nas oito maiores edições do Wikcionário. (Dados de dezembro de 2009)

Muitas das definições nas maiores edições de idioma do projeto foram criadas por bots que encontraram maneiras criativas de gerar entradas ou (raramente) importaram automaticamente milhares de entradas de dicionários publicados anteriormente. Sete dos 18 bots registrados no Wikcionário Inglês em 2007 criaram 163.000 das entradas lá.

Outro desses bots, "ThirdPersBot", foi responsável pela adição de várias conjugações de terceira pessoa que não teriam recebido suas próprias entradas nos dicionários padrão; por exemplo, definiu "fumegantes" como a "forma presente simples de terceira pessoa do singular de fumegante". Das 1.269.938 definições que o Wikcionário em inglês fornece para 996.450 palavras em inglês, 478.068 são definições de "forma de" desse tipo. Isso significa que, mesmo sem essas entradas, sua cobertura do inglês é significativamente maior do que a dos principais dicionários impressos monolíngues. O Terceiro Novo Dicionário Internacional da Língua Inglesa Merriam-Webster , Unabridged , por exemplo, tem 475.000 entradas (com muitos headwords adicionais incorporados); o Oxford English Dictionary tem 615.000 entradas, mas também inclui o inglês médio , para o qual o Wikcionário em inglês tem 34.234 definições adicionais. Existem estatísticas detalhadas para mostrar quantas entradas de vários tipos existem.

O Wikcionário em inglês não depende de bots tanto quanto algumas outras edições. Os wikcionários franceses e vietnamitas , por exemplo, importaram grandes seções do Free Vietnamese Dictionary Project (FVDP), que fornece dicionários bilíngues de conteúdo gratuito de e para o vietnamita. Essas entradas importadas constituem praticamente todo o conteúdo da edição vietnamita. Como a edição em inglês, o Wikcionário francês importou aproximadamente 20.000 entradas do banco de dados Unihan de caracteres chineses, japoneses e coreanos . O Wikcionário francês cresceu rapidamente em 2006 graças em grande parte aos bots que copiam muitas entradas de dicionários antigos e licenciados gratuitamente, como a oitava edição do Dictionnaire de l'Académie française (1935, cerca de 35.000 palavras), e usando bots para adicionar palavras de outras edições do Wikcionário com traduções em francês. A edição russa cresceu cerca de 80.000 entradas à medida que "LXbot" adicionou entradas padronizadas (com cabeçalhos, mas sem definições) para palavras em inglês e alemão .

Em julho de 2021, en.wiktionary tinha mais de 791.870 definições de gloss e mais de 1.269.938 definições totais (incluindo formas diferentes) apenas para entradas em inglês, com um total de mais de 9.928.056 definições em todos os idiomas.

Logos

O Wikcionário historicamente carece de um logotipo uniforme em suas numerosas edições de idiomas. Algumas edições usam logotipos que representam uma entrada de dicionário sobre o termo "Wikcionário", com base no logotipo anterior do Wikcionário em inglês, que foi projetado por Brion Vibber, um desenvolvedor do MediaWiki . Como um logotipo puramente textual deve variar consideravelmente de idioma para idioma, um concurso de quatro fases para adotar um logotipo uniforme foi realizado no Wikimedia Meta-Wiki de setembro a outubro de 2006. Algumas comunidades adotaram a entrada vencedora de "Smurrayinchester", um 3 × 3 grade de ladrilhos de madeira, cada um contendo um caractere de um sistema de escrita diferente. No entanto, a pesquisa não teve tanta participação da comunidade wikcionária quanto alguns membros da comunidade esperavam, e vários wikis maiores acabaram mantendo seus logotipos textuais.

Em abril de 2009, o problema foi ressuscitado com um novo concurso. Desta vez, uma representação por "AAEngelman" de um dicionário aberto de capa dura ganhou uma votação frente a frente contra o logotipo de 2006, mas o processo para refinar e adotar o novo logotipo então parou. Nos anos seguintes, alguns wikis substituíram seus logotipos textuais por um dos dois logotipos mais recentes. Em 2012, 55 wikis que usavam o logotipo do Wikcionário em inglês receberam versões localizadas do design de 2006 de "Smurrayinchester". Em julho de 2016, o Wikcionário em inglês adotou uma variante desse logotipo. Em 4 de julho de 2016, 135 wikis, representando 61% das entradas do Wikcionário, usam um logotipo baseado no design de 2006 por "Smurrayinchester", 33 wikis (36%) usam um logotipo textual e três wikis (3%) usam o de 2009 design por "AAEngelman".

Critérios para garantir a precisão

Para garantir a precisão, o Wikcionário em inglês tem uma política que exige que os termos sejam atestados . Os termos nos principais idiomas, como inglês e chinês, devem ser verificados por:

  1. uso claramente difundido, ou
  2. uso em mídia gravada permanentemente, transmitindo significado, em pelo menos três instâncias independentes abrangendo pelo menos um ano.

Para línguas menos documentadas, como o Creek e línguas extintas, como o latim , um uso em uma mídia permanentemente registrada ou uma menção em uma obra de referência é verificação suficiente.

Multilíngue

Em outubro de 2021, havia sites do Wikcionário em 182 idiomas, dos quais 158 ativos e 24 fechados. Os sites ativos possuem 30.604.247 artigos, e os sites fechados, 339 artigos. Existem 6.401.039 usuários registrados, dos quais 4.727 estão ativos recentemente.

Os dez principais projetos de linguagem wiktionary por contagem de artigos do espaço principal:

Língua Wiki Boa Total Editar% s Admins Comercial Usuários ativos arquivos
1 inglês en 6.805.664 7.748.050 64.159.832 103 3.865.931 1.804 24
2 francês fr 4.252.066 4.572.906 29.847.394 35 313.809 465 6
3 malgaxe mg 1.709.188 1.792.331 29.121.199 2 9.706 9 3
4 russo ru 1.148.801 2.404.961 12.025.802 14 266.488 258 142
5 chinês zh 1.079.226 1.643.278 6.317.646 7 98.920 65 36
6 alemão de 1.007.724 1.173.340 8.869.745 17 204.475 215 99
7 Servo-croata sh 911.567 916.410 1.469.307 4 6.515 1 3
8 espanhol es 908.462 962.857 5.020.845 8 133.449 89 14
9 sueco sv 810.881 851.493 3.622.458 14 49.527 64 1
10 grego el 798.915 839.603 5.321.529 7 47.661 68 55

Para uma lista completa com os totais, veja as Estatísticas da Wikimedia:

Recepção critica

A recepção crítica do Wikcionário foi mista. Em 2006, Jill Lepore escreveu no artigo "A Arca de Noé" para a The New Yorker ,

Não há show de mãos no Wikcionário . Não tem nem redação. "Seja o seu próprio lexicógrafo!", Pode ser o lema do Wikcionário . Quem precisa de especialistas? Por que pagar um bom dinheiro por um dicionário escrito por lexicógrafos quando poderíamos improvisar um juntos?

O wikcionário não é tão republicano ou democrático quanto o maoísta. E é tão bom quanto os livros com direitos autorais expirados dos quais ele rouba.

A crítica de Keir Graff para Booklist foi menos crítica:

Existe um lugar para o Wikcionário? Sem dúvida. A indústria e o entusiasmo de seus muitos criadores são a prova de que existe um mercado. E é maravilhoso ter outra fonte forte para usar ao pesquisar os termos estranhos que surgem no mundo em rápida mudança de hoje e no ambiente online. Mas, como acontece com tantas fontes da Web (incluindo esta coluna), é melhor usado por usuários sofisticados em conjunto com fontes mais confiáveis.

As referências em outras publicações são fugazes e parte de discussões maiores da Wikipedia, não progredindo além de uma definição, embora David Brooks em The Nashua Telegraph a tenha descrito como "selvagem e confusa". Um dos impedimentos para a cobertura independente do Wikcionário é a confusão contínua de que ele é apenas uma extensão da Wikipedia.

A medida de correção das inflexões para um subconjunto das palavras polonesas no Wikcionário inglês mostrou que esses dados gramaticais são muito estáveis. Apenas 131 de 4.748 palavras polonesas tiveram seus dados de inflexão corrigidos.

Desde 2016, o Wikcionário tem visto um uso crescente na academia.

Dados do Wikcionário em processamento de linguagem natural

O Wikcionário possui dados semiestruturados . Os dados lexicográficos do Wikcionário podem ser convertidos em formato legível por máquina para serem usados ​​em tarefas de processamento de linguagem natural .

A mineração de dados do Wikcionário é uma tarefa complexa. Existem as seguintes dificuldades:

    • (1) as mudanças constantes e frequentes nos dados e esquemas
    • (2) a heterogeneidade nos esquemas de edição da linguagem wikcionária e
    • (3) a natureza centrada no ser humano de um wiki .

Existem vários analisadores para diferentes edições em idiomas do Wikcionário:

  • Wikcionário da DBpedia: um subprojeto da DBpedia , os dados são extraídos de wikcionários em inglês, francês, alemão e russo; os dados incluem idioma, classes gramaticais, definições, relações semânticas e traduções. A descrição declarativa do esquema da página, expressões regulares e transdutor de estado finito são usados ​​para extrair informações.
  • JWKTL (Java Wiktionary Library): fornece acesso aos dumps do Wikcionário em inglês e do Wikcionário em alemão por meio de uma API do Wikcionário Java . Os dados incluem idioma, classes gramaticais, definições, citações, relações semânticas, etimologias e traduções. JWKTL é distribuído sob a licença Apache .
  • wikokit: o analisador do Wikcionário Inglês e do Wikcionário Russo. Os dados analisados ​​incluem idioma, classes gramaticais, definições, citações, relações semânticas e traduções. Este é um software de código aberto multi-licenciado .
  • As entradas etimológicas foram analisadas no projeto Etymological WordNet .

Exemplos de tarefas de processamento de linguagem natural que foram resolvidas com a ajuda de dados do Wikcionário incluem:

  • Tradução automática baseada em regras entre o idioma holandês e o afrikaans ; dados do Wikcionário Inglês, Wikcionário Holandês e Wikipedia foram usados ​​com a plataforma de tradução automática Apertium .
  • Construção de dicionário legível por máquina pelo analisador NULEX, que integra recursos linguísticos abertos: Wikcionário em inglês, WordNet e VerbNet . Os NULEX analisador arranhões Inglês Wikcionário para obter informações tensa (verbos), plural e partes do discurso (substantivos).
  • Reconhecimento e síntese de fala , onde o Wikcionário foi usado para criar automaticamente dicionários de pronúncia. Os pares de pronúncias de palavras foram recuperados de 6 edições em idiomas do Wikcionário (tcheco, inglês, francês, espanhol, polonês e alemão). As pronúncias são em termos do Alfabeto Fonético Internacional . O sistema ASR baseado no Wikcionário Inglês tem a maior taxa de erros de palavras, onde cada terceiro fonema deve ser alterado.
  • Engenharia de ontologia e construção de redes semânticas .
  • Correspondência de ontologias .
  • Simplificação de texto . Medero & Ostendorf avaliaram a dificuldade de vocabulário ( detecção do nível de leitura ) com a ajuda de dados do Wikcionário. Propriedades de palavras extraídas de entradas do Wikcionário (comprimento de definição e POS , sentido e contagens de tradução) foram investigadas. Medero e Ostendorf esperavam que
    • (1) palavras muito comuns têm maior probabilidade de ter várias classes gramaticais,
    • (2) palavras comuns têm mais probabilidade de ter vários sentidos,
    • (3) é mais provável que palavras comuns tenham sido traduzidas para vários idiomas. Esses recursos extraídos de entradas do Wikcionário foram úteis para distinguir os tipos de palavras que aparecem nos artigos da Wikipedia em inglês simples de palavras que só aparecem nos artigos comparáveis ​​do inglês padrão.
  • Marcação de parte do discurso . Li et al. (2012) construíram POS-taggers multilíngües para oito idiomas com poucos recursos com base nos modelos de Wikcionário em inglês e de Markov Oculto .
  • Análise de sentimento .

"Wikidata: dados lexicográficos" foi iniciado em 2018 para fornecer suporte de dados estruturados para Wikitonários. Ele armazena dados de palavras de todas as línguas em um modelo de dados legível por máquina, em um namespace "Lexeme" dedicado no Wikidata. Em outubro de 2021, o projeto acumulou mais de 600.000 entradas de lexemas em vários idiomas.

Veja também

Notas

Referências

Citações

Fontes

  • Krizhanovsky, Andrew (2010). "Transformação da estrutura de entrada do Wikcionário em tabelas e relações em um esquema de banco de dados relacional". arXiv : 1011,1368 [ cs ].
  • Krizhanovsky, Andrew (2010). "A comparação de tesauros do Wikcionário transformados em formato legível por máquina". arXiv : 1006,5040 [ cs ].
  • Li, Shen; Graça, João V .; Taskar, Ben (2012). "Marcação de classe gramatical supervisionada pelo Wiki" (PDF) . Anais da Conferência Conjunta de 2012 sobre Métodos Empíricos em Processamento de Linguagem Natural e Aprendizagem Computacional de Linguagem Natural . Ilha de Jeju, Coréia: Association for Computational Linguistics. pp. 1389–1398.
  • Lin, Feiyu; Krizhanovsky, Andrew (2011). "Correspondência de ontologias multilíngües com base em dados do Wikcionário acessíveis via terminal SPARQL". Proc. da 13ª Conferência Russa sobre Bibliotecas Digitais RCDL'2011 . Voronezh, Rússia. pp. 19–26. arXiv : 1109.0732 . Bibcode : 2011arXiv1109.0732L .
  • “Wikcionário” . Os 101 principais sites da Web. Revista PC . Ziff Davis. 6 de abril de 2005. Arquivado do original em 21 de dezembro de 2005 . Recuperado em 16 de dezembro de 2005 .

links externos