Lexicoestatística - Lexicostatistics

A lexicoestatística é um método de linguística comparativa que envolve a comparação da porcentagem de cognatos lexicais entre as línguas para determinar sua relação. Lexicostatistics está relacionado com o método comparativo , mas não reconstruir uma proto-língua . Deve ser diferenciado da glotocronologia , que tenta usar métodos léxico-estatísticos para estimar o período de tempo desde que duas ou mais línguas divergiram de uma protolinguagem anterior comum. Esta é apenas uma aplicação da léxicoestatística, entretanto; outras aplicações dela podem não compartilhar a suposição de uma taxa constante de mudança para itens lexicais básicos.

O termo "léxicoestatística" é enganoso, pois são usadas equações matemáticas, mas não estatísticas. Outros recursos de um idioma podem ser usados ​​além do léxico, embora isso seja incomum. Enquanto o método comparativo usado compartilhou inovações identificadas para determinar subgrupos, a lexicoestatística não as identifica. A lexicoestatística é um método baseado na distância, enquanto o método comparativo considera os caracteres da linguagem diretamente. O método léxico-estatístico é uma técnica simples e rápida em relação ao método comparativo, mas tem limitações (discutidas abaixo). Ele pode ser validado por meio do cruzamento das árvores produzidas por ambos os métodos.

História

A lexicoestatística foi desenvolvida por Morris Swadesh em uma série de artigos na década de 1950, com base em ideias anteriores. O primeiro uso conhecido do conceito foi por Dumont d'Urville em 1834, que comparou várias línguas "oceânicas" e propôs um método para calcular um coeficiente de relacionamento. Hymes (1960) e Embleton (1986) revisam a história da lexicoestatística.

Método

Criar lista de palavras

O objetivo é gerar uma lista de significados usados ​​universalmente (mão, boca, céu, I). As palavras são então coletadas para esses espaços de significado para cada idioma que está sendo considerado. Swadesh reduziu um conjunto maior de significados originalmente para 200. Mais tarde, ele descobriu que era necessário reduzi-la ainda mais, mas que poderia incluir alguns significados que não estavam em sua lista original, dando sua lista posterior de 100 itens. A lista de Swadesh no Wikcionário dá o total de 207 significados em vários idiomas. Listas alternativas que aplicam critérios mais rigorosos foram geradas, por exemplo, a lista Dolgopolsky e a lista Leipzig – Jakarta , bem como listas com um escopo mais específico; por exemplo, Dyen, Kruskal e Black têm 200 significados para 84 idiomas indo-europeus em formato digital.

Determinar conhaques

Um linguista treinado e experiente é necessário para tomar decisões cognitivas. No entanto, as decisões podem precisar ser refinadas à medida que o estado de conhecimento aumenta. No entanto, a léxicoestatística não depende de que todas as decisões sejam corretas. Para cada par de listas, a cognição de uma forma pode ser positiva, negativa ou indeterminada. Às vezes, um idioma tem várias palavras para um significado, por exemplo, pequeno e pequeno para não grande .

Calcular percentagens lexicoestatísticas

Essa porcentagem está relacionada à proporção de significados para um par de línguas em particular que são cognatos, ou seja, em relação ao total sem indeterminação. Este valor é inserido em uma tabela de distâncias N x N , onde N é o número de idiomas sendo comparados. Quando completa, esta tabela é preenchida pela metade de forma triangular . Quanto maior a proporção de cognacia, mais próximas as línguas estão relacionadas.

Criar árvore genealógica

A criação da árvore da linguagem é baseada exclusivamente na tabela encontrada acima. Vários métodos de subgrupo podem ser usados, mas o adotado por Dyen, Krustal e Black foi:

  • todas as listas são colocadas em um pool
  • os dois membros mais próximos são removidos e formam um núcleo que é colocado na piscina
  • esta etapa é repetida
  • sob certas condições, um núcleo se torna um grupo
  • isso é repetido até que o pool contenha apenas um grupo.

Os cálculos têm que ser de núcleos e porcentagens lexicais de grupo.

Formulários

Um dos principais expoentes da aplicação da léxico-estatística foi Isidore Dyen . Ele usou a léxicoestatística para classificar as línguas austronésias , bem como as indo-europeias . Um grande estudo sobre o último foi relatado por Dyen, Kruskal e Black (1992). Também foram realizados estudos em línguas ameríndias e africanas .

Pama-Nyungan

A questão da ramificação interna dentro da família da língua Pama-Nyungan tem sido uma questão de longa data dentro da linguística australiana, e o consenso geral sustentou que as conexões internas entre os mais de 25 subgrupos diferentes de Pama-Nyungan eram impossíveis de reconstruir ou que os subgrupos eram não é de fato geneticamente relacionado. Em 2012, Claire Bowern e Quentin Atkinson publicaram os resultados de sua aplicação de métodos filogenéticos computacionais em 194 doculetos representando todos os principais subgrupos e isolados de Pama-Nyungan. Seu modelo "recuperou" muitas das ramificações e divisões que haviam sido propostas e aceitas por muitos outros australianos, ao mesmo tempo em que fornecia alguns insights sobre as ramificações mais problemáticas, como Paman (que é complicado pela falta de dados) e Ngumpin- Yapa (onde a imagem genética é obscurecida por taxas muito altas de empréstimo entre línguas). Seu conjunto de dados forma o maior de seu tipo para uma família de línguas caçadoras-coletoras , e o segundo maior no geral, depois do austronésico ( Greenhill et al. 2008 ). Eles concluem que as línguas Pama-Nyungan não são, de fato, excepcionais aos métodos léxico-estatísticos, que foram aplicados com sucesso a outras famílias de línguas do mundo.

Críticas

Pessoas como Hoijer (1956) mostraram que havia dificuldades em encontrar equivalentes para os itens de significado, enquanto muitos acharam necessário modificar as listas de Swadesh. Gudschinsky (1956) questionou se seria possível obter uma lista universal.

Fatores como empréstimo , tradição e tabu podem distorcer os resultados, como acontece com outros métodos. Às vezes, léxicoestatística tem sido usada com similaridade lexical sendo usada em vez de cognacia para encontrar semelhanças. Isso é então equivalente à comparação de massa .

A escolha de slots de significado é subjetiva, assim como a escolha de sinônimos .

Métodos aprimorados

Alguns dos métodos modernos de teste de hipóteses estatísticas computacionais podem ser considerados como aprimoramentos da léxicoestatística, pois usam listas de palavras e medidas de distância semelhantes.

Veja também

Referências

Leitura adicional

  • Dobson, Annette (1969). Agrupamento léxico-estatístico. Anthropological Linguistics 7, 216-221.
  • Dobson, Annette e Black, Paul (1979). Escalonamento multidimensional de alguns dados lexicoestatísticos. Mathematical Scientist 1979/4, 55-61.
  • McMahon, April e McMahon, Robert (2005). Classificação do idioma por números. Imprensa da Universidade de Oxford.
  • Sankoff, David (1970). "Sobre a taxa de substituição de relações de significado de palavras." Idioma 46.564-569.
  • Wittmann, Henri (1969). "Uma investigação léxico-estatística sobre a diacronia do hitita." Indogermanische Forschungen 74.1-10. [1]
  • Wittmann, Henri (1973). "A classificação léxico-estatística das línguas crioulas baseadas no francês." Lexicostatistics in genetic linguistics: Proceedings of the Yale conference, April 3-4, 1971 , dir. Isidore Dyen, 89-99. La Haye: Mouton. [2]

links externos