Analisar árvore - Parse tree

Analise a árvore para SAAB.

Uma árvore de análise ou a análise de árvore ou derivação árvore ou árvore de sintaxe concreta é um ordenado, enraizada árvore que representa o sintática estrutura de uma seqüência de acordo com alguma gramática livre de contexto . O próprio termo árvore de análise é usado principalmente em linguística computacional ; na sintaxe teórica, o termo árvore de sintaxe é mais comum.

Árvores de sintaxe concretas refletem a sintaxe da linguagem de entrada, tornando-as distintas das árvores de sintaxe abstrata usadas na programação de computador. Ao contrário dos diagramas de frases de Reed-Kellogg usados ​​para ensinar gramática, as árvores de análise não usam formas de símbolo distintas para diferentes tipos de constituintes .

As árvores analisadas são geralmente construídas com base na relação de constituintes das gramáticas de constituintes ( gramáticas de estrutura sintagmática ) ou na relação de dependência das gramáticas de dependência . Árvores de análise podem ser geradas para sentenças em linguagens naturais (veja processamento de linguagem natural ), bem como durante o processamento de linguagens de computador, como linguagens de programação .

Um conceito relacionado é o de marcador de frase ou P-marcador , conforme usado na gramática gerativa transformacional . Um marcador de frase é uma expressão linguística marcada quanto à sua estrutura de frase. Isso pode ser apresentado na forma de uma árvore ou como uma expressão entre colchetes. Os marcadores de frase são gerados pela aplicação de regras de estrutura de frase e estão sujeitos a outras regras de transformação. Um conjunto de árvores de análise sintática possíveis para uma frase sintaticamente ambígua é chamado de "floresta de análise".

Nomenclatura

Uma árvore de análise simples.

Uma árvore de análise é composta de nós e ramos. Na imagem, a árvore de análise é toda a estrutura, começando em S e terminando em cada um dos nós de folha (John, ball, the, hit). Em uma árvore de análise, cada nó é um nó raiz , um nó de ramificação ou um nó folha . No exemplo acima, S é um nó raiz, NP e VP são nós ramificados, enquanto John, ball, the, e hit são todos nós folha.

Os nós também podem ser referidos como nós pais e nós filhos. Um nó pai é aquele que tem pelo menos um outro nó vinculado por uma ramificação abaixo dele. No exemplo, S é pai de NP e VP. Um nó filho é aquele que possui pelo menos um nó diretamente acima dele, ao qual está vinculado por um ramo da árvore. Novamente a partir do nosso exemplo, hit é um nó filho de V.

Uma função não terminal é uma função (nó) que é uma raiz ou um ramo nessa árvore, enquanto uma função terminal é uma função (nó) em uma árvore de análise que é uma folha.

Árvores de análise baseadas em grupos constituintes

As árvores de análise baseadas em constituintes de gramáticas de constituintes (= gramáticas de estrutura de frase ) distinguem entre nós terminais e não terminais. Os nós internos são rotulados por categorias não terminais da gramática, enquanto os nós folha são rotulados por categorias terminais . A imagem abaixo representa uma árvore de análise baseada em constituintes; mostra a estrutura sintática da frase em inglês John hit the ball :

Analisar árvore PSG

A árvore de análise é toda a estrutura, começando em S e terminando em cada um dos nós de folha ( John , hit , the , ball ). As seguintes abreviações são usadas na árvore:

  • S para a frase , a estrutura de nível superior neste exemplo
  • NP para sintagma nominal . O primeiro NP (mais à esquerda), um único substantivo "João", serve como sujeito da frase. O segundo é o objeto da frase.

Cada nó na árvore é um nó raiz , um nó de ramificação ou um nó folha . Um nó raiz é um nó que não possui ramificações em cima dele. Dentro de uma frase, há apenas um nó raiz. Um nó de ramificação é um nó pai que se conecta a dois ou mais nós filhos. Um nó folha, no entanto, é um nó terminal que não domina outros nós na árvore. S é o nó raiz, NP e VP são nós ramificados, e John (N), hit (V), o (D) e ball (N) são todos nós folha. As folhas são os símbolos lexicais da frase. Um nó pai é aquele que tem pelo menos um outro nó vinculado por uma ramificação abaixo dele. No exemplo, S é pai de N e VP. Um nó filho é aquele que possui pelo menos um nó diretamente acima dele, ao qual está vinculado por um galho de uma árvore. No exemplo, hit é um nó filho de V. Os termos mãe e filha também são usados ​​às vezes para esse relacionamento.

Árvores de análise baseadas em dependência

As árvores de análise de gramáticas de dependência baseadas em dependência vêem todos os nós como terminais, o que significa que eles não reconhecem a distinção entre categorias terminais e não terminais. Eles são mais simples, em média, do que as árvores de análise baseadas em constituintes porque contêm menos nós. A árvore de análise baseada em dependência para a frase de exemplo acima é a seguinte:

Analisar árvore DG

Esta árvore de análise não possui as categorias frasais (S, VP e NP) vistas na contraparte baseada em constituintes acima. Como a árvore baseada em constituintes , a estrutura constituinte é reconhecida. Qualquer subárvore completa da árvore é um constituinte. Assim, essa árvore de análise baseada em dependência reconhece o substantivo sujeito John e a frase de substantivo objeto a bola como constituintes, assim como a árvore de análise baseada em constituintes.

A distinção entre constituinte e dependência é de longo alcance. Se a estrutura sintática adicional associada às árvores de análise baseadas em constituintes é necessária ou benéfica, é uma questão de debate.

Marcadores de frase

Os marcadores de frase, ou marcadores P, foram introduzidos na gramática gerativa transformacional inicial , desenvolvida por Noam Chomsky e outros. Um marcador de frase que representa a estrutura profunda de uma frase é gerado pela aplicação de regras de estrutura de frase . Então, este aplicativo pode sofrer transformações adicionais.

Os marcadores de frase podem ser apresentados na forma de árvores (como na seção acima sobre árvores de análise baseadas em constituintes ), mas geralmente são fornecidos na forma de "expressões entre colchetes", que ocupam menos espaço na memória. Por exemplo, uma expressão entre colchetes correspondente à árvore baseada em constituintes fornecida acima pode ser algo como:

Assim como acontece com as árvores, a construção precisa de tais expressões e a quantidade de detalhes mostrados podem depender da teoria que está sendo aplicada e dos pontos que o autor da consulta deseja ilustrar.

Veja também

Notas

Referências

links externos