Documento estruturado - Structured document

Um documento estruturado é um documento eletrônico em que algum método de marcação é usado para identificar o todo e as partes do documento como tendo vários significados além de sua formatação. Por exemplo, um documento estruturado pode identificar uma determinada parte como um "título do capítulo" (ou "amostra de código" ou "quadra") em vez de "Helvetica bold 24" ou "Courier recuado". Essas partes em geral são comumente chamadas de "componentes" ou "elementos" de um documento.

Visão geral

Documentos estruturados geralmente se concentram em rotular coisas que podem ser usadas para uma variedade de propósitos de processamento, não apenas formatação. Por exemplo, a rotulação explícita de "título do capítulo" ou "ênfase" é muito mais útil para sistemas para deficientes visuais do que meramente "Helvetica negrito 24" ou "itálico". Da mesma forma, a etiquetagem significativa dos muitos itens em uma folha de informações técnicas permite uma integração muito melhor com bancos de dados, sistemas de pesquisa, catálogos online e assim por diante.

Documentos estruturados geralmente suportam pelo menos estruturas hierárquicas, por exemplo listas, não apenas itens de lista; seções, não apenas títulos de seção; e assim por diante. Isso está em total contraste com os sistemas orientados para formatação. Os sistemas de última geração também oferecem suporte a vários conjuntos de componentes independentes e / ou sobrepostos.

Os sistemas de documentos estruturados geralmente permitem a criação de regras explícitas que definem os tipos de componentes e como eles podem ser combinados. Esse conjunto de regras é chamado de "esquema" por analogia com os esquemas de banco de dados . Existem várias linguagens formais para especificá-los, como XSD , Relax NG e Schematron . Um documento estruturado que obedece às regras do esquema é comumente chamado de "válido de acordo com esse esquema". Alguns sistemas também suportam documentos com componentes de tipos e combinações arbitrárias, mas ainda com regras sintáticas de como esses componentes são identificados.

Lie e Saarela observaram que a " Linguagem de marcação generalizada padrão (SGML) foi pioneira no conceito de documentos estruturados", embora sistemas anteriores como Scribe , Augment e FRESS fornecessem muitos recursos e capacidades de documentos estruturados, e o XML derivado de SGML agora é preferido.

Uma representação amplamente usada para documentos estruturados é o HTML , um esquema definido e descrito pelo W3C . No entanto, o HTML não possui apenas tags para componentes orientados ao significado, como parágrafo, título e código; mas também orientados para o formato, como itálico, negrito e a maioria das tabelas. Na prática, o HTML às vezes é usado como um sistema de documento estruturado, mas geralmente é usado como uma linguagem de formatação.

Muitos domínios usam documentos estruturados por meio de esquemas específicos de domínio que desenvolveram cooperativamente, como JATS para publicação de periódicos, TEI para documentos literários, UBL e EDI para intercâmbio de negócios, XTCE para telemetria de espaçonaves, REST para interfaces da Web e muitos mais. Todos esses casos usam esquemas específicos baseados em XML .

XML é o formato universal para documentos estruturados e dados na Web

Semântica estrutural

Ao escrever documentos estruturados, o foco está na codificação da estrutura lógica de um documento, com menos ou mesmo nenhum trabalho explícito dedicado à sua apresentação a humanos por páginas impressas ou telas (em alguns casos, esse uso não é nem esperado). Documentos estruturados podem ser facilmente processados ​​por sistemas de computador para extrair e apresentar formas derivadas do documento. Na maioria dos artigos da Wikipedia, por exemplo, um índice analítico é gerado automaticamente a partir das diferentes marcas de título no corpo do documento. Como a conversão SGML do Oxford English Dictionary distinguiu explicitamente os muitos significados diferentes que atribuem ao uso de itálico na versão impressa, as ferramentas de pesquisa podem recuperar entradas com base na etimologia, citações e muitos outros recursos de interesse. Quando o HTML fornece informações estruturais, em vez de meramente de formatação, os usuários com deficiência visual podem obter facilmente uma interface de leitura mais útil. Quando as agências de viagens fornecem itinerários como documentos estruturados em vez de apenas exibições, as ferramentas do usuário podem extrair facilmente os fatos necessários e passá-los para o calendário ou outros aplicativos.

Em HTML, uma parte da estrutura lógica de um documento pode ser o corpo do documento; <body> , contendo um cabeçalho de primeiro nível; <h1> , e um parágrafo; <p> .

<body>

<h1>Structured document</h1>
<p>A <strong class="selflink">structured document</strong> is an <a href="/wiki/Electronic_document" title="Electronic document">electronic document</a> where some method of <a href="/wiki/Markup_language" title="Markup language">markup</a> is used to identify the whole and parts of the document as having various meanings beyond their formatting.</p>

</body>

Uma das características mais atraentes dos documentos estruturados é que eles podem ser reutilizados em muitos contextos e apresentados de várias maneiras em telefones celulares, telas de TV, sintetizadores de voz e qualquer outro dispositivo que possa ser programado para processá-los.

Outras semânticas

Outro significado pode ser atribuído ao texto que não é "estrutural" exatamente no mesmo sentido que objetos maiores, mas ainda é considerado "estrutura de documento" porque expressa reivindicações sobre o escopo e a natureza ou ontologia de partes de um documento, ao invés de instruções sobre sua apresentação. No fragmento HTML acima, o <strong> elemento significa que o texto encerrado é enfático. Em termos visuais, isso geralmente é representado por negrito, assim como <b> ; mas uma interface de voz provavelmente usaria inflexão de voz. O termo marcação semântica exclui marcação como a <b> que expressa diretamente nenhum significado além de uma instrução para uma exibição visual (embora um agente inteligente possa ser capaz de discernir um significado estrutural escondido atrás da tag). A tag "forte" é "descritiva" ou "estrutural" no sentido de que se destina a rotular uma propriedade abstrata e quase linguística de seu conteúdo, em vez de descrever a apresentação apropriada em algum meio específico.

Algumas outras tags estruturais em HTML incluem <abbr>, <acronym>, <address>, <cite>, <del>, <dfn>, <ins>, <kbd>, and <q> . Outros esquemas, como DocBook e TEI, têm seleções muito maiores.

A <a> etiqueta de âncora é usada para outro tipo ligeiramente diferente de estrutura, a saber, a estrutura de interconexão ou referência cruzada, em vez da divisão de seção de intervalo. Definitivamente, essa é a estrutura e, de fato, é possível criar uma marcação alternativa para documentos que expressem as mesmas estruturas particulares de qualquer maneira (por exemplo, usando a transclusão para representar o conteúdo da seção, em vez de apresentações de hiperlinks de navegação).

O HTML desde o início também teve tags que expressam semântica de apresentação, como negrito ( <b> ) ou itálico ( <i> ), ou para alterar o tamanho das fontes ou que tiveram outros efeitos na apresentação. Versões modernas de linguagens de marcação desencorajam tal marcação em favor da marcação descritiva que é mapeada para apresentações particulares por meio de folhas de estilo , um método pioneiro em sistemas como Scribe e FRESS . Folhas de estilo diferentes podem ser anexadas a qualquer marcação, semântica ou de apresentação, para produzir apresentações diferentes, embora mapear um nome de tag "itálico" para apresentação em negrito não seja totalmente intuitivo.

Contexto e intenção

Em princípio, apenas o que constitui "estrutura" vs. não estrutura pode variar. Em um livro especificamente sobre tipografia, marcar algo como "itálico" ou "negrito" pode muito bem ser o ponto principal. Por exemplo, uma discussão sobre quando usar estilos particulares provavelmente dará exemplos e contra-exemplos, que não fariam mais sentido se a tradução não estivesse em sincronia com a prosa. Da mesma forma, uma determinada edição de um documento pode ser de interesse não apenas por seu conteúdo, mas também por sua prática tipográfica, caso em que a descrição dessa prática é não apenas desejável, mas necessária. No entanto, esse problema não é exclusivo da estrutura do documento; também surge na gramática ao discutir a gramática e em muitos outros casos.

Veja também

Referências