Valores separados por tabulação - Tab-separated values

Valores separados por tabulação
Extensão de nome de arquivo .tsv, .tab
Tipo de mídia da Internet
texto / valores separados por tabulação
Tipo de formato multiplataforma, fluxos de dados seriais
Recipiente para informações do banco de dados organizadas como listas separadas por campos
Padrão Tipo IANA MIME

Um arquivo de valores separados por tabulação ( TSV ) é um formato de texto simples para armazenar dados em uma estrutura tabular , por exemplo, tabela de banco de dados ou dados de planilha , e uma maneira de trocar informações entre bancos de dados . Cada registro na tabela é uma linha do arquivo de texto . Cada valor de campo de um registro é separado do próximo por um caractere de tabulação . O formato TSV é, portanto, um tipo de formato de valores separados por delimitador mais geral .

TSV é um formato de arquivo simples com amplo suporte, por isso é frequentemente usado na troca de dados para mover dados tabulares entre diferentes programas de computador que oferecem suporte ao formato. Por exemplo, um arquivo TSV pode ser usado para transferir informações de um programa de banco de dados para uma planilha.

TSV é uma alternativa ao formato de valores separados por vírgula (CSV) comum, que geralmente causa dificuldades devido à necessidade de escapar vírgulas - vírgulas literais são muito comuns em dados de texto, mas paradas de tabulação literais são raras no texto em execução. O padrão IANA para TSV alcança a simplicidade simplesmente desautorizando as guias nos campos.

Exemplo

Por exemplo, o cabeçalho do conjunto de dados de flores da íris pode ser armazenado como um TSV usando o seguinte texto simples (observe que a renderização de HTML pode converter tabulações em espaços):

Sepal length	Sepal width	Petal length	Petal width	Species
5.1	3.5	1.4	0.2	I. setosa
4.9	3.0	1.4	0.2	I. setosa
4.7	3.2	1.3	0.2	I. setosa
4.6	3.1	1.5	0.2	I. setosa
5.0	3.6	1.4	0.2	I. setosa

O texto simples TSV acima corresponde aos seguintes dados tabulares:

Comprimento da sépala Largura sépala Comprimento da pétala Largura da pétala Espécies
5,1 3,5 1,4 0,2 I. setosa
4,9 3,0 1,4 0,2 I. setosa
4,7 3,2 1,3 0,2 I. setosa
4,6 3,1 1,5 0,2 I. setosa
5.0 3,6 1,4 0,2 I. setosa

Convenções para conversão sem perdas para TSV

Como os valores no formato TSV não podem conter tabulações literais ou caracteres de nova linha, é necessária uma convenção para a conversão sem perdas de valores de texto com esses caracteres. Uma convenção comum é realizar os seguintes escapes:

   \n for newline,
   \t for tab,
   \r for carriage return,
   \\ for backslash.

Outra convenção comum é usar a convenção CSV da RFC  4180 e colocar esses caracteres especiais entre aspas duplas. Isso pode levar a ambigüidades.

Outra ambigüidade é se os registros são separados por nova linha, como seria típico para linhas no UNIX, ou retorno de carro, nova linha, como seria típico para plataformas Microsoft. Muitos programas como o LibreOffice esperam retorno de carro, nova linha.

Veja também

Referências

  1. ^ Como usar arquivos com valores separados por tabulações (TSV) publicados pelo Fundo Monetário Internacional
  2. ^ a b "Definição de valores separados por tabulação (tsv)" . Autoridade para atribuição de números na Internet (IANA) .
  3. ^ "Linear TSV" . Protocolos de dados - Open Knowledge Foundation .
  4. ^ "jq Manual" . stedolan.github.io .

Bibliografia

links externos