Valores separados por tabulação - Tab-separated values
Extensão de nome de arquivo |
.tsv , .tab
|
---|---|
Tipo de mídia da Internet |
texto / valores separados por tabulação
|
Tipo de formato | multiplataforma, fluxos de dados seriais |
Recipiente para | informações do banco de dados organizadas como listas separadas por campos |
Padrão | Tipo IANA MIME |
Um arquivo de valores separados por tabulação ( TSV ) é um formato de texto simples para armazenar dados em uma estrutura tabular , por exemplo, tabela de banco de dados ou dados de planilha , e uma maneira de trocar informações entre bancos de dados . Cada registro na tabela é uma linha do arquivo de texto . Cada valor de campo de um registro é separado do próximo por um caractere de tabulação . O formato TSV é, portanto, um tipo de formato de valores separados por delimitador mais geral .
TSV é um formato de arquivo simples com amplo suporte, por isso é frequentemente usado na troca de dados para mover dados tabulares entre diferentes programas de computador que oferecem suporte ao formato. Por exemplo, um arquivo TSV pode ser usado para transferir informações de um programa de banco de dados para uma planilha.
TSV é uma alternativa ao formato de valores separados por vírgula (CSV) comum, que geralmente causa dificuldades devido à necessidade de escapar vírgulas - vírgulas literais são muito comuns em dados de texto, mas paradas de tabulação literais são raras no texto em execução. O padrão IANA para TSV alcança a simplicidade simplesmente desautorizando as guias nos campos.
Exemplo
Por exemplo, o cabeçalho do conjunto de dados de flores da íris pode ser armazenado como um TSV usando o seguinte texto simples (observe que a renderização de HTML pode converter tabulações em espaços):
Sepal length Sepal width Petal length Petal width Species 5.1 3.5 1.4 0.2 I. setosa 4.9 3.0 1.4 0.2 I. setosa 4.7 3.2 1.3 0.2 I. setosa 4.6 3.1 1.5 0.2 I. setosa 5.0 3.6 1.4 0.2 I. setosa
O texto simples TSV acima corresponde aos seguintes dados tabulares:
Comprimento da sépala | Largura sépala | Comprimento da pétala | Largura da pétala | Espécies |
---|---|---|---|---|
5,1 | 3,5 | 1,4 | 0,2 | I. setosa |
4,9 | 3,0 | 1,4 | 0,2 | I. setosa |
4,7 | 3,2 | 1,3 | 0,2 | I. setosa |
4,6 | 3,1 | 1,5 | 0,2 | I. setosa |
5.0 | 3,6 | 1,4 | 0,2 | I. setosa |
Convenções para conversão sem perdas para TSV
Como os valores no formato TSV não podem conter tabulações literais ou caracteres de nova linha, é necessária uma convenção para a conversão sem perdas de valores de texto com esses caracteres. Uma convenção comum é realizar os seguintes escapes:
\n for newline, \t for tab, \r for carriage return, \\ for backslash.
Outra convenção comum é usar a convenção CSV da RFC 4180 e colocar esses caracteres especiais entre aspas duplas. Isso pode levar a ambigüidades.
Outra ambigüidade é se os registros são separados por nova linha, como seria típico para linhas no UNIX, ou retorno de carro, nova linha, como seria típico para plataformas Microsoft. Muitos programas como o LibreOffice esperam retorno de carro, nova linha.
Veja também
Referências
- ^ Como usar arquivos com valores separados por tabulações (TSV) publicados pelo Fundo Monetário Internacional
- ^ a b "Definição de valores separados por tabulação (tsv)" . Autoridade para atribuição de números na Internet (IANA) .
- ^ "Linear TSV" . Protocolos de dados - Open Knowledge Foundation .
- ^ "jq Manual" . stedolan.github.io .
Bibliografia
- IANA , Text Media Types, Definição de valores separados por tabulação (tsv) , Paul Lindner, U of MN Internet Gopher Team, junho de 1993
- Valores separados por tabulação (TSV): um formato para troca de dados tabulares , Jukka Korpela, criado em 01/09/2000, última atualização 12/02/2005.