T.51 / ISO / IEC 6937 - T.51/ISO/IEC 6937

T.51
Conjuntos de caracteres codificados baseados em latim para serviços telemáticos
Status À força
Ano começou 1984
Última versão (09/92)
setembro de 1992
Organização ITU-T
Comitê Grupo de Estudo VIII
Padrões relacionados T.61 , ETS 300 706 , ISO / IEC 10367 , ISO / IEC 2022
Domínio codificação
Licença Disponível gratuitamente
Local na rede Internet https://www.itu.int/rec/T-REC-T.51

T.51 / ISO / IEC 6937: 2001 , Tecnologia da informação - Conjunto de caracteres gráficos codificados para comunicação de texto - alfabeto latino , é uma extensão multibyte de ASCII , ou melhor, de ISO / IEC 646 -IRV. Foi desenvolvido em comum com ITU-T (então CCITT ) para serviços telemáticos sob o nome de T.51 , e se tornou um padrão ISO em 1983. Certos códigos de byte são usados ​​como bytes de chumbo para letras com diacríticos ( acentos ). O valor do byte inicial geralmente indica qual diacrítico a letra tem, e o byte seguinte tem o valor ASCII para a letra em que o diacrítico está.

Os arquitetos da ISO / IEC 6937 foram Hugh McGregor Ross , Peter Fenwick, Bernard Marti e Loek Zeckendorf .

ISO6937 / 2 define 327 caracteres encontrados em idiomas europeus modernos usando o alfabeto latino . Caracteres europeus não latinos, como cirílico e grego , não estão incluídos no padrão. Além disso, alguns diacríticos usados ​​com o alfabeto latino, como a vírgula romena, não estão incluídos, usando-se a cedilha, já que nenhuma distinção entre cedilha e vírgula foi feita na época.

IANA registrou os nomes de charset ISO_6937-2-25 e ISO_6937-2-add para duas versões (mais antigas) deste padrão (mais códigos de controle). Mas, na prática, essa codificação de caracteres não é usada na Internet.

Caracteres de byte único

O conjunto principal (primeira metade) originalmente seguia ISO 646-IRV antes da revisão ISO / IEC 646: 1991 , isto é, principalmente seguindo ASCII, mas com o caractere 0x24 ainda denotado como um " sinal de moeda internacional " (¤) em vez do cifrão ($). A edição de 1992 do ITU T.51 permite que os serviços CCITT existentes continuem a interpretar 0x24 como o sinal monetário internacional, mas estipula que as novas aplicações de telecomunicações devem usá-lo para o sinal de dólar (ou seja, seguindo a atual ISO 646-IRV) e, em vez disso, representam o símbolo da moeda internacional usando o conjunto suplementar.

O conjunto suplementar (segunda metade) contém uma seleção de caracteres gráficos com e sem espaçamento, símbolos adicionais e alguns locais reservados para padronização futura.

Ambos são conjuntos de caracteres gráficos ISO / IEC 2022 , com o conjunto primário sendo um conjunto de 94 códigos e o conjunto secundário sendo um conjunto de 96 códigos. Em contextos onde as técnicas de extensão de código ISO 2022 não estão em uso, o conjunto principal é designado como o conjunto G0 e invocado sobre GL ( 0x 20..0x7F), enquanto o conjunto suplementar é designado como o conjunto G2 e invocado sobre GR (0xA0 ..0xFF) em um ambiente de 8 bits ou usando o código de controle 0x19 como um turno único em um ambiente de 7 bits. Esta codificação do código de Turno Único Dois corresponde à sua localização em ISO-IR -106.

A sequência de escape ISO / IEC 2022 para designar o conjunto suplementar de ISO / IEC 6937 como o conjunto G2 é ESC . R(hex 1B 2E 52). O antigo conjunto suplementar ISO 6937/2: 1983 é registrado como um conjunto de códigos 94 e designado para G2 com ESC * l(hex 1B 2A 6C).

Caracteres de dois bytes

Letras acentuadas que não são códigos únicos alocados no conjunto primário ou suplementar são codificadas usando dois bytes. O primeiro byte, a "marca diacrítica sem espaçamento", é seguido por uma letra do conjunto de base, por exemplo:

small e with acute accent (é) = [Acute]+e

O padrão ITU T.51 aloca a coluna 4 do conjunto suplementar (ou seja, 0x C0-CF quando usado no formato de 8 bits) para caracteres diacríticos sem espaçamento. No entanto, a ISO / IEC 6937 define um repertório de caracteres totalmente especificado, mapeando uma lista de sequências de composição para nomes de caracteres ISO / IEC 10646 . Os bytes não espaçadores isolados não são incluídos neste repertório, embora as variantes de espaçamento dos diacríticos não presentes em ASCII sejam incluídas, com o espaço ASCII sendo o byte de trilha. Portanto, apenas certas combinações de byte inicial e byte subsequente estão em conformidade com o padrão ISO / IEC.

Este repertório também está afixado à versão da especificação ITU como Anexo A, embora a versão ITU não o faça referência no texto principal. É descrito como um "superconjunto unificado" dos repertórios de personagens do script latino. Corresponde ao repertório da ISO / IEC 10367 quando os conjuntos ASCII, Latin-1 (ou Latin-5 ), Latin-2 e latinos suplementares são usados.

Este sistema também difere do sistema de combinação de caracteres Unicode porque o código diacrítico precede a letra (em vez de segui-la), tornando-o mais semelhante ao ANSEL .

Uma pequena anomalia é que a letra latina G minúscula com cedilha é codificada como se fosse com sotaque agudo, ou seja, com byte de lead 0xC2, já que devido ao seu descendente interferir com a cedilha, a letra minúscula geralmente está com vírgula virada acima : Ģ ģ .

No total, 13 marcas diacríticas podem ser seguidas pelos caracteres selecionados do conjunto principal:

Sotaque Código Segundo personagem Resultado
Cova 0xC1 AEIOUaeiou ÀÈÌÒÙàèìòù
Agudo 0xC2 ACEILNORSUYZacegilnorsuyz ÁĆÉÍĹŃÓŔŚÚÝŹáćéģíĺńóŕśúýź
Circunflexo 0xC3 ACEGHIJOSUWYaceghijosuwy ÂĈÊĜĤÎĴÔŜÛŴŶâĉêĝĥîĵôŝûŵŷ
Til 0xC4 AINOUainou ÃĨÑÕŨãĩñõũ
Macron 0xC5 AEIOUaeiou ĀĒĪŌŪāēīōū
Breve 0xC6 AGUagu ĂĞŬăğŭ
Ponto 0xC7 CEGIZcegz ĊĖĠİŻċėġż
Trema ou trema 0xC8 AEIOUYaeiouy ÄËÏÖÜŸäëïöüÿ
Anel 0xCA Au au Au au
Cedilha 0xCB CGKLNRSTcklnrst ÇĢĶĻŅŖŞŢçķļņŗşţ
Duplo Agudo 0xCD Ouou ŐŰőű
Ogonek 0xCE AEIUaeiu ĄĘĮŲąęįų
Caron 0xCF CDELNRSTZcdelnrstz ČĎĚĽŇŘŠŤŽčďěľňřšťž

Layout de página de código

A referência à combinação de caracteres no intervalo U + 0300 — U + 036F para os códigos no intervalo 0xC1—0xCF abaixo está sujeita às advertências mencionadas acima; eles não podem ser simplesmente mapeados para os pontos de código listados. Além disso, o Unicode distingue 0xE2 em D com traço e Eth maiúsculo , que geralmente parecem diferentes para as letras minúsculas (0xF2 e 0xF3).

A edição mais antiga de 1988, ITU T.51 definidas duas versões do conjunto suplementar, com a primeira versão sem o espaço não-separável , hífen , não assinar ( ¬ ) e bar quebrado ( | ) presente na segunda versão. A primeira versão foi definida como uma extensão do conjunto suplementar T.61 e a segunda versão como uma extensão da primeira versão. A edição atual (1992) inclui apenas a segunda versão, torna obsoletos certos caracteres e atualiza o conjunto principal para o ISO-646-IRV ( ASCII ) atual, embora os serviços telemáticos existentes possam manter o comportamento anterior.

ISO / IEC 6937 ou ITU T.51 (latino)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UMA _B _C _D _E _F
0_
1_
2_ SP
0020
!
0021
"
0022
#
0023
$ / ¤
0024 / 00A4
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_ 0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_ @
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
I
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_ P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_ `
0060
a
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
h
0068
eu
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_ p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E
8_
9_
UMA_ NBSP
00A0
¡
00A1
¢
00A2
£
00A3
$
0024
¥
00A5
#
0023
§
00A7
¤
00A4
'
2018

201C
«
00AB

2190

2191

2192

2193
B_ °
00B0
±
00B1
²
00B2
³
00B3
×
00D7
µ
00B5

00B6
·
00B7
÷
00F7
'
2019

201D
»
00BB
¼
00BC
½
00BD
¾
00BE
¿
00BF
C_ 0300
0301
0302
0303
̄
0304
̆
0306
̇
0307
̈
0308
̊
030A
̧
0327
0332
̋
030B
̨
0328
̌
030C
D_ -
2015
¹
00B9
®
00AE
©
00A9

2122

266A
¬
00AC
¦
00A6

215B

215C

215D

215E
E_ Ω
2126
Æ
00C6
Đ / Ð
0110 / 00D0
ª
00AA
Ħ
0126
IJ
0132
Ŀ
013F
Ł
0141
Ø
00D8
Œ
0152
º
00BA
Þ
00DE
Ŧ
0166
Ŋ
014A
ʼn
0149
F_ ĸ
0138
æ
00E6
đ
0111
ð
00F0
ħ
0127
ı
0131
ij
0133
ŀ
0140
ł
0142
ø
00F8
œ
0153
ß
00DF
þ
00FE
ŧ
0167
ŋ
014B
TÍMIDO
00AD

  Carta  Número  Pontuação  Símbolo  De outros  Indefinido  Diferenças de T.61

Versão Videotex

As versões do conjunto suplementar usado pelo padrão ITU T.101 para Videotex são baseadas no primeiro conjunto suplementar da edição de 1988 do T.51.

O conjunto G2 padrão para dados Sintaxe 2 adiciona um em 0xC0, por combinação com códigos de um grego conjunto principal.

O conjunto suplementar para a sintaxe de dados 3 adiciona marcas sem espaçamento para a sobrelinha e solidus e vários caracteres semigráficos .

Versão ETS 300 706

O padrão ETS 300 706 para World System Teletext baseia seu conjunto G2 no ISO 6937. É um superconjunto do conjunto suplementar de T.61 e um superconjunto do primeiro conjunto suplementar da edição de 1988 de T.51, mas colide com a edição atual do T.51 em certas posições. Os códigos diacríticos na versão ETS são especificados como sendo "para associação com" caracteres do conjunto G0 em uso , como US-ASCII ou BS_viewdata . Esta versão é mostrada no gráfico abaixo.

World System Teletext, Latin G2 Set (ETS 300 706: 1997)
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _UMA _B _C _D _E _F
2_ / A_ SP
00A0
¡
00A1
¢
00A2
£
00A3
$
0024
¥
00A5
#
0023
§
00A7
¤
00A4
'
2018

201C
«
00AB

2190

2191

2192

2193
3_ / B_ °
00B0
±
00B1
²
00B2
³
00B3
×
00D7
µ
00B5

00B6
·
00B7
÷
00F7
'
2019

201D
»
00BB
¼
00BC
½
00BD
¾
00BE
¿
00BF
4_ / C_ 0300
0301
0302
0303
̄
0304
̆
0306
̇
0307
̈
0308
̣̣
0323
̊
030A
̧
0327
0332
̋
030B
̨
0328
̌
030C
5_ / D_ -
2015
¹
00B9
®
00AE
©
00A9

2122

266A

20A0

2030
α
03B1

215B

215C

215D

215E
6_ / E_ Ω
2126
Æ
00C6
Đ / Ð
0110 / 00D0
ª
00AA
Ħ
0126
IJ
0132
Ŀ
013F
Ł
0141
Ø
00D8
Œ
0152
º
00BA
Þ
00DE
Ŧ
0166
Ŋ
014A
ʼn
0149
7_ / F_ ĸ
0138
æ
00E6
đ
0111
ð
00F0
ħ
0127
ı
0131
ij
0133
ŀ
0140
ł
0142
ø
00F8
œ
0153
ß
00DF
þ
00FE
ŧ
0167
ŋ
014B

25A0

  Carta  Número  Pontuação  Símbolo  De outros  Indefinido  Diferenças de T.51

Veja também

Notas de rodapé

Referências

links externos