ISO / IEC 646 - ISO/IEC 646
Padrão | ISO / IEC 646, ITU T.50 |
---|---|
Classificação | Codificação latina básica de 7 bits |
Precedido por | US-ASCII |
Sucedido por | ISO 8859 , ISO 10646 |
Outras codificações relacionadas |
DEC NRCS , Adaptações do World System Teletext para outros alfabetos : ELOT 927 , Symbol , KOI-7 , SRPSCII e MAKSCII , ASMO 449 , SI 960 |
ISO / IEC 646 é o nome de um conjunto de padrões ISO , descritos como Tecnologia da informação - conjunto de caracteres codificados ISO de 7 bits para intercâmbio de informações e desenvolvido em cooperação com ASCII pelo menos desde 1964. Desde sua primeira edição em 1967, especificou um Código de caracteres de 7 bits a partir do qual vários padrões nacionais são derivados.
ISO / IEC 646 também foi ratificado pela ECMA como ECMA-6 . A primeira versão do ECMA-6 foi publicada em 1965, com base no trabalho que o Comitê Técnico TC1 do ECMA havia realizado desde dezembro de 1960.
Os caracteres no conjunto de caracteres básicos ISO / IEC 646 são caracteres invariáveis . Uma vez que essa parte da ISO / IEC 646, que é o conjunto de caracteres invariante compartilhado por todos os países, especificava apenas as letras usadas no alfabeto latino básico da ISO , os países que usam letras adicionais precisam criar variantes nacionais da ISO 646 para poder usar seus scripts nativos. Como a transmissão e o armazenamento de códigos de 8 bits não eram padrão na época, os caracteres nacionais tiveram que ser ajustados para caber dentro das restrições de 7 bits, o que significa que alguns caracteres que aparecem em ASCII não aparecem em outras variantes nacionais da ISO 646 .
História
A ISO / IEC 646 e seu predecessor ASCII ( ASA X3.4 ) endossaram amplamente a prática existente com relação à codificação de caracteres na indústria de telecomunicações .
Como o ASCII não forneceu um número de caracteres necessários para idiomas diferentes do inglês, várias variantes nacionais foram feitas que substituíram alguns caracteres menos usados por outros necessários. Devido à incompatibilidade das diversas variantes nacionais, foi introduzida uma Versão de Referência Internacional (IRV) da ISO / IEC 646, na tentativa de pelo menos restringir o conjunto substituído aos mesmos caracteres em todas as variantes. A versão original (ISO 646 IRV) diferia do ASCII apenas no ponto de código 0x24, o cifrão ASCII ($) foi substituído pelo símbolo de moeda internacional (¤). A versão final de 1991 do código ISO 646: 1991 também é conhecida como ITU T.50 , International Reference Alphabet ou IRA, anteriormente International Alphabet No. 5 (IA5). Este padrão permite aos usuários exercitar os 12 caracteres variáveis (ou seja, dois caracteres gráficos alternativos e 10 caracteres definidos nacionalmente). Entre esses exercícios, ISO 646: 1991 IRV (International Reference Version) é explicitamente definido e idêntico ao ASCII .
A série de padrões ISO 8859 que rege a codificação de caracteres de 8 bits substitui o padrão internacional ISO 646 e suas variantes nacionais, fornecendo 96 caracteres adicionais com o bit adicional e evitando assim qualquer substituição de códigos ASCII. O padrão ISO 10646 , diretamente relacionado ao Unicode , substitui todos os conjuntos ISO 646 e ISO 8859 por um conjunto unificado de codificações de caracteres usando um valor maior de 21 bits.
Um legado de ISO / IEC 646 é visível no Windows, onde em muitas localidades do Leste Asiático o caractere de barra invertida usado em nomes de arquivo é processado como ¥ ou outros caracteres como ₩ . Apesar do fato de que um código diferente para ¥ estava disponível até mesmo na página de código 437 do IBM PC original , e um código de byte duplo separado para ¥ está disponível no Shift JIS (embora isso geralmente use mapeamento alternativo ), muito texto foi criado com o código de barra invertida usado para ¥ (devido ao Shift_JIS ser oficialmente baseado no ISO 646: JP, embora a Microsoft o mapeie como ASCII) que mesmo as fontes modernas do Windows acharam necessário renderizar o código dessa maneira. Uma situação semelhante existe com ₩ e EUC-KR . Outro legado é a existência de trigraphs na linguagem de programação C .
Padrões publicados
- ISO / R646-1967
- ISO 646: 1972
- ISO 646: 1983
- ISO / IEC 646: 1991
- ECMA-6 (1965-04-30), primeira edição
- ECMA-6 (1967-06), segunda edição
- ECMA-6 (1970-07), terceira edição
- ECMA-6 (1973-08), quarta edição
- ECMA-6 (1984-12, 1985-03), quinta edição
- ECMA-6 (1991-12, 1997-08), sexta edição
Layout da página de código
A tabela a seguir mostra o conjunto de caracteres invariantes ISO / IEC 646. Cada caractere é mostrado com o código hexadecimal de seu equivalente Unicode . Os pontos de código nacional são cinza com o caractere ASCII que é substituído. Uma caixa pesada indica um caractere que, em algumas regiões, pode ser combinado com um caractere anterior como um diacrítico usando o caractere de retrocesso , o que pode afetar a escolha do glifo .
Além das restrições do conjunto invariável, 0x23 é restrito a ser # ou £ e 0x24 é restrito a $ ou ¤ em ECMA-6: 1991, equivalente a ISO 646: 1991. No entanto, essas restrições não são seguidas por todas as variantes nacionais.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _UMA | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 |
NUL 0000 |
SOH 0001 |
STX 0002 |
ETX 0003 |
EOT 0004 |
ENQ 0005 |
ACK 0006 |
BEL 0007 |
BS 0008 |
HT 0009 |
LF 000A |
VT 000B |
FF 000C |
CR 000D |
SO 000E |
SI 000F |
1_ 16 |
DLE 0010 |
DC1 0011 |
DC2 0012 |
DC3 0013 |
DC4 0014 |
NAK 0015 |
SYN 0016 |
ETB 0017 |
CAN 0018 |
EM 0019 |
SUB 001A |
ESC 001B |
FS 001C |
GS 001D |
RS 001E |
US 001F |
2_ 32 |
SP 0020 |
! 0021 |
" 0022 |
# |
$ |
% 0025 |
& 0026 |
' 0027 |
( 0028 |
) 0029 |
* 002A |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ 48 |
0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ 64 |
@ |
A 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
I 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ 80 |
P 0050 |
Q 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Y 0059 |
Z 005A |
[ |
\ |
] |
^ |
_ 005F |
6_ 96 |
` |
a 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
h 0068 |
eu 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
7_ 112 |
p 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
w 0077 |
x 0078 |
y 0079 |
z 007A |
{ |
| |
} |
~ |
DEL 007F |
Carta Número Pontuação Símbolo De outros Indefinido
Famílias de codificação relacionadas
Conjunto de caracteres de substituição nacional
O National Replacement Character Set ( NRCS ) é uma família de codificações de 7 bits introduzida em 1983 pela DEC com a série VT200 de terminais de computador. Ele está intimamente relacionado ao ISO 646, sendo baseado em um subconjunto invariante semelhante do ASCII, diferindo em reter $
como invariante, mas não _
(embora a maioria das variantes do NRCS mantenham o _
e, portanto, obedeçam ao conjunto invariante ISO 646). A maioria das variantes do NRCS estão intimamente relacionadas às variantes nacionais correspondentes da ISO 646 onde existem, com exceção da variante holandesa .
Teletexto do sistema mundial
O padrão europeu de telecomunicações ETS 300 706, "especificação de teletexto aprimorado", define conjuntos de códigos latinos, gregos, cirílicos, árabes e hebraicos com diversas variantes nacionais para latim e cirílico. Como o NRCS e o ISO 646, dentro das variantes latinas, a família de codificações conhecida como conjunto G0 é baseada em um subconjunto invariante semelhante do ASCII, mas não retém $
nem _
como invariante. Ao contrário do NRCS, as variantes geralmente diferem consideravelmente das variantes nacionais da ISO 646 correspondentes.
Códigos de variantes e descrições
Variantes nacionais ISO 646
Algumas variantes nacionais da ISO 646 são as seguintes:
Código | ISO-IR | ISO ESC | Aprovado | Padrão Nacional | Descrição |
---|---|---|---|---|---|
CA | 121 | ESC 2/8 7/7 | ISO 646 | CSA Z243.4-1985-1 |
Canadá (alternativa nº 1, com "î") ( francês , clássico) ( página de código 1020 ) |
CA2 | 122 | ESC 2/8 7/8 | ISO 646 | CSA Z243.4-1985-2 |
Canadá (alternativa nº 2, com "É") ( francês , ortografia reformada) |
CN | 57 | ESC 2/8 5/4 | ? | GB / T 1988-80 | República Popular da China (latim básico) |
CU | 151 | ESC 2/8 2/1 4/1 | ISO 646 | NC 99-10: 81 / NC NC00-10: 81 | Cuba ( espanhol ) |
DANO | 9-1 | ESC 2/8 4/5 | SIS ? | NATS-DANO |
Noruega e Dinamarca (textos jornalísticos). O ponto de código invariável 0x22 é exibido como « , (compare " no IRV). No entanto, ainda é considerada uma aspa dupla. Acompanha SEFI (NATS-SEFI).
|
DE | 21 | ESC 2/8 4/11 | ISO 646 | DIN 66003 | Alemanha ( alemão ) ( página de código 1011 , 20106 ) |
DK | - | ? | DS 2089 | Dinamarca ( dinamarquês ) ( página de código 1017 ) | |
ES | 17 | ESC 2/8 5/10 | ECMA | Olivetti | Espanhol (internacional) ( página de código 1023 ) |
ES2 | 85 | ESC 2/8 6/8 | ECMA | IBM | Espanha ( basco , castelhano , catalão , galego ) ( página de código 1014 ) |
FI | 10 | ISO 646 | SFS 4017 | Finlândia (versão básica) ( página de código 1018 ) | |
FR | 69 | ESC 2/8 6/6 | ISO 646 | AFNOR NF Z 62010-1982 | França ( francês ) ( página de código 1010 ) |
FR1 | 25 | ESC 2/8 5/2 | ISO 646 | AFNOR NF Z 62010-1973 | França (obsoleto desde abril de 1985) ( página de código 1104 ) |
GB | 4 | ESC 2/8 4/1 | ISO 646 | BS 4730 | Reino Unido ( inglês ) ( página de código 1013 ) |
HU | 86 | ESC 2/8 6/9 | ISO 646 | MSZ 7795/3 | Hungria ( húngaro ) |
IE | 207 | ? | NSAI 433: 1996 | Irlanda ( irlandês ) | |
INV | 170 | ESC 2/8 2/1 4/2 | ISO 646 | ISO 646: 1983 | Subconjunto invariante |
(IRV) | 2 | ESC 2/8 4/0 | ISO 646 | ISO 646: 1973 | Versão de referência internacional. 0x7E como um overline (ISO-IR-002). |
? | ? | ISO 646 | ISO 646: 1983 | Versão de referência internacional. 0x7E como um til ( página de código 1009 , 20105 ). | |
A versão de referência internacional ISO 646: 1991 corresponde à variante dos EUA (veja abaixo). | |||||
É | ? | ? | ? | Islândia ( islandês ) | |
ISTO | 15 | ESC 2/8 5/9 | ECMA | UNI 0204-70 / Olivetti ? | Italiano ( página de código 1012 ) |
JP | 14 | ESC 2/8 4/10 | ISO 646 | JIS C 6220: 1969-ro | Japão ( Romaji ) ( página de código 895 ). Também usado como um código de 8 bits com o conjunto suplementar Katakana correspondente . |
JP-OCR-B | 92 | ESC 2/8 6/14 | ISO 646 | JIS C 6229-1984-b | Japão ( OCR -B) |
KR | - | ? | KS C 5636-1989 | Coreia do Sul | |
MT | - | ? | ? | Malta ( maltês , inglês ) | |
NL | - | ECMA | IBM | Holanda ( holandês ) ( página de código 1019 ) | |
NÃO | 60 | ESC 2/8 6/0 | ISO 646 | NS 4551 versão 1 | Noruega ( página de código 1016 ) |
NO2 | 61 | ESC 2/8 6/1 | ISO 646 | NS 4551 versão 2 | Noruega (obsoleto desde junho de 1987) ( página de código 20108 ) |
pl | - | BN-74 / 3101-01 | Polônia (o polonês tem 18 letras com sinais diacríticos, mas apenas 9 letras minúsculas são normalizadas por motivos de espaço de código. | ||
PT | 16 | ESC 2/8 4/12 | ECMA | Olivetti | Português (internacional) |
PT2 | 84 | ESC 2/8 6/7 | ECMA | IBM | Portugal ( português , espanhol ) ( página de código 1015 |
SE | 10 | ESC 2/8 4/7 | ISO 646 | SEN 850200 Anexo B, SIS 63 61 27 | Suécia ( sueco básico ) ( página de código 1018 , D47) |
SE2 | 11 | ESC 2/8 4/8 | ISO 646 | SEN 850200 Anexo C, SIS 63 61 27 | Suécia ( sueco estendido para nomes) ( página de código 20107 , E47) |
SEFI | 8-1 | ESC 2/8 4/3 | SIS | NATS-SEFI | Suécia e Finlândia (textos jornalísticos). Acompanha DANO (NATS-DANO). |
T.61-7bit | 102 | ESC 2/8 7/5 | ? | Recomendação ITU / CCITT T.61 | Internacional ( Teletex ). Também usado com o conjunto suplementar correspondente como um código de 8 bits. |
TW | - | ? | CNS 5205-1996 | República da China ( Taiwan ) | |
EUA / (IRV) | 6 | ESC 2/8 4/2 | ISO 646 | ANSI X3.4-1968 e ISO 646: 1983 (também IRV em ISO / IEC 646: 1991) | Estados Unidos ( ASCII , página de código 367 , 20127 ) |
YU | 141 | ESC 2/8 7/10 | ISO 646 | JUS I.B1.002 ( YUSCII ) | ex-Iugoslávia ( croata , esloveno , sérvio , bósnio ) |
INIS | 49 | ESC 2/8 5/7 | IAEA | INIS | Subconjunto ISO 646 IRV |
Derivados nacionais
Também existem alguns conjuntos de caracteres nacionais que são baseados na ISO 646, mas não seguem estritamente seu conjunto invariável (ver também § Derivados para outros alfabetos ):
Conjunto de caracteres | ISO-IR | ISO ESC | Aprovado | Padrão Nacional | Descrição |
---|---|---|---|---|---|
BS_viewdata | 47 | ESC 2/8 5/6 | Correio Britânico | Viewdata e teletexto . Viewdata square (⌗) substituído por sublinhado invariável (_) que não pode ser exibido no hardware de destino. Esta é, na verdade, a codificação do WST_Engl da Microsoft. | |
GR / greek7 | 88 | ESC 2/8 6/10 | ? | HOS ELOT 927 | Grécia (retirada em novembro de 1986). Usa letras gregas no lugar das romanas e, portanto, não é, estritamente falando, uma variante ISO 646. |
grego de 7 anos | 18 | ESC 2/8 5/11 | ECMA | ? | Conjunto gráfico grego. Semelhante em conceito ao grego7 , mas usa um mapeamento de letras diferente. Além disso, a caixa alta segue a caixa baixa. |
Grego-latino | 19 | ESC 2/8 5/12 | ECMA | ? | Gráficos combinados latino-grego (somente maiúsculas). Segue o grego com 7 anos de idade , mas inclui maiúsculas latinas sem modificação e maiúsculas gregas sobre as minúsculas latinas. |
Latim-Grego-1 | 27 | ESC 2/8 5/5 | ECMA | Honeywell-Bull | Gráficos mistos latino-gregos (somente maiúsculas em grego). Unifica visualmente as capitais gregas com as latinas sempre que possível e adiciona as restantes capitais gregas. Ao contrário das outras versões gregas, todas as letras do latim básico permanecem intactas. Substitui pontuação invariável, bem como caracteres nacionais, entretanto, e, portanto, ainda não é, estritamente falando, uma variante ISO 646. |
swi | - | ECMA | Olivetti |
Suíça ( francês , alemão ) ( página de código 1021 ) O ponto de código invariável 0x5F foi alterado de _ para è . É uma variante do DEC NRCS , intimamente relacionada ao ISO 646, mas não possui um equivalente totalmente compatível com o ISO 646.
|
Personagens de controle
Todas as variantes listadas acima são apenas conjuntos de caracteres gráficos e devem ser usados com um conjunto de caracteres de controle C0 , conforme listado na tabela a seguir:
ISO-IR | ISO ESC | Aprovado | Descrição |
---|---|---|---|
1 | ESC 2/1 4/0 | ISO 646 | Controles ISO 646 ("controles ASCII") |
7 | ESC 2/1 4/1 | ISO 646 | Controles do jornal escandinavo (NATS) |
26 | ESC 2/1 4/3 | ISO 646 | Controles IPTC |
Conjuntos de caracteres suplementares associados
A tabela a seguir lista conjuntos de caracteres gráficos suplementares definidos pelo mesmo padrão que variantes específicas da ISO 646. Estes seriam selecionados usando um mecanismo como shift out ou o super shift NATS (single shift), ou configurando o oitavo bit em ambientes onde um estivesse disponível:
ISO-IR | ISO ESC | Padrão Nacional | Descrição |
---|---|---|---|
8-2 | ESC 2/8 4/4 | NATS-SEFI-ADD | Código suplementar usado com NATS-SEFI. |
9-2 | ESC 2/8 4/6 | NATS-DANO-ADD | Código suplementar usado com NATS-DANO. |
13 | ESC 2/8 4/9 | JIS C 6220: 1969-jp | Katakana , usado como um código suplementar com ISO-646-JP. |
103 | ESC 2/8 7/6 | Recomendação ITU / CCITT T.61 , conjunto suplementar | Código suplementar usado com T.61. |
Gráfico de comparação de variantes
As especificações das alterações para algumas dessas variantes são fornecidas na tabela a seguir. As atribuições de caracteres inalteradas em todas as variantes listadas (ou seja, que permanecem as mesmas que ASCII) não são mostradas.
Para facilidade de comparação, as variantes detalhadas incluem as variantes nacionais da ISO 646, a série National Replacement Character Set (NRCS) da DEC usada em terminais VT200 , a série de codificação do European World System Teletext definida no ETS 300 706 e alguns outros intimamente relacionados codificações baseadas em ISO 646. Gráficos de códigos individuais são vinculados a partir da segunda coluna. As células com fundo não branco enfatizam as diferenças de US-ASCII (também o subconjunto Latim básico de ISO / IEC 10646 e Unicode).
Vários caracteres podem ser usados como combinação de caracteres , quando precedidos ou seguidos por um controle C0 de retrocesso . Isso é atestado nos gráficos de código para IRV, GB, FR1, CA e CA2, que observam que se comportariam como diérese , acento agudo , cedilha e circunflexo (em vez de aspas , uma vírgula e uma ponta de seta para cima ) quando precedido ou seguido por um retrocesso. O caractere til (~) foi introduzido de forma semelhante como um diacrítico (˜). Este método de codificação originou-se na era da máquina de escrever / teletipo , quando o uso de backspace superestimava um glifo e pode ser considerado obsoleto .
"',^
Mais tarde, quando conjuntos de caracteres mais amplos ganharam mais aceitação, o ISO 8859 , conjuntos de caracteres específicos do fornecedor e, eventualmente, Unicode se tornaram os métodos preferidos de codificação da maioria dessas variantes.
Código Variante | Gráfico de Código | Caracteres para cada conjunto de caracteres compatível ou derivado com ISO 646 / NRCS | |||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
US / IRV (1991) | ISO-IR-006 | ! | " | # | $ | E | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ~ |
Versões de referência internacionais mais antigas | |||||||||||||||||||
IRV (1973) | ISO-IR-002 | ! | " | # | ¤ | E | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ‾ |
IRV (1983) | CP01009 | ! | " | # | ¤ | E | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ~ |
Invariante e outros subconjuntos IRV | |||||||||||||||||||
INV | ISO-IR-170 | ! | " | E | : | ? | _ | ||||||||||||
INV ( NRCS ) | --- | ! | " | $ | E | : | ? | ||||||||||||
INV ( teletexto ) | ETS WST | ! | " | E | : | ? | |||||||||||||
Subconjunto INIS | ISO-IR-049 | $ | : | [ | ] | | | |||||||||||||
T.61 | ISO-IR-102 | ! | " | # | ¤ | E | : | ? | @ | [ | ] | _ | | | ||||||
leste Asiático | |||||||||||||||||||
JP | ISO-IR-014 | ! | " | # | $ | E | : | ? | @ | [ | ¥ | ] | ^ | _ | ` | { | | | } | ‾ |
JP-OCR-B | ISO-IR-092 | ! | " | # | $ | E | : | ? | @ | [ | ¥ | ] | ^ | _ | { | | | } | ||
KR | (KS X 1003) | ! | " | # | $ | E | : | ? | @ | [ | ₩ | ] | ^ | _ | ` | { | | | } | ‾ |
CN | ISO-IR-057 | ! | " | # | ¥ | E | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ‾ |
TW | (CNS 5205) | ! | " | # | $ | E | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ‾ |
Britânica e irlandesa | |||||||||||||||||||
GB | ISO-IR-004 | ! | " | £ | $ | E | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ‾ |
GB ( NRCS ) | CP01101 | ! | " | £ | $ | E | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ~ |
Ver dados | ISO-IR-047 | ! | " | £ | $ | E | : | ? | @ | ← | ½ | → | ↑ | ⌗ | - | ¼ | ‖ | ¾ | ÷ |
IE | ISO-IR-207 | ! | " | £ | $ | E | : | ? | Ó | ... | EU | VOCÊ | UMA | _ | ó | é | eu | você | uma |
Italófono ou Francófono | |||||||||||||||||||
ISTO | ISO-IR-015 | ! | " | £ | $ | E | : | ? | § | ° | ç | é | ^ | _ | você | uma | ò | è | eu |
TI ( teletexto ) | ETS WST | ! | " | £ | $ | E | : | ? | é | ° | ç | → | ↑ | ⌗ | você | uma | ò | è | eu |
FR (1983) | ISO-IR-069 | ! | " | £ | $ | E | : | ? | uma | ° | ç | § | ^ | _ | µ | é | você | è | ¨ |
FR (1973) | ISO-IR-025 | ! | " | £ | $ | E | : | ? | uma | ° | ç | § | ^ | _ | ` | é | você | è | ¨ |
FR Teletexto | ETS WST | ! | " | é | eu | E | : | ? | uma | ë | ê | você | eu | ⌗ | è | uma | ô | você | ç |
CA | ISO-IR-121 | ! | " | # | $ | E | : | ? | uma | uma | ç | ê | eu | _ | ô | é | você | è | você |
CA2 | ISO-IR-122 | ! | " | # | $ | E | : | ? | uma | uma | ç | ê | ... | _ | ô | é | você | è | você |
Francófono-germanófono | |||||||||||||||||||
swi ( NRCS ) | CP01021 | ! | " | você | $ | E | : | ? | uma | é | ç | ê | eu | è | ô | uma | ö | você | você |
Germanófona | |||||||||||||||||||
DE | ISO-IR-021 | ! | " | # | $ | E | : | ? | § | UMA | Ö | VOCÊ | ^ | _ | ` | uma | ö | você | WL |
Nórdico (oriental) e báltico | |||||||||||||||||||
FI / SE | ISO-IR-010 | ! | " | # | ¤ | E | : | ? | @ | UMA | Ö | UMA | ^ | _ | ` | uma | ö | uma | ‾ |
SE2 | ISO-IR-011 | ! | " | # | ¤ | E | : | ? | ... | UMA | Ö | UMA | VOCÊ | _ | é | uma | ö | uma | você |
SE ( NRCS ) | CP01106 | ! | " | # | $ | E | : | ? | ... | UMA | Ö | UMA | VOCÊ | _ | é | uma | ö | uma | você |
FI ( NRCS ) | CP01103 | ! | " | # | $ | E | : | ? | @ | UMA | Ö | UMA | VOCÊ | _ | é | uma | ö | uma | você |
SEFI (NATS) | ISO-IR-008-1 | ! | " | # | $ | E | : | ? |
|
UMA | Ö | UMA | ■ | _ |
|
uma | ö | uma | - |
EE ( teletexto ) | ETS WST | ! | " | # | õ | E | : | ? | Š | UMA | Ö | Ž | VOCÊ | Õ | š | uma | ö | ž | você |
LV / LT ( teletexto ) | ETS WST | ! | " | # | $ | E | : | ? | Š | ė | é | Ž | č | você | š | uma | você | ž | eu |
Nórdico (ocidental) | |||||||||||||||||||
DK | CP01017 | ! | " | # | ¤ | E | : | ? | @ | Æ | Ø | UMA | VOCÊ | _ | ` | æ | ø | uma | você |
NS / NR ( NRCS ) | CP01105 | ! | " | # | $ | E | : | ? | UMA | Æ | Ø | UMA | VOCÊ | _ | uma | æ | ø | uma | você |
DK / NO-alt ( NRCS ) | CP01107 | ! | " | # | $ | E | : | ? | @ | Æ | Ø | UMA | ^ | _ | ` | æ | ø | uma | ~ |
NÃO | ISO-IR-060 | ! | " | # | $ | E | : | ? | @ | Æ | Ø | UMA | ^ | _ | ` | æ | ø | uma | ‾ |
NO2 | ISO-IR-061 | ! | " | § | $ | E | : | ? | @ | Æ | Ø | UMA | ^ | _ | ` | æ | ø | uma | | |
DANO (NATS) | ISO-IR-009-1 | ! | « | » | $ | E | : | ? |
|
Æ | Ø | UMA | ■ | _ |
|
æ | ø | uma | - |
É | ! | " | # | ¤ | E | : | ? | Ð | º | \ | Æ | Ö | _ | ð | º | | | æ | ö | |
Hispanofone | |||||||||||||||||||
ES | ISO-IR-017 | ! | " | £ | $ | E | : | ? | § | ¡ | Ñ | ¿ | ^ | _ | ` | ° | ñ | ç | ~ |
ES2 | ISO-IR-085 | ! | " | # | $ | E | : | ? | · | ¡ | Ñ | Ç | ¿ | _ | ` | ´ | ñ | ç | ¨ |
CU | ISO-IR-151 | ! | " | # | ¤ | E | : | ? | @ | ¡ | Ñ | ] | ¿ | _ | ` | ´ | ñ | [ | ¨ |
Hispanofone-Lusófono | |||||||||||||||||||
ES / PT Teletexto | ETS WST | ! | " | ç | $ | E | : | ? | ¡ | uma | é | eu | ó | você | ¿ | você | ñ | è | uma |
Lusófono | |||||||||||||||||||
PT | ISO-IR-016 | ! | " | # | $ | E | : | ? | § | UMA | Ç | Õ | ^ | _ | ` | uma | ç | õ | ° |
PT2 | ISO-IR-084 | ! | " | # | $ | E | : | ? | ´ | UMA | Ç | Õ | ^ | _ | ` | uma | ç | õ | ~ |
PT ( NRCS ) | --- | ! | " | # | $ | E | : | ? | @ | UMA | Ç | Õ | ^ | _ | ` | uma | ç | õ | ~ |
grego | |||||||||||||||||||
Latino-GR misto | ISO-IR-027 | Ξ | " | Γ | ¤ | E | Ψ | Π | Δ | Ω | Θ | Φ | Λ | Σ | ` | { | | | } | ‾ |
ISO-IR-088 (GR / ELOT 927), ISO-IR-018 e ISO-IR-019 substituem as letras romanas por letras gregas e são detalhadas em um gráfico separado . | |||||||||||||||||||
Eslavo (escrita latina) | |||||||||||||||||||
YU | ISO-IR-141 | ! | " | # | $ | E | : | ? | Ž | Š | Đ | Ć | Č | _ | ž | š | đ | ć | č |
YU Teletext | ETS WST | ! | " | # | Ë | E | : | ? | Č | Ć | Ž | Đ | Š | ë | č | ć | ž | đ | š |
YU-alt Teletext | ETS WST | ! | " | # | $ | E | : | ? | Č | Ć | Ž | Đ | Š | ë | č | ć | ž | đ | š |
CS / CZ / SK ( teletexto ) | ETS WST | ! | " | # | você | E | : | ? | č | ť | ž | ý | eu | ř | é | uma | ě | você | š |
PL | BN-74 / 3101-01 | ! | " | # | zł | E | : | ? | é | ź | \ | ń | ś | _ | uma | ó | eu | ż | ć |
PL Teletexto | ETS WST | ! | " | # | ń | E | : | ? | uma | Ƶ | Ś | EU | ć | ó | é | ż | ś | eu | ź |
As adaptações para a escrita cirílica substituem as letras romanas e são detalhadas em um gráfico separado | |||||||||||||||||||
De outros | |||||||||||||||||||
NL | CP01019 | ! | " | # | $ | E | : | ? | @ | [ | \ | ] | ^ | _ | ` | { | | | } | ‾ |
NL NRCS | CP01102 | ! | " | £ | $ | E | : | ? | ¾ | ij | ½ | | | ^ | _ | ` | ¨ | ƒ | ¼ | ´ |
HU | ISO-IR-086 | ! | " | # | ¤ | E | : | ? | UMA | ... | Ö | VOCÊ | ^ | _ | uma | é | ö | você | ˝ |
MT | ! | " | # | $ | E | : | ? | @ | ġ | ż | ħ | ^ | _ | ċ | Ġ | Ż | Ħ | Ċ | |
RO ( teletexto ) | ETS WST | ! | " | # | ¤ | E | : | ? | Ţ | UMA | Ş | UMA | EU | eu | ţ | uma | ş | uma | eu |
TR ( teletexto ) | ETS WST | ! | " | TL | ğ | E | : | ? | EU | Ş | Ö | Ç | VOCÊ | Ğ | eu | ş | ö | ç | você |
Derivados para outros alfabetos
Alguns conjuntos de caracteres de 7 bits para alfabetos não latinos são derivados do padrão ISO 646: eles próprios não constituem ISO 646 devido a não seguir seus pontos de código invariáveis (frequentemente substituindo as letras de pelo menos um caso), devido ao suporte a diferenças alfabetos para os quais o conjunto de pontos de código nacionais fornece espaço de codificação insuficiente. Exemplos incluem:
- Turcomeno de 7 bits (ISO-IR-230).
- Grego de 7 bits.
- No ELOT 927 (ISO-IR-088), o alfabeto grego é mapeado em ordem alfabética (exceto para o sigma final) para as posições 0x61–0x71 e 0x73–0x79, no topo das letras latinas minúsculas.
- ISO-IR-018 mapeia o alfabeto grego em ambos os casos de letras usando um esquema diferente (não em ordem alfabética, mas tentando sempre que possível combinar letras gregas com letras romanas que correspondem em algum sentido), e ISO-IR-019 mapeia o grego alfabeto maiúsculo sobre as letras latinas minúsculas usando o mesmo esquema do ISO-IR-018.
- A metade inferior da codificação de caracteres da fonte Symbol usa seu próprio esquema para mapear letras gregas de ambos os casos sobre as letras romanas ASCII, também tentando mapear letras gregas sobre letras romanas que correspondem em algum sentido, mas tomando decisões diferentes a esse respeito (ver gráfico abaixo). Ele também substitui os pontos de código invariantes 0x22 e 0x27 e cinco pontos de código nacionais por símbolos matemáticos. Embora não tenha o propósito de ser usado na composição de prosa grega, às vezes é usado para esse fim.
- ISO-IR-027 (detalhado no gráfico acima em vez de abaixo) inclui o alfabeto latino inalterado, mas adiciona algumas letras maiúsculas gregas que não podem ser representadas com homoglifos de escrita latina ; embora seja explicitamente baseado no ISO 646, alguns deles são mapeados para pontos de código que são invariáveis no ISO 646 (0x21, 0x3A e 0x3F) e, portanto, não é uma verdadeira variante do ISO 646.
- A codificação do World System Teletext para grego usa ainda outro esquema de mapeamento de letras gregas em ordem alfabética sobre as letras ASCII de ambos os casos, notavelmente incluindo várias letras com diacríticos.
- Cirílico de 7 bits
- KOI-7 ou Short KOI, usado para russo . Os caracteres cirílicos são mapeados para as posições 0x60–0x7E, no topo das letras latinas minúsculas, combinando letras homólogas sempre que possível (onde в é mapeado para w, não v). Substituído pelas variantes KOI-8 .
- SRPSCII e MAKSCII , variantes cirílicas de YUSCII (a variante latina é YU / ISO-IR-141 no gráfico acima), usadas para sérvio e macedônio, respectivamente. Em grande parte homóloga à variante latina da YUSCII (seguindo sérvios digraphia regras ), exceto para Љ (lj), Њ (nj), Џ (DZ) e ѕ (dz), que correspondem a dígrafos em ortografia Latina-script , e são mapeados sobre letras que não são usadas em sérvio ou macedônio (q, w, x, y).
- Os conjuntos G0 para as codificações de teletexto do sistema mundial para russo / búlgaro e ucraniano usam conjuntos G0 semelhantes a KOI-7 com algumas modificações. O conjunto G0 correspondente para o cirílico sérvio usa um esquema baseado na codificação do teletexto para a escrita latina servo-croata e eslovena , em oposição ao YUSCII significativamente diferente.
- Hebraico de 7 bits, SI 960 . O alfabeto hebraico é mapeado para as posições 0x60–0x7A, no topo das letras latinas minúsculas (e acento grave para aleph). O hebraico de 7 bits sempre foi armazenado em ordem visual. Este mapeamento com o bit alto definido, ou seja, com as letras hebraicas em 0xE0–0xFA, é ISO 8859-8 . A codificação World System Teletext para hebraico usa os mesmos mapeamentos de letras, mas usa BS_Viewdata como sua codificação base (enquanto SI 960 usa US-ASCII) e inclui um símbolo de shekel em 0x7B.
- Árabe de 7 bits, ASMO 449 (ISO-IR-089). O alfabeto árabe é mapeado para as posições 0x41–0x5A e 0x60–0x6A, no topo das letras latinas maiúsculas e minúsculas.
Uma comparação de algumas dessas codificações está abaixo. Apenas um caso é mostrado, exceto nos casos em que os casos são mapeados para letras diferentes. Nesses casos, o mapeamento com o menor código é mostrado primeiro. Transcrições possíveis são fornecidas para algumas cartas; onde for omitido, a letra pode ser considerada como correspondendo à letra romana sobre a qual está mapeada.
Inglês ( ASCII ) |
Alfabetos cirílicos | alfabeto grego | hebraico | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Semi-transliterativo | Naturalmente ordenado | ||||||||||
Russo ( KOI-7 ) |
Russo, búlgaro ( WST RU / BG ) |
Ucraniano ( WST UKR ) |
Sérvio ( SRPSCII ) |
Macedônio ( MAKSCII ) |
Sérvio, macedônio ( WST SRP ) |
Grego ( símbolo ) |
Grego (IR-18) |
Grego ( ELOT 927 ) |
Grego ( WST EL ) |
Hebraico ( SI 960 ) |
|
@ ` |
Ю (ju / yu) | Ю (ju / yu) | Ю (ju / yu) | Ж (ž) | Ж (ž) | Ч (č) | ≅ ‾ |
´ ` |
@ ` |
ΐ ΰ |
א (ʾ / ʔ) |
UMA | А | А (a / á) | А | А | А | А | Α | Α | Α | Α | ב (b) |
B | Б | Б | Б | Б | Б | Б | Β | Β | Β | Β | ג (g) |
C | Ц (c / ts) | Ц (c / ts) | Ц (c / ts) | Ц (c / ts) | Ц (c / ts) | Ц (c / ts) | Χ (ch / kh) | Ψ (ps) | Γ (g) | Γ (g) | ד (d) |
D | Д | Д | Д | Д | Д | Д | Δ | Δ | Δ | Δ | ה (h) |
E | Е (je / ye) | Е (je / ye) | Е (e) | Е (e) | Е (e) | Е (e) | Ε | Ε | Ε | Ε | ו (w) |
F | Ф | Ф | Ф | Ф | Ф | Ф | Φ (ph / f) | Φ (ph / f) | Ζ (z) | Ζ (z) | ז (z) |
G | Г | Г | Г | Г | Г | Γ | Γ | Γ | Η (ē) | Η (ē) | ח (ch / kh) |
H | Х (h / kh / ch) | Х (h / kh / ch) | Х (h / kh / ch) | Х (h / kh / ch) | Х (h / kh / ch) | Х (h / kh / ch) | Η (ē) | Η (ē) | Θ (th) | Θ (th) | ט (tt) |
eu | И | И | И (y) | И | И | И | Ι | Ι | Ι | Ι | י (j / y) |
J | Й (j / y) | Й (j / y) | Й (j / y) | Ј (j / y) | Ј (j / y) | Ј (j / y) | ϑ (th) ϕ (ph / f) |
Ξ (x / ks) | Κ (k) | ך (k final) | |
K | К | К | К | К | К | К | Κ | Κ | Κ | Λ (l) | כ |
eu | Л | Л | Л | Л | Л | Л | Λ | Λ | Λ | Μ (m) | ל |
M | М | М | М | М | М | М | Μ | Μ | Μ | Ν (n) | ם (m final) |
N | Н | Н | Н | Н | Н | Н | Ν | Ν | Ν | Ξ (x / ks) | מ (m) |
O | О | О | О | О | О | О | Ο | Ο | Ξ (x / ks) | Ο | ן (n final) |
P | П | П | П | П | П | П | Π | Π | Ο (o) | Π | נ (n) |
Q | Я (ja / ya) | Я (ja / ya) | Я (ja / ya) | Љ (lj / ly) | Љ (lj / ly) | Ќ (Ḱ / kj) | Θ (th) | ͺ ( |
Π (p) | Ρ (r) | ס (s) |
R | Р | Р | Р | Р | Р | Р | Ρ | Ρ | Ρ | ʹ ς (s final) |
ע (ʽ / ŋ) |
S | С | С | С | С | С | С | Σ | Σ | Σ | Σ | ף (p final) |
T | Т | Т | Т | Т | Т | Т | Τ | Τ | Τ | Τ | פ (p) |
você | У | У | У | У | У | У | Υ | Θ (th) | Υ | Υ | ץ (ṣ / ts final) |
V | Ж (ž) | Ж (ž) | Ж (ž) | В | В | В | ς (s final) ϖ (p) |
Ω (ō) | Φ (f / ph) | Φ (f / ph) | צ (ṣ / ts) |
C | Â (v) | Â (v) | Â (v) | Њ (nj / ny / ñ) | Њ (nj / ny / ñ) | Ѓ (ǵ / gj) | Ω (ō) | ς (s final) | ς (s final) | Χ (ch / kh) | ק (q) |
X | Ь (') | Ь (') | Ь (') | Џ (dž) | Џ (dž) | Љ (lj / ly) | Ξ | Χ (ch / kh) | Χ (ch / kh) | Ψ (ps) | ר (r) |
Y | Ы (y / ı) | Ъ (″ / ǎ / ŭ) | І (i) | Ѕ (dz) | Ѕ (dz) | Њ (nj / ny / ñ) | Ψ (ps) | Υ (u) | Ψ (ps) | Ω (ō) | ש (š / sh) |
Z | З | З | З | З | З | З | Ζ | Ζ | Ω (ō) | Ϊ | ת (t) |
[ { |
Ш (š / sh) | Ш (š / sh) | Ш (š / sh) | Ш (š / sh) | Ш (š / sh) | Ћ (ć) | [ { |
᾿̃ ῾̃ |
[ { |
Ϋ | [ { |
\ | |
Э (e) | Э (e) | Є (je / ye) | Ђ (đ / dj) | Ѓ (ǵ / gj) | Ж (ž) | ∴ | |
(H) |
\ | |
ά ό |
\ | |
] } |
Щ (šč) | Щ (šč) | Щ (šč) | Ћ (ć) | Ќ (Ḱ / kj) | Ђ (đ / dj) | ] } |
᾿ ' ῾' |
] } |
έ ύ |
] } |
^ ~ |
Ч (č) | Ч (č) | Ч (č) | Ч (č) | Ч (č) | Ш (š / sh) | ⊥ ~ |
˜ ¨ |
^ ‾ |
ή ώ |
^ ‾ |
_ | Ъ (″) | Ы (y / ı) | Ї (ji / yi) | _ | _ | Џ (dž) | _ | _ | _ | ί | _ |
Veja também
- ISO / IEC 2022 Tecnologia da informação: Estrutura do código de caracteres e técnicas de extensão
- ISO / IEC 6937 (ANSI)
- ISO / IEC JTC 1 / SC 2
Notas de rodapé
Referências
Leitura adicional
- Fischer, Eric, ed. (1975) [1972]. Documentos fonte sobre a história dos códigos de caracteres, 1972–1975 (Compilação) . Obtido em 2020-06-07 Documentos fonte sobre a história dos códigos de caracteres, 1972-1975: Compilado por Eric Fischer: Download grátis, emprestado e streaming: Internet Archive (79 páginas) incluindo: Bemer, Robert William (1972). "uma visão da história do conjunto de caracteres ISO". Honeywell Computer Journal . Phoenix, Arizona, EUA: Honeywell Information Systems. 6 (4): 274–286, 287–291. (13 + 5 páginas) e muitos outros documentos e correspondência.
links externos
- Zeichensatz nach ISO 646 (ASCII) (em alemão)
- História no site GNU Aspell
- Tabelas de caracteres ISO646 Tabelas de caracteres por Koichi Yasuoka (安岡 孝) (consulte as tabelas de caracteres nacionais ISO646 e as tabelas de caracteres quase ISO646 )
- Texto turco Deasciifier uma ferramenta (com base na análise estatística de pentagrama do idioma turco) que reverte um texto turco ASCII'fied determinando os diacríticos apropriados (mas ambíguos) normalmente necessários em turco, mas ausentes no conjunto US-ASCII.