ISO / IEC 8859 - ISO/IEC 8859
Padrão | ISO / IEC 8859 |
---|---|
Classificação | ASCII estendido de 8 bits , ISO 4873 nível 1 |
Estende | US-ASCII |
Precedido por | ISO 646 |
Sucedido por | ISO / IEC 10646 ( Unicode ) |
Outras codificações relacionadas | ISO / IEC 10367 , Windows-125x |
ISO / IEC 8859 é uma série de padrões ISO e IEC para codificação de caracteres de 8 bits . A série de padrões consiste em partes numeradas, como ISO / IEC 8859-1 , ISO / IEC 8859-2 , etc. Existem 15 partes, excluindo a ISO / IEC 8859-12 abandonada . O grupo de trabalho ISO que mantém esta série de padrões foi dissolvido.
ISO / IEC 8859 partes 1, 2, 3 e 4 eram originalmente o padrão Ecma International ECMA-94 .
Introdução
Embora os padrões de bits dos 95 caracteres ASCII imprimíveis sejam suficientes para a troca de informações no inglês moderno , a maioria dos outros idiomas que usam alfabetos latinos precisam de símbolos adicionais não cobertos pelo ASCII. ISO / IEC 8859 procurou remediar este problema utilizando o oitavo bit em um byte de 8 bits para permitir posições para outros 96 caracteres imprimíveis. As primeiras codificações eram limitadas a 7 bits devido a restrições de alguns protocolos de transmissão de dados e parcialmente por razões históricas. No entanto, eram necessários mais caracteres do que cabiam em uma única codificação de caracteres de 8 bits, portanto, vários mapeamentos foram desenvolvidos, incluindo pelo menos dez adequados para vários alfabetos latinos.
As partes do padrão ISO / IEC 8859 definem apenas caracteres imprimíveis, embora separem explicitamente os intervalos de bytes 0x00–1F e 0x7F – 9F como "combinações que não representam caracteres gráficos" (ou seja, que são reservadas para uso como caracteres de controle ) de acordo com ISO / IEC 4873 ; eles foram projetados para serem usados em conjunto com um padrão separado que define as funções de controle associadas a esses bytes, como ISO 6429 ou ISO 6630 . Para este fim, uma série de codificações registradas com a IANA adicionam o conjunto de controle C0 (caracteres de controle mapeados para bytes 0 a 31) de ISO 646 e o conjunto de controle C1 (caracteres de controle mapeados para bytes 128 a 159) de ISO 6429, resultando em mapas completos de caracteres de 8 bits com a maioria, senão todos, os bytes atribuídos. Esses conjuntos têm ISO-8859- n como seu nome MIME preferido ou, nos casos em que um nome MIME preferido não é especificado, seu nome canônico. Muitas pessoas usam os termos ISO / IEC 8859- ne ISO-8859- n de forma intercambiável. ISO / IEC 8859-11 não obteve esse conjunto de caracteres atribuído, provavelmente porque era quase idêntico ao TIS 620 .
Personagens
O padrão ISO / IEC 8859 é projetado para troca confiável de informações, não tipografia ; o padrão omite os símbolos necessários para tipografia de alta qualidade, como ligaduras opcionais, aspas curvas, travessões, etc. Como resultado, os sistemas de composição de alta qualidade costumam usar extensões proprietárias ou idiossincráticas além dos padrões ASCII e ISO / IEC 8859 ou use Unicode em seu lugar.
Uma regra inexata com base na experiência prática afirma que se um caractere ou símbolo ainda não fazia parte de um conjunto de caracteres de processamento de dados amplamente usado e também não era normalmente fornecido em teclados de máquina de escrever para um idioma nacional, ele não entrou. Daí o direcional as aspas duplas « e » usadas para alguns idiomas europeus foram incluídas, mas não as aspas duplas direcionais “ e ” usadas para o inglês e alguns outros idiomas.
O francês não recebeu suas ligaduras œ e Œ porque elas podiam ser digitadas como 'oe'. Da mesma forma, Ÿ , necessário para texto em maiúsculas, também foi descartado. Embora sob diferentes pontos de código, esses três caracteres foram posteriormente reintroduzidos com a ISO / IEC 8859-15 em 1999, que também introduziu o novo caractere do sinal euro €. Da mesma forma, o holandês não recebeu as letras ij e IJ , porque os falantes de holandês se acostumaram a digitá-las como duas letras.
Romeno inicialmente não ter o seu Ş / ş e Ţ / ţ ( com vírgula ) cartas, porque estas letras foram inicialmente unificada com Ş / ş e Ţ / ţ ( com cedilha ) pelo Consórcio Unicode , considerando as formas com vírgula por baixo para ser variantes glifo das formas com cedilha. No entanto, as letras com vírgula explícita abaixo foram adicionadas posteriormente ao padrão Unicode e também estão na ISO / IEC 8859-16 .
A maioria das codificações ISO / IEC 8859 fornece marcas diacríticas necessárias para vários idiomas europeus usando a escrita latina. Outros fornecem alfabetos não latinos: grego , cirílico , hebraico , árabe e tailandês . A maioria das codificações contém apenas caracteres de espaçamento , embora as codificações em tailandês, hebraico e árabe também contenham caracteres de combinação .
O padrão não faz provisão para scripts de idiomas do Leste Asiático ( CJK ), pois seus sistemas de escrita ideográfica requerem muitos milhares de pontos de código. Embora use caracteres latinos, o vietnamita também não se encaixa em 96 posições (sem usar diacríticos combinados, como no Windows-1258 ). Cada alfabeto silábico japonês (hiragana ou katakana, veja Kana ) caberia, como em JIS X 0201 , mas como vários outros alfabetos do mundo, eles não são codificados no sistema ISO / IEC 8859.
As partes da ISO / IEC 8859
ISO / IEC 8859 é dividido nas seguintes partes:
Papel | Nome | Revisões | Outros padrões | Descrição |
---|---|---|---|---|
Parte 1 |
Latim-1 da Europa Ocidental |
1987 , 1998 | ECMA-94 ( 1985 , 1986) | Talvez a parte mais amplamente usada da ISO / IEC 8859, cobrindo a maioria dos idiomas da Europa Ocidental: dinamarquês (parcial), holandês (parcial), inglês , faeroese , finlandês (parcial), francês (parcial), alemão , islandês , irlandês , italiano , Norueguês , Português , Reto-Românico , Gaélico Escocês , Espanhol , Catalão e Sueco . Línguas de outras partes do mundo também são abordadas, incluindo: albanês da Europa Oriental , indonésio do sudeste asiático , bem como as línguas africanas Afrikaans e Swahili .
Uma modificação do DEC MCS ; a primeira (1985) versão padrão no nível ECMA não tinha o sinal do tempo e o obelus de divisão , que foram adicionados no ano seguinte. O sinal do euro e a letra maiúscula Ÿ ausentes estão na versão revisada ISO / IEC 8859-15 (veja abaixo). O conjunto de caracteres IANA correspondente é ISO-8859-1. |
Parte 2 |
Latim-2 centro-europeu |
1987 , 1999 | ECMA-94 (1986) | Suporta as línguas Europa Central e Oriental que usam o alfabeto latino, incluindo bósnio , polaco , croata , checo , eslovaco , esloveno , sérvio , e húngaro . O sinal do euro ausente pode ser encontrado na versão ISO / IEC 8859-16. |
Parte 3 |
Latim-3 Sul Europeu |
1988 , 1999 | Turco , maltês e esperanto . Em grande parte substituído por ISO / IEC 8859-9 para turco. | |
Parte 4 |
Latim-4 Norte Europeu |
1988 , 1998 | Estoniano , Letão , Lituano , Groenlandês e Sami . | |
Parte 5 | Latino / cirílico | 1988 , 1999 | ECMA-113 (1988, 1999) | Abrange principalmente línguas eslavas que usam um alfabeto cirílico , incluindo bielo-russo , búlgaro , macedônio , russo , sérvio e ucraniano (parcial). |
Parte 6 | Latim / árabe | 1987 , 1999 | ASMO 708 (1986) / ECMA-114 (1986, 2000) | Abrange os caracteres mais comuns do idioma árabe . Não oferece suporte a outros idiomas usando a escrita árabe . Precisa ser BiDi e junção cursiva processada para exibição. |
Parte 7 | Latim / grego | 1987 , 2003 | ELOT 928 (1986) / ECMA-118 (1986) | Cobre a língua grega moderna ( ortografia monotônica ). Também pode ser usado para grego antigo escrito sem acentos ou em ortografia monotônica, mas não possui os diacríticos para ortografia politônica . Eles foram introduzidos com o Unicode. Atualizado em 2003 para adicionar o sinal do euro , o sinal do dracma e o espaçamento ypogegrammeni . |
Parte 8 | Latim / hebraico | 1988 , 1999 | ECMA-121 (1987, 2000) / SI 1311 ( 2002 ) | Abrange o alfabeto hebraico moderno usado em Israel. Na prática, existem duas codificações diferentes, a ordem lógica (precisa ser processada por BiDi para exibição) e a ordem visual (da esquerda para a direita) (na verdade, após o processamento bidi e a quebra de linha). Atualizado em 1999 para adicionar LRM e RLM . Atualizado a nível de padrão nacional em 2002 para adicionar sinais de euro e shekel e mais efetores de formato bidirecionais; as adições de 2002 nunca foram incorporadas de volta à versão padrão ISO. |
Parte 9 |
Latin-5 turco |
1989 , 1999 | ECMA-128 (1988, 1999) | Praticamente igual ao ISO / IEC 8859-1, substituindo as letras islandesas raramente usadas por letras turcas . |
Parte 10 |
Nórdico latino-6 |
1992 , 1998 | ECMA-144 (1990, 1992, 2000) | Um rearranjo de Latin-4. Considerado mais útil para idiomas nórdicos. As línguas bálticas usam mais o Latim-4. |
Parte 11 | Latim / tailandês | 2001 | TIS-620 (1986, 1990) | Contém os caracteres necessários para o idioma tailandês . Primeira revisão estabelecida em 1986 em nível de padrão nacional como TIS 620 . Elevado ao status de padrão ISO como parte do ISO 8859 em 2001, com a adição de um espaço ininterrupto . |
|
Latim / devanágari | N / D | - | O trabalho de fazer uma parte do 8859 para Devanagari foi oficialmente abandonado em 1997. ISCII e Unicode / ISO / IEC 10646 cobrem Devanagari. |
Parte 13 |
Latin-7 Baltic Rim |
1998 | - | Adicionados alguns caracteres para as línguas bálticas que estavam faltando em Latin-4 e Latin-6. Relacionado ao Windows-1257 publicado anteriormente . |
Parte 14 |
Céltico latino-8 |
1998 | - | Abrange idiomas celtas como o gaélico e o idioma bretão . As letras galesas correspondem ao ISO-IR-182 anterior (1994) . |
Parte 15 | Latin-9 | 1999 | - | Uma revisão de 8859-1 que remove alguns símbolos pouco usados, substituindo-os pelo sinal do euro € e pelas letras Š , š , Ž , ž , Œ , œ e Ÿ , que completa a cobertura do francês , finlandês e estoniano . |
Parte 16 |
Latino-10 do Sudeste Europeu |
2001 | SR 14111 (1998) | Destinado a albanês , croata , húngaro , italiano , polonês , romeno e esloveno , mas também finlandês, francês, alemão e gaélico irlandês (nova ortografia). O foco está mais nas letras do que nos símbolos. O símbolo da moeda é substituído pelo símbolo do euro . |
Cada parte da ISO / IEC 8859 é projetada para oferecer suporte a idiomas que muitas vezes são emprestados uns dos outros, de modo que os caracteres necessários para cada idioma geralmente são acomodados por uma única parte. No entanto, existem alguns caracteres e combinações de idiomas que não são acomodados sem transcrições. Esforços foram feitos para tornar as conversões tão suaves quanto possível. Por exemplo, o alemão tem todos os seus sete caracteres especiais nas mesmas posições em todas as variantes latinas (1–4, 9, 10, 13–16), e em muitas posições os caracteres diferem apenas nos diacríticos entre os conjuntos. Em particular, as variantes 1–4 foram projetadas em conjunto e têm a propriedade de que cada caractere codificado apareça em uma determinada posição ou não apareça.
Mesa
Binário | Out | Dez | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | A0 | Espaço ininterrupto (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | A1 | ¡ | UMA | Ħ | UMA | Ё | ' | ¡ | UMA | ก | ” | Ḃ | ¡ | UMA | |||
1010 0010 | 242 | 162 | A2 | ¢ | ˘ | ĸ | Ђ | ' | ¢ | ¢ | Ē | ข | ¢ | ḃ | ¢ | uma | |||
1010 0011 | 243 | 163 | A3 | £ | EU | £ | Ŗ | Ѓ | £ | Ģ | ฃ | £ | EU | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Є | ¤ | € | ¤ | EU | ค | ¤ | Ċ | € | ||||||
1010 0101 | 245 | 165 | A5 | ¥ | EU | EU | Ѕ | ₯ | ¥ | EU | ฅ | „ | ċ | ¥ | „ | ||||
1010 0110 | 246 | 166 | A6 | ¦ | Ś | Ĥ | EU | І | ¦ | Ķ | ฆ | ¦ | Ḋ | Š | |||||
1010 0111 | 247 | 167 | A7 | § | Ї | § | ง | § | |||||||||||
1010 1000 | 250 | 168 | A8 | ¨ | Ј | ¨ | EU | จ | Ø | C | š | ||||||||
1010 1001 | 251 | 169 | A9 | © | Š | EU | Š | Љ | © | Đ | ฉ | © | |||||||
1010 1010 | 252 | 170 | AA | ª | Ş | Ē | Њ | ͺ | × | ª | Š | ช | Ŗ | C | ª | Ș | |||
1010 1011 | 253 | 171 | AB | « | Ť | Ğ | Ģ | Ћ | « | Ŧ | ซ | « | ḋ | « | |||||
1010 1100 | 254 | 172 | AC | ¬ | Ź | Ĵ | Ŧ | Ќ | ، | ¬ | Ž | ฌ | ¬ | Ỳ | ¬ | Ź | |||
1010 1101 | 255 | 173 | DE ANÚNCIOS | Hífen suave (SHY) | ญ | TÍMIDO | |||||||||||||
1010 1110 | 256 | 174 | AE | ® | Ž | Ž | Ў | ® | VOCÊ | ฎ | ® | ź | |||||||
1010 1111 | 257 | 175 | AF | ¯ | Ż | ¯ | Џ | - | ¯ | Ŋ | ฏ | Æ | Ÿ | ¯ | Ż | ||||
1011 0000 | 260 | 176 | B0 | ° | А | ° | ฐ | ° | Ḟ | ° | |||||||||
1011 0001 | 261 | 177 | B1 | ± | uma | ħ | uma | Б | ± | uma | ฑ | ± | ḟ | ± | |||||
1011 0010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | ē | ฒ | ² | Ġ | ² | Č | ||||
1011 0011 | 263 | 179 | B3 | ³ | eu | ³ | ŗ | Г | ³ | ģ | ณ | ³ | ġ | ³ | eu | ||||
1011 0100 | 264 | 180 | B4 | ´ | Д | ΄ | ´ | eu | ด | “ | Ṁ | Ž | |||||||
1011 0101 | 265 | 181 | B5 | µ | eu | µ | eu | Е | ΅ | µ | eu | ต | µ | ṁ | µ | ” | |||
1011 0110 | 266 | 182 | B6 | ¶ | ś | ĥ | eu | Ж | Ά | ¶ | ķ | ถ | ¶ | ||||||
1011 0111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | ท | · | Ṗ | · | ||||||
1011 1000 | 270 | 184 | B8 | ¸ | И | Έ | ¸ | eu | ธ | ø | C | ž | |||||||
1011 1001 | 271 | 185 | B9 | ¹ | š | eu | š | Й | Ή | ¹ | đ | น | ¹ | ṗ | ¹ | č | |||
1011 1010 | 272 | 186 | BA | º | ş | ē | К | Ί | ÷ | º | š | บ | ŗ | C | º | ș | |||
1011 1011 | 273 | 187 | BB | » | ť | ğ | ģ | Л | ؛ | » | ŧ | ป | » | Ṡ | » | ||||
1011 1100 | 274 | 188 | AC | ¼ | ź | ĵ | ŧ | М | Ό | ¼ | ž | ผ | ¼ | ỳ | Œ | ||||
1011 1101 | 275 | 189 | BD | ½ | ˝ | ½ | Ŋ | Н | ½ | - | ฝ | ½ | C | œ | |||||
1011 1110 | 276 | 190 | SER | ¾ | ž | ž | О | Ύ | ¾ | você | พ | ¾ | C | Ÿ | |||||
1011 1111 | 277 | 191 | BF | ¿ | ż | ŋ | П | ؟ | Ώ | ¿ | ŋ | ฟ | æ | ṡ | ¿ | ż | |||
1100 0000 | 300 | 192 | C0 | UMA | Ŕ | UMA | UMA | Р | ΐ | UMA | UMA | ภ | UMA | UMA | |||||
1100 0001 | 301 | 193 | C1 | UMA | С | ء | Α | UMA | ม | EU | UMA | ||||||||
1100 0010 | 302 | 194 | C2 | UMA | Т | آ | Β | UMA | ย | UMA | UMA | ||||||||
1100 0011 | 303 | 195 | C3 | UMA | UMA | UMA | У | أ | Γ | UMA | ร | Ć | UMA | UMA | |||||
1100 0100 | 304 | 196 | C4 | UMA | Ф | ؤ | Δ | UMA | ฤ | UMA | |||||||||
1100 0101 | 305 | 197 | C5 | UMA | EU | Ċ | UMA | Х | إ | Ε | UMA | ล | UMA | Ć | |||||
1100 0110 | 306 | 198 | C6 | Æ | Ć | Ĉ | Æ | Ц | ئ | Ζ | Æ | ฦ | Ę | Æ | |||||
1100 0111 | 307 | 199 | C7 | Ç | EU | Ч | ا | Η | Ç | EU | ว | Ē | Ç | ||||||
1100 1000 | 310 | 200 | C8 | È | Č | È | Č | Ш | ب | Θ | È | Č | ศ | Č | È | ||||
1100 1001 | 311 | 201 | C9 | ... | Щ | ة | Ι | ... | ษ | ... | |||||||||
1100 1010 | 312 | 202 | CA | Ê | Ę | Ê | Ę | Ъ | ت | Κ | Ê | Ę | ส | Ź | Ê | ||||
1100 1011 | 313 | 203 | CB | Ë | Ы | ث | Λ | Ë | ห | Ė | Ë | ||||||||
1100 1100 | 314 | 204 | CC | EU | Ě | EU | Ė | Ь | ج | Μ | EU | Ė | ฬ | Ģ | EU | ||||
1100 1101 | 315 | 205 | CD | EU | Э | ح | Ν | EU | อ | Ķ | EU | ||||||||
1100 1110 | 316 | 206 | CE | EU | Ю | خ | Ξ | EU | ฮ | EU | EU | ||||||||
1100 1111 | 317 | 207 | CF | EU | Ď | EU | EU | Я | د | Ο | EU | ฯ | EU | EU | |||||
Binário | Out | Dez | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
1101 0000 | 320 | 208 | D0 | Ð | Đ | Đ | à | ذ | Π | Ğ | Ð | ะ | Š | C | Ð | ||||
1101 0001 | 321 | 209 | D1 | Ñ | Ń | Ñ | Ņ | б | ر | Ρ | Ñ | Ņ | ั | Ń | Ñ | Ń | |||
1101 0010 | 322 | 210 | D2 | Ò | Ň | Ò | Ō | â | ز | Ò | Ō | า | Ņ | Ò | |||||
1101 0011 | 323 | 211 | D3 | Ó | Ķ | г | س | Σ | Ó | ำ | Ó | ||||||||
1101 0100 | 324 | 212 | D4 | Ô | д | Ô | Τ | Ô | ิ | Ō | Ô | ||||||||
1101 0101 | 325 | 213 | D5 | Õ | Ő | Ġ | Õ | е | ص | Υ | Õ | ี | Ő | ||||||
1101 0110 | 326 | 214 | D6 | Ö | ж | ض | Φ | Ö | ึ | Ö | |||||||||
1101 0111 | 327 | 215 | D7 | × | з | ط | Χ | × | VOCÊ | ื | × | Ṫ | × | Ś | |||||
1101 1000 | 330 | 216 | D8 | Ø | Ř | Ĝ | Ø | и | ظ | Ψ | Ø | ุ | VOCÊ | Ø | VOCÊ | ||||
1101 1001 | 331 | 217 | D9 | VOCÊ | VOCÊ | VOCÊ | VOCÊ | é | ع | Ω | VOCÊ | VOCÊ | ู | EU | VOCÊ | ||||
1101 1010 | 332 | 218 | DA | VOCÊ | к | غ | Ϊ | VOCÊ | ฺ | Ś | VOCÊ | ||||||||
1101 1011 | 333 | 219 | DB | VOCÊ | VOCÊ | VOCÊ | л | Ϋ | VOCÊ | VOCÊ | VOCÊ | ||||||||
1101 1100 | 334 | 220 | DC | VOCÊ | м | ά | VOCÊ | VOCÊ | |||||||||||
1101 1101 | 335 | 221 | DD | Ý | VOCÊ | VOCÊ | í | έ | EU | Ý | Ż | Ý | Ę | ||||||
1101 1110 | 336 | 222 | DE | º | Ţ | Ŝ | VOCÊ | о | ή | Ş | º | Ž | Ŷ | º | Ț | ||||
1101 1111 | 337 | 223 | DF | WL | п | ί | ‗ | WL | ฿ | WL | |||||||||
1110 0000 | 340 | 224 | E0 | uma | ŕ | uma | uma | р | ـ | ΰ | א | uma | uma | เ | uma | uma | |||
1110 0001 | 341 | 225 | E1 | uma | с | ف | α | ב | uma | แ | eu | uma | |||||||
1110 0010 | 342 | 226 | E2 | uma | т | ق | β | ג | uma | โ | uma | uma | |||||||
1110 0011 | 343 | 227 | E3 | uma | uma | uma | você | ك | γ | ד | uma | ใ | ć | uma | uma | ||||
1110 0100 | 344 | 228 | E4 | uma | ф | ل | δ | ה | uma | ไ | uma | ||||||||
1110 0101 | 345 | 229 | E5 | uma | eu | ċ | uma | х | م | ε | ו | uma | ๅ | uma | ć | ||||
1110 0110 | 346 | 230 | E6 | æ | ć | ĉ | æ | ц | ن | ζ | ז | æ | ๆ | é | æ | ||||
1110 0111 | 347 | 231 | E7 | ç | eu | ч | ه | η | ח | ç | eu | ็ | ē | ç | |||||
1110 1000 | 350 | 232 | E8 | è | č | è | č | ш | و | θ | ט | è | č | ่ | č | è | |||
1110 1001 | 351 | 233 | E9 | é | щ | ى | ι | י | é | ้ | é | ||||||||
1110 1010 | 352 | 234 | EA | ê | é | ê | é | ъ | ي | κ | ך | ê | é | ๊ | ź | ê | |||
1110 1011 | 353 | 235 | EB | ë | ы | ً | λ | כ | ë | ๋ | ė | ë | |||||||
1110 1100 | 354 | 236 | CE | eu | ě | eu | ė | ь | ٌ | µ | ל | eu | ė | ์ | ģ | eu | |||
1110 1101 | 355 | 237 | ED | eu | э | ٍ | ν | ם | eu | ํ | ķ | eu | |||||||
1110 1110 | 356 | 238 | EE | eu | ю | َ | ξ | מ | eu | ๎ | eu | eu | |||||||
1110 1111 | 357 | 239 | EF | eu | ď | eu | eu | я | ُ | ο | ן | eu | ๏ | eu | eu | ||||
1111 0000 | 360 | 240 | F0 | ð | đ | đ | № | ِ | π | נ | ğ | ð | ๐ | š | C | ð | đ | ||
1111 0001 | 361 | 241 | F1 | ñ | ń | ñ | ņ | ё | ّ | ρ | ס | ñ | ņ | ๑ | ń | ñ | ń | ||
1111 0010 | 362 | 242 | F2 | ò | ň | ò | ō | ђ | ْ | ς | ע | ò | ō | ๒ | ņ | ò | |||
1111 0011 | 363 | 243 | F3 | ó | ķ | ѓ | σ | ף | ó | ๓ | ó | ||||||||
1111 0100 | 364 | 244 | F4 | ô | є | τ | פ | ô | ๔ | ō | ô | ||||||||
1111 0101 | 365 | 245 | F5 | õ | ő | ġ | õ | ѕ | υ | ץ | õ | ๕ | ő | ||||||
1111 0110 | 366 | 246 | F6 | ö | і | φ | צ | ö | ๖ | ö | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | ї | χ | ק | ÷ | você | ๗ | ÷ | ṫ | ÷ | ś | |||||
1111 1000 | 370 | 248 | F8 | ø | ř | ĝ | ø | ј | ψ | ר | ø | ๘ | você | ø | você | ||||
1111 1001 | 371 | 249 | F9 | você | você | você | você | љ | ω | ש | você | você | ๙ | eu | você | ||||
1111 1010 | 372 | 250 | FA | você | њ | ϊ | ת | você | ๚ | ś | você | ||||||||
1111 1011 | 373 | 251 | FB | você | você | você | ћ | ϋ | você | ๛ | você | você | |||||||
1111 1100 | 374 | 252 | FC | você | ќ | ό | você | você | |||||||||||
1111 1101 | 375 | 253 | FD | ý | você | você | § | ύ | LRM | eu | ý | ż | ý | é | |||||
1111 1110 | 376 | 254 | FE | º | ţ | ŝ | você | ў | ώ | RLM | ş | º | ž | ŷ | º | ț | |||
1111 1111 | 377 | 255 | FF | ÿ | ˙ | џ | ÿ | ĸ | ' | ÿ | |||||||||
Binário | Out | Dez | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 |
Na posição 0xA0 há sempre o espaço não separável e 0xAD é principalmente o hífen macio , que só aparece nas quebras de linha . Outros campos vazios são não atribuídos ou o sistema usado não é capaz de exibi-los.
Existem novas adições como versões ISO / IEC 8859-7: 2003 e ISO / IEC 8859-8: 1999 . LRM significa marca da esquerda para a direita (U + 200E) e RLM significa marca da direita para a esquerda (U + 200F).
Relacionamento com Unicode e UCS
Desde 1991, o Consórcio Unicode tem trabalhado com ISO e IEC para desenvolver o Padrão Unicode e ISO / IEC 10646: o Conjunto de Caracteres Universais (UCS) em conjunto. As edições mais recentes da ISO / IEC 8859 expressam caracteres em termos de seus nomes Unicode / UCS e da notação U + nnnn , efetivamente fazendo com que cada parte da ISO / IEC 8859 seja um esquema de codificação de caracteres Unicode / UCS que mapeia um subconjunto muito pequeno do UCS para bytes únicos de 8 bits. Os primeiros 256 caracteres em Unicode e UCS são idênticos aos de ISO / IEC-8859-1 ( Latin-1 ).
Conjuntos de caracteres de byte único, incluindo as partes da ISO / IEC 8859 e derivados deles, foram favorecidos ao longo da década de 1990, tendo as vantagens de serem bem estabelecidos e mais facilmente implementados em software: a equação de um byte para um caractere é simples e adequada para a maioria dos aplicativos de um único idioma e não há combinação de caracteres ou formas variantes. À medida que os sistemas operacionais habilitados para Unicode se tornaram mais difundidos, o ISO / IEC 8859 e outras codificações legadas tornaram-se menos populares. Enquanto restos da ISO 8859 e modelos de caracteres de byte único permanecem enraizados em muitos sistemas operacionais, linguagens de programação, sistemas de armazenamento de dados, aplicativos de rede, hardware de exibição e software de aplicativo de usuário final, a maioria dos aplicativos de computação modernos usa Unicode internamente e depende da conversão tabelas para mapear de e para outras codificações, quando necessário.
Status atual
O padrão ISO / IEC 8859 foi mantido pelo Comitê Técnico Conjunto 1 da ISO / IEC, Subcomitê 2, Grupo de Trabalho 3 (ISO / IEC JTC 1 / SC 2 / WG 3). Em junho de 2004, o WG 3 foi dissolvido e as funções de manutenção foram transferidas para o SC 2 . O padrão não está sendo atualizado atualmente, pois o único grupo de trabalho remanescente do Subcomitê , WG 2, está se concentrando no desenvolvimento do Conjunto de Caracteres Codificados Universais do Unicode .
O padrão de codificação WHATWG , que especifica as codificações de caracteres permitidas em HTML5 que os navegadores compatíveis devem suportar, inclui a maioria das partes da ISO / IEC 8859, exceto as partes 1, 9 e 11, que são interpretadas como Windows-1252 , Windows-1254 e Windows-874, respectivamente. Autores de novas páginas e designers de novos protocolos são instruídos a usar UTF-8 .
Veja também
- Lista de conjuntos de caracteres de computador
- Conjunto de caracteres RPL (um superconjunto ISO 8859-1 nas calculadoras HP, também conhecido como "ECMA-94")
- Conjunto de caracteres multinacionais DEC (MCS)
- DEC National Replacement Character Set (NRCS)
Notas
Referências
- Versões publicadas de cada parte da ISO / IEC 8859 estão disponíveis, por uma taxa, no site do catálogo ISO e na IEC Webstore .
- Versões em PDF dos rascunhos finais de algumas partes da ISO / IEC 8859 conforme submetidas à ISO / IEC JTC 1 / SC 2 / WG 3 para revisão e publicação estão disponíveis no site do WG 3 :
- ISO / IEC 8859-1: 1998 - conjuntos de caracteres gráficos codificados de byte único de 8 bits, Parte 1: Alfabeto latino nº 1 (rascunho datado de 12 de fevereiro de 1998, publicado em 15 de abril de 1998)
- ISO / IEC 8859-4: 1998 - conjuntos de caracteres gráficos codificados de byte único de 8 bits, Parte 4: Alfabeto latino nº 4 (rascunho de 12 de fevereiro de 1998, publicado em 1 de julho de 1998)
- ISO / IEC 8859-7: 1999 - conjuntos de caracteres gráficos codificados de byte único de 8 bits, Parte 7: alfabeto latino / grego (rascunho datado de 10 de junho de 1999; substituído por ISO / IEC 8859-7: 2003, publicado em 10 de outubro, 2003)
- ISO / IEC 8859-10: 1998 - conjuntos de caracteres gráficos codificados de byte único de 8 bits, Parte 10: Alfabeto latino nº 6 (rascunho datado de 12 de fevereiro de 1998, publicado em 15 de julho de 1998)
- ISO / IEC 8859-11: 1999 - conjuntos de caracteres gráficos codificados de byte único de 8 bits, Parte 11: conjunto de caracteres latinos / tailandeses (rascunho datado de 22 de junho de 1999; substituído por ISO / IEC 8859-11: 2001, publicado em 15 de dezembro 2001)
- ISO / IEC 8859-13: 1998 - conjuntos de caracteres gráficos codificados de byte único de 8 bits, Parte 13: Alfabeto latino nº 7 (rascunho datado de 15 de abril de 1998, publicado em 15 de outubro de 1998)
- ISO / IEC 8859-15: 1998 - conjuntos de caracteres gráficos codificados de byte único de 8 bits, Parte 15: Alfabeto latino nº 9 (rascunho datado de 1 de agosto de 1997; substituído por ISO / IEC 8859-15: 1999, publicado em 15 de março , 1999)
- ISO / IEC 8859-16: 2000 - conjuntos de caracteres gráficos codificados de byte único de 8 bits, Parte 16: Alfabeto latino nº 10 (rascunho datado de 15 de novembro de 1999; substituído por ISO / IEC 8859-16: 2001, publicado em 15 de julho , 2001)
-
Os padrões ECMA , que na intenção correspondem exatamente aos padrões de conjunto de caracteres ISO / IEC 8859, podem ser encontrados em:
- Padrão ECMA-94 : Conjuntos de caracteres gráficos codificados de byte único de 8 bits - Alfabetos latinos Nº 1 a Nº 4 2ª edição (junho de 1986)
- Padrão ECMA-113 : Conjuntos de caracteres gráficos codificados de byte único de 8 bits - alfabeto latino / cirílico 3ª edição (dezembro de 1999)
- Padrão ECMA-114 : Conjuntos de caracteres gráficos codificados de byte único de 8 bits - Alfabeto latino / árabe 2ª edição (dezembro de 2000)
- Padrão ECMA-118 : Conjuntos de caracteres gráficos codificados de byte único de 8 bits - alfabeto latino / grego (dezembro de 1986)
- Padrão ECMA-121 : Conjuntos de caracteres gráficos codificados de byte único de 8 bits - Alfabeto latino / hebraico 2ª edição (dezembro de 2000)
- Padrão ECMA-128 : Conjuntos de caracteres gráficos codificados de byte único de 8 bits - Alfabeto latino nº 5 2ª edição (dezembro de 1999)
- Padrão ECMA-144 : Conjuntos de caracteres codificados de byte único de 8 bits - Alfabeto latino No. 6 3ª edição (dezembro de 2000)
- ISO / IEC 8859-1 para tabelas de mapeamento Unicode como arquivos de texto simples estão no site FTP Unicode.
- Descrições informais e gráficos de códigos para a maioria dos padrões ISO / IEC 8859 estão disponíveis em ISO / IEC 8859 Alphabet Soup (Mirror)