Latim básico (bloco Unicode) - Basic Latin (Unicode block)
Controles C0 e latim básico | |
---|---|
Faixa | U + 0000..U + 007F (128 pontos de código) |
Plano | BMP |
Scripts |
Latim (52 caracteres) Comum (76 caracteres) |
Alfabetos principais |
Inglês Francês Alemão Espanhol Vietnamita |
Conjuntos de símbolos |
Pontuação em algarismos arábicos |
Atribuído | 128 pontos de código 33 controle ou formato |
Não utilizado | 0 pontos de código reservados |
Padrões de fonte | ISO / IEC 8859 , ISO 646 |
Histórico da versão Unicode | |
1.0.0 (1991) | 128 (+128) |
Nota : |
O bloco Basic Latin ou C0 Controls e Basic Latin Unicode é o primeiro bloco do padrão Unicode , e o único bloco que é codificado em um byte em UTF-8 . O bloco contém todas as letras e códigos de controle da codificação ASCII. Ele varia de U + 0000 a U + 007F, contém 128 caracteres e inclui os controles C0 , ASCII pontuação e símbolos , ASCII dígitos , tanto a maiúsculas e minúsculas do alfabeto Inglês e um caractere de controle .
O bloco Latim básico foi incluído em sua forma atual a partir da versão 1.0.0 do Padrão Unicode, sem adição ou alteração do repertório de caracteres. Seu nome de bloco em Unicode 1.0 era ASCII .
Tabela de personagens
- A A letra U + 005C (\) pode aparecer como um sinal em ienes japoneses (¥) ou Won (₩) / fontes coreanas confundindo Unicode (especialmenteUTF-8) como um conjunto de caracteres legado que substituiu a barra invertida com estes sinais.
Subtítulos
O bloco C0 Controls e Basic Latin contém seis subtítulos.
Controles C0
Os controles C0 , referidos como códigos de controle C0 ASCII na versão 1.0, são herdados do ASCII e de outros esquemas de codificação de 7 e 8 bits. Os nomes de alias para controles C0 são retirados do padrão ISO / IEC 6429: 1992 .
Pontuação e símbolos ASCII
Este subtítulo se refere a caracteres de pontuação padrão, operadores matemáticos simples e símbolos como o cifrão, porcentagem, e comercial, sublinhado e barra vertical.
Dígitos ASCII
O subtítulo dígitos ASCII contém os caracteres numéricos europeus padrão 1–9 e 0.
Alfabeto latino maiúsculo
O subtítulo do alfabeto latino maiúsculo contém o alfabeto latino não acentuado de 26 letras padrão em maiúscula .
Alfabeto latino minúsculo
O subtítulo Alfabeto latino minúsculo contém o alfabeto latino não acentuado padrão de 26 letras no minúsculo .
Personagem de controle
O subtítulo Control Character contém o caractere "Delete".
Número de símbolos, letras e códigos de controle
A tabela abaixo mostra o número de letras , símbolos e códigos de controle em cada um dos subtítulos no bloco C0 Controles e Latim básico.
Tipo de subtítulo | Número de símbolos | Gama de personagens |
---|---|---|
Controles C0 | 32 códigos de controle | U + 0000 a U + 001F |
Pontuação e símbolos ASCII | 33 sinais de pontuação e símbolos | U + 0020 para U + 002F, U + 003A para U + 0040, U + 005B para U + 0060 e U + 007B para U + 007E |
Dígitos ASCII | 10 dígitos | U + 0030 a U + 0039 |
Alfabeto latino maiúsculo | 26 letras latinas sem acento em maiúscula. | U + 0041 a U + 005A |
Alfabeto latino minúsculo | 26 letras latinas sem sotaque minúsculo. | U + 0061 a U + 007A |
Personagem de controle | 1 código de controle contendo o caractere "Excluir". | U + 007F |
Bloquear
Tabela de códigos C0 Controls e Basic Latin Official Unicode Consortium (PDF) |
||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | UMA | B | C | D | E | F | |
U + 000x | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | CR | TÃO | SI |
U + 001x | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | POSSO | EM | SUB | ESC | FS | GS | RS | nós |
U + 002x | SP | ! | " | # | $ | % | E | ' | ( | ) | * | + | , | - | . | / |
U + 003x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
U + 004x | @ | UMA | B | C | D | E | F | G | H | eu | J | K | eu | M | N | O |
U + 005x | P | Q | R | S | T | você | V | C | X | Y | Z | [ | \ | ] | ^ | _ |
U + 006x | ` | uma | b | c | d | e | f | g | h | eu | j | k | eu | m | n | o |
U + 007x | p | q | r | s | t | você | v | C | x | y | z | { | | | } | ~ | DEL |
Notas
|
Variantes
Vários dos caracteres são definidos para renderizar como uma variante padronizada se seguidos por indicadores de variantes.
Uma variante é definida para um zero com um curso diagonal curto: U + 0030 DÍGITO ZERO, U + FE00 VS1 (0︀).
Doze caracteres (#, * e os dígitos) podem ser seguidos por U + FE0E VS15 ou U + FE0F VS16 para criar variantes de emoji . Eles são keycap caracteres de base, por exemplo # ️⃣ (U + 0023 SINAL DE NÚMERO U + FE0F VS16 U + 20E3 COMBINAÇÃO encerram KEYCAP). A versão VS15 é "apresentação de texto", enquanto a versão VS16 é "estilo emoji".
U + | 0023 | 002A | 0030 | 0031 | 0032 | 0033 | 0034 | 0035 | 0036 | 0037 | 0038 | 0039 |
base | # | * | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
base + VS15 + tecla | # ︎⃣ | * ︎⃣ | 0︎⃣ | 1︎⃣ | 2︎⃣ | 3︎⃣ | 4︎⃣ | 5︎⃣ | 6︎⃣ | 7︎⃣ | 8︎⃣ | 9︎⃣ |
base + VS16 + tecla | # ️⃣ | * ️⃣ | 0️⃣ | 1️⃣ | 2️⃣ | 3️⃣ | 4️⃣ | 5️⃣ | 6️⃣ | 7️⃣ | 8️⃣ | 9️⃣ |
História
Os seguintes documentos relacionados ao Unicode registram a finalidade e o processo de definição de caracteres específicos no bloco de latim básico:
Versão | Pontos de código finais | Contar | ID UTC | L2 ID | WG2 ID | Documento |
---|---|---|---|---|---|---|
1.0.0 | U + 0000..007F | 128 | (estar determinado) | |||
UTC / 1999-013 | Karlsson, Kent (1999-05-27), Tildes e decomposições de micro sinais | |||||
L2 / 99-176R | Moore, Lisa (04/11/1999), "Micro Sign Case Mappings", Atas da reunião conjunta UTC / L2 em Seattle, 8 a 10 de junho de 1999 | |||||
L2 / 04-145 | Starner, David (30/04/2004), C com exemplos de traços do relatório BAE 1884 (Dorsey) | |||||
L2 / 04-202 | Anderson, Deborah (07-06-2004), Slashed C Feedback | |||||
N3046 | Suignard, Michel (2006-02-22), Melhorando a definição formal para caracteres de controle | |||||
N3103 (pdf , doc ) | Umamaheswaran, VS (2006-08-25), "M48.33", Ata não confirmada da reunião 48 do WG 2, Mountain View, CA, EUA; 24/04/2006 / 27 | |||||
L2 / 11-043 | Freytag, Asmus; Karlsson, Kent (02/02/2011), Proposta para corrigir erros e inconsistências em certas atribuições de propriedade para letras super e subscritas | |||||
L2 / 11-160 | PRI # 181: Alteração da categoria geral de doze caracteres , 02/05/2011 | |||||
L2 / 11-261R2 |
Moore, Lisa (2011-08-16), "Consensus 128-C3", UTC # 128 / L2 # 225 Minutes , Aceite as recomendações de Ken Whistler em L2 / 11-281 sobre apelidos de nomes para caracteres de controle com a adição das abreviações BEL e NUL. |
|||||
L2 / 11-438 | N4182 | Edberg, Peter (2011-12-22), Emoji Variation Sequences (revisão de L2 / 11-429) | ||||
L2 / 15-107 |
Moore, Lisa (2015-05-12), "Consensus 143-C5", UTC # 143 Minutes , Adicione as 12 sequências keycap em emoji-data.txt como sequências nomeadas provisórias em Unicode 8.0. |
|||||
L2 / 15-268 | Beeton, Bárbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray (2015-10-30), Proposta para Representar a Variante Zero Cortada do Conjunto Vazio | |||||
L2 / 15-301 | Pournader, Roozbeh (2015-11-01), Uma proposta para 278 sequências de variação padronizadas para emoji | |||||
L2 / 15-254 | Moore, Lisa (2015-11-16), "B.12.1.2 Proposal to Represent the Slashed Zero Variant of Empty Set", UTC # 145 Minutes | |||||
L2 / 17-294 | N4914 | Lunde, Ken (14/08/2017), Proposta para adicionar sequência de variação padronizada para U + FF10 FULLWIDTH DIGIT ZERO | ||||
Veja também
Referências
- ^ "Banco de dados de caracteres Unicode" . O padrão Unicode . Página visitada em 09/07/2016 .
- ^ "Versões enumeradas do padrão Unicode" . O padrão Unicode . Página visitada em 09/07/2016 .
- ^ The Unicode Standard Version 1.0, Volume 1 . Addison-Wesley Publishing Company, Inc. 1990. ISBN 0-201-56788-1.
- ^ "3.8: Gráficos bloco a bloco" (PDF) . O padrão Unicode . versão 1.0. Consórcio Unicode .
- ^ Classificando tudo: Quando uma barra invertida não é uma barra invertida?
- ^ a b c d e f g "Tabelas de códigos Unicode 6.2" (PDF) . O padrão Unicode . Retirado em 1 de abril de 2013 .
- ^ Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray (2015-10-30). "L2 / 15-268: Proposta para representar a variante com zero cortado do conjunto vazio" (PDF) .
- ^ a b "UTS # 51 Emoji Variation Sequences" . O Consórcio Unicode.
- ^ Edberg, Peter (2011-12-22). "L2 / 11-438: Sequências de variação de Emoji (revisão de L2 / 11-429)" (PDF) .
- ^ Pournader, Roozbeh (01-11-2015). "L2 / 15-301: Uma proposta para 278 sequências de variação padronizadas para emoji" (PDF) .
- ^ "UTR # 51: Emoji Unicode" . Consórcio Unicode. 2020-02-11.
- ^ "UCD: Dados de Emoji para UTR # 51" . Consórcio Unicode. 2021-08-26.