Codificações caracteres ASCII ISO Unicode

Unicode Tecnologias e Programação Multimédia – 2009/10 Ana Sofia Neves

Código ASCII Como os computadores só interpretam números, tornou-se necessário criar algo, dentro destes, capaz de representar os caracteres existentes. Com efeito, e tendo como base o alfabeto inglês, surgiu o código ASCII (American Standard Code for InformationInterchange) que constitui uma codificação de caracteres de 7 bits. 2 TPM - Unicode Fig. 1 – Caracteres que podem ser impressos ,[object Object],[object Object]

ISO 8859 e ISO 8859 - 1 Fig. 2 – Caracteres do alfabeto latino 4 TPM - Unicode

Quando se deu o fim do suporte à codificação anteriormente referida, o grupo passou a concentrar-se no UCS (Universal CharacterSet) e no Unicode. Por conseguinte, apareceu a norma internacional ISO/IEC 10646 que define o Conjunto Universal de Caracteres (do inglês Universal CharacterSet) e contém, aproximadamente, 100000 códigos, representando símbolos, letras, números e ideogramas. A Unicode Consortium tem vindo a trabalhar com a ISO, desde 1991, para desenvolver o padrão Unicode e a ISO/IEC 10646 em conjunto, assim, o número e a nomenclatura dos caracteres são idênticos na versão 2.0 do Unicode e na ISO/IEC 10646-1:1993. 5 TPM - Unicode ISO/IEC 10646

O Unicode é um padrão de caracteres normalizado que possibilita aos computadores representar e manipular texto dos diversos sistemas de escrita existentes. Este tinha como principal fim ultrapassar as limitações de codificações de caracteres tradicionais, como as definidas pela ISO 8859, nomeadamente, o facto de permitirem o processamento bilingue mas não o multilingue. Existem dois métodos possíveis para mapear os códigos Unicode em códigos de implementação, o UCS (Universal CharacterSet) e o UTF (Unicode TransformationFormat). O número associado ao mapeamento UCS indica o número de bytes por código, por outro lado, o número associado ao UTF indica o número de bits por código. 6 TPM - Unicode Unicode

É um tipo de codificação Unicode de comprimento variável e pode representar qualquer caracter universal padrão do Unicode, sendo também compatível com o código ASCII. Por ser uma codificação de comprimento variável representa uma forma de optimizar o espaço alocado para textos Unicode. 7 TPM - Unicode UTF - 8

Tanto o UTF – 16 como o UCS – 2 correspondem a codificações de 16 bits. O primeiro possui uma largura variável e pode incluir uma ou duas palavras 16 bits para representar os caracteres, no entanto, o segundo possui uma largura fixa que apenas suporta o plano básico de línguas, tornando-o assim desusado. 8 TPM - Unicode UTF – 16 e UCS - 2

No campo das codificações de 32 bits existe o UCS – 4 e o UTF – 32. Ambos usam uma largura fixa para cada caracterUnicode. Inicialmente, na norma ISO 10646, definiu-se uma forma de representação denominada UCS – 4, em que cada caractercodificado no UCS era representado por um valor de código de 32 bits num espaço de código de inteiros entre 0 e 7FFFFFFF hexadecimal. Como algumas pessoas acharam que era um desperdício reservar um espaço tão grande de código para o mapeamento, surgiu o UTF – 32, um subconjunto do UCS -4 que usa valores de 32 bits num espaço de código de 0 a 10FFFF hexadecimal, apenas. 9 TPM - Unicode UCS - 4

http://pt.wikipedia.org/wiki/ASCII http://pt.wikipedia.org/wiki/ISO_8859-1 http://pt.wikipedia.org/wiki/ISO/IEC_10646 http://pt.wikipedia.org/wiki/Unicode http://pt.wikipedia.org/wiki/UTF-8 http://pt.wikipedia.org/wiki/UTF-16 http://pt.wikipedia.org/wiki/UTF-32/UCS-4 TPM - Unicode 10 Referências

Codificações caracteres ASCII ISO Unicode

Codificações caracteres ASCII ISO Unicode

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Semelhante a Codificações caracteres ASCII ISO Unicode

Semelhante a Codificações caracteres ASCII ISO Unicode (8)

Codificações caracteres ASCII ISO Unicode