Unicode

1.973 visualizações

Publicada em

Publicada em: Tecnologia
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.973
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
30
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Unicode

  1. 1. Carlos Coelho (43483)<br />Filipe Oliveira (43520)<br />Hugo Panão (43446)<br />Rui Costa (43460)<br />UNICODE <br />
  2. 2. ASCII<br />O código ASCII (American Standard Code for InformationInterchange ) surgiu nos anos 60 e é usado pela maior parte da indústria de computadores para troca de informação. Cada caracter é representado por um código de 8 bits (128 caracteres possíveis, de 0 a 127) baseado no código inglês. Os códigos ASCII representam texto em computadores, equipamentos de comunicação, entre outros dispositivos que trabalham com texto.<br />O que é o código ASCII ?<br />A memória do computador interpreta todos os dados sob a forma numérica (0 e 1). Cada caracter possui o seu equivalente em código numérico:<br />Os códigos 0 a 31 não são caracteres. São caracteres de controlo porque permitem fazer acções como: <br />regresso à linha (CR) <br />Bip sonoro (BEL) <br />Os códigos 65 a 90 representam as maiúsculas <br />Os códigos 97 a 122 representam as minúsculas <br />
  3. 3. ISO<br />A ISO (InternationalOrganization for Standardization), é uma entidade que coordena a normalização de 170 países. Fundada em 1947, em Genebra, na Suíça, a ISO aprova normas internacionais em todos os campos técnicos, excepto na electricidade e electrónica, cuja responsabilidade é da IEC (InternationalElectrotechnicalCommission), fundada em 1906.<br />Em Portugal, a entidade que coordena as normalizações da ISO é o Instituto Português da Qualidade (IPQ).<br />Uma das normas de codificação de caracteres em fontes é o ISO 8859, sendo que o ISO 8859-1 é uma codificação de caracteres do alfabeto latino. Mais tarde, passou a ser gerida pela ISO e pela IEC. Exemplo da tabela de codificação ISO 8859-1 (latin 1), incluindo os nomes dos símbolos e foi usada bastante tempo nos países da Europa Ocidental.<br />
  4. 4.
  5. 5. ISO 10646<br />Norma que define o UCS (Universal CharacterSet), existem vários formatos de codificação de caracteres que se baseiam nesta norma. A ISO 10646 é utilizada tanto em 16 como em 32bits. Tem perto de 100 mil caracteres, identificados inequivocamente e que representam letras, números e ideogramas.<br />
  6. 6. UNICODE<br />É um padrão utilizado para permitir aos computadores representarem e manipularem eficazmente texto. Contêm cerca de 100mil caracteres Possui apenas código em 16bits, no entanto consegue aceder a imensos caracteres de 32 bits, através da ISO 10646 (também conhecida com UCS), com a qual partilha “dados”. É “gerido” pela Unicode Consurtium. Possui vários tipos de “transformação” como o UTF-8 ou UTF-16.<br />Tem diversas aplicações, como Sistemas Operativos, Correio Electrónico, para a qual é o padrão. <br />
  7. 7. UCS-2 (2-byte Universal CharacterSet)<br /> é um protocolo de codificação que foi substituído pelo UTF-16 na versão 2.0 do Unicode. O UCS-2 é forma de codificação é idêntica à do UTF-16, excepto que este não suporta “pares substitutos” e, portanto, só se pode codificar caracteres no intervalo U+0000 até U+FFFF. Como consequência, é uma codificação de comprimento fixo que codifica os caracteres sempre em 16-bit. Tal como acontece com UTF-16, existem três esquemas de codificação (UCS-2, UCS-2BE, UCS-2LE).Devido às semelhanças, tanto técnicas como de compatibilidade o UCS-2 e o UTF-16 são facilmente confundidos.<br />Para ambas as UTF-16 e UCS-2, todos os 65.536 pontos de código, excluindo a 2.048 pontos código especiais, são atribuídos códigos de correspondência um-para-um com o 16-bit, não inteiros negativos e com os mesmos valores. Assim, ponto de código U +0000 é codificado como o número 0, e U + FFFF é codificado como 65535 (que é FFFF16 em hexadecimal). <br />
  8. 8. UCS-4<br />é um protocolo para a codificação de caracteres Unicode que usa exactamente 32 bits para cada ponto de código Unicode. Todos os outros formatos de transformação Unicode usam codificação de comprimento variável.<br />UCS-4 é suficiente para representar todo o código Unicode, que tem 1114112 (= 220 + 216) pontos de código e, portanto, requer apenas até 10FFFF hexadecimal. Algumas pessoas consideram que é um desperdício de reserva como um grande espaço de código para o mapeamento de um conjunto relativamente pequeno de pontos de código, portanto, uma forma nova codificação, UTF-32, foi proposto. UTF-32 é um subconjunto da UCS-4 que usa 32-bit codificar valores apenas no 0 a 10FFFF espaço de código.<br />Assim UCS-4, e UTF-32 são idênticos, excepto que o padrão UTF-32 tem adicional semântica Unicode.<br />
  9. 9. UTF-8 (8-bit Unicode TransformationFormat)<br />é um tipo de codificação Unicode de comprimento variável. Representar qualquer caracter universal padrão. Por esta razão, está lentamente a ser adoptado como tipo de codificação universal, usando por exemplo na maioria dos sites bem como nos emails. <br />UTF-8 usa um a quatro bytes por caracter, dependendo do símbolo. É necessário apenas um byte para codificar os 128 caracteres ASCII . São necessários dois bytes para caracteres Latinos.. São também usados dois bytes para representar caracteres dos alfabetos Grego, Hebraico entre outros. São necessários três bytes para o resto do Plano Multilingual Básico. Existem ainda outros caracteres que necessitam de quatro bytes.<br />
  10. 10. Carlos Coelho (43483)<br />Filipe Oliveira (43520)<br />Hugo Panão (43446)<br />Rui Costa (43460)<br />FIM<br />

×