Desvendando os mistérios do Charset

Rodrigo Branas – @rodrigobranas - http://www.agilecode.com.br

Desvendando os mistérios do Charset
Aprenda a evitar sofrimentos no furuto!

http://www.slideshare.net/rodrigobranas

@rodrigobranas
rodrigo.branas@gmail.com
http://www.agilecode.com.br

Formação Acadêmica
Ciências da Computação – UFSC
Gerenciamento de Projetos - FGV

Certificações

SCJA, SCJP, SCJD, SCWCD, SCBCD, PMP, MCP e CSM

Rodrigo Branas – rodrigo.branas@gmail.com
10 anos de experiência na plataforma Java
1000 horas em sala de aula
Mais de 50 palestras em eventos

Líder da área de desenvolvimento na Gennera
Autor da revista Java Magazine
Palestrante
Instrutor da Academia Java e Agile da Globalcode
Criador dos treinamentos de Clean Code, Selenium e
Maven da Agile Code

Trabalhou com as empresas: EDS, HP, GM, Citibank,
OnCast, Globalcode, V.Office, Dígitro, Softplan, Unimed,
Suntech, Vale do Rio Doce, Senai, NET.

Qual é a forma mais comum de
resolver esse tipo de problema?

Recorrendo a ciências esotéricas

Tentativa e erro... Nem sempre funciona

A criação do Telégrafo - 1837

Meio revolucionário de comunicação

Transmissão de pulsos elétricos

Faz o que com os pulsos elétricos?

Como fica a interoperabilidade?

9 sistemas de codificação diferentes

Surgimento do ASCII
Luz no fim do túnel

ASCII
American Standard Code for Information Interchange

ASCII

Publicado em 1963

ASCII

Publicado em 1963
7 bits ou 128 caracteres

ASCII

Publicado em 1963
32 caracteres não imprimíveis (00 ~ 1F)

ASCII

Publicado em 1963
96 caracteres imprimíveis (20 ~ 7F)

ASCII

Publicado em 1963
Foi o sistema de codificação mais utilizado até 2007
(quando foi ultrapassado pelo UTF-8)

ASCII

Publicado em 1963
Foi o sistema de codificação mais utilizado até 2007
(quando foi ultrapassado pelo UTF-8)
Deu origem ao sistema de codificação US-ASCII

Exemplos de caracteres comuns não
suportados pelo ASCII:

Ñ (Espanhol)
É (Português)
ß (Alemão)
Å (Sueco)
ő (Hungaro)

E se a gente colocar mais 1 bit?

Norma ISO 8859
International Standard Organization

Norma ISO 8859

Conjunto de sistemas de codificação de 8 bits

Norma ISO 8859

Regionalizado (16 tipos)

Norma ISO 8859

96 novos caracteres! (Agora vai)

Norma ISO 8859

Nascimento do sistema de codificação ISO-8859-x

Norma ISO 8859

Nascimento do sistema de codificação ISO-8859-x
Compatível com o ASCII por motivos óbvios

ISO-8859-1
Latin-1 Western Europe

Um dos sitemas de codificação mais utilizados!

Dinamarquês, Holandês, Inglês, Finlandês, Francês,
Alemão, Italiano, Norueguês, Português, Romeno,
Espanhol, Catalão e Sueco.

ISO-8859-2
Latin-2 Central Europa

Menos utilizado!

Bósnio, Polonês, Croata, Tcheco, Eslovaco, Esloveno, Sér
vio e Húngaro.

ISO-8859-3
Latin-3 South Europe

Menos utilizado!

Turco, Maltês e Esperanto.

ISO-8859-4
Latin-4 North Europe

Menos utilizado!

Difícil até de pronunciar...

ISO-8859-5 Latin/Cyrillic
ISO-8859-6 Latin/Arabic
ISO-8859-7 Latin/Greek
ISO-8859-8 Latin/Hebrew
ISO-8859-9 Latin-5 Turkish
ISO-8859-10 Latin-6 Nordic
ISO-8859-11 Latin Thai
ISO-8859-12 Latin Devanagari
ISO-8859-13 Latin Baltic Rim
ISO-8859-14 Latin Celtic
ISO-8859-15 Latin-9 (Francês completo)
ISO-8859-16 Latin-10 South-Eastern European

Como ficam os japoneses nessa
história?

Outros sistemas de codificação utilizados principalmente
pelos idiomas japonês, chinês e coreano:

Big5: Chinese, Japanese and Korean
Institute of Information of Taiwan
2 bytes

Shift JIS: Japanese
ASCII Corporation and Microsoft
Entre 1 e 2 bytes

Alguém tinha que acabar
com a bagunça!

Surgimento do Unicode
Luz no fim do túnel

Unicode
Universal Character Set

Unicode

Publicado em 1991

Unicode

Publicado em 1991
Acabar com as limitações dos sistemas de caracteres
(principalmente os pertencentes a norma ISO 8859)

Unicode

Publicado em 1991
Capacidade para 1.114.112 caracteres

Unicode

Publicado em 1991
Primeiros 256 caracteres iguais aos do ISO-8859-1
(Compatibilidade reversa)

Unicode

Publicado em 1991
Primeiros 256 caracteres iguais aos do ISO-8859-1
(Compatibilidade reversa)
Sendo assim, os 128 primeiros caracteres são iguais aos
da tabela ASCII

Version Date Scripts Caracteres
Histórico de versões 1.0 1991 24 7.161
1.0.1 1992 25 28.359
1.1 1993 24 34.233
2.0 1996 25 38.950
2.1 1998 25 38.952
3.0 1999 38 49.259
3.1 2001 41 94.205
3.2 2002 45 95.221
4.0 2003 52 96.447
4.1 2005 59 97.720
5.0 2006 64 99.089
5.1 2008 75 100.713
5.2 2009 90 107.361
6.0 2010 93 109.449
6.1 2012 100 110.181

Não dá pra representar o Unicode como
era feito com o ASCII e o ISO-8859-1?

O Unicode precisa ser codificado!

Imagine a palavra Maça

M -> 4D
a -> 61
ç -> E7
a -> 61


M -> 4D
a -> 61
ç -> E7
a -> 61

O primeiro encoding para Unicode foi o UCS-2

M a ç a
004D 0061 00E7 0061

UTF-8
Unicode Transformation Format

UTF-8

Esse negócio de utilizar 2 bytes não vai rolar!

UTF-8

Representação variável de 1 a 4 bytes.

UTF-8

No UTF-8 os caracteres abaixo de 128 são armazenados
em apenas 1 byte.

UTF-8

em apenas 1 byte.
Compatível com o ASCII.

UTF-8

em apenas 1 byte.
Compatível com o ASCII.
Formado por octetos (8-bit), por isso UTF-8.


M -> 4D
a -> 61
ç -> E7
a -> 61

Codificando com UTF-8

M a ç a
4D 61 C3 A7 61

Tipo char

2 bytes
Não sinalizado

Tipo char

2 bytes
Não sinalizado
Armazena valores de 0 até 65535

Tipo char

2 bytes
Não sinalizado
Armazena valores de 0 até 65535
Representa um code point do Unicode

Exibindo os caracteres e seus
respectivos code points

1. public static void main(String args[]) {
2. String texto = “Java Magazine”;
3. for(char c : texto.toCharArray()) {
4. System.out.print(c);
5. System.out.print((int) c);
6. }
7. }

Console:

2. String texto = “Java Magazine”;
3. for(char c : texto.toCharArray()) {
5. System.out.print((int) c);
6. }
7. }

Console:

J74a97v118a97
32M77a97g103a97z122i105n110e101

2. char a = ‘a’;
3. char b = 97;
4. char c = ‘u0061’;
5. char d = 0x61;
6. System.out.print(a);
7. System.out.print(b);
9. System.out.print(d);
10. }

Console:

2. char a = ‘a’;
3. char b = 97;
4. char c = ‘u0061’;
5. char d = 0x61;
6. System.out.print(a);
7. System.out.print(b);
9. System.out.print(d);
10. }

Console:

aaaa

Exemplo

Codificar a palavra “Maça” em ISO-
8859-1 e UTF-8

2. String texto = “Maça”;
3. byte[] textoEmISO = texto.getBytes(“ISO-8859-1”);
4. for(byte b : textoEmISO) {
5. System.out.print(b + “ “);
6. }
7. }

Console:

3. byte[] textoEmISO = texto.getBytes(“ISO-8859-1”);
4. for(byte b : textoEmISO) {
6. }
7. }

Console:

77 97 -25 97

3. byte[] textoEmUTF = texto.getBytes(“UTF-8”);
4. for(byte b : textoEmUTF) {
6. }
7. }

Console:

3. byte[] textoEmUTF = texto.getBytes(“UTF-8”);
4. for(byte b : textoEmUTF) {
6. }
7. }

Console:

77 97 -61 -89 97

1. public byte[] encodeUTF8(String value) {
2. byte[] utf8 = new byte[bytesNeeded];
3. // do the conversion from character code points to utf-8
4. for (int i = 0, bytes = 0; i < ch.length; i++) {
5. if (ch[i] < 0x80) {
6. utf8[bytes++] = (byte) ch[i];
7. } else if (ch[i] < 0x0800) {
8. utf8[bytes++] = (byte) (ch[i] >> 6 | 0xC0);
9. utf8[bytes++] = (byte) (ch[i] & 0x3F | 0x80);
10. } else if (ch[i] < 0x10000) {
11. utf8[bytes++] = (byte) (ch[i] >> 12 | 0xE0);
12. utf8[bytes++] = (byte) (ch[i] >> 6 & 0x3F | 0x80);
14. } else {
15. utf8[bytes++] = (byte) (ch[i] >> 18 | 0xF0);
19. }
20. }
21. return utf8;
22. }

Exemplo

Decodificando os bytes da palavra
“Maça” codificada em UTF-8

97 77 -61 -89 77

2. byte[] textoEmUTF = new byte[]{77,97,-61,-89,97};
3. String texto = new String(textoEmUTF, “ISO-8859-1”);
4. System.out.println(texto);
5. }

Console:

2. byte[] textoEmUTF = new byte[]{77,97,-61,-89,97};
3. String texto = new String(textoEmUTF, “ISO-8859-1”);
5. }

Console:

MaÃ§a

Exemplo

Lendo o conteúdo de um
arquivo texto

2. InputStream input = new FileInputStream(“file.txt”);
3. byte[] conteudo = new byte[input.available()];
4. input.read(conteudo);
5. String texto = new String(conteudo, “ISO-8859-1”);
7. }

Como saber o sistema de
codificação correto?

Exemplo

Consultando uma página web por
meio do protocolo HTTP

2. String url = “http://www.javamagazine.com.br”;
3. InputStream input = new URL(url).openStream();
4. byte[] conteudo = new byte[input.available()];
5. input.read(conteudo);
6. String html = new String(conteudo, “ISO-8859-1”);
7. System.out.println(html);
8. }

Console:
<html>
<head>
<title>DevMedia - Canal Java</title>
<link rel="canonical" href="http://www.devmedia.com.br/java/" />
<link rel="shortcut icon" href="/favicon.ico">
<meta http-equiv="refresh" content="300">
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
...

Como descobrir o sistema de
codificação correto?

Problemas de Charset
na Web

HTTP Request
GET /javamagazine/ HTTP/1.1
Host: www.devmedia.com.br
User-Agent: Mozilla/5.0 Gecko/20100101 Firefox/14.0.1
Accept: text/html
Accept-Language: pt-br,pt;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate

HTTP Response
HTTP/1.1 200 OK
Content-Type: text/html;charset=ISO-8859-1;
Content-Encoding: gzip
Server: Microsoft-IIS/7.5
X-Powered-By: ASP.NET
Date: Wed, 15 Aug 2012 03:30:07 GMT

1. @WebServlet(“/javamagazine”)
2. public class EnsaioServlet extends HttpServlet {
3. protected void doGet(HttpServletRequest req, HttpServletResponse res) {
5. OutputStream output = response.getOutputStream();
6. for(byte b : texto.getBytes(“ISO-8859-1”) {
7. output.write(b);
8. }
9. output.close();
10. }
11. }

HTTP Response
HTTP/1.1 200 OK
Server: Apache-Coyote/1.1
Content-Length: 4
Date: Sat, 18 Aug 2012 13:49:35 GMT

Cada browser assume um sistema de
codificação padrão

Definindo o charset no
HTTP Response

5.
8. output.write(b);
9. }
10. output.close();
11. }
12. }

5. res.setContentType(“text/html;charset=ISO-8859-1”);
8. output.write(b);
9. }
10. output.close();
11. }
12. }

Declarando a tag META
no documento HTML

Ordem de prioridade dada pelos
browsers

1. Charset definido na propriedade Content-Type do
cabeçalho do HTTP Response
2. Declaração da tag META com o atributo “http-equiv” no
head do documento HTML
3. O atributo charset definido em elementos de importação
de recursos externos como Javascript.

Cuidado com a compilação dos
arquivos fonte

1. public class TesteCompilacao {
2. public static void main(String[] args) {
5. }
6. }

1. public class TesteCompilacao {
2. public static void main(String[] args) {
5. }
6. }

Console:

javac TesteCompilacao.java –encoding ISO-8859-1

java TesteCompilacao

MaÃ§a

Cuidado com sistemas de codificação
específicos como MacRoman e Cp1252!

Dicas para evitar problemas
de codificação

• Defina um padrão na equipe
• Evite sistemas de codificação específicos de um sistema
operacional
• Prefira o UTF-8
• Fique atento a compilação
• Sempre defina o Content-Type
• Declare a tag META http-equiv
• Externalize as String’s
• Evite resolver os problemas na base da tentativa e erro

Obrigado!
www.slideshare.net/rodrigobranas

Desvendando os mistérios do Charset

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Rodrigo Branas

Mais de Rodrigo Branas (20)

Desvendando os mistérios do Charset

Notas do Editor