Minicurso Encoding - TDC2012

Minicurso de
Encoding
André Willik Valenti (Daitan)
Andrei Tognolo (Dextra)

The Developer’s Conference 2012

Roteiro
▒ Parte 1
▒ O que é e por que existe
▒ Parte 2
▒ Como funciona
▒ Por que dá errado
▒ Parte 3
▒ Como faz pra dar certo

Parte 1

O que é e por que existe

Encoding? Hein!?
▒ Mais especificamente:
▒ Character encoding

▒ Também conhecido como:
▒ Codificação de caracteres
▒ Charset

Quem é o encoding?
▒ O encoding é o culpado por:
▒ Programação
 ProgramaÃ§Ã£o
 Programa 褯

▒ José Luís Assunção Júnior
 JosÃ© LuÃs AssunÃ§Ã£o JÃºnior
 Jos 題 uJ 褯 JJ

Por que encoding?
▒ Por que se usa encoding?
▒ Onde NÃO se usa encoding?
▒ Segure essa ideia!

▒ Computador é uma máquina de
armazenar e processar informação
▒ Mas o que É informação?

Por que encoding?
▒ Veja esta imagem

Por que encoding?
▒ Esta imagem é uma informação

▒ Como a gente representa essa
informação no computador?

Por que encoding?
▒ Formato da imagem é JPEG

▒ Mas o que é uma imagem JPEG?

▒ Podemos olhar para “uma imagem
JPEG” sob quais pontos de vista?

Um grande número binário?

11111111110110001111111111100000
00000000000100000100101001000110
10010010100011000000000000000010
0000001000000010000000001011111
...

Por que encoding?
▒ A resposta correta é:
▒ Todas são diferentes formas de
enxergar a mesma coisa

Por que encoding?
▒ A imagem é uma informação

▒ Pixels, bytes e bits são dados

▒ Dados são concretos. Informação é
abstrata.

▒ Informação = dados + forma de
interpretálos

Informação
=
dados + forma
de interpretá-los

Resumindo
▒ Informação
▒ O conceito abstrato a ser representado
▒ Exemplo: imagem

▒ Dados
▒ Representação concreta de informação
▒ Exemplo: sequência de bytes

▒ Encoding
▒ Forma de codificar informação em dados
▒ Exemplo: JPEG

Encoding
▒ Voltando à pergunta: onde NÃO
usa encoding?
▒ Em lugar nenhum. Tudo usa encoding!

Encoding
▒ PNG é um encoding
▒ JPEG é um encoding
▒ MPEG é um encoding
▒ MP3 é um encoding
▒ PDF é um encoding
▒ ...

▒ Alguém já usou algum CODEC?

Character encoding
▒ Um character encoding é uma
determinada maneira de se
representar caracteres

Parte 2

Como (não) funciona

Por que dá errado

História
▒ Década de 60
▒ Mais de 60 maneiras diferentes de
representar caracteres

▒ Cada fabricante implementava do seu
jeito

História
▒ Bob Bemer:
▒ “Vamos uniformizar esse negócio...”

▒ Formouse um comitê do ANSI
(American National Standards
Institute) para essa tarefa

▒ 2 anos de trabalho depois...

ASCII
▒ American Standard Code for
Information Interchange

▒ 7 bits

▒ 128 diferentes caracteres

ASCII
▒ Exemplos:

ASCII Decimal Hexa Binário
5 53 0x35 0110101
A 65 0x41 1000001
} 125 0x7D 1111101

ASCII
▒ Intervalo válido
▒ Em decimal: 0 – 127
▒ Em binário: 0000000 – 1111111
▒ Em hexadecimal: 0x00 – 0x7F

ASCII
▒ Somente 128 caracteres...

▒ Nenhum caractere acentuado 

ASCII
▒ Em vez de usar apenas 7 bits,
muitas máquinas usavam/usam 8

▒ E esse bit sobrando aí?
▒ Já sei!!!
▒ Vamos usar pra codificar caracteres
locais de cada país!

ASCII
▒ Com 8 bits, conseguimos
representar 256 diferentes
caracteres

▒ Intervalo válido:
▒ 0 – 255 (em decimal)
▒ 0x00 – 0xFF (em hexadecimal)

Extensões para ASCII
▒ Codepages
▒ 437 — The original IBM PC code page
▒ 720 — Arabic
▒ 737 — Greek
▒ 775 — Estonian, Lithuanian and
Latvian
▒ 850 — "Multilingual (Latin1)"
(Western European languages)

▒ Codepages
▒ 852 — "Slavic (Latin2)" (Central
and Eastern European languages)
▒ 855 — Cyrillic
▒ 857 — Turkish
▒ 858 — "Multilingual" with euro
symbol
▒ 860 — Portuguese

▒ Codepages
▒ 863 — French (Quebec French)
▒ 865 — Danish/Norwegian
▒ 866 — Cyrillic
▒ 869 — Greek
▒ 874 — Thai

ASCII
▒ Maravilha! Com dezenas de encodings
diferentes, todos poderão representar
seus caracteres!

▒ Mas e a interoperabilidade?
▒ Oras, quem é que vai precisar ler ou
escrever usando caracteres dos outros
países??

▒ O resultado todos já conhecem:

ASCII
▒ No fim das contas, ficou assim:
▒ 0x00 – 0x7F: ASCII normal
▒ 0x80 – 0xFF: ASCII estendido

ASCII
▒ Na prática:
▒ 0x00 – 0x7F: blz! 
▒ 0x80 – 0xFF: não blz 

ASCII
▒ E por que de 0x80 a 0xFF é “não
blz”?

▒ Já vamos ver por quê...

Encodings
▒ No Brasil, o codepage 850 era
muito usado

Exemplo
▒ Você, aqui no Brasil, gostaria
de dar o seu olá

▒ Se você escrever:
▒ Ola!

Exemplo
▒ Essa sua sequência de 4 caracteres é
uma informação

▒ Informação só existe na cabeça dos
seres humanos

▒ Computador não conhece informação.
Computador conhece dados.

Exemplo
▒ Para um computador, não existe:
▒ Ola!

▒ O que existe são estes 4 bytes
(ASCII):
▒ 0x4F 0x6C 0x61 0x21 (hexa)
▒ 79 108 97 33 (decimal)

Exemplo
▒ Blz !
▒ O l a !
▒ ↑ ↑ ↑ ↑
▒ 0x4F 0x6C 0x61 0x21

Exemplo
▒ Qualquer computador que entenda
ASCII (e todos entendem) vai
conseguir processar corretamente
a sua informação

Exemplo
▒ E se a gente escrever...
▒ Olá!

Exemplo
▒ Blz !
▒ Pois:
▒ O l á !
▒ ↑ ↑ ↑ ↑
▒ 0x4F 0x6C 0xE1 0x21

Exemplo
▒ Até você tentar ler isso num
computador russo e...

Exemplo
▒ Não blz 
▒ Pois:
▒ O l р !
▒ ↑ ↑ ↑ ↑
▒ 0x4F 0x6C 0xE1 0x21

Exemplo
▒ Quem foi que falou que 0xE1
corresponde ao caractere á???
▒ Codepage 850 falou!

▒ Mas codepage 855 falou que 0xE1
equivale a р!

▒ Quem está certo???

Exemplo
▒ Não blz 
▒ Pois:
▒ O l á !
▒ ↑ ↑ ↑ ↑
▒ 0x4F 0x6C ???? 0x21

Encodings
▒ Não existe uma forma única de
representar o caractere á

▒ A sequência de bytes é ambígua:
▒ 0x4F 0x6C 0xE1 0x21

Encodings
▒ Mas e se...
▒ ...a gente enviar para o computador
russo o seguinte:
▒ A sequência de bytes
+
▒ O encoding usado (codepage 850)

▒ Será que dá certo?

ISO88591
▒ Também conhecido como LATIN1
▒ Mesma ideia dos ASCII
estendidos:
▒ 255 caracteres
▒ Compatível com ASCII

Encodings
▒ É óbvio que não iria dar certo o
mundo inteiro tentando se
comunicar cada um usando seu
encoding específico

▒ Seria necessário uniformizar de
verdade

Encodings
▒ Seria necessário...
▒ Um código...
▒ Um código único...
▒ Um único código...
▒ Um...

The Unicode 5.0 Standard
▒ 1472 páginas
▒ É grande 

O que é Unicode?
▒ Duas partes interessantes para
nós nesse momento:
▒ UCS
▒ Universal Character Set

▒ Encodings
▒ UTF8, UTF16, UTF32 (Unicode
Transformation Format)

UCS
▒ Tabela gigante de caracteres

▒ Cada caractere possui um código,
chamado code point
▒ Code point é representado por U+ e
um número em hexadecimal

UCS
▒ Exemplos:
▒ U+0058: X
▒ U+00E3: ã
▒ U+2603: ☃
▒ U+10123:

UCS
▒ Caracteres na tabela são
abstratos (são informação)

▒ Para concretizálos, é
necessário um encoding

Encodings Unicode
▒ Maneiras de transformar
caracteres abstratos em
concretos

▒ Três principais: UTF8, UTF16,
UTF32

UTF32
▒ Exemplos:
▒ U+0058: 0x00 0x00 0x00 0x58
▒ U+00E3: 0x00 0x00 0x00 0xE3
▒ U+2603: 0x00 0x00 0x26 0x03
▒ U+10123: 0x00 0x01 0x01 0x23

UTF16
▒ Exemplos:
▒ U+0058: 0x00 0x58
▒ U+00E3: 0x00 0xE3
▒ U+2603: 0x26 0x03
▒ U+10123: 0xD8 0x00 0xDD 0x23

UTF8
▒ Exemplos:
▒ U+0058: 0x58
▒ U+00E3: 0xC3 0xA3
▒ U+2603: 0xE2 0x98 0x83
▒ U+10123: 0xF0 0x90 0x84 0xA3

UTF8
▒ Compatível com ASCII entre
U+0000 e U+007F

▒ A partir de U+0080, usa mais de
um byte

▒ Para os caracteres da língua
portuguesa, usa 1 ou 2 bytes

UCS e UTF
▒ O que eu preciso saber disso
tudo?

▒ Apenas o seguinte:

UCS e UTF
▒ Tabela de caracteres ≠ encoding

▒ Existem formas diferentes de se
representar caracteres Unicode. A
mais comum é usando UTF8.

▒ UTF8 usa número variável de bytes
por caractere (em geral, 1 ou 2)

No mundo real de hoje
▒ Encodings mais usados nos
sistemas que rodam no Brasil:
▒ UTF8
▒ LATIN1

LATIN1
▒ Serve para caracteres Unicode?

LATIN1
▒ NÃO é um encoding para Unicode
▒ Usa exatamente 1 byte por caractere
▒ 1 byte não seria suficiente

▒ Mesma ideia dos ASCIIs
estendidos:
▒ 0x00 a 0x7F: igual ASCII
▒ 0x80 a 0xFF: outros caracteres

LATIN1 e UTF8
▒ Exemplos

Bytes usando Bytes usando
Caractere
UTF-8 LATIN-1
X 0x58 0x58

Ã 0xC3 0xA3 0xE3

☃ 0xE2 0x98 0x83 Não existe

LATIN1 e UTF8
▒ Agora que já vimos LATIN1 e
UTF8, voltemos à seguinte
questão:

LATIN1 e UTF8
▒ Por que “José” vira “JosÃ©”???

LATIN1 e UTF8
▒ “José” em UTF8:
▒ J o s é
▒ ↑ ↑ ↑ ↑
▒ 0x4A 0x6F 0x73 0xC3 0xA9

▒ Bytes 0x4A 0x6F 0x73 0xC3 0xA9
representam “José” em UTF8

LATIN1 e UTF8
▒ E se você enviar esses bytes

0x4A 0x6F 0x73 0xC3 0xA9

para alguém?

LATIN1 e UTF8
▒ Se a pessoa ler em UTF8, blz!

▒ 0x4A 0x6F 0x73 0xC3 0xA9
▒ ↓ ↓ ↓ ↓
▒ J o s é

LATIN1 e UTF8
▒ Se você não avisar que o seu
texto está em UTF8, como a
pessoa vai adivinhar?

LATIN1 e UTF8
▒ Toda vez que você envia uma
sequência de bytes e não envia o
encoding junto, corre o risco de
ser malinterpretado

Parte 3

Como faz pra dar certo

Informação String

= =

Dados Bytes

+ +
Forma de
Encoding
interpretálos

String..
=..
bytes + encoding

Não existe string
sem encoding!

Não existe relação
byte  caractere
sem encoding!

▒ 2 dicas para evitar problemas de
encoding:

▒ 1) Use sequências de escape
sempre que possível

▒ Para escrever “Programação”:
▒ Em Java:
▒ "Programau00e7u00e3o"
▒ Em HTML:
▒ <p>Programação</p>

▒ 2) Faça conversões só quando
realmente for necessário

▒ Ao fazer qualquer conversão, SEMPRE
especifique o encoding

▒ Quando é que realmente precisamos
fazer conversões?
▒ Quando fazemos entrada/saída

▒ Exemplos:

▒ Você vai enviar texto em uma
requisição HTTP?
▒ Converta a string para bytes usando
algum encoding

▒ Avise ao servidor que você vai usar
esse encoding

▒ Envie os bytes

▒ Certo:
▒ Content-Type: text/plain; charset=utf-8

▒ Content-Type: text/plain;
charset=iso-8859-1

▒ Errado:
▒ Content-Type: text/plain (não existe texto
sem encoding!)

▒ Vai receber um XML?
▒ Receba o conteúdo (bytes)
▒ Repasse os bytes para a sua
biblioteca de processamento de XML
▒ XML informa seu encoding dentro do
próprio documento

▒ “Tem que passar o encoding, tem
que passar encoding...”

▒ E se eu não passar o encoding?
Não funciona?

▒ Funciona!
▒ ...às vezes!

▒ O que acontece se eu não
especificar encoding?
▒ Nenhum encoding será usado!
▒ Certo!?

!!!!!!!!!!!
!!ERRADO!!
!!!!!!!!!!!

▒ Se você não especificar
encoding, será usado o encoding
padrão da plataforma

▒ E isso é ERRADO!
▒ É um perigo!
▒ É um absurdo!

▒ Plataformas MUDAM!
▒ Configurações de ambiente MUDAM!
▒ Encoding padrão MUDA!

Java: jeito errado
▒ byte[] meusBytes =
string.getBytes();

▒ String minhaString =
new String(bytes);

Java: jeito certo
▒ byte[] meusBytes =
string.getBytes("UTF8");

▒ String minhaString =
new String(bytes, "UTF8");

Conclusões
▒ Problemas de encoding acontecem
nas melhores famílias

Conclusões
▒ Qualquer peça do quebracabeça
pode estragar tudo

▒ Programação defensiva costuma
ser a melhor (e talvez a única)
solução

Conclusões
▒ Causas são sempre as mesmas:
▒ String sendo lida e/ou escrita
usando o encoding errado
▒ Uso indevido do encoding padrão da
plataforma

▒ Causa raiz de todo o problema:
▒ Ambiguidade: mais de uma maneira de
representar a mesma informação

Conclusões
▒ Apenas reforçando:
▒ Não existe informação sem forma de
interpretação

▒ Não existe string sem encoding

Referências
▒ The Unicode Consortium
▒ http://unicode.org/

▒ The Absolute Minimum Every Software
Developer Absolutely, Positively Must
Know About Unicode and Character Sets
(No Excuses!)
▒ http://www.joelonsoftware.com/articles/Unicode.

Referências
▒ Lista de caracteres Unicode e
suas diferentes representações
▒ http://www.fileformat.info/info/unicode/

Referências
▒ ASCII
▒ http://en.wikipedia.org/wiki/ASCII

▒ Unicode
▒ http://en.wikipedia.org/wiki/Unicode

▒ UTF8
▒ http://en.wikipedia.org/wiki/UTF-8

Contatos
▒ André Willik Valenti
▒ awvalenti@gmail.com
▒ @awvFi

▒ Andrei de Oliveira Tognolo
▒ andreitognolo@gmail.com
▒ /andreitognolo

Minicurso Encoding - TDC2012

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Semelhante a Minicurso Encoding - TDC2012

Semelhante a Minicurso Encoding - TDC2012 (6)

Minicurso Encoding - TDC2012