Representação de Áudio e Imagem

1.842 visualizações

Publicada em

Este trabalho tem como intuito descrever como se dá a representação de um
sinal de som ou de imagem na sua forma analógica para uma forma digital, que
posteriormente será armazenada em um computador ou em dispositivos afim. Tais
como características e processos para a digitalização de um arquivo.
Abordando conceitos simples, como tipos de arquivos e suas características e
alguns conceitos mais complexos como teorema de Nyquist, amostragem e
quantização.

Publicada em: Tecnologia, Negócios
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
1.842
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
51
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Representação de Áudio e Imagem

  1. 1. UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO TECNOLÓGICO SISTEMAS DE INFORMAÇÃO REPRESENTAÇÃO DE ÁUDIO E IMAGEM FELIPE DE SOUZA DA COSTA FLORIANÓPOLIS 2013
  2. 2. RESUMO Este trabalho tem como intuito descrever como se dá a representação de um sinal de som ou de imagem na sua forma analógica para uma forma digital, que posteriormente será armazenada em um computador ou em dispositivos afim. Tais como características e processos para a digitalização de um arquivo. Abordando conceitos simples, como tipos de arquivos e suas características e alguns conceitos mais complexos como teorema de Nyquist, amostragem e quantização. Palavras-chave: Conversão Digital/Analógica, Amostragem, Quantização, Tipos de Áudio, Tipos de Imagem, Compressão.
  3. 3. LISTA DE FIGURAS Figura 1 - Uma onda sonora, em cinza, representada digitalmente em vermelho.......7 Figura 2 - Sinal analógico de um som...........................................................................7 Figura 3 - Conversor Analógico/Digital..........................................................................8 Figura 4 - A onda de baixo é amostrada a uma taxa que é o dobro da da onda de cima. ............................................................................................................................ 9 Figura 5 - Onda contínua e amostragem .................................................................. 10 Figura 6 - Especto de modulação de amplitude..........................................................11 Figura 7 - Cabeçalho de um arquivo WAV..................................................................14 Figura 8 - Cabeçalho de um arquivo AIFF.................... ..............................................15 Figura 9 - Cabeçalho de um arquivo MP3...................................................................18 Figura 10 - Representação de uma imagem Bitmap ................................................. 20 Figura 11 - Representação de uma imagem ao nível de pixels................................. 21 Figura 12 - Imagem Raster (bitmap) ......................................................................... 22 Figura 13 - Imagem Vetorial ...................................................................................... 23 Figura 14 - Imagem Binária ....................................................................................... 24 Figura 15 - Representação de uma imagem monocromática digital ......................... 24 Figura 16 - Matriz de pixels ....................................................................................... 25 Figura 17 - 8 bpp ....................................................................................................... 25 Figura 18 - 16 bpp ..................................................................................................... 25 Figura 19 -24 bpp ...................................................................................................... 26 Figura 20 - Eixos X e Y em uma imagem monocromática. ....................................... 26 Figura 21 - Como um sensor de uma câmera divide a imagem em porções discretas e coleta uma cor (média) para cada uma delas. ....................................................... 27 Figura 22 - (a) uma imagem com n bytes por pixel. (b) n bandas com um byte por pixel. .......................................................................................................................... 28 Figura 23 - Niveis de Cores RGB .............................................................................. 28
  4. 4. SUMÁRIO 1 INTRODUÇÃO ......................................................................................................... 5 2 ÁUDIO ...................................................................................................................... 5 2.1 O que é som ?.................................................................................................... 6 2.2 Conversão de Áudio........................................................................................... 7 2.2.1 Conversão A/D ............................................................................................ 7 2.2.2 Taxa de Amostragem e Teorema de Nyquist .............................................. 8 2.2.3 Niveis de Quantização ................................................................................. 9 2.2.4 Conversão D/A .......................................................................................... 10 2.2.5 Número de Canais ..................................................................................... 10 2.3 Representação do som .................................................................................... 11 2.3.1 Digitalização do Som ................................................................................. 11 2.3.2 Parametros para digitalização do som ....................................................... 12 2.4 Compressão e Compactação ........................................................................... 13 2.5 Formatos de Áudio ........................................................................................... 13 2.5.1 Formtatos não-comprimidos ...................................................................... 13 2.5.1.1 WAV .................................................................................................... 14 2.5.1.2 AIFF ..................................................................................................... 15 2.5.2 Formatos Comprimidos.............................................................................. 16 2.5.2.1 FLAC ................................................................................................... 16 2.5.2.2 APE ..................................................................................................... 17 2.5.2.3 ALAC ................................................................................................... 17 2.5.2.4 MP3 ..................................................................................................... 17 2.5.2.5 OGG Vorbis ......................................................................................... 18 2.5.2.6 AAC ..................................................................................................... 19 2.5.2.7 WMA .................................................................................................... 19 3 IMAGEM ................................................................................................................. 20 3.1 Definição .......................................................................................................... 20 3.2 Pixel ................................................................................................................. 21 3.3 Imagem bitmap ................................................................................................ 22 3.4 Imagem Vetorial ............................................................................................... 23 3.5 Representação de imagem digital .................................................................... 24 3.5.1 Amostragem e Quantização ...................................................................... 24 3.5.2 Profundidade da Imagem........................................................................... 25 3.5.3 Imagem Monocromática ............................................................................ 26 3.5.4 Resolução Espacial ................................................................................... 26
  5. 5. 3.5.5 Imagem Multibanda ................................................................................... 27 3.5.6 Imagem Colorida ....................................................................................... 28 3.6 Formatos de Imagens ...................................................................................... 29 3.6.1 Formatos não-comprimidos ....................................................................... 29 3.6.1.1 BMP ..................................................................................................... 29 3.6.2 Formatos comprimidos .............................................................................. 29 3.6.2.1 Com Perda de dados (lossy) ............................................................... 29 3.6.2.1.1 JPEG ........................................................................................................... 29 3.6.2.2 Sem perda de dados (lossless) ........................................................... 30 3.6.2.2.1 GIF .............................................................................................................. 30 3.6.2.2.2 PNG ............................................................................................................ 31 3.6.2.2.3 TIFF ............................................................................................................ 31 4 CONCLUSÃO......................................................................................................... 32 REFERÊNCIAS ......................................................................................................... 33
  6. 6. 5 1 INTRODUÇÃO Qualquer valor numérico, letra, carácter ou outro tipo de informação pode ser codificado sob a forma de um conjunto de bits, no que se designa por “informação digital”. Se a informação é analógica, ou seja, possui um sinal contínuo que varia em função do tempo, e queremos digitalizá-la, recolhemos alguns pontos deste sinal, isto é, pegamos um conjunto discreto de valores deste sinal contínuo (analógico), convertemos estes valores num conjunto reduzido de valores possíveis e associamos a cada valor quantificado um código binário (0 e 1) e obtemos sua representação digital que não vária continuamente em função do tempo. Tal informação pode ser salva em formatos distintos, dependendo do que se quer obter e dependendo do formato, perdemos qualidade e ganhamos menor tamanho de arquivo e vice-versa.
  7. 7. 6 2 ÁUDIO DICIONÁRIO: Informações sonoras sob variadas formas: elétrica, óptica, digital etc. Quando manifestado no domínio acústico, gera ondas sonoras e é conhecido como “som”. 2.1 O que é som ? O som é um sinal analógico, porém computadores são sistemas digitais. [1][2][3][7] A forma mais rudimentar de se criar sons no computador é enviando sinais “0” e “1” para o auto-falante, onde só é possível alterar a duração de cada “0” e cada “1”. O resultado é um som típico “de computador”, tais com bipes. Atualmente, esta técnica ainda é usada para gerar os sons que saem de um pequeno alto-falante que pode ser instalado na placa-mãe. Para a geração de sons mais complexos, há duas técnicas: A primeira é o uso de um conversor analógico/digital (também chamado A/D ou ADC, Analog-to-Digital Converter) para converter um som analógico em números binários. Quando o computador precisa reproduzir o som, basta ele fazer o processo inverso, remontar o som analógico a partir dos números binários coletados, através de um conversor digital/analógico (também chamado de D/A ou DAC, Digital-toAnalog Converter). Esta é a técnica usada em CDs e arquivos do tipo wav e mp3. A segunda técnica é o uso de um sintetizador para tocar notas musicais. O computador passa para o sintetizador quais notas precisam ser tocadas e qual instrumento deve ser usado. Esta é a técnica usada em trilhas sonoras de jogos e é usada por arquivos do tipo mid. Para ter estas técnicas disponíveis em um computador, é necessário ter uma “placa de som”. Antigamente, este componente era opcional. Atualmente, todas as placas-mãe vêm com áudio integrado (“on board”), permitindo que o computador possa efetuar essas tarefas sem a necessidade de um hardware adicional.
  8. 8. 7 2.2 Conversão de Áudio Figura Erro! Indicador não definido. - Uma onda sonora, em cinza, representada digitalmente em vermelho. Fonte: (http://pt.wikipedia.org/wiki/Som_digital). 2.2.1 Conversão A/D Imagine o sinal analógico, que pode ser um pequeno pedaço de uma música ou de um som qualquer (figura 2).[1] Figura 2 - sinal analógico de um som Fonte: (http://www.clubedohardware.com.br/fullimage.php?image=16569). Para converter este sinal analógico (que é uma grandeza) em uma série de números binários que depois podem ser armazenados em um CD ou em um arquivo
  9. 9. 8 de computador, o conversor analógico/digital efetua um processo de amostragem, também chamado modulação por código de pulso (PCM, Pulse-Code Modulation). Neste processo, a amplitude do sinal será lida em intervalos fixos de tempo, e convertida em um valor. Figura 3 - Conversor Analógico/Digital Fonte: (http://www.clubedohardware.com.br/fullimage.php?image=16569). 2.2.2 Taxa de Amostragem e Teorema de Nyquist A taxa de amostragem ideal é definida pelo Teorema de Nyquist-Shannon, que diz que a taxa de amostragem dever ser, no mínimo, o dobro da frequência máxima que queremos capturar. O processo de amostrar e guardar os valores dessas amostras é conhecido como Pulse Amplitude Modulation (PAM). [2][3] A partir dos pulsos PAM, podemos produzir os pulsos PCM através de um processo conhecido como quantização, onde cada amostra PAM é aproximada a um inteiro de n bits. A saída PCM corresponde ao resultado dessa quantização. Podemos calcular, a partir desse processo, denominado conversão A/D, a taxa gerada pela transmissão de informação analógica através de sinais digitais. Como a faixa de frequências capturadas por um ouvido humano está entre 20Hz e 20 kHz, qualquer som digitalizado com uma taxa de amostragem superior a 40kHz, estaria com toda a sua riqueza de detalhes, com todos os harmônicos e praticamente sem perdas, com uma qualidade final perfeita para os padrões da audição humana. Assim chegou-se à frequência de 44kHz como padrão ideal, que manteria toda a qualidade do áudio original digitalizado. Existem taxas mais altas do que 44 kHz, como taxas de 48 kHz, 96 kHz ou 192 kHz que são usadas, normalmente, em estúdios de gravação. DVDs podem usar
  10. 10. 9 taxa de amostragem de até 96 kHz e discos Blu-Ray podem usar taxa de amostragem de até 192 kHz. Se uma taxa de amostragem menor for utilizada, frequências mais altas serão cortadas, fazendo com que o som pareça “comprimido” por não possuir alta fidelidade. Figura 4 - A onda de baixo é amostrada a uma taxa que é o dobro da da onda de cima. Fonte: (http://anasoares1.wordpress.com/2011/01/31/audio-digital-frequencia-de-amostragembits-por-amostra-e-criterio-de-nyquist/). 2.2.3 Níveis de Quantização O processo de quantização, também chamado de tamanho do sample ou sample size, é, basicamente, a conversão de valores de amostras contínuas em valores discretos, ou seja, a medida discreta da intensidade do sinal. Essa discretização da amplitude é usualmente definida em termos de números de bits. Uma conversão de 8 bits proporciona a representação de 28 estados, ou 256 níveis de quantização. [1][3] Supondo uma quantização de 256 níveis e uma amostragem de 6 Hertz (6 ciclos por segundo) e uma faixa de tensão de 10 volts, de -5V a +5V. Cada segundo vai ser divido por 6 amostras. Cada amostra é um valor discreto que foi quantizado de forma a representar a tensão elétrica correspondente. A faixa de tensão foi convertida em uma tabela de 256 estados (0 – 255) que vão representar toda a variação possível. 128 estados para a faixa negativa do sinal e 128 estados para a faixa positiva do sinal, ou seja, 0 a 128 ⇔ - 5V a 0V ∧ 129 a 255 ⇔ 0,1V a 5V.
  11. 11. 10 Figura 5 - Onda contínua e amostragem Fonte: (http://www.eps.ufsc.br/disserta96/tafner/cap5/cap5.htm). 2.2.4 Conversão D/A Pode-se demonstrar que um trem de pulsos PCM, obtido pela amostragem de um sinal em uma frequência maior ou igual à dada pelo teorema de Nyquist, tem o mesmo espectro de frequência que o sinal amostrado, no intervalo de frequências dado pela banda passante desse sinal. A conversão D/A se faz, então, pela simples passagem do trem de pulsos PCM por um filtro na faixa passante (e, assim, com a largura de banda) do sinal originalmente amostrado. [1][3] Não fosse pelo erro de quantização, o sinal obtido da saída do filtro seria idêntico ao sinal analógico original. O sinal de saída é tão mais próximo do sinal original quanto menor for o erro de quantização. O erro de quantização, por sua vez, é tão menor quanto maior o número de níveis de quantização, ou seja, quanto maior o número de bits utilizados na codificação. 2.2.5 Número de Canais O número de canais é simplesmente definir se o som será mono ou estéreo. Arquivos mono possuem apenas um canal de áudio, e quando são reproduzidos em equipamento estéreo enviam o mesmo sinal para ambos os canais. Já arquivos estéreos possuem dois canais de áudio e podem enviar sinais completamente diferentes para os canais esquerdo e direito. Se dois arquivos (um mono e outro estéreo) usam a mesma taxa de amostragem e a mesmo tamanho de amostragem, é óbvio que o tamanho do arquivo estéreo será exatamente o dobro do mono.
  12. 12. 11 2.3 Representação do som O som é comumente representado pela sua modulação de amplitude (eixo x) em função do tempo (eixo y). Figura 6 - Especto de modulação de amplitude. Fonte: (http://pt.kioskea.net/contents/50-o-som-digital). 2.3.1 Digitalização do Som No processo de digitalização do som, este é capturado da “natureza” e armazenado em dispositivos sob a forma de dados binários. A palavra capturar é substituída muitas vezes pela palavra samplear, essa palavra deriva do inglês sample, que significa amostra. Resumidamente, um sample é um número que expressa a amplitude da onda sonora em determinado momento, ou seja, uma amostra dessa onda. Quando falamos que um som foi sampleado, quer dizer que várias amostras consecutivas foram convertidas em números. Esses números são armazenados internamente na forma de bits. [1][2][3] O processo de digitalização permite que absolutamente qualquer som do mundo exterior seja transformado num arquivo de computador. Se por um lado ficou mais fácil para o artista independente gravar sua música em um estúdio caseiro e distribuí-la, por outro lado também ficou mais fácil infringir os direitos autorais e distribuir música dos outros sem qualquer custo para quem consome. Esta facilidade toda existe porque digitalizar áudio é um processo extremamente fácil. Na captura do som não existe nada de novo, pois ela continua sendo feita através de um microfone que transforma onda sonora em impulsos elétricos. Só que em vez desses impulsos serem convertidos em sinais magnéticos e gravados numa
  13. 13. 12 fita, eles serão transformados numa longa sequência de dígitos binários, que irão representar a forma de onda daquele som. No momento da reprodução, essa onda será novamente reconstruída, transformada em impulsos elétricos e enviada para as caixas acústicas. Entre essas duas etapas do processo, o som em sua forma binária pode ser alterado, manipulado e tratado, podendo ter sua qualidade melhorada, criando novos efeitos e até descaracterizando o som original. 2.3.2 Parâmetros para digitalização do som No momento da digitalização do som alguns parâmetros importantes devem ser definidos: taxa de sampleamento (sample rate) ou taxa de amostragem, tamanho do sample (sample size) ou quantização, e o número de canais. A combinação de valores desses parâmetros irá definir a qualidade do áudio digital e a quantidade de memória necessária para armazená-lo. Existem diversos softwares que manipulam esses parâmetros, mas o ideal é que eles sejam definidos no momento da gravação. Um som gravado em baixa qualidade e melhorado depois não possui a mesma qualidade de um já digitalizado com valores mais elevados, pois apesar do software tentar elevar a qualidade do arquivo, ele não tem como adivinhar a informação que foi omitida para o arquivo ficar menor. A taxa de sampleamento define com que frequência amostras da onda sonora são capturadas e digitalizadas. Por isso podemos chamá-la também de taxa de amostragem. Um sample é uma pequena parte do som (muitas vezes com duração menor que 1/44000 segundo), esta taxa define exatamente a duração dessa pequena parte do som. Quanto maior esta duração, menor será a qualidade do áudio, pois a taxa de amostragem seria muito baixa (geralmente esta taxa varia entre 11kHz e 48 kHz, ou seja, de 11.000 a 48.000 amostras por segundo). Em outras palavras, quanto maior for a taxa de amostragem, mais informações sobre a onda serão capturadas num mesmo intervalo de tempo, e consequentemente o som terá maior precisão e melhor qualidade. A combinação entre a taxa de sampleamento e o tamanho do sample é que define efetivamente a qualidade final do áudio digitalizado. Definiu-se a combinação 16 bits a 44,1KHz como a ideal, esta é utilizada na gravação de CDs, que utiliza a mesma técnica descrita acima, chamada PCM, também usado para designar
  14. 14. 13 arquivos de som digitalizado em formato não comprimido, como o Wave. A única diferença desses tipos de arquivos para os dados do CD é que estes não são formatados (não estão divididos em blocos, não possuem cabeçalhos, informações de versões e etc), mas sim gravados no seu formato puro (raw data).[1][2][3][7] 2.4 Compressão e Compactação Um sinal digital, em geral, carrega muita informação redundante. Se eliminarmos essa redundância conseguimos reduzir em muito a quantidade de bits gerados, que em alguns casos pode ser muito grande. Quando eliminamos apenas a redundância de um sinal, não há perda de informação e dizemos que fizemos uma compactação, ou compressão sem perdas. No entanto, podemos também diminuir a quantidade de bits com alguma perda de informação. Dependendo de quem for o usuário da informação, parte dela pode ser considerada pouco útil. Raramente é necessário manter o sinal original intacto no caso das mídias vídeo, áudio e imagens estáticas, uma vez que o usuário final perderia de qualquer forma parte da informação por limitações físicas; que é o caso do ouvido e olho humano. Vemos assim que a quantidade de informação que podemos perder pode ser dependente do usuário, mas ela também pode depender da tarefa em desenvolvimento. Quando na redução dos dados gerados há perda de informação, dizemos que fizemos uma compressão com perdas, ou simplesmente compressão. [3] 2.5 Formatos de Áudio [4] 2.5.1 Formatos não-comprimidos Formatos não comprimido garante qualidade máxima, pois não modifica nenhum bit do original. Em contrapartida, exigem espaço. Um CD de áudio utiliza o CDDA (Compact Disc Digital Audio) e suporta 80 minutos de música, por exemplo. WAV e AIFF são exemplos de não comprimidos.
  15. 15. 14 2.5.1.1 WAV WAV é a sigla para Waveform Audio File Format, e foi desenvolvido pela Microsoft e IBM para armazenamento de áudio em PCs. É baseado em PCM e não “sacrifica” dados, portanto exige bastante espaço. Em média, ocupa até 10 MB por minuto. É compatível com praticamente qualquer tocador atual. Pela qualidade máxima, é indicado para edições, mixagens e trabalhos profissionais. Como limitação, arquivos nesse formato não podem ter mais que 4 GB. As extensões comuns são WAV e WAVE. Figura 7 - Cabeçalho de um arquivo WAV Fonte: (https://ccrma.stanford.edu/courses/422/projects/WaveFormat/).
  16. 16. 15 2.5.1.2 AIFF AIFF é a sigla para Audio Interchangeable File Format, e pode-se dizer que é para a Apple o que WAV é para a Microsoft. Também baseado em PCM, é um formato não comprimido, portanto de qualidade, mas que demanda espaço. A extensão comum é AIFF ou AIF, mas a lista de tocadores compatíveis é um pouco menor que o formato WAV. Figura 8 - Cabeçalho de um arquivo AIFF Fonte: (http://www.paulbourke.net/dataformats/audio/).
  17. 17. 16 2.5.2 Formatos Comprimidos Os formatos comprimidos, como o nome sugere, comprimem dados com o intuito de diminuir o tamanho deles. Formatos como APE, FLAC e M4A são conhecidos como lossless e capazes de comprimir áudio sem perder qualidade. Outros formatos comprimem ainda mais os arquivos, ganhando muito espaço. No entanto, eles já utilizam o princípio de abrir mão da qualidade absoluta para ganhar mais espaço e comodidade. Uma maneira de conseguir isso é remover faixas de áudio teoricamente imperceptíveis pelo ouvido humano. Há perda de qualidade, mas muitas vezes ela é realmente imperceptível. Por isso, formatos comprimidos são mais populares para o usuário comum. Um exemplo é o MP3. 2.5.2.1 FLAC É a sigla para Free Lossless Audio Codec, criado em 2003. Como afirmam os desenvolvedores, é como se fosse um ZIP, porém feito especificamente para áudio e com a vantagem de poder ser executado em vários players. Ele também é baseado em PCM, e os dados têm uma espécie de assinatura que permitem a conferência da integridade do arquivo. Uma vantagem do formato é o cue sheet, ou seja, um arquivo com todas as referências para a divisão de faixas de um álbum. Por exemplo, é possível ripar um CD em um único arquivo e utilizar o cue sheet para dividir as faixas. O player ou gravador, neste caso, precisa ser compatível com a extensão CUE. A velocidade de codificação nesse formato é rápida e exige menos processamento em comparação com outros codecs. Ele é não proprietário e pode ser usado livremente. A popularidade do formato cresce com o aumento da velocidade da conexão com a internet. Arquivos FLAC ultrapassam a marca dos 1000 kbps, atestando a qualidade de áudio.
  18. 18. 17 2.5.2.2 APE Esta é a extensão do Monkey Lossless Audio File, outra maneira de comprimir áudio sem perder qualidade, que também se descreve como um ZIP para músicas. Tem código aberto disponível, e conta com sistema de detecção de erros e sistema próprio de tags. Em comparação com FLAC, apresenta melhores índices de compressão, porém requer mais recursos de processamento, de acordo com resultados de benchmarks. 2.5.2.3 ALAC Sigla para o formato Apple Lossless Encoder. O MP4 é um tipo de extensão que utiliza esse formato, juntando áudio e vídeo em um container. M4A é uma extensão com as faixas de áudio de filmes com codec MPEG-4. FLAC, APE e ALAC em média digitalizam áudio com a metade do tamanho do arquivo original, podendo variar entre 40% e 60%. Esses formatos são bons para edição e para usuários que prezam pela qualidade máxima. Uma opção para um backup de sua coleção de CDs, por exemplo. Imagine que você fez toda sua coleção em MP3, e aí percebe que surgiu uma tecnologia melhor? Ao fazer o backup com uma tecnologia sem perda, as cópias permanecem fiéis aos originais independentemente dos avanços. 2.5.2.4 MP3 MP3 é o formato mais popular, compatível com tudo o que é software e player de mídia. Criado na Alemanha, o formato utiliza a codificação perceptual, ou seja, codifica somente as frequências sonoras captadas pelo ouvido humano. A razão do sucesso do MP3 é o fato de conseguir equilibrar bons índices de compressão e qualidade. Há, sim, a perda de qualidade se comparado com o original, mas em níveis praticamente imperceptíveis para a maioria dos usuários. O MP3 chega a criar arquivos com 10% do tamanho de arquivos PCM.
  19. 19. 18 MP3 chega ao máximo de 320 kbps. Entre 192 kbps e 320 kbps, a qualidade é comparável a um CD. Entre 128 kbps e 192 kbps, algumas pessoas já constatam perda de qualidade, mas isso depende muito de quem ouve. Figura 9 - Representação do Header de MP3 Fonte: (http://www.google.com/patents/EP1384230A1?cl=en). 2.5.2.5 OGG Vorbis É um formato não proprietário e até mesmo com melhores taxas de compressão que o MP3. Porém, a explosão do MP3 faz com que o suporte e a divulgação para OGG encontre muitas dificuldades. Além disso, o fato de ser código aberto dificulta a padronização do formato. Os desenvolvedores afirmam que o formato foi desenvolvido para “substituir completamente todos os formatos patenteados e proprietários”. O MP3 é uma extensão proprietária, e esse é o atrativo que o OGG tenta chamar em artistas e
  20. 20. 19 gravadoras. De uns tempos para cá, o IGG vem sendo consideravelmente utilizado em jogos. 2.5.2.6 AAC Sigla para Advanced Audio Coding (Codificação Avançada de Áudio) é considerado o mais forte concorrente do MP3. O formato é baseado no padrão MPEG-4 e foi popularizado pela Apple, que aderiu ao formato no iPod e no iTunes, até mesmo vendendo os arquivos de áudio da loja nesse formato, em detrimento ao MP3. Testes mostram que o formato AAC têm mais flexibilidade do que o MP3, como consequência maior qualidade de compressão. De maneira geral, o formato AAC tem melhor qualidade em taxas de bit menores (128 kbps, por exemplo). O AAC não é um formato proprietário, apesar do que aparenta. A confusão se dá pela adoção da Apple, mas não se confirma. O AAC é suportado por dispositivos da Sony, PSP, Nintendo DSi, Xbox 360, Zune, iPod, iPhone, Windows Mobile. Em termos de software, Media Player Classic, BSPlayer, Foobar, AIMP e Winamp são alguns compatíveis. 2.5.2.7 WMA Formato da Microsoft, ele tem habilidades de cópias com proteção de conteúdo, em resposta aos problemas de distribuição que polemizam o MP3. É uma tecnologia proprietária com quatro codecs distintos: WMA como competidor do MP3; WMA Pro, mais moderno e com suporte para áudio de alta definição; WMA Lossless, que comprime sem perda de qualidade; e WMA Voice, destinado e conteúdos de voz com codificação em baixas taxas de bit. O WMA surgiu com a promessa de criar arquivos equivalentes a MP3 com metade do tamanho, porém não vingou. No entanto, em taxas baixas, de 128 kbps, a qualidade dos dois é comparável.
  21. 21. 20 3 IMAGEM O termo "imagem" abrange um vasto leque de documentos iconográficos ou de ilustrações, incluindo pinturas, gravuras, posters, cartões postais, fotografias, etc. Uma imagem contém uma imensa quantidade de informações e que um observador humano interpreta frequentemente globalmente e qualitivamente. [6] Figura 10 - Representação de uma imagem Bitmap Fonte: (http://www.musci.com.br/multimidia/ImagensDesenhos3D.pdf). 3.1 Definição Uma imagem é composta por um conjunto de pontos, denominados "Pixels" (Picture Elements) ou "Dots". Estes "pixels" estão dispostos na tela do computador formando uma matriz de pontos que é denominada de "Bit-Map" ou "Mapa de Bits". [5][6] Este mapa de bits é um reticulado onde cada elemento da matriz possui uma informação referente a cor associada aquele ponto específico. Uma determinada imagem possuirá também uma "resolução" associada a ela, que é o número de elementos que esta imagem possui na horizontal e na vertical. Cada elemento da imagem possuirá uma localização, que é definida pela suas coordenadas.
  22. 22. 21 3.2 Pixel É o menor ponto que forma uma imagem digital, sendo que o conjunto de milhares de pixels formam a imagem inteira. Cada pixel é composto por um conjunto de 3 pontos: verde, vermelho e azul. E cada ponto é capaz de exibir 256 tonalidades diferentes, que juntos podem exibir pouco mais de 16.7 milhões de cores diferentes. Quanto mais pixels utilizados para representar uma imagem, mais real ela se torna. Algumas vezes, o número de pixels em uma imagem é chamado de resolução, embora a mesma tenha uma definição mais específica. Os pixels que formam uma imagem digitalizada podem ou não estar em uma correspondência de "um para um" com pixels da tela do computador, isso depende como o monitor do computador está configurado para exibir uma imagem. Existem vários outros termos que podem ser sinônimos de pixel, tais como sample, byte, bit, dot, spot, etc. Figura 11 - Representação de uma imagem ao nível de pixels. Fonte: (http://www.ogimp.com.br/wp-content/uploads/2009/09/pixel-mario.gif).
  23. 23. 22 3.3 Imagem bitmap Também chamada de imagem "raster" ou matricial, é a representação em duas dimensões de uma imagem como um conjunto finito de pontos definidos por valores numéricos, formando uma matriz matemática ou malha de pontos, onde cada ponto é um pixel. E cada pixel contem 3 cores, e cada cor contem 256 tons dessa mesma cor. E juntas formam a cor do pixel. Ao se aumentar (dar zoom) as dimensões da imagem, os pixels se distribuem por uma área maior, tornando a imagem mais indefinida. Por isso a qualidade da imagem se dá sobre dois aspectos: a quantidade de pixels por polegada (PPIs) e o número de pixels na horizontal e na vertical (tamanho da imagem em centímetros). Por exemplo: Se uma imagem que possui 1000 pixels x 1000 pixels, isso significa dizer que ela possui 1 milhão de pixels ou que possui 1MP (mega pixel). Só essa informação não basta para saber se a imagem é de boa definição. Para uma boa definição é preciso que a imagem tenha 300 PPIs, permitindo assim que se faça cópias de alta qualidade em papel fotográfico, por exemplo.[5] Figura 12 - Imagem Raster (bitmap) Fonte: (http://edpexpression.wordpress.com/articulos/vectores-vs-bitmaps/).
  24. 24. 23 3.4 Imagem Vetorial A imagem vetorial é criada recorrendo a entidades de desenhos como retas, pontos, curvas, polígonos, entre outros elementos paramétricos, isto é, utilizam-se vetores matemáticos para sua descrição, ou seja, ela é não é composta por pixels e sim por linhas e curvas, nas quais combinando-se podem formar objetos complexos.[5] Cada linha descrita em um desenho vetorial possui nós, e cada nó possui alças para manipular o segmento de reta ligado a ele. Por serem baseados em vetores, essas imagens geralmente são mais leves e não perdem qualidade ao serem ampliados, já que as funções matemáticas adequam-se facilmente a escala, o que não ocorre com imagens raster que utilizam métodos de interpolação na tentativa de preservar a qualidade. Existe um tipo de imagem que mistura o calculo matemático e a imagem raster: imagem fractais Figura 13 - Imagem Vetorial Fonte: (http://coizaradas.blogspot.com.br/2011/07/o-que-sao-desenhos-vetoriais.html).
  25. 25. 24 3.5 Representação de imagem digital Figura 14 - Imagem Binária Fonte: (http://pt.wikipedia.org/wiki/Imagem_binária). 3.5.1 Amostragem e Quantização Para gerar uma imagem digital f (x,y) deve ser digitalizada ao longo de x e y, e na amplitude z = f (x,y). Para tanto é feita uma amostragem de f (x,y) nas direções x e y, gerando uma matriz N x M amostras, seguida de uma quantização do valor de f (x,y) em L níveis inteiros de cinza. Nesta matriz, cada elemento p (x,y) é chamado de pixel. Dizemos então que a imagem tem M pixels na horizontal (eixo x) e N pixels na vertical (eixo y) ou que a imagem tem n dpi (pontos por polegadas) na qual pode ser chamada de resolução da imagem. [5][7] Figura 16 - Representação de uma imagem monocromática digital Fonte: (http://radiologiaeinovacao.files.wordpress.com/2010/06/imagem-digital-wwwradiologiaeinovacao-com-br.pdf).
  26. 26. 25 Figura 15 - Matriz de pixels Fonte: (http://radiologiaeinovacao.files.wordpress.com/2010/06/imagem-digital-wwwradiologiaeinovacao-com-br.pdf). 3.5.2 Profundidade da Imagem O número L de níveis de quantização da função f (x,y) é normalmente uma potência de 2. Tomemos L como tendo um valor de 256, ou seja, cada pixel pode ter associado um valor de cinza (no caso de imagem monocromática) entre 0 e 255, que requer no máximo 8 bits para ser armazenado na memória do computador. Neste caso, dizemos que a profundidade da imagem é 8 bits por pixel (bpp) (ou 1 byte por pixel). Quando a profundidade da imagem é 1 bit por pixel (contém 2 níveis de cinza), dizemos então que ela é uma imagem binária (preto e branco).[5] Figura 17 - 8 bpp Fonte: (http://www.cambridgeincolour.com/pt-br/tutorials/bit-depth.htm). Figura 18 - 16 bpp Fonte: (http://www.cambridgeincolour.com/pt-br/tutorials/bit-depth.htm).
  27. 27. 26 Figura 19 -24 bpp Fonte: (http://www.cambridgeincolour.com/pt-br/tutorials/bit-depth.htm). 3.5.3 Imagem Monocromática Uma imagem monocromática é uma função de intensidade de luz bidimensional f(x,y), onde x e y denotam coordenadas espaciais e o f no ponto (x,y) é proporcional ao brilho (ou nível de cinza) da imagem neste ponto. [6] Figura 20 - Eixos X e Y em uma imagem monocromática. Fonte: (http://radiologiaeinovacao.files.wordpress.com/2010/06/imagem-digital-wwwradiologiaeinovacao-com-br.pdf). 3.5.4 Resolução Espacial É a quantidade de pixels ao longo de cada eixo x,y, ou seja, está associado ao espaçamento físico entre amostras. A formação da imagem é diretamente proporcional a quantidade de pontos (pixels) amostrados.[6]
  28. 28. 27 Figura 21 - Como um sensor de uma câmera divide a imagem em porções discretas e coleta uma cor (média) para cada uma delas. Fonte: (http://www.imagesurvey.com.br/2009/03/resolucao-espacial-ou-o-tamanho-do-pixel-emimagens-digitais/). A imagem forma-se no sensor da câmera fotográfica. Este sensor tem a tarefa de dividir a imagem (que é contínua) em porções discretas, e capturar um valor de cor (na verdade 3, um para cada canal RGB) para cada uma destas porções discretas, chamadas de pixels. Quanto mais pixels tiver a imagem final, ou seja, quanto maior for a resolução espacial, mais detalhes do objeto real podem ser observados na imagem. 3.5.5 Imagem Multibanda Em uma imagem digital monocromática, o valor do pixel é um escalar entre 0 e L. Imagens multibandas podem ser vistas como imagens nas quais cada pixel tem associado um valor vetorial - vários valores associados ao mesmo pixel.[6] –P(x,y) = (l1,l2,...,ln) 0<=li<=Li-1, i=1,2,...,n. onde n é o numero de bandas. Uma imagem multibanda pode também estar associada a uma sequência de imagens monocromáticas.
  29. 29. 28 Figura 22 - (a) uma imagem com n bytes por pixel. (b) n bandas com um byte por pixel. Fonte: (http://www.dcc.unicamp.br/~cpg/material-didatico/mo815/9802/curso/node8.html). 3.5.6 Imagem Colorida Uma imagem colorida é uma imagem multibanda, onde a cor em cada ponto (x,y) é definida através de três grandezas luminância (brilho da luz), matiz (comprimento da onda dominante) e saturação (grau de pureza da matiz). Uma imagem colorida é representada por 3 bandas: Red, Green e Blue com profundidade byte por pixel.[6] Figura 2 - Niveis de Cores RGB Fonte: (http://davidnaylor.org/blog/2005/02/all-16777216-rgb-colours/).
  30. 30. 29 3.6 Formatos de Imagens [5][6][7] 3.6.1 Formatos não-comprimidos 3.6.1.1 BMP As imagens neste formato podem suportar milhões de cores e preservam os detalhes. No entanto, os arquivos neste padrão costumam serem muitos grandes, já que não utilizam compressão. Isso até é possível em imagens com 256 cores ou menos, mas não é comum. Imagens BMP podem variar de preto e branco (1 bit por pixel) de até 24 bits de cores (16,7 milhões de cores). Por exemplo, uma imagem de 800×600 ocupa cerca de 1,5 megabytes. Porém, ele é livre de patentes e é bem documentado. Por sua qualidade ser inferior, sempre é utilizada em menor tamanho para fácil visualização. Estas imagens são armazenadas em um formato dispositivo-independente bitmap (DIB). O termo “independente de dispositivo” significa que o bitmap especifica a cor do pixel em uma forma independente do método usado por um dispositivo de exibição para representar a cor estes arquivos são encontrados em dois formatos: O formato OS/2 não é comprimido (RGB codificado) e os arquivos Windows BMP e de DIB podem ser salvados sem usar qualquer compressão (RGB codificado). 3.6.2 Formatos comprimidos 3.6.2.1 Com Perda de dados (lossy) 3.6.2.1.1 JPEG O formato JPEG (Joint Photographic Experts Group), é sem dúvida o formato mais popular para exibição de imagens fotográficas na Web. JPEG usa um esquema de compressão de lossy, porém podemos definir a
  31. 31. 30 quantia de compressão e consequentemente trocamos tamanho de arquivo por qualidade de imagem. Podemos até mesmo obter arquivos extremamente pequenos com qualidade pobre. Vale ressaltar que cada vez que uma imagem JPEG é salva, costuma-se perder qualidade, pois, geralmente o software utilizado para tratá-la aplica compressão, toda vez que essa ação é realizada. JPEG apoia cor de 24-bit enquanto que o GIF, outro formato extensamente usado na Web apoia só 8-bits. A compressão é executada em blocos de pixels de oito em cada lado. JPEG é um processo de dois estágios com algoritmos de compressão e descompressão. Isto significa que ele leva mais muito tempo para carregar e exibir que um arquivo de gif. Você pode salvar imagens em um formato JPEG progressivo que trabalha um pouco como um GIF interlaçado. Enquanto um JPEG padrão carrega de cima para baixo, um JPEG progressivo exibe a imagem inteira que começa com os blocos maiores. Isto permite exibir a imagem primeiro em baixa resolução e então preenche-la quando mais dados chegam. 3.6.2.2 Sem perda de dados (lossless) 3.6.2.2.1 GIF O formato GIF gera arquivos de tamanho reduzido, no entanto, seu uso não é muito comum em fotografias, já que é capaz de trabalhar com apenas 256 cores (8 bits), chamadas de (cores indexadas). Assim, sua utilização é muito comum em ícones, ilustrações ou qualquer tipo de imagem que não necessita de muitas cores. Uma de suas características é que o GIF passou a permitir a inserção de uma sequencia de imagens em um único arquivo. Quando um GIF é exibido, cada uma das imagens inseridas é mostrada seguindo uma ordem, dando ao usuário a sensação de movimento. Outra característica é que ele é capaz de permitir um efeito conhecido como fundo transparente. O GIF pode ter áreas da imagem que assimilam a cor do local onde está sendo exibida, como se fosse, de fato, uma transparência. Exemplo: Se em uma pagina estiver um fundo vermelho, as áreas “transparentes” do arquivo
  32. 32. 31 serão mostradas na mesma cor. Diferente do JPEG, mesmo usando compressão, não causa perda de qualidade. Para salvar uma imagem de 24 bits como um GIF, você tem que reduzir a profundidade do bit até 8 bits. Para reduzir tamanhos de arquivo em formatos GIF, você pode reduzir o número de cores na imagem. Isto é difícil com a maioria das fotografias, mas não com desenhos. Por exemplo, se sua imagem tem 16 ou menos, você pode convertê-la para uma paleta de 4-bit (16-cores). 3.6.2.2.2 PNG A maior característica do PNG é que ele tem: animação, fundo transparente e compressão sem perca de qualidade, mesmo com salvamentos constantes do arquivo. E é diferenciado dos outros, pois suporta milhões de cores, não apenas 256, sendo assim, uma ótima opção para fotos. Na animação o PNG por si só não teria tal capacidade, há uma variação chamada APNG. O esquema é o mesmo do padrão GIF: uma sequência de imagens inseridas em um único arquivo. No caso, a primeira imagem é um arquivo PNG "normal", que é exibido em situações onde, por algum motivo, a animação não pode ser executada. PNG é talvez um pouco mais lento para ler ou escrever. Ele ainda é menos utilizado do que TIF ou JPG, mas é outra boa opção para um trabalho de qualidade sem perdas. 3.6.2.2.3 TIFF O formato TIFF salva imagens criadas por scanners, frame grabbers e programas que editam fotografia. Existem variações do formato, chamadas extensões, assim pode ocorrer problemas ocasionais ao abrir um de outra fonte. O formato TIFF oferece grande quantidade de cores e excelente qualidade de imagem, o que aumenta consideravelmente o tamanho dos seus arquivos, embora seja possível amenizar este aspecto com compressão sem perda de informações. Um detalhe interessante é que o formato TIFF suporta o uso de camadas, isto é, podem-se utilizar versões diferenciadas da imagem a ser trabalhada em um único arquivo. Algumas versões são comprimidas usando o LZW ou outros métodos de lossless. Arquivos TIFF suportam cores de até 24-bit. Imagens em TIFF geralmente utilizam extensão .tif ou .tiff e suportam "fundo transparente".
  33. 33. 32 4 CONCLUSÃO Este trabalho é resultado de um estudo amplo sobre tal assunto, que exigiu, no decorrer do mesmo, análise, síntese e reflexão. Uma das vantagens oferecidas e que considero a mais importante foi o conhecimento que tive a respeito de como funciona a conversão digital de uma informação analógica, bem como os tipos de arquivos, métodos de compressão, melhores taxas de amostragem, alguns termos técnicos, etc. Foi um estudo realmente, muito interessante e instrutivo. Concluindo que, questões como qualidade e fidelidade de uma conversão analógico digital ainda é muito discutido. Existem argumentos de que a tecnologia ainda está atrás da digitalização perfeita. Com equipamentos cada vez mais tecnológicos, creio que daqui a pouco será possível armazenar todas as informações analógicas em um formato digital.
  34. 34. 33 REFERÊNCIAS [1] E. M. Miletto, L. L. Costalonga, L. V. Flores, E. F. Fritsch, M. S. Pimenta e R. M. Vicari “Introdução à Computação Musical” . Disponível em: <http://www.inf.ufrgs.br/lcm/site_arquivos/textos/aula1/CMintro2.pdf> Acesso em: 19 jun. 2013 [2] Maria Cristina Felippetto De Castro “Capítulo 3 − Fundamentos de Comunicação de Dados” de “Teleprocessamento I”. Disponível em: <http://www.feng.pucrs.br/~decastro/TPI/TPI_Cap3_parte2.pdf> Acesso em: 19 jun. 2013 [3] Diogo Pinheiro Fernandes Pedrosa “Conceitos Básicos de Áudio Digital”. Disponível em: <http://www2.ufersa.edu.br/portal/view/uploads/setores/164/arquivos/SistemaMultimi dia/aula07_audio_digital.pdf> Acesso em: 14 jun. 2013 [4] “As diferenças entre os formatos de áudio”. Disponível em: <http://www.acidezmental.xpg.com.br/as_diferencas_entre_os_formatos_de_audio.h tml> Acesso em: 19 jun. 2013 [5] Emerson Goia “Introdução ao processamento de imagens”. Disponível em: <http://www.goya.pro.br/aula/dwnload/webdesign/Introd_proc_img.pdf> Acesso em: 16 jun. 2013 [6] Antonio G. Tomé “Aquisição e Representação da imagem digital”. Disponível em: <http://equipe.nce.ufrj.br/thome/p_grad/nn_img/transp/c2_aquis_v2.pdf> Acesso em: 18 jun. 2013 [7] Prof. Roberto Willrich “Sistemas Numéricos e a Representação Interna dos Dados no Computador”. Disponível em: <http://www.inf.ufsc.br/~willrich/Ensino/INE5602/restrito/ii-cap2.PDF> Acesso em: 15 jun. 2013

×