1. Análise Comparativa:
MP3 e AAC
Bernardo de Campos Vidal Camilo
Pedro de Vasconcellos
Rachel Gonçalves de Castro
22/11/2014 Universidade Federal do Rio de Janeiro 1
2. Roteiro
• Introdução
– Motivação
– MPEG
– Janela
• Codificador perceptivo
• MP3
• AAC
• Conclusão
– Vantagens e desvantagens
• Bibliografia
• Dúvidas
22/11/2014 Universidade Federal do Rio de Janeiro 2
3. Introdução - Motivação
• Grande evolução na codificação de áudio
• Mais “populares”
– MP3 e AAC
• “Qual codec apresenta maior qualidade?”
22/11/2014 Universidade Federal do Rio de Janeiro 3
4. Introdução - MPEG
• Moving Pictures Expert Group
– Organização Internacional de Normalização
– Estabelecer normas internacioanis para codificação de
áudio
• MP3
– MPEG-1 Layer 3
• AAC
– MPEG-2
• Compressão com perdas
– Irrelevância perceptiva do sistema auditivo
– Redundância estatística
22/11/2014 Universidade Federal do Rio de Janeiro 4
5. Introdução - MPEG
• Evolução:
22/11/2014 Universidade Federal do Rio de Janeiro 5
6. Introdução - MPEG
• Aplicações:
– Produção de áudio
– Transmissão de som televiso
– Armazenamento digital
22/11/2014 Universidade Federal do Rio de Janeiro 6
23. Codificador Perceptivo
Banco de Filtros:
• Domínio do tempo domínio da frequência
Modelo perceptivo:
• Computar estimativa do limiar de mascaramento usando regras da psico-acústica
Quantização e Codificação:
• Componentes espectrais são quantizados e codificados com o objetivo de manter o
ruído, introduzido pela quantização, abaixo do limiar de mascaramento
Codificação de bitstream:
• Juntar o bitstream (coeficientes espectrais + outras informações)
22/11/2014 Universidade Federal do Rio de Janeiro 23
25. MP3
• Banco de Filtro polifásico
– Divide o sinal em 32 sub-bandas
22/11/2014 Universidade Federal do Rio de Janeiro 25
26. MP3
• MDCT (Modified Discrete Cosine Transform)
– Converte o sinal para o domínio da frequência
– Divide cada sub-banda em 18 mais finas
32 * 18 = 576 linhas de frequência
– Melhor eliminação de redundância
22/11/2014 Universidade Federal do Rio de Janeiro 26
27. MP3
• FFT 1024 Points (Fast Fourier Transform)
– Converte o sinal para o dimínio da frequência
– Maior resolução da frequência
– Cálculo do limiar de mascaramento
22/11/2014 Universidade Federal do Rio de Janeiro 27
28. MP3
• Modelo Psico-Acústico
– Leva em consideração a sensibilidade do ouvido
humano
– Frequências entre 20Hz a 20KHz
– Limiar de audição
22/11/2014 Universidade Federal do Rio de Janeiro 28
29. MP3
• Modelo Psico-Acústico
– Mascaramento em frequência
– Mascaramento temporal
22/11/2014 Universidade Federal do Rio de Janeiro 29
30. MP3
• Modelo Psico-Acústico
– Limiar de mascaramento
22/11/2014 Universidade Federal do Rio de Janeiro 30
31. MP3
• Codificação de Huffman
– Utiliza a probabilidade de ocorrência para
construir uma árvore de codificação
22/11/2014 Universidade Federal do Rio de Janeiro 31
32. MP3
• Quantização e codificação
– Codifica com menor precisão valores grandes
– Dois loops:
• Rate Control Loop
• Distortion Control Loop
22/11/2014 Universidade Federal do Rio de Janeiro 32
33. MP3
• Rate Control Loop
– Número de bits resultante deve ser menor que
número de bits disponível
– Passo de quantização aumenta valores
quantizados diminuem
22/11/2014 Universidade Federal do Rio de Janeiro 33
34. MP3
• Distortion Control Loop
– Controla ruído causado pelo processo de
quantização
– Ruído abaixo do limiar de mascaramento
– Fatores de escala
22/11/2014 Universidade Federal do Rio de Janeiro 34
35. MP3
• Formatação de Bitstream
– Armazena o som codificado em frames
– Cada frame contem informação de 1152 amostras
de áudio
22/11/2014 Universidade Federal do Rio de Janeiro 35
36. AAC
Gain
Control
Filter
Bank
TNS
Intensity
/
Coupling
Bitstream
Output Data
Bitstream Multiplexer
Prediction M/S
Scale
Factors
Quant.
Control
Noiseless
Coding
Rate/Distortion Control
Input
time
signal Spectral Processing
Perceptual Model
Quantization and
Noiseless Coding
22/11/2014 Universidade Federal do Rio de Janeiro 36
37. AAC
• Gain Control
– Opcional
– Normalmente não usado
– PQF (filtro polifásico de quadratura)
• 4 bandas de frequência igualmente espaçadas
• Taxas de amostragem ajustáveis
22/11/2014 Universidade Federal do Rio de Janeiro 37
38. AAC
Gain
Control
Filter
Bank
TNS
Intensity
/
Coupling
Bitstream
Output Data
Bitstream Multiplexer
Prediction M/S
Scale
Factors
Quant.
Control
Noiseless
Coding
Rate/Distortion Control
Input
time
signal Spectral Processing
Perceptual Model
Quantization and
Noiseless Coding
22/11/2014 Universidade Federal do Rio de Janeiro 38
39. AAC
• Filter Bank
– MDCT Puro, 50% sobreposição
• Aplicado diretamente sobre os frames, antes da divisão
em 32 sub-bandas
• Long window: 2048 amostras
• Short window: 256 amostras (x8)
– 1024 linhas de frequência
22/11/2014 Universidade Federal do Rio de Janeiro 39
40. AAC
Gain
Control
Filter
Bank
TNS
Intensity
/
Coupling
Bitstream
Output Data
Bitstream Multiplexer
Prediction M/S
Scale
Factors
Quant.
Control
Noiseless
Coding
Rate/Distortion Control
Input
time
signal Spectral Processing
Perceptual Model
Quantization and
Noiseless Coding
22/11/2014 Universidade Federal do Rio de Janeiro 40
41. AAC
• TNS (Temporal Noise Shaping)
– Opcional
– Molda o ruído de quantização no domínio do
tempo
22/11/2014 Universidade Federal do Rio de Janeiro 41
42. AAC
• TNS (Temporal Noise Shaping)
Sinal Original Ruído quantizado com TNS Ruído quantizado sem TNS
22/11/2014 Universidade Federal do Rio de Janeiro 42
43. AAC
• TNS (Temporal Noise Shaping)
Sinal Original
Quantizado com TNS
Quantizado sem TNS
22/11/2014 Universidade Federal do Rio de Janeiro 43
44. AAC
Gain
Control
Filter
Bank
TNS
Intensity
/
Coupling
Bitstream
Output Data
Bitstream Multiplexer
Prediction M/S
Scale
Factors
Quant.
Control
Noiseless
Coding
Rate/Distortion Control
Input
time
signal Spectral Processing
Perceptual Model
Quantization and
Noiseless Coding
22/11/2014 Universidade Federal do Rio de Janeiro 44
45. AAC
• Intensity/Coupling
– Opcional
– Combina dois canais stereo (left/right) em um só
(mono)
– Explora redudâncias na região de alta frequência
22/11/2014 Universidade Federal do Rio de Janeiro 45
46. AAC
Gain
Control
Filter
Bank
TNS
Intensity
/
Coupling
Bitstream
Output Data
Bitstream Multiplexer
Prediction M/S
Scale
Factors
Quant.
Control
Noiseless
Coding
Rate/Distortion Control
Input
time
signal Spectral Processing
Perceptual Model
Quantization and
Noiseless Coding
22/11/2014 Universidade Federal do Rio de Janeiro 46
47. AAC
• Prediction
– Opcional
– Usado para minimizar redundâncias
– Eficiente em sinal estacionário/periódico
– Aproveita semelhanças dos coeficientes
quantizados de blocos adjacentes
22/11/2014 Universidade Federal do Rio de Janeiro 47
48. AAC
• Prediction
2 frames seguidos com um mesmo padrão
22/11/2014 Universidade Federal do Rio de Janeiro 48
49. AAC
• Prediction
Comparação
22/11/2014 Universidade Federal do Rio de Janeiro 49
50. AAC
• Prediction
Transformada
22/11/2014 Universidade Federal do Rio de Janeiro 50
51. AAC
• Prediction
Coeficientes
divididos em
bandas
Resíduo enviado
(acima)
22/11/2014 Universidade Federal do Rio de Janeiro 51
52. AAC
Gain
Control
Filter
Bank
TNS
Intensity
/
Coupling
Bitstream
Output Data
Bitstream Multiplexer
Prediction M/S
Scale
Factors
Quant.
Control
Noiseless
Coding
Rate/Distortion Control
Input
time
signal Spectral Processing
Perceptual Model
Quantization and
Noiseless Coding
22/11/2014 Universidade Federal do Rio de Janeiro 52
53. AAC
• M/S
– Opcional
– Converte um sinal stereo em dois formatos:
• Middle (soma, L + R)
• Side (diferença, L – R)
– Não altera o sinal de cada canal (diferentemente
do intensity/coupling), que pode ser reconstruído
– Aplicado o mascaramento, verifica qual
codificação (L/R, M/S) exige menos bits
22/11/2014 Universidade Federal do Rio de Janeiro 53
54. Conclusão
• O AAC é, possivelmente, o sucessor do MP3
A melhoria da compressão oferece resultados de alta qualidade
com menores tamanhos de arquivo
Suporte para multicanais de áudio (até 48 canais de
frequência)
Melhoria na eficiência da decodificação, requerendo menos
potência
22/11/2014 Universidade Federal do Rio de Janeiro 54
55. Conclusão
• Por que o MP3 continua forte?
Familiaridade com o formato
Grande quantidade de música disponível no formato MP3
Grande variedade de hardware e software que “tira vantagem”
do formato
Ausência de restrições DRM (Digital Rights Management)
A maioria dos utilizadores não conhece ou ignora as
desvantagens do formato
22/11/2014 Universidade Federal do Rio de Janeiro 55
Limiar de audição: Outro fator utilizado pela
codificação MP3 é a curva de percepção da audição humana dentro da
faixa de freqüências audíveis, ou Limiar de Audição. Apesar da faixa de
audição humana variar entre 20Hz e 20KHz, a sensibilidade para sons
dentro desta faixa não é uniforme.
O “formatador” de bits armazena o som codificado e alguns dados adicionais em frames, onde cada frame contém informação de 1152 amostras de áudio. Uma frame é composta por um cabeçalho e dados de áudio juntamente com CRC. O cabeçalho descreve entre outras coisas, qual camada (layer), taxa de bits e a frequência de amostragem estão a ser usadas pelo som codificado.