O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
ĐỀ CƯƠNG XỬ LÝ ÂM THANH HÌNH ẢNHPhần 1 : Lý thuyếtCâu I : Các đặc trưng cơ bản của âm thanh1.1 Khái niệm về âm thanh và cá...
6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanhtạo nên sự tương phản giữa các bộ phậ...
học thấp (áp suât âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số nén cao),trong khi đó chất lỏng có trở kháng...
I = P/S = p.vBa đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ...
thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biên đổi thành tín hiệurời rạc theo thời gian) và bộ bi...
thời gian. Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi dụng được rất ítđộ dư thừa vốn có trong tiếng nói c...
b. Mã hóa ADPCM (ITUG.721, G.726, G.727)Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng thay v...
Điều này tương đương với việc quan hệ vào ra của bộ lọc tuân theo phương trình vi phântuyến tính:Mô hình LPC có thể được b...
Trước tiên, bộ mã hóa AbS phân tích tín hiệu thoại đầu vào thành các khung ngắn cóđộ dài 20 ms. Các tham số của một khung ...
thể nghe thấy các âm thanh của tiếng sáo trong một khoảng thời gian ngắn. Hiện tượngnày được gọi là che thời gian (tempora...
tả những đối tượng và đưa chúng vào một mẫu thích hợp cho các máy tính xử lý, và phânloại từng đối tượng. Mức trung có đặc...
lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước1024x1024 điểm, mỗi điểm được mã hóa b...
Kết quả nhận được sau khi lấy mẫu và lượng tử hóa là chuỗi số rời rạc mô tả biến đổiđộ chói trong một dòng ảnh. Nêu thực h...
hình (sự đan xen vào nhau để cải thiện hình ảnh chuyển động, xem bên dưới); 50 đến 60khung trên giây sự chuyển động mượt m...
(tuyệt đối) thì kết quả là có độ dư thừa mã. Để giảm độ dư thừa mã, trong nén ảnh thườngSử dụng các mã VLC như mã Huffman,...
phân biệt hai loại mã hoá như sau: mã hoá Entropy (mã hoá không tổn thất) và mã hoánguồn (mã hoá có tổn thất).Câu X: Phân ...
Có hai loại VLC được ứng dụng trong mã hóa ảnh chuẩn, đó là mã hóa Huffman vàmã hóa số học. Mã hóa Huffman được sử dụng tr...
bỏ các thông tin thừa. Phương pháp DPCM còn sử dụng đặc điểm của mắt người      (kém nhạy với mức lượng tử có chênh lệch v...
Trong dó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị trí củacửa sổ bằng cách thay đổi giá trị t v...
Phép biến đổi DCT hai chiều cho mức giải tương quan bức ảnh cao hơn, cho phépbiến đổi cho khối 8x8 giá trị các điểm chói.Q...
Hình 12.2: Giải mã DCTCâu 13: Nén liên ảnh        1. Mô hình       Ảnh động là một xâu gồm nhiều ảnh tĩnh, mỗi ảnh tĩnh tồ...
khung dự đoán có sai số thông tin nhỏ. Sai lệch giữa ô hiện tạ i và ô dự đoán của nó trongkhung ảnh trước sẽ tạo ra ô mẫu ...
thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia     theo thời gian – TDMA và đa truy nhập phâ...
tiết kiệm dải động, thì sau đó nó chia các thành phần tần số đầu ra thành các hàm loga vàhàm mũ. Các giá trị này sau đó đư...
Hệ thống nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn hẳn các chuẩn công nghệ JPEGtruyên thống, cho dù JPEG-2000 không phải là...
câu lưu trữ trong quá trình mã hóa và giải mã. Một tác động khác của điều này là      những hình ảnh có the tốn mất nhiều ...
đề Cương xử lý âm thanh hình ảnh
đề Cương xử lý âm thanh hình ảnh
Próximos SlideShares
Carregando em…5
×

đề Cương xử lý âm thanh hình ảnh

12.691 visualizações

Publicada em

  • Entre para ver os comentários

đề Cương xử lý âm thanh hình ảnh

  1. 1. ĐỀ CƯƠNG XỬ LÝ ÂM THANH HÌNH ẢNHPhần 1 : Lý thuyếtCâu I : Các đặc trưng cơ bản của âm thanh1.1 Khái niệm về âm thanh và các tham số đánh giáÂm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao độngcủa vật thể và được truyền đi trong một môi trường truyền âm nhất định.Âm thanh có các tham số đánh giá đặc trưng sau dây:1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong mộtđơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớnthì âm thanh càng cao và ngược lại. Ðơn vị để đo là Hertz (Hz). Tai con ngưừi chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đếnkhoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hayâm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn nhữngâm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận đượccác sóng âm này nhưng có khá nhiêu loài vật có thể cảm nhận được (ví dụ loài dơi có thểnghe được sóng siêu âm). Ứng với mỗi tần số dao động f , có chu kỳ dao động T là một bước sóng λ của âmthanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyên của âm thanh trongkhông khí = 340m/s). Do dó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến0.017m.2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyần lanđến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở mộtđiểm gọi là thanh áp ở điểm dó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác độnglên một diện tích 1cm2 mot lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người tathường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2.3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gianmột giây. Công suất âm thanh P có thể tính bằng biểu thức: P = p.S.vTrong dó p là thanh áp, v là tôc do dao động của một phân tử không khí tại đó và S làdiện tích. Công suất âm thanh tính theo đơn vị oát (W).4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vịdiện tích là 1cm2. I = P/S = p.vBa đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo nên âmlượng của âm và trong âm của từ.
  2. 2. 6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanhtạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nêncác nguyên âm đối lập nhau vê độ dài. Hai từ "tang" và "tăng" trong tiêng Viet có sự đốilập âm a dài (trong "tang") và âm a ngắn (trong "tăng").7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào cácthành phần kết cấu của âm. Ðây là vẻ riêng biet của một âm. Âm sắc được quyết địnhbởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âmthanh và phương pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độdài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác vớitừ một ống sáo nhỏ, ngắn; từ việc gẩy se khác với việc gõ, búng, cọ xát hoặc thổi. Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau. Các lĩnh vực cụ thể liên quanđến xử lý âm thanh (trong đó có thoại) bao gồm: Nén âm thanh, thoại, nhận dạng tiếngnói; tổng hợp tiếng nói; nâng cao chất lượng(enhancement) và hồi phục tiếng nói(restoration). Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tindi động số có nhiều người sử dụng dùng chung băng tần số. Nói cách khác, kỹ thuật néncho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sửdụng tài nguyên hệ thống có hiệu quả hơn. Để có thể xử lý âm thanh thoại cần hiểu rõ được các cơ sở của quá trình tạo ra tiếngnói và đặc trưng hệ thống thính giác con người.1.2. Các đặc điểm của hệ thống thính giác con người  Cấu trúc tai người:Hệ thống thính giác của con - Tai người là một cơ quan cực kỳ phức tạp. Hình 1.1 minhhọa những kết cấu chính của tai người. Tai ngoài (outer ear) gồm có hai phần, vành tai –lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính 0.5cm và cắm sâuvào trong đầu khoảng chừng 3cm. Cơ cấu tai ngoài này dẫn hướng âm thanh từ môitrường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an toàn " tronghộp sọ của người. Cuối ống tai là một màng mỏng được gọi là màng nhĩ (tympanicmembrane) hay còn gọi là trống tai (ear drum). Các sóng âm thanh đập vào màng nhĩ vàlàm cho nó rung động. Hình 1.1: Sơ đồ chức năng của tai ngườiTai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của màngnhĩ tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung độngđược biến đổi thành các xung thần kinh (neural impulses). Tai trong là một ống nhỏ cóchứa dung dịch chât lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm. Mặc dầuđược minh họa ở dạng duỗi thẳng ở hình 1.1, trên thực tế, tai trong được cuộn lại và trônggiống như một vỏ ốc sên nhỏ. Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạpcó nghĩa là ốc sên (snail) – hình 1.2.Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chât lỏng, chỉ cómột phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường, trong khiđó phần năng lượng còn lại bị phản xạ trở lại. Điều này là do không khí có trở kháng cơ
  3. 3. học thấp (áp suât âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số nén cao),trong khi đó chất lỏng có trở kháng cơ học cao. Xét về khía cạnh mang ít tính kỹ thuật,người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong không khí.Chính sự khác nhau vê trở kháng cơ học dẫn đến phần lớn các sóng âm bị phản xạ trr lạitại giao tiếp không khí/chất lỏng.Cùng với ốc tai là màng nền, cấu trúc hỗ trợ cho khoảng 12,000 tế bào cảm giác (giácquan) – sensory cells và hình thành nên dây thần kinh ốc tai (cochlear nerve). Màng nềncứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về phía đối diện, nó họat độngnhư là một bộ phân tích phổ tần số (frequency spectrum analyzer).Khi gặp một tín hiệutần số cao, màng nền cộng hưởng khi nó ở trạng thái cứng, dẫn đến sự kích thích của cáctế bào thần kinh ở gần cửa sổ oval. Tương tự như vậy, các âm tần số thấp kích thích cáctế bào thần kinh ở phía đầu xa của màng nền. Điều này làm cho các sợi riêng biệt trongthần kinh ốc tai đáp ứng lại với các tần số riêng biệt. Tổ chức tuân theo nguyên lý vị trí(place principle) và được dành riêng cho các đường dẫn âm tới bộ não.  Sự cảm thụ của tai người đối với âm thanh:1. Ngưỡng ngheTai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được đobằng mức áp suất âm- SPL (Sound Pressure Level). Nếu như những biến đổi của mứcáp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiệnđược. Ngưỡng nghe này được minh họa trong hình 1.3 dưới đây. Ngưỡng này là một hàmcủa tần số âm thanh. Lưu ý là trong hình 1.3 này, có các thành phần tần số thấp ở dướimức ngưỡng nên các âm thanh có tần số này sẽ không nghe được. Tai người nhạy nhấttrong phạm vi tần số từ 2 – 4KHz. Hình 1.3: Ngưỡng nghe2. Mặt nạ tần số (frequency masking)Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị chekhuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số. Hiện tượng nàygọi là mặt nạ tần số. Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng”qua các thành phần bên cạnh. Nấu như thành phần tần số bên cạnh bị che phủ bởi “phầnbóng” này thì các thành phần tín hiệu tần số này sã không nghe được. Kêt quả là có mộtthành phần – thành phần che khuât làm dịch ngưỡng nghe. Hình 1.4 minh họa hiện tượngnày. Hình 1.4: Mặt nạ tần số3. Mặt nạ thời gianChỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phân bên cạnh trong miền tầnsố, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm thanh chekhuất về mặt thời gian. Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi tăng âmlượng có thể bị che khuất. Hình 1.5 minh họa hiện tượng mặt nạ thời gian điển hình. Lưuý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau. Hình 1.5: Mặt nạ thời gian diện tí di diện tích là 1cm2.
  4. 4. I = P/S = p.vBa đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ện tíchlà 1cm2. I = P/S = p.vBa đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ch là1cm2. I = P/S = p.vBa đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo4. Các dải băng tần tới hạnDải tần số nghe được của con người được phân chia tự nhiên thành các dải băng tần tớihạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được các âmtrong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn làkhoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đên 5000Hz.Do dó, tai hoạt động giống như các bộ lọc thông dưới, mỗi bộ lọc cho phép một dải tần sốnhất định đi qua và khóa tât cả các tần sô khác (hình 1.6). Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và cácdải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Ngườita đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổbiến nhất trong các chuẩn nén âm thanh MPEG.Câu II: Mô hình chung của hệ thống mã hóa thoại Hình 2.1 minh họa sơ đồ khối một hệ thống mã tiếng nói. Ở đây, tín hiệu thoạitương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa
  5. 5. thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biên đổi thành tín hiệurời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá(nén): đó là quá trình mã hoá nguồn. Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mãhoá để thêm khả năng chống lỗi (mã hoá kênh) và độ ưu tiên để truyền dẫn qua một kênh. Tại đầu thu, một bộ giải mã kênh sẽ tách và sửa những lỗi trong quá trình truyềndẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu. Tín hiệu đã được giải nén có thể giốnghệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biếntheo một vài cách nào dó (nén có tổn thất). Hình 2: Sơ đồ khối hệ thống mã hóa thoạiThông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những ứngdụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz. Theo định lý Nyquist,tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để tránhméo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn cho tiếng nói. Nêu sự dụng từmã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s.Như ta đã biết, tín hiệu số ưu diểm hơn hẳn so với tín hiệu tương tự trong việc truyền dẫnvà xử lý tín hiệu nhất là khả năng chống lỗi đường truyền. PCM là kỹ thuật điều chế xungmã được sử dụng rất phổ biến trong mạng thoại truyền thông để biến đổi tín hiệu tương tựthành tín hiệu số. Bình thường, một kênh thoại tương tự được biến đổi thành một kênhPCM cơ sở có tốc độ 64 Kbit/s. Kỹ thuật PCM (chuẩn G.711) sử dụng trong mạng thoạitruyền thông đảm bảo chất lượng âm khá trung thực nhưng băng tần sử dụng còn khá lớn.Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di động (tôc độ của mộtcuộc gọi càng thấp thì càng cung câp được thêm các dịch vụ khác - d ữ liệu; hình ảnh;video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường thấp hơn <16Kbit/s). Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền thoại qua IP(VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet.Câu III: Các phương pháp mã hóa thoại (mã hóa dạng sóng, mã hóa tham số,mã hóa lai). 1. Mã hóa dạng sóng: Mã hóa dạng sóng (waveform coding) là kỹ thuật duy trì hình dạng ban đầu của cácsóng tín hiệu, và do vậy các bộ mã hóa dạng sóng có thể áp dụng cho bất kỳ loại nguồntín hiệu nào. Nguyên lý của bộ mã hóa dạng sóng là mã hóa dạng sóng của tiếng nói. Tạiphía phát, bộ mã hóa sẽ nhận các tín hiệu tiếng nói tương tự liên tục và mã hoá thành tínhiệu số trước khi phát di. Tại phía thu, bộ giải mã sẽ làm nhiệm vụ ngược lại để khôiphục tín hiệu tiếng nói. Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôiphục được sẽ rất giống với dạng sóng của tiếng nói gốc. Những bộ mã hóa dạng sóng khá phù hợp với kỹ thuật mã hóa tốc độ cao vì chấtlượng của chúng giảm rất nhanh khi giảm tốc độ bit. Trong thực tế, các bộ mã hóa dạngsóng hoạt động có hiệu quả ở tốc độ 32kbps hay cao hơn. Tỉ số tín hiệu trên nhiễu – SNR(Signal-to-noise ratio) thường được sử dụng để đánh giá chất lượng của các bộ mã hóadạng mã sóng. Một số ví dụ liên quan là những bộ mã hóa PCM và ADPCM. Mã hóa dạng sóng hoạt động trong miền thời gian hoặc miền tần số. Có rất nhiều kiểumã hóa dạng sóng. Một số phương pháp thực hiện việc phân tích tín hiệu thoại đầu vàotrong miền tần số trong khi các phương pháp khác thực hiện việc phân tích trong miền
  6. 6. thời gian. Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi dụng được rất ítđộ dư thừa vốn có trong tiếng nói của con người do dó nó không có nhiều hiệu quả trongviệc giảm tốc độ dữ liệu trên kênh truyền vô tuyến. Trên thực tế phương pháp này chỉ chophép dữ liệu tốc độ cao nhưng nó lại cung cấp thoại với chất lượng tốt và có thể chịuđược tạp âm nền. Thậm chí nhiều phương pháp mã hóa dạng sóng có thể mã hóa cả âmnhạc và những âm thanh khác không phải là tiếng nói của con người. Phương pháp nàyhoạt động độc lập với cách mà tín hiệu được tạo ra và cố gắng xây dựng lại tín hiệu gầngiống với tín hiệu gốc ban đầu.Mã hóa dạng sóng không phức tạp lắm và nói chung là sử dụng tốc độ bit tương đối cao(trên 16 Kbps). PCM tuyến tính (64 Kbps) biểu thị loại mã hóa dạng sóng đơn giản nhất,phương pháp này chỉ đơn thuần bao gồm việc lấy mẫu và lượng tử hoá, mã hóa sóng đầuvào. ADPCM (tốc độ 32 Kbps, tiêu chuẩn CCITT/ITU G.721) được sử dụng trong một sốhệ thống truy nhập vô tuyến (DECT và PHS) là một thuật toán mã hóa phức tạp hơnnhưng vẫn cung cấp tốc độ bit tương đối cao. Tốc độ của phương pháp ADPCM có thểtùy biến từ 16, 24, 32 cho đến 40 Kbps (CCITT/ITU G.726/727).a. Mã hóa 64 Kbít PCM (ITU G. 711)Các bộ mã hóa điều chế xung mã PCM là bộ mã hóa dạng sóng đơn giản nhất. Thoạibăng hẹp được lấy mẫu với tần số 8000 Hz và mỗi một mẫu thoại phải được lượng tửhoá. Nếu lượng tử hoá tuyến tính được sử dụng thì cần thiết phải dùng 12 bit mã hóa chomột mẫu và dẫn đến tốc độ bit là 96 Kbit/s. Tuy nhiên, tốc độ này có thể được giảmxuống một cách dễ dàng bằng cách sử dụng lượng tử hoá phi tuyến tính.Trong việc mã thoại người ta thấy rằng với việc lượng tử hoá phi tuyến, 8 bit mã hóa chomột xung mẫu là đủ đảm bảo chất lượng thoại và gần như khó mà phân biệt được so vớithoại gốc ban đầu. Điều này dẫn đến tốc độ bit chuẩn là 64 Kbit/s và hai loại bộ mã hóaphi tuyến PCM đã trở thành tiêu chuẩn vào những năm 60 của thê kỷ 20.Một kỹ thuật được sử dụng phổ biến trong việc mã thoại là cố gắng dự đoán giá trị củamẫu tiếp theo từ những mẫu trước đó. Nêu dự đoán có hiệu quả, thì tín hiệu sai lệch giữanhững mẫu đã dự đoán và những mẫu thoại thực sẽ có một sự khác biệt thấp hơn so vớigiữa các mẫu thoại nguyên gốc. Bởi vậy, chúng ta có thể lượng tử hoá những tín hiệu sailệch này với một số lượng bit ít hơn so với tín hiệu mẫu thoại gốc. Đây là cơ sở củanhững mô hình điều chế xung mã vi sai – DPCM (Differential Pulse Code Modulation)-chúng lượng tử hoá sự khác biet giữa những tín hiệu gốc và tín hiệu dự đoán.Kêt quả từ những bộ mã hoá như vậy có thể được cải thiện nếu bộ dự đoán và bộ lượngtử có sự tương thích sao cho chúng thay đổi phù hợp với các đặc tính của thoại được mãhoá. Điều này dẫn tới kỹ thuật điêu chế xung mã vi sai thích ứng – ADPCM (AdaptiveDifferential Pulse Code Modulation). Vào giữa những năm 1980, CCITT đã chuẩn hoábộ mã hóa ADPCM hoạt động ở tốc độ 32Kbps với chất lượng thoại tương đương vớiphương pháp điêu chế mã xung 64Kbps. Sau đó, các bộ mã hóa ADPCM hoạt động ở cáctôc độ 16, 24 và 40Kbps cũng đã được chuẩn hóa. Sơ đồ bộ mã hóa và giải mã ADPCMđược minh họa ở hình 3.1 dưới đây.Hình 3.1: Bộ mã hóa và giải mã ADPCM
  7. 7. b. Mã hóa ADPCM (ITUG.721, G.726, G.727)Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng thay vìlượng tử hoá trực tiếp tín hiệu thoại, giống như phương pháp PCM, nó lượng tử hóa sựkhác nhau giữa tín hiệu thoại và tín hiệu dự doán.Nêu sự dự đoán là chính xác thì sự khác nhau giữa các mẫu thật và mẫu dự đoán sẽ nhỏhơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sự khác biệt này nếu được lượngtử hoá chính xác thì sẽ cần số bit ít hơn so với việc phải lượng tử hoá các mẫu thoại gốc.Tại bộ giải mã, tín hiệu khác biệt mà đã được lượng tử hóa được cộng với tín hiệu dựđoán để khôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộ mã hóa được cải thiệnthông qua việc sử dụng bộ dự đoán và lượng tử thích nghi sao cho bộ dự đoán và bộlượng tử phải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá.2. Mã hóa tham sốMã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps. Để tiếptục giảm tốc độ bit, cân phải khai thác mô hình tạo tiếng nói. Từ đây, người ta có kháiniệm mã hóa tham số hoặc còn gọi là mã hóa dựa trên mô hình.Ở đây, các bộ mã hóa tham số hoạt động sử dụng mô hình nguồn tín hiệu được tạo ra nhưthế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham sô của mô hìnhvà truyền chúng tới bộ giải mã. Các bộ mã hóa tham số cho tín hieu thoại còn được gọi làVocoder (Voice + Coder).Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, trong khi nólại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng sóng và nó chỉcó thể xử lý được tiếng nói của con người. Mã hóa tham số hoạt động với tôc độ bit thấp(xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn dễ hiểu nhưngchúng lại khác khá nhiêu so với giọng nói tự nhiên của con người. a. Mô hình LPC Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới đây:Hình 3.2: Mô hình toán học của LPCỞ đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy cácxung hoặc chuỗi nhiễu trắng. Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biênđổi theo thời gian và bị kích thích với những nguồn nhiễu trắng khác cho phân đọan thoạivô thanh hoặc một dãy các xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh.Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ lọc; âmvô thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm thanh.Quá trình này được cập nhật liên tục 10–20 ms theo bản chất không dừng (nonstationary)của tín hiệu thoại.Hàm truyên đạt của bộ lọc được xác định theo biểu thức
  8. 8. Điều này tương đương với việc quan hệ vào ra của bộ lọc tuân theo phương trình vi phântuyến tính:Mô hình LPC có thể được biểu diễn lại dưới dạng vector như sau:A thay đổi theo chu kỳ 20 ms, tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương đương với160 mẫu. Do vậy tín hiệu thoại được phân chia thành các khung có kích cỡ 20 ms hay có50 khung/sec. Mô hình A theo bieu thức trên tương đương với b. LPC Vocoder 2,4Kbps LPC Vocoder 2,4Kbps có sơ đồ khối chức năng được mô tả theo hình vẽ 3.3 dướiđây. Bộ mã hóa thoại này hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn và tạo rathoại có âm thanh dễ hiểu nhưng không trung thực so với bản chất tự nhiên của thoại conngười. LPC Vocoder chủ yếu được áp dụng trong lĩnh vực quân sự, ở đó các âm thanh tựnhiên của thoại không quan trọng bằng tốc độ bit chậm cho phép bảo vệ và mã hóa điênnthoại an toàn.Hình 3.3: Sơ đồ khối chức năng LPC Vocoder 2,4Kbps3. Mã hóa lai Mã hóa lai cố gắng lấp khoảng cách ranh giới giữa mã hóa dạng sóng và mã hóanguồn. Mã hóa dạng sóng như được mô tả ở trên là có khả năng cung cấp được thoại vớichất lượng khá tốt với tốc độ bít xuống đến 16Kbps nhưng bị giới hạn về sử dụng tới tốcđộ thấp hơn. Bộ mã nguồn có thể hoạt động ở tốc độ khoảng 2,4 Kbps và thấp hơn,nhưng không thể tạo ra âm thanh trung thực ở bất kỳ tốc độ nào. Mặc dù có nhiều dạng mã hóa lai, nhưng thành công và thường được sử dụng nhiềunhất là các bộ mã hóa trong miền thời gian “thực hiện các phép phân tích thông qua việctổng hợp” - AbS (Analysic - by - Synthesis). Những bộ mã hóa này sử dụng mô hình bộlọc dự đoán tuyến tính cho cơ quan phát âm như trong các bộ mã thoại LPC. Tuy nhiên,để thay thế cho việc ứng dụng mô hình ở trạng thái đơn giản – hữu thanh/vô thanh, môhình này cô gắng giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu vào và dạng sóng tínhiệu được xây dựng lại bằng việc tìm kiếm tín hiệu kích thích lý tưởng. Các bộ mã hóa AbS lần đầu tiên được giới thiệu bởi Atal và Remde và mô hình đầyđủ của hệ thống mã hóa và giải mã AbS được miêu tả ở trong hình 3.4 dưới đây:Hình 3.4: Cấu trúc bộ mã hóa và giải mã lai AbS
  9. 9. Trước tiên, bộ mã hóa AbS phân tích tín hiệu thoại đầu vào thành các khung ngắn cóđộ dài 20 ms. Các tham số của một khung sẽ xác định một bộ lọc tổng hợp tương ứng vớikhung đó và tín hiệu kích thích tương ứng cho mỗi bộ lọc này sẽ được xác định thôngqua một vòng lặp. Tín hiệu kích thích phải đảm bảo rằng sai lệch giữa tín hiệu đầu vào vàtín hiệu được tái tạo lại là nhỏ nhất. Cuối cùng bộ mã hóa sẽ truyền đi những thông tinliên quan đến các bộ lọc bao gồm các tham số và tín hiệu kích thích tương ứng với mỗibộ lọc gửi cho bộ giải mã. Ở bộ giải mã, tín hiệu kích thích sẽ được đưa qua bộ lọc tổnghợp để xây dựng lại tín hiệu thoại ban đầu. Bộ lọc tổng hợp thường là một bộ lọc tuyếntính, ngắn hạn nhưng nó cũng có thể bao gồm một bộ lọc độ cao âm thanh (pitch filter)liên quan đến mô hình tuần hoàn dài hạn của tín hiệu thoại. Phương pháp này cung cấptín hiệu thoại có chất lượng cao tại tốc độ bit thấp. Tuy nhiên độ phức tạp của phươngpháp này là khá lớn bởi vì tất cả các tín hiệu kích thích có thể có đều phải được đưa quabộ lọc tổng hợp để tìm ra tín hiệu kích thích thích hợp nhất.Câu IV : Mã hóa âm thanh (ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian, cácdải băng tần tới hạn, perceptual coding…) (đã làm ở câu I) Tín hiệu âm thanh có thể được số hóa bởi một thiết bị ADC (Bộ chuyển đổi tươngtự/số). ADC nhận tín hiệu đầu vào là điện áp của tín hiệu và đầu ra là các số nhị phân.Xem một ví dụ về một tín hiệu âm thanh ở dạng sóng hình sin (Hình 4.1a). Để biểu diễntín hiệu này ở dạng số, trước tiên chúng ta lấy mẫu tín hiệu này theo chu ky T (Hình.4.1b). Nếu 1 tín hiệu âm thanh không phải là một sóng sin chuẩn mà là một sóng sin tổhợp tuyến tính của nhiều sóng sin khác, và có tần số lớn nhất là f, thì theo định lýNyquist, tần số lấy mẫu là 2f. Hình 4.1: (a) Một tín hiệu âm thanh hình sin; (b) Lấy mẫu; (c) Lượng tử hóa Nén âm thanh có thể được thực hiện theo một trong hai cách. Cách thứ nhất là mãhóa dạng sóng, các tín hiệu được biến đổi toán học bằng phép biến đổi Fourier thành cácthành phần tần số. Các biến độ của mỗi thành phần sau đó được mã hóa. Mục tiêu là đểtái tạo lại dạng sóng một cách chính xác với số lượng bit mã hóa thấp nhất có thể.Cách thứ hai là mã hóa dựa trên cảm nhận của các giác quan của con người. Ở đây, ngườita khai thác một số điểm yếu trong hệ thông thính giác của con người để mã hoá một tínhiệu, đó là mã hóa dựa trên khoa học tâm sinh lý nghe (Psychoacoustics) – cách thức conngười cảm nhận âm thanh. Chuẩn nén MP3 dựa trên mã hóa cảm nhận này (perceptualcoding). Đặc tính chính của mã hóa cảm nhận là một số âm thanh có thể che các âm thanhkhác. Hãy tưởng tượng bạn thổi sáo trong một ngày mùa hè ấm áp. Sau đó, đột ngột cómột nhóm thợ gần đó bật búa khoan và bắt đầu phá mặt đường. Khi đó không ai có thểnghe được sáo nữa. Âm thanh của tiếng sáo đã bị che bởi âm thanh của tiếng búa. Do vậyđể mã hoá chỉ cần tần số bằng tần sô của búa bởi vì không thể nghe được tiếng sáo. Đâygọi là che tần số (frequency masking) – khả năng một âm thanh lớn trong một băng tầnsố sẽ che những âm thanh có tần số thấp hơn và do vậy chỉ có thể nghe những âm thanhcó tần số lớn. Trong thực tế, ngay cả sau khi âm thanh của tiếng búa ngừng, cũng không
  10. 10. thể nghe thấy các âm thanh của tiếng sáo trong một khoảng thời gian ngắn. Hiện tượngnày được gọi là che thời gian (temporal masking).So sánh giữa nén thoại và nén âm thanh được mô tả vắn tắt ở bảng dưới đâyCâu V: Các khái niệm cơ bản về âm thanh, xử lý ảnh, video Đứng trên góc độ cảm nhận của thị giác, ảnh là một sự vật đại diện cho người,sinh vật hay một đồ vật nào đó… Đứng trên góc độ kỹ thuật thì ảnh được nhận biết thôngqua hệ thống thị giác hai chiều. Ảnh động (video) như đã thấy trên truyền hình, phim ảnhlà tập hợp của nhiều ảnh liên tiếp. Khi một ảnh được số hoá thì nó trở thành ảnh số vàảnh số này lại là tập hợp của các phân tử ảnh nhỏ được gọi là điểm ảnh “pixel”. Mỗi điểmảnh lại được biểu diễn dưới dạng một số hữu hạn các bit. Ta có thể chia thành 3 loại ảnhkhác nhau: • Ảnh đen trắng: mỗi điểm ảnh được biểu diễn bởi 1 bit, các ảnh này đôi khi còn được gọi là Bi-level hoac Bi-tonal images. • Ảnh Gray-scale: mỗi điểm ảnh được biểu diễn bằng các mức chói khác nhau, thường thì được biểu diễn bằng 256 mức chói hay 8 bit cho mỗi điểm ảnh. • Ảnh màu: mỗi điểm ảnh màu được chia ra gồm 1 tín hiệu chói và các tín hiệu màu.Lĩnh vực xử lý ảnh đề cập đến việc xử lý ảnh bằng máy tính số. Trong thực tế, người taphân chia thành ba loại xử lý của máy tính trong quá trình liên tục từ: mức thấp, mứctrung, đến mức cao.- Quá trình xử lý mức thấp liên quan đến những hoạt động như là tiền xử lý ảnh để giảmnhiễu, tăng độ sáng. Một quá trình xử lý thấp có đặc điểm là có đầu vào và đầu ra của nóđều là hình ảnh.- Xử lý ảnh mức trung liên quan đến công việc như phân đọan ảnh (segmentation), mô
  11. 11. tả những đối tượng và đưa chúng vào một mẫu thích hợp cho các máy tính xử lý, và phânloại từng đối tượng. Mức trung có đặc điểm đâu vào của nó thường là hình ảnh, nhưngkêt quả đâu ra của nó là thuộc tính trích ra từ những hình ảnh (ví dụ như các cạnh, đườngviền của ảnh, và nhận dạng của các đối tượng cá nhân).- Xử lý ảnh mức cao liên quan đến việc "tạo cảm nhận" của một tập các đối tượng nhậndạng, như trong phân tích ảnh, và xa hơn là quá trình thực hiện các chức năng nhận dạngthông thường gần với hệ thống thị giác của con người.Câu VI: Các bước xử lý ảnh sốCác bước xử lý ảnh số được mô tả ở hình vẽ 6.1 dưới đây.Hình 6.1: Các bước xử lý ảnh sốCác giai đọan chính trong xử lý ảnh:1. Thu nhận hình ảnh: Đây là giai đọan đầu tiên và quan trọng nhất trong toàn bộ quátrình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các giaiđọan sau, trường hợp ảnh gốc có chất lượng kém hiệu quả của các bước xử lý tiếp theo sẽbị giảm. Thiêt bị thu nhận có thể là các ống ghi hình chân không (vidicon, plumbicon...)hoac CCD (Charge-Coupled Device).2. Tiền xử lý ảnh: Giai đọan xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh đểtrợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm nổiđường biên, khử nhiễu …3. Phân đọan: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây làmột trong những vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nêu thực hiện táchquá chi tiết thì bài toán nhận dạng các thành phần được tách ra trở nên phức tạp, cònngược lại nếu quá trình phân đọan được thực hiện quá thô hoặc phân đọan sai thì kết quảnhận được cuôi cùng sẽ không chính xác.4. Biểu diễn và mô tả: là quá trình xử lý tiếp sau khâu phân đọan hình ảnh. Các vật thểsau khi phân đọan có thể được mô tả dưới dạng chuỗi các điểm ảnh to nên ranh giới mộtvùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông quaranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hình dạng bên ngoàicủa chi tiêt ảnh như độ cong, các góc cạnh… Biểu diễn vùng thường được sử dụng khichúng ta quan tâm tới đặc tính bên trong của vùng ảnh như đường vân (texture) hay hìnhdạng (skeletal).5. Nén ảnh: bao gôm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiêt để lưu trữhình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số.6. Nhận dạng: là quá trình phân lọai vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó(ví dụ các phương tiện giao thông có trong ảnh).Câu VII: Các thành phần của hệ thống xử lý ảnh sốThiết bị thu nhận hình ảnh: là thiêt bị biến đổii quang-điên, cho phép biến đổi hình ảnhquang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng só. Có nhiềudạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai lọai thiếtbị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và CCD.Bo nhớ trong và ngoài: các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng để
  12. 12. lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu mot ảnhmàu không nén, dung lượng bố nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lýảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý.Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (ví dụ 25 hình/s); 2- bộ nhớ ngoài có tốcĐộ truy cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài cóthể là ổ cứng, thẻ nhớ flash... 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thườngcó dung lượng lớn, tốc độ truy cập không cao. Thông dụng nhất là đĩa quang ghi 1 lần(ROM) hoặc nhiều lần (ROM) như đĩa DVD có dung lượng 4.7GB (một mặt). Ngoài ratrong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác nhưgiấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặcbiệt bằng công nghệ nung nóng …Câu trúc của một hệ thống xử lý ảnh số được mô tả ở hình vẽ 7.1 dưới đây.Hình 7.1: Các thành phần chính của hệ thống xử lý ảnh sốBộ xử lý ảnh chuyên dụng: Sử dụng chip xử lý ảnh chuyên dụng, có khả năng th ựchiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lýảnh như lọc, làm nổi đường bao, nén và giải nén video số…Trong bộ xử lý ảnh thườngtích hợp bộ nhớ đệm có tốc độ cao.Màn hình hiển thị: Hệ thống biên đổi điện - quang hay đèn hình (đen trắng cũng nhưmàu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu video) thànhhình ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT(Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hìnhCRT thường có khả năng hiện thị màu sắc tốt hơn màn hình LCD nên được dùng phổbiến trong các hệ thống xử lý ảnh chuyên nghiệp.Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tấtcả các bộ phận chức năng trong hệ thống xử lý ảnh số.Câu VIII: Lấy mẫu và lượng tử hóa tín hiệu ảnh, video 1. Lấy mẫu và lượng tử hóa tín hiệu ảnh Lấy mẫu tín hiệu: Quá trình lấy mẫu tín hiệu được mô tả trên hình 8.1. Tín hiệu ảnhứng với một dòng ảnh AB là tín hiệu một chiều liên tục theo thời gian và có biên độ biếnđổi liên tục (hình 8.1b). Khi lấy mẫu, thời gian truyền dòng AB được chia ra thành nhiềuđọan bằng nhau. Giá trị tín hiệu tới các điểm lấy mẵu được đánh dấu ô vuông trên đồ thị.Theo định lý lấy mẫu Nyquist, nếu tần số lấy mẫu lớn hơn (hoặc bằng) hai lần tần số lớnnhất trong phổ tín hiệu tương tự, thì tập hợp các mẫu rải rác nhận được hoàn toàn xácđịnh tín hiệu đó. Để biến đổi tiếp tín hieu thành dạng số, chúng ta phải thực hiện giai đọan lượng tửhóa các mẫu vừa nhận được. Đây là quá trình rời rạc tín hiệu theo biên độ. Trên hình 8.1dthang xám được chia thành 8 mức rời rạc từ mức trắng tới mức đen. Lượng tử hóa đượcthực hiện đơn giản bằng cách tìm giá trị mức lượng tử gần giống nhất với giá trị th ực củamẫu và gán giá trị này cho mẫu ảnh.
  13. 13. Kết quả nhận được sau khi lấy mẫu và lượng tử hóa là chuỗi số rời rạc mô tả biến đổiđộ chói trong một dòng ảnh. Nêu thực hiện quá trình số hóa cho tât cả các dòng ảnh từtrên xuống dưới, chúng ta sẽ nhận được ảnh số trong không gian hai chiều.Hình 8.1: Quá trình số hóa tín hiệu ảnh 2. Lấy mẫu và lượng tử hóa tín hiệu Video Trong những năm gần đây công nghệ phần cứng và những hoạt động chuẩn hóa đãphát triển tới mức có tính khả thi trong việc truyền tải, lưu trữ, xử lý, và xem những tínhiệu video được lưu ở dạng số, và trong việc chia sẻ tín hiệu video giữa các ứng dụngkhác nhau. Đó là sự phát triển tự nhiên vì thay đổi tạm thời thường có liên quan đếnchuyển động của vài kiểu là thuộc tính quan trọng nhất của một tín hiệu trực quan. Theo lý thuyết, một tín hiệu video tương tự I(x, y, t) trong đó (x, y) là tọa độ khônggian liên tục và t là thời gian liên tục thì liên tục trong cả hai chiều thời gian và khônggian, vì thông lượng bức xạ vốn có ở độ cảm biến video là liên tục ở mức quan sát bìnhthường. Video số là hiển thị của một hiện tượng tự nhiên trự c quan (thế giới thực), được lấymẫu theo không gian và thời gian. Một hiện tượng được lấy mẫu ở một điểm thời gianđể tạo ra khung (là hiển thị của hiện tượng trực quan một cách đầy đủ tại thời điểm đó)hoặc một trường (bao gồm các dãy các mẫu về không gian được đánh số chẵn lẻ). Lấymẫu được lặp lại theo chu kì (ví dụ, chu kì 1/25 hoặc 1/30 giây) để tạo ra tín hiệu videođộng. Có 3 bộ mẫu (các thành phần) được yêu câu chủ yếu để hiển thị một hiện tượngtheo màu sắc. Như vậy mỗi một mẫu không gian – thời gian (yêu tô hình ảnh hay pixel)được hiển thị như là một số hay một bộ các số mô tả độ chói và màu sắc của mẫu.Hình 8.2: Lấy mẫu theo không gian và thời gian của một chuỗi videoLấy mẫu không gian Đâu ra của một mảng CCD là một tín hiệu tương tự, một tín hiệu điện biến đổihiển thị hình ảnh video. Lấy mẫu tín hiệu tại một thời điểm tạo ra một hình ảnh haykhung hình được lấy mẫu xác định giá trị trong tập các điểm lấy mẫu. Định dạng phổbiến nhất cho một ảnh lấy mẫu là một hình chữ nhật với điểm lấy mẫu nằm trên một hìnhvuông hay lưới chữ nhật. Việc lấy mẫu xảy ra tại một trong các điểm giao nhau trênlưới và hình ảnh được lấy mẫu có thể được tái tạo lại bởi việc hiển thị từng mẫu như làmột yếu tố hình ảnh vuông (pixel).Lấy mẫu thời gian Một hình ảnh video chuyển động được chụp bởi việc chụp theo điểm chữ nhật củatín hiệu theo các chu kì thời gian. Chiếu lại một loạt các khung tạo ra sự chuyển động.Tốc độ lấy mẫu cao hơn (tốc độ khung) cho ta sự chuyển động mượt mà hơn trong cảnhvideo nhưng yêu cầu nhiều mẫu được chụp và lưu nhiều hơn. Tốc độ khung dưới 10khung trên giây thường được sử dụng cho thông tin video tốc độ bit thấp (vì số lượngthông tin tương đối nhỏ) nhưng sự chuyển động thì khá giật và không tự nhiên ở tốc độnày. Từ 10 đến 20 khung trên giây thì thông dụng hơn cho thông tin video tốc độ bit thấp;hình ảnh trơn tru hơn nhưng chuyển động bị giật có thể xảy ra trong các phần hình ảnhchuyển động nhanh. Lấy mẫu ở 25 đến 30 hình trên giây là chuẩn cho hình ảnh truyền
  14. 14. hình (sự đan xen vào nhau để cải thiện hình ảnh chuyển động, xem bên dưới); 50 đến 60khung trên giây sự chuyển động mượt mà (tuy nhiên chi phí cao cho tôc độ rất cao này)Câu IX: Tổng quan về nén ảnh Việc nén ảnh đưa đến vấn đề về giảm thiểu số lượng dữ liệu yêu câu để tái hiện lạimột ảnh số. Cốt lõi của quá trình rút gọn là loại bỏ dữ liệu dư thừa. Dưới quan điểm toánhọc, số lượng để chuyển đổi chuỗi điểm ảnh 2-D thành một bộ dữ liệu không tương quanvề mặt thống kê. Việc chuyển đổi được ứng dụng trước tiên cho việc lưu trữ hoặc truyềnhình ảnh. Tại một thời điểm sau đó, hình ảnh đã nén được giải nén để tái tạ o lại hình ảnhgốc hoặc gần đúng của nó. Nén ảnh số là một đề tài nghiên cứu rất phổ biến trong lĩnh vực xử lý dữ liệu đaphương tiện. Mục đích là làm thế nào để lưu trữ bức ảnh dưới dạng có kích thước nhỏhơn hay dưới dạng biểu diễn mà chỉ yêu cầu số bit mã hoá ít hơn so với bức ảnh gốc. Nénảnh thực hiện được là do một thực tế: thông tin trong bức ảnh không phải ngẫu nhiên màcó trật tự, có tổ chức. Vì thế, nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết đượcphần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lượngbit ít hơn ảnh gốc mà vẫn đảm bảo tính đầy đủ thông tin. Ở phía thu, quá trình giải mã sẽtổ chức, sắp xếp lại được bức ảnh, xâp xỉ gần chính xác so với ảnh gốc nhưng vẫn thoảmãn chất lượng yêu cầu, đảm bảo được thông tin cần thiết. 1. Nguyên tắc cơ bản Phần tử nén ảnh dữ liệu ám chỉ đến quá trình giảm lượng số liệu dư thừa số liệucần thiết để biểu diễn cùng một lượng thông tin cho trước. Độ dư thừa số liệu là vấn đềtrung tâm trong nén ảnh số. Đánh giá cho quá trình thực hiện giải thuật nén là tỉ lệ nén(CN ) được xác định như sau: Nếu N1 và N2 là lượng số liệu trong hai tập hợp số liệu cùngđược dùng để biểu diễn lượng thông tin cho trước thì độ dư thừa số liệu tương đối R D củatập số liệu thứ nhất so với tập số liệu thứ hai có thể được định nghĩa như sau:RD = 1 – 1/ CNtrong đó:C N = N1 / N2 Trong trường hợp N1 = N2 thì CN = 1 và có nghĩa là so với tập số liệu thứ hai thì tậpsố liệu thứ nhất không chứa số liệu dư thừa. Khi N 2 << N1 thì CN tiến tới vô cùng và R Dtiến tới một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớnhay tập số liệu thứ hai đã được nén khá nhỏ. Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh. Tỉ lệ nén càng cao sẽ làmgiảm chất lượng hình ảnh và ngược lại. Chất lượng và quá trình nén có thể thay đổi tùytheo đặc điểm của hình ảnh nguồn và nội dung ảnh. Đánh giá chất lượng ảnh được đềnghị tính số bit cho một điểm trong ảnh nén (N b). Nó được xác định là tổng sô bit ở ảnhnén chia cho tổng số điểm:Nb = Số bit nén/Số điểmTrong nén ảnh số, ba loại dư thừa số liệu có thể được nhận dạ ng và phân biệt. • Dư thừa mã (Coding Redundancy) Nêu các mức của tín hiệu video được mã hóa bằng các symbol nhiều hơn cần thiết
  15. 15. (tuyệt đối) thì kết quả là có độ dư thừa mã. Để giảm độ dư thừa mã, trong nén ảnh thườngSử dụng các mã VLC như mã Huffman, mã RLC v.v... Lượng thông tin vê hình ảnh cóxác suất thấp hơn. • Dư thừa trong pixel (Interpixel Redundancy) Vì giá trị của bất kỳ một pixel nào đó, cũng có thể được dự báo từ giá trị của cáclân cận của nó, nên thông tin từ các pixels riêng là tương đối nhỏ. Sự tham gia của mộtpixel riêng vào một ảnh là dư thừa. Để giảm độ dư thừa trong pixel của một ảnh, dãypixel hai chiều dùng cho việc nhìn và nội suy, phải được biến đổi thành một dạng có hiệuquả hơn. Trong các phương pháp nén ảnh được trình bày, ta dùng phép biến đổi cosin rờirạc (DCT) biến đổi pixel từ miền không gian sang miền tần số, bằng cách này se giảmđược độ dư thừa số liệu trong pixel ở miền tần số cao. • Dư thừa tâm sinh lý Bằng trực quan ta thấy, sự thu nhận cường độ sáng thay đổi chỉ giới hạn trong mộtphạm vi nhất định. Hiện tượng này xuât phát từ sự thật là mắt không đáp ứng với cùng độnhạy của tất cả các thông tin nhìn thấy. Thông tin đơn giản có tầm quan trọng ít hơnthông tin khác trong vùng nhìn thấy. Thông tin này được gọi là độ dư thừa tâm lý nhìn.Nó có thể được loại bỏ mà không ảnh hưởng đáng kể đến chất lượng thu nhận ảnh. KhácVới độ dư thừa mã và dư thừa trong pixel, độ dư thừa tâm sinh lý có liên quan đến thôngtin theo định lượng, nó có quan hệ tới việc lượng tử hóa. Điều đó có nghĩa là ánh xạ mộtkhoảng rộng các giá trị đầu vào lên một số hữu hạn các giá trị đầu ra. Đó là toán tử khôngđảo ngược (mất thông tin) cho kêt quả nén số liệu có tổn hao. 2. Mô hình nénMột hệ thống nén video tiêu biểu (hay bộ mã hoá nguồn) bao gồm: bộ chuyển đổi,Bộ lượng tử hoá, bộ mã hoá (hình 9.1).Hình 9.1: Sơ đồ khối hệ thống nén ảnh tiêu biểu- Bộ chuyển đổi: thường dùng phép biến đổi Cosin rời rạc để tập trung năng lượng tínhiệu vào một số lượng nhỏ các hệ số khai triển để thực hiện phép nén hiệu quả hơn làdùng tín hiệu nguyên thủy.- Bộ lượng tử hoá: tạo ra một lượng kí hiệu giới hạn cho ảnh nén với hai kỹ thuật: lượngtử vô hướng (thực hiện lượng tử hoá cho từng phần dữ liệu) và lượng tử vectơ (thực hiệnlượng tử hoá một lần một khối dữ liệu). Quá trình này không thuận nghịch.- Bộ mã hoá: gán một từ mã, một dòng bit nhị phân cho mỗi kí hiệu.Các hệ thống nén được phân biệt dựa trên sự kết hợp khác nhau giữa 3 bộ xử lý trên vàđược phân loại như sau:- Hệ thống nén không mất thông tin (lossless data reduction): thực hiện tối thiểu tốc độbit mà không làm méo ảnh, hệ thống còn gọi là nén toàn bit hay có tính chất thuậnnghịch.- Hệ thống nén có mất thông tin (loss data reduction): đạt được do trung thực tốt nhất đốivới tốc độ bit cho trước, hệ thống phù hợp áp dụng cho tín hiệu âm thanh và hình ảnh vìcó hệ số nén cao.Trong sơ đồ hình 9.1, tầng chuyển đổi và tầng mã hoá là nơi tín hiệu xử lý không bị tổnthất, tầng lượng tử là có tổn thất. Ngoài ra, dựa trên quan điểm về tổn thất chúng ta có thể
  16. 16. phân biệt hai loại mã hoá như sau: mã hoá Entropy (mã hoá không tổn thất) và mã hoánguồn (mã hoá có tổn thất).Câu X: Phân loại các phương pháp nén ảnhCó nhiều cách phân loại các phương pháp nén khác nhau. Cách thứ nhất dựa vào nguyênlý nén. Cách này phân các phương pháp nén thành hai loại chính:• Nén không mất thông tin: bao gôm các phương pháp nén mà sau khi giải nén ta thuđược chính xác dữ liệu gốc.• Nén có mất thông tin: bao gồm các phương pháp mà sau khi giải nén ta không thu đượcdữ liệu như bản gốc, trong nén ảnh, người ta gọi là các phương pháp “tâm lý thị giác”.Các phương pháp này lợi dụng tính chât của mắt người, chấp nhận một số sai số trongảnh khi khôi phục lại. Tất nhiên, các phương pháp này chỉ có hiệu quả khi mà độ sai lệchlà chấp nhận được bằng mắt thường hay với dung sai nào đó.Cách phân lo i thứ hai dựa vào cách thức thực hiện nén. Theo cách này, người ta cũngphân thành hai phương pháp:• P2 không gian: thực hiện nén bằng cách tác động trực tiếp lên việc lấy mẫu của ảnh gốc.• Phương pháp sử dụng biến đổi (Transform Coding): tác động lên sự biến đổi của ảnhgốc mà không tác động trực tiếp.Quá trình nén và giải nén có thể được mô tả tóm tắt theo hình vẽ dưới đây:Hình 10: Quá trình nénCâu XI: Các ppháp mã hóa dùng trong kỹ thuật nén ảnh không tổn thất Trong một vài ứng dụng nén không tổn thất nghĩa là chỉ có thể chấp nhận được sựgiảm bớt dữ liệu. Trong một vài trườg hợp khác, nhu cầu việc nén không tổn thất đượcthúc đẩy bởi việc xem xét hoàn cảnh sử dụng hoặc tính tự nhiên của ảnh sau khi nén.Chúng ta sẽ tập trung vào những kế hoạch của việc nén không tổn thất hiện thời đangđược sử dụng. Thông thường chúng cung cấp hệ số nén từ 2-10. Hơn nữa, chúng cũngthích hợp với cả ảnh nhị phân và mức độ xám. Kỹ thuật nén error-free thường bao gồm 2thao tác tương đối độc lập: (1) việc sắp xếp một biểu diễn ảnh thay thế ảnh cũ trong đó sửdư thừa interpixel của nó được giảm bớt và (2) mã hoá lại biểu diễn ảnh đó để loại trừ tốiđa sự dư thừa. Những bước này tương ứng với việc ánh xạ và mã hoá ký tự của kiểu mãhoá nguồn. 1. Mã hoá với độ dài từ mã thay đổi: Để đạt được tốc độ bít thấp hơn, các hệ số biến đổi và các tọa độ của các véc tơchuyển động được mã với độ dài thay đổi (VLC). Trong VLC, các từ mã ngắn được gántương ứng các giá trị xác suất cao và các từ mã dài ứng với các giá trị xác suất thấp. Độdài của các mã nên biên đổi nghịch đảo với xác suất xuất hiện của các kí hiệu trong VLC. Tốc độ bít cần để mã hóa các kí hiệu này là nghịch đảo của logarit của xác suất, tứclà log2p. Do dó, entropy của các kí hiệu là sô bít trung bình tối thiểu cần để biểu diễn cáckí hiệu:
  17. 17. Có hai loại VLC được ứng dụng trong mã hóa ảnh chuẩn, đó là mã hóa Huffman vàmã hóa số học. Mã hóa Huffman được sử dụng trong tất cả các bộ mã hóa (CODEC)chuẩn để giải mã các hệ số biến đổi cosin rời rạc (DCT) đã được lượng tử hóa cũng nhưgiải mã các vec tơ chuyển động. 2. Mã hoá dự đoán không tổn hao: Bây giờ chúng ta quay lại với một phương pháp nén mà nó không yêu cầu việc phântích một ảnh thành một loạt các mặt phẳng bit. Với cách này quy chung lại là mã hoá dựđoán không tổn hao, được dựa trên cơ sở sự rút gọn đa điểm dư thừa của các điểm trongkhông gian gần nhau bằng cách rút ra và mã hoá chỉ với các thông tin mới trong mỗiđiểm ảnh. Thông tin mới của một điểm ảnh mô tả sự khác nhau giữa các giá trị dự đoánvà thực tế của điểm ảnh đó. Hình 1 chỉ ra các thành phàn cơ bản của một hệ thống mã hoá dự đoán không tổn hao.Hệ thống này bao gồm một bộ mã hoá và một bộ giải mã, mỗi khối chứa một bộ dự đoánđồng nhất. Với mỗi điểm ảnh lần lượt của ảnh đầu vào, biểu thị bằng f n , được đưa vàotrước tiên trong bộ mã hoá, bộ dự đoán t ạo ra một giá trị dự đoán tước của điểm ảnh trêncơ sở số các đầu vào cũ. Đầu ra của bộ dự đoán sau đó được làm tròn thành giá trị nguyên gần nhất, biểu thịbởi fn, và được sử dụng để tạo ra sự khác biệt hoặc lỗi dự đoán.Hình 11: Mã hoá dự đoán không tổn hao: (a) Bộ mã hoá (b) Bộ giải mã Sự khác biệt được mã hoá sử dụng mã hoá loạt dài thay đổi (bằng bộ mã hoá biểutượng) để tạo ra thành phần tiếp theo của dòng dữ liệu đã nén. Bộ giải mã trong hình 1(b) tái tạo từ các từ mã loạt dài thay đổi nhận được và thực hiện quá trình đảo:Câu XI: Các phương pháp mã hoá dùng trong kỹ thuật nén có tổn thất Không như phương pháp nén không tổn thất được đưa ra ở phân trước, nén tổn thấtđược xây dựng trên cơ sở độ chính xác của việc khôi phục lạ i ảnh trong lúc trao đổinhằm tăng hiệu quả nén. Nếu kết quả không chính xác (có thể được hiển thị rõ ràng hoặckhông) có thể chấp nhận được, sự tăng dần trong việc nén là đáng kể. 1. Mã hoá dự, đoán có tổn thất Như hình 1 chỉ ra, bộ lượng tử, bộ thu toàn bộ chức năng của bộ mã hoá lỗi tự nhiên, được chèn vào giữa bộ mã hoá biểu tượng và điểm mà lỗi dự đoán được tạo ra. Nó ánh xạ lỗi dự đoán tại khoảng giới hạn đầu ra, biểu thị là e n, điều thiết lập sự liên đới giữa nén và kết hợp méo với mã hoá dự đoán tổn hao. Mã hóa DPCM (Differential Pulse Code Modulation) Đây là phương pháp mã hóa dự đoán có tổn thất dựa trên nguyên tắc phát hiện sự giống nhau và khác nhau giữa các điểm ảnh (pixels) gần nhau để tìm cách loại
  18. 18. bỏ các thông tin thừa. Phương pháp DPCM còn sử dụng đặc điểm của mắt người (kém nhạy với mức lượng tử có chênh lệch về độ chói giữa điểm ảnh gần nhau, so với mức lượng tử hóa chênh lệch nhỏ) và cho phép dùng đặc trưng phi tuyến về lượng tử hóa. Hình vẽ 2 mô tả sơ đồ khối của bộ mã hóa và giải mã DPCMHình 11.1: Mô hình mã hóa dự đoán có tổn thất (a): bộ mã hoá, (b): bộ giải mã 2. Mã hoá biến đổi (transform coding) Trong mã hoá biến đổi, một dòng đảoo ngược chuyển đổi (như biến đổi Fourier)được sử dụng để ánh xạ một ảnh vào một hệ số biến đổi, phân mà sau đó sẽ được lượngtử hoá và mã hoá. Cho hầu hết các ảnh tự nhiên, một số lớn đáng kể các hệ số cường độnhỏ và được lượng tử thô (hoặc loại bỏ hoàn toàn) với ảnh méo nhỏ. Sự đa dạng trongbiến đổi, bao gồm biến đổi rời rạc Fourier (DFT) có thể được sử dụng để biến đổi dữ liệuảnh. Hình 3 chỉ ra hệ thống mã hoá chuyển đổi đặc trưng. Bộ giải mã thi hành bước đảochuỗi (với sự loại bỏ thuật toán lượng tử) của bộ giải mã, bộ này thực hiện bốn hoạt độngcân xứng đơn giản: Phân tích ảnh nhỏ, biến đổi, lượng tử hoá và mã hóa.Một ảnh đầu vào kích cỡ N×N đầu tiên được chia nhỏ ra thành các ảnh nhỏ cỡ n× n, sauđó được chuyển đổi để tạo ra mạng chuyển đổi ảnh nhỏ, mỗi phần có kích cỡ n× n. Mụcđích của quá trình chuyển đổi là để sắp đặt mối tương quan của các điểm ảnh của mỗi ảnhnhỏ, hoặc để gói nhiều thông tin nhất có thể vào một số nhỏ nhất hệ số chuyển đổi. Cuốiquá trình mã hoá là việc mã hoá (thường sử dụng mã hoá loạt dài) các hệ số lượng tử. Bấtkỳ hay toàn bộ các bước mã hoá chuyển đổi có thể thích ứng với nội dung vùng ảnh gọilà mã hoá chuyển đổi thích ứng hoặc sửa đổi toàn bộ ảnh nhỏ gọi là mã hoá chuyển đổikhông thích ứng.Hình 11.2: Hệ thống mã hóa biến đổi 3.Mã hoá Wavelet Mã hóa Wavelet dựa trên ý tưởng của mã hóa biến đổi, thay vì nén trực tiếp cácđiểm ảnh (pixel) thì nén các hệ số sau khi biến đổi. Điểm khác nhau cơ bản là Waveletkhông chia ra các ảnh con trước khi biến đổi. Wavelet là phép biến đổi được sử dụng đểphân tích các tín hiệu không ổn định (non-stationary) – là những tín hiệu có đáp ứng tầnsố thay đổi theo thời gian. Để khắc phục những hạn chế của biến đổi Fourier (FT), phépbiến đổi Fourier thời gian ngắn (STFT) được đề xuất. Chỉ có một khác biệt nhỏ giữaSTFT và FT là trong biến đổi STFT, tín hiệu được chia thành các khoảng nhỏ và trongkhoảng đó tín hiệu được giả định là tín hiệu ổn định. Để thực hiện kỹ thuật này cần chọnmột hàm cửa sổ w sao cho độ dài của cửa sổ đúng bằng các khoảng tín hiệu phân chia.Với phép biến đổi STFT, chúng ta có thể thu được đáp ứng tần số - thời gian của tín hiệuđồng thời mà với phép biến đổi FT ta không thực hiện được. Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa như sau:X ( f , t ) =∫ [x (t )w (t –τ)] . e-2jᴨf dt
  19. 19. Trong dó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị trí củacửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số khác nhau của đọantín hiệu ta thay đổi giá trị τ. Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để giảiquyết vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số) mà STFT vãn còn hạnchế. Biến đổi Wavelet được thực hiện theo cách: tín hiệu được nhân với hàm Wavelet(tương tự như nhân với hàm của số trong biến đổi STFT), rồi thực hiện biến đổi riêng rẽcho các khoảng tín hiệu khác nhau trong miền thời gian tại các tần số khác nhau. Cáchtiếp cận như vậy còn được gọi là: phân tích đ phân giải MRA (Multi ResolutionAnalysis): phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác nhau.MRA khi phân tích tín hiệu cho phép: phân giải thời gian tốt và phân giải tần số kém ởcác tần số cao; phân giải tần số tốt và phân giải thời gian kém ở các tần số thấp.Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành phần tần số cao xuấthiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất hiện trong khoảng thờigian dài chẳng hạn như ảnh và khung ảnh video.Hình 3 minh hoạ một hệ thống mã hoá WaveletCâu 12: Nén trong ảnh1. Nguyên lý Nén trong ảnh nhằm giảm bớt thông tin dư thừa trong miên không gian. Sử dụng cảhai quá trình nén có tổn hao và nén không tổn hao. Không sử dụng thông tin của các ảnhtrước và sau ảnh đang xét.Hình 12.1: Nén trong ảnh (Intra Frame Compression)2. Tiền xử lý Trước khi thực hiện biến đổi DCT, cả ảnh được chia thành các khôi lớn riêng biệtkhông chồng lên nhau (MB – Macro Block). Mỗi MB bao gôm 4 block các mẫu tín hiệuchói UY và 2; 4 hoặc 8 block các mẫu tín hiệu số màu (CR, CB). Số các block của tínhiệu màu phụ thuộc vào tiêu chuẩn của tín hiệu video. Các block có cùng kích thước, mỗiblock là một ma trận điểm ảnh 8x8 được lấy mẫu từ màn hình từ trái sang phải, từ trênxuống dưới. Câu trúc MB phụ thuộc vào loại quét ảnh. Nếu quét liên tục thì các block bao gồmcác mẫu từ các dòng liên tục (nén theo ảnh – frame). Ngược lại trong trường hợp quétxen kẽ, trong 1 block chỉ có các mẫu của một nửa ảnh trên (nén theo mành – field).3.Quá trình biến đổi Cosin rời rạc Biến đổi Cosin rời rạc (DCT) xử lý các giá trị của khối các diểm ảnh dưới một khốicác hệ số trong miền tần số. Quá trình mã hoá DCT một chiều gồm 8 điểm ảnh biểu diễn tín hiệu chói trong tiêuchuẩn lấy mẫu 4:2:2. Sự thay đổi đố dọc theo 8 bit trong phạm vi dải tần số từ 0 đếnf/2=6.75 MHz. Mã hoá DCT chia phổ này thành 8 dải băng nhỏ hơn. Tương ứng với mọigiải băng tần có một số đặc trưng cho năng lựơng tín hiệu trong dải băng tần đó. Giá trị đầu tiên bên trái đặc trưng cho mức giá trị thành phần một chiều của tín hiệugọi là hệ số DC. Từ trái sang phải, các hệ số lần lượt biểu diễn các thành phần tần số caohơn trong tín hiệu ban đầu gọi là hệ số AC.
  20. 20. Phép biến đổi DCT hai chiều cho mức giải tương quan bức ảnh cao hơn, cho phépbiến đổi cho khối 8x8 giá trị các điểm chói.Quá trình mã hoá thuận cho khối 8x8 được xác định.Trong dó: f( i,j ) là các hàm mẫu ban đầu trong khối 8x8 điểm chóiF( u,v ) là các hệ số biến đổi DCT khối 8x8.u là tần số chuẩn hoá theo chiều ngang ( 0<u<7 )v là tần số chuẩn hoá theo chiều đứng ( 0<v<7 )Quá trình biến đổi DCT không giảm tốc độ dòng số liệu và tính chất đảo ngược (InverseDCT) tái tạo lại chính xác giá trị điểm ảnh ban đầu nếu các hệ số DCT giữ nguyên.4. Lượng tử hoá khối DCT Quá trình lượng tử hoá khối DCT đóng vai trò quan trọng trong việc thiết kế hệ thốngnén video vì việc nó ảnh hưởng trực tiếp đến việc tái tạo lại hình ảnh. Thành phần DC vàtần số thấp là các thông số có ý nghĩa nhất của khối điểm ảnh ban đầu. Hệ số DC đượclượng tử với độ chính xác 12 bit để tránh các nhiễu xuất hiện giữa các khối điểm ảnh.Trong khi hệ số tương ứng với thành phần tần số cao được lượng tử với độ chính xác 2bit (do khả năng cảm nhận ở mắt người giảm). Ảnh càng chi tiết thì hệ số thành phần tầnsố càng lớn, có thể tràn bộ nhớ đệm nếu hệ số trong bảng lượng tử quá thấp.5. Mã hoá Entropy Mã hoá entropy làm tăng độ phức tạp, yêu cầu bộ nhớ lớn hơn so với mã có độ dài cốđịnh và tốc độ bít thay đổi theo thời gian. Khi phân bố xác suất càng lệch khỏi phân bốđều thì xuất hiện càng tăng nhờ mã hoá entropy.6. Bộ nhớ đệmCác từ mã RLC tạo ra dòng số liệu với tốc độ biến đổi, phụ thuộc vào độ phức tạp củaảnh được mã hoá. Số liệu này được ghi vào bộ nhớ đệm, các bit số liệu sẽ được đọc ra từbộ nhớ đệm này với một tốc độ cố định theo bộ mã hoá. Bộ nhớ đệm không được tràn,rỗng. Quá trình điều khiển được thực hiện bằng trọng số. Nếu bộ nhớ đệm đầy, quá trìnhlượng tử hoá được thực hiẹn với mức biểu diễn bit ít hơn nhằm tạo ra tốc độ dòng bit nhỏlại bằng cách tăng hệ số cân bằng của bộ lượng tử.7. Giải mã DCTQuá trình lượng tử hoá ngược được tiến hành theo biểu thức:Các hệ số sẽ được biến đổi ngược (IDCT) bằng quá trình f( j,k ) để tạo lại khối giá trị cácđiểm ban đầu theo biểu thức:
  21. 21. Hình 12.2: Giải mã DCTCâu 13: Nén liên ảnh 1. Mô hình Ảnh động là một xâu gồm nhiều ảnh tĩnh, mỗi ảnh tĩnh tồn tại trong một khung ảnh(frame); bản chất của sự chuyển động của một đối tượng trong xâu: đó là sự thay đổi vịtrí tương đối (toạ độ ngang và dọc) của nó trong từng frame.Hình 13.1: Mô hình nén liên ảnh Vì một chuỗi ảnh liên tục, lượng thông tin chứa trong mỗi ảnh rất ít từ ảnh này đếnảnh khác. Do đó việc tính toán dự định chuyển vị trí của nội dung ảnh là yếu tố quantrọng của kỹ thuật nén ảnh. Đặc điểm của nén liên ảnh là làm xâp xỉ, bù chuyển động vànén trong ảnh, ý tưởng đó được xây dựng như trong hình 1. 2. Kỹ thuật dự đoán bù chuyển động Ngoài sự thay đổi vị trí toạ độ, sự thay đổi về cường độ sáng của đối tượng ảnh từfrane này tới frame khác cũng tạo nên ảnh chuyển động. Trong kỹ thuật bù chuyển động,ảnh của frame hiện hành được dự báo từ ảnh của frame kề trước bằng cách làm xâp xỉchuyển động giữa hai frame và bù chuyển động đó: sự khác nhau giữa frame hiện hànhvà frame dự báo được gọi là phân dư thừa bù chuyển động; và kỹ thuật nén liên ảnh chínhlà dựa vào việc mã hoá phân dư thừa bù chuyển động này. Cường độ chói màu của ảnh còn gọi là năng lượng hiển thị hình ảnh. Đối với ảnhđộng, đặc trưng về năng lượng ảnh của phần dư thừa bù chuyển động thấp hơn nhiều sovới ảnh gốc. Do đó, việc mã hoá phần dư thừa thay vì mã hoá cả xâu ảnh video nên đãgiúp tránh được phân dư thừa này bị mã hoá lặp nhiều lần. Sự đánh giá chuyển động củaảnh có thể thực hiện trên toàn khung: người ta chia mỗi khung thành các ô màu nhỏ(thường lấy 8x8 pixel/1ô), sau đó đánh giá chuyển động của từng ô. Phép xấp xỉ và bù chuyển động chính là giải quyết hai yêu câu: (1) là Phải xác địnhbiên và khoảng dịch chuyển của vùng ảnh chuyển động giữa hai khung. (2) là Phải xácđịnh cái gì được điền vào không gian trống do vùng ảnh đã chuyển động. trong hệ thốngmã hoá nén và giải mã nén: đầu tiên bộ giải mã phải lưu ảnh trước trong khi tạo lại ảnhtiếp theo; khi bộ mã hoá thực hiện mã hoá khung 2 thì đồng thời phải tạo lại mỗi ảnh (saukhi mã hoá nó) để dự báo cho bộ giải mã tạo lại ảnh này vì bộ giải mã không có chứcnăng tạo lại các ô màu bù chuyển động. Phương pháp dự đoán để tìm ra các chi tiết ảnh thay thế giữa hai khung hình (frame)liền kề và tạo ra một vector chuyển động, vector chuyển động sẽ phối hợp với các ô ởtrong biên biểu diễn vùng chuyển động được mã hoá trước đó để lập lại các ô này tại vịtrí mới của ảnh. Các ô mẫu ở vị trí hiện tại sẽ phối hợp trong số các ô của khung ảnhtrước đó, sử dụng chúng như là thành phần dự đoán trong bảng mã hoá đã được thiết lậptrước đó: thành phần dự đoán này được lấy từ đầu vào của khung trước để tạo ra một
  22. 22. khung dự đoán có sai số thông tin nhỏ. Sai lệch giữa ô hiện tạ i và ô dự đoán của nó trongkhung ảnh trước sẽ tạo ra ô mẫu dự đoán bù chuyển động.3. Ảnh dự đoán trướcPhương pháp mã hoá nhờảnh dự đoán trước sử dụng xác suất các ảnh liên tục trong chuỗiảnh. Nhờ xác suât này, phần lớn các ảnh trong chuỗi có thể nhận biết gần giống nhau trêncơ sở thông tin chứa trong ảnh. Phương pháp này rất hiệu quả khi chuỗi ảnh là ảnh tĩnhhoàn toàn, trong trường hợp này chỉ cần truyền ảnh đầu tiên là đủ. Khi xuất hiện vật thểchuyển động nào đó phải xác định vật thể này và biểu diễn đặc trưng về sự thay đổi vị trícủa nó.Các chuyển động ngoài vùng tìm kiếm không thể thực hiện dự đoán bù chuyển động từkhung hình trước. Trường hợp này sẽ được mã hoá bằng phương pháp nén trong ảnh.Trong khối xác định vecto chuyển động. Vecto chuyển động tính toán sao cho ảnh hiệnthi và ảnh dự báo cho ra ảnh khác biệt ở đầu ra. Sô liệu về vecto chuyển động và ảnhkhác biệt sẽ được truyền đi. Hạn chế của mô hình này là không biểu diễn phần lớn cácchuyển động có thể coi như các chuyển động quay, giảm hoặc tăng lên và các chuyểnđộng phức tạp khác.Hình13.2: Nén liên ảnh (ảnh dự đoán trước)4. Ảnh dự đoán hai chiềuDự đoán hai chiều theo thời gian, còn gọi là nội suy bù chuyển động sử dụng thông tintrong một khung hình cho trước và một khung hình hiển thị để dự đoán.Mô hình này cho khả năng nén số liệu cao hơn. Hiệu ứng nhiều trong khung hình hiện thịgiảm bằng mức nhiễu trung bình của khung hình trước và khung hình sau, có khă năngdự đoán ngoài phạm vi của vùng tìm kiếm nhờ các khung hình tiếp theo.Ảnh dự đoán hai chiêu là kêt quả nội suy giữa hai ảnh để xác định chuản cảa nó, nên sẽlàm thay đổi thứ tự truyền ảnh. Bộ mã hoá ảnh đầu tiên phải truyền cả hai ảnh chuẩn, sauđó mới truyền đến ảnh dự đoán hai chiều.Mã hoá dự đoán giữa các khung hình áp dụng cho các chương trình có ít chuyển độnghoặc chuyển động quá chậm.Hình 13.3: Nén liên ảnh (ảnh dự đoán 2 chiều)Câu 14: Các chuẩn mã hóa thoại.Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông tin liên lạc vàcho phép những người quan tâm có thể sử dụng và phát triển sản phẩm và các dịch vụdựa trên cùng một tham chiếu.Một số các tổ chức chuẩn hóa liên quan đến mã hóa tín hiệu thoại : • Liên minh viễn thông quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU (ITU-T) chịu trách nhiệm xây dựng các chuẩn liên quan đên mã hóa thoại cho các ứng dụng trong mạng điện thoại bao gồm cả mạng không dây và cố định. • Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa thoại cho các ứng dụng đặc biệt. TIA là thành phần của Viện tiêu chuẩn quốc gia Hoa Ky (ANSI). TIA thành công trong việc phát triển các tiêu chuẩn cho điện
  23. 23. thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia theo thời gian – TDMA và đa truy nhập phân chia theo mã - CDMA. • Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước Châu Âu và các công ty và là một tổ chức chính của các nhà sản xuất thiết bị viễn thông. ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới. • Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa thoại, và được biết đến như là những tiêu chuẩn của Liên hợp chủng quốc Hoa Kỳ, được ứng dụng chủ yếu trong quân sự. • Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR): Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR.Câu 14: Các chuẩn mã hóa âm thanh 1. Các chuẩn mã hóa âm thanh ISO/MPEG Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nénâm thanh và hình ảnh. Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm thanhvà hình ảnh cho các phương tiện lưu trữ số bao gồm CD-ROM, DAT, đĩa quang từ MOvà ổ cứng máy tính. MPEG, viêt tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyênn.cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC.Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1,MPEG-2 và MPEG-4…MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IECJTC1 SC29 WG11. MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa ramột hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II và Layer III theo mứcđộ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng bít)của bộ mã hóa. Ba bộ mã hóa này tương thích vứi nhau theo cách có thứ tự, có nghĩa làbộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tấtcả các Layer thấp hơn N. Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã. Tât cả các LayerSử dụng cùng cấu trúc. Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhậnthức hay chuyển đổi mã hóa băng phụ theo nhận thức. Bộ mã hóa phân tích thành phầnPhổ của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhậnĐể xác định mức nhiễu có thể nghe thấy. Trong giai đọan lượng tử hóa và mã hóa, bộ mãhóa sễ cố gắng để chỉ rõ sô bít dữ liệu cần để đáp ứng cả yêu câu dòng bít và hiện tượngche lấp. Bộ giải mã đơn giản hơn, nhiệm vụ chính là tổng hợp tín hiệu âm thanh từ cácthành phần phổ được mã hóa.4.2.2. Doby AC-3Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng trongnhiều bộ phim ở rạp hát, ở nhà, và trong truyên hình chất lượng cao HDTV ở nước Mỹ.AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luồng bit 384 Kbps. Giai đọanđầu tiên của bộ giải mã hoá AC-3 là lây 512 mẫu đầu vào và áp dụng biến đổi MDCT. Để
  24. 24. tiết kiệm dải động, thì sau đó nó chia các thành phần tần số đầu ra thành các hàm loga vàhàm mũ. Các giá trị này sau đó được lượng tử hoá được kết hợp với các kênh khác vàđược đóng thành các khung để truyền đi.4.2.3. AES-3 (Audio Engineering Society-3)Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số. Tiêu đề đầy đủ của nó là địnhdạng truyên nôi tiếp cho hai kênh âm thanh số tuyến tính tương ứng. Theo thuật ngữ đơngiản mà có nghĩa nó là âm thanh nổi và không nén. AES-3 là một sự phát triển chung củaHiệp hội kỹ sư âm thanh - AES (Audio Engineering Society) và Liên minh phát sóngquảng bá châu Âu - EBU (European Broadcasting Union). Tiêu chuẩn này dựa trên cânBằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đên 100 mét. Ba tốc độlấy mẫu được hỗ trợ là 32, 44.1 và 48 KHz.Câu 15: Các chuẩn nén ảnh JPEG1. Chuẩn JPEGJPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các chuẩnnén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính thứcđược thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU. Đến năm 1994, JPEG đượckhẳng định với tiêu chuẩn ISO 10918-1.JPEG là định dạng nén ảnh có tổn thất. Hệ số nén càng cao thì hình ảnh sau khi giải nénsẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban đầu chứ không đạt hoàn toànnhư hình ảnh gốc. Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu. Tuynhiên nó cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượngkhôi phục khá tốt và ít tính toán hơn so với nén MPEG.Nén theo chuẩn JPEG là một tiến trình nhiều bước. Trước hết là bước qui tắc hóa để làmcho ảnh có nhiều đọan giống nhau hơn thực tế. Bước tiêp theo là lấy mẫu cho các kênhmàu (gọi là “downsampling” hoặc “chroma subsampling”). Đây là 1 trong 2 công đọanlàm mất thông tin và chỉ thực hiện khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp(high compression/low quality) của JPEG. Lấy mẫu (subsampling) nghĩa là loại bỏ có hệthống các thông tin màu sắc đối với các hàng hoặc cột điểm ở tỉ lệ cho trước. Bước tiếptheo, ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8 không chồngchéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi khối ảnh sẽ được trừ đi 128.Bước cuối cùng của quá trình nén là sử dụng mã hoá entropy chẳng hạn mã hoá Huffmancho các AC và DC (sau khi đã mã hoá DPCM) để tăng thêm hiệu quả nén cũng như giảmthiểu lỗi.Ở phía giải nén, luông bít mã hoá được giải mã entropy, sau đó mảng hai chiều các hệ sốDCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tử.Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây:Hình 15.1: Sđồ qt nén ảnh theo chuẩn JPEGHình 15.2: Sđồ qt giải nén theo chuẩn JPEG2. Chuẩn JPEG-2000
  25. 25. Hệ thống nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn hẳn các chuẩn công nghệ JPEGtruyên thống, cho dù JPEG-2000 không phải là một chuẩn mới hoàn toàn mà được pháttriển từ các tiêu chuẩn đã có. Điều quan trọng hơn, nó cho phép tách các phân giải khácnhau, các điểm ảnh, các miền quan tâm, các thành phần và hơn nữa, tât cả chúng đượcđưa vào một dòng bit nén đơn. Nó cho phép một ứng dụng xử lý hoặc truyền các thôngtin cần thiết cho bất kỳ một thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuẩnJPEG-2000. Tính tương thích này là một trong những ưu điểm nổi trổi mà các kỹ thuậtxử lý JPEG truyên thống gặp rất nhiều khó khăn.Không giống như tiêu chuẩn JPEG truyền thống, kỹ thuật mã hóa dựa trên biến đổi cosinrời rạc dùng mã Huffman, JPEG-2000 sử dụng kỹ thuật mã hóa dạng sóng rời rạc dùngmã số học. Sử dụng DWT cho phép nâng cao độ phân giải tần số mang tính không giantrong thể hiện biến đổi hình ảnh. Sơ đồ khối của quá trình nén và giải nén theo chuẩnJPEG-2000 mô tả ở hình 3 dưới đây:Hình 15.3: Sđồ qt nén và giải nén theo chuẩn JPEG-2000Bước 1: Xử lý trước biến đổiDo sử dụng biến đổi Wavelet, JPEG2000 cần có dữ liệu ảnh đầu vào ở dạng đối xứng qua0. Xử lý trước biến đổi chính là giai đọan đảm bảo dữ liệu đưa vào nén ảnh có dạng trên.Ở phía giải mã, giai đọan xử lý sau biến đổi sẽ trả lại giá trị gốc ban đầu cho dữ liệu ảnh.Bước 2: Biến đổi liên thành phânGiai đọan này sễ loại bỏ tính tương quan giữa các thành phần của ảnh. JPEG-2000 sửdụng hai loại biến đổi liên thành phần là biến đổi màu thuận nghịch (RCT) và biên đổimàu không thuận nghịch (ICT) trong đó biên đổi thuận nghịch làm việc với các giá trịnguyên, còn biến đổi không thuận nghịch làm việc với các giá trị thực. ICT và RCTchuyển dữ liệu ảnh từ không gian màu RGB sang YCrCb. RCT được áp dụng trong cảhai dạng thức nén có tổn thất và không tổn thất, còn ICT chỉ áp dụng cho nén có tổn thất.Việc áp dụng các biển đổi này trước khi nén ảnh không nằm ngoài mục đích làm tănghiệu quả nén. Các thành phân Cr, Cb có ảnh hưởng rất ít tới sự cảm nhận hình ảnh củamắt trong khi thành phần độ chói Y có ảnh hưởng rất lớn tới ảnh.Bước 3: Biến đổi riêng thành phầnBiên đổi riêng thành phân được áp dụng trong JPEG-2000 chính là biên đổi Wavelet.Bước 4: Lượng tử hoá – Giải lượng tử hoáCác hệ số của phép biến đổi sễ được tiến hành lượng tử hoá. Quá trình lượng tử hoá chophép đạt tỉ lệ nén cao hơn bằng cách thể hiện các giá trị biến đổi với độ chính xác tươngứng cần thiết với mức chi tiết của ảnh cần nén. Các hệ số biến đổi sẽ được lượng tử hoátheo phép lượng tử hoá vô hướng.Bước 5: Mã hoáCó thể sử dụng nhiều phương pháp mã hoá khác nhau cũng như nhiều cách biên đổiWavelet khác nhau để có thể thuđược chất lượng ảnh tương ứng với ứng dụng cần xửlý.  JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kể so với JPEG. Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh gấp ít nhất là 2 lần so với JPEG. Với tần số nén cao, chât lượng của hình ảnh giảm ít hơn. Tuy nhiên điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu
  26. 26. câu lưu trữ trong quá trình mã hóa và giải mã. Một tác động khác của điều này là những hình ảnh có the tốn mất nhiều thời gian hơn khi lưu trữ và hiển thị.Câu 16: Các chuẩn nén video MPEG1. MPEG-1Chuẩn đầu tiên được đưa ra bởi MPEG, có tên gọi phổ biến là MPEG-1, được thiết kế đểcung cấp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM. ChuẩnMPEG-1 bao gồm 3 phần. Phần 1 đề cập tới các vấn đề hệ thống (bao gồm cả ghép kênhvideo và audio đã mã hóa), phần 2 đề cập tới video nén và phần 3 là về audio nén.Các đặc tính của MPEG-1Tín hiệu video đầu vào tới một bộ mã hóa video MPEG-1 có khuôn dạng là 4:2:0(Y:Cr:Cb) với độ phân giải không gian thông thường là 352×288 hoặc 352×240 pixels.Mỗi khung video được mã hóa để tạo ra một bước ảnh mã hóa. Có 3 loại chính: các ảnh I,các ảnh P và các ảnh B. (Chuẩn này còn xác định thêm một loại ảnh là ảnh D nhưng loạinày hiếm khi sử dụng trong các ứng dụng thực tế).Ảnh loại I: không có dự đoán bù chuyển động. Ảnh loại I được sử dụng để làm thamkhảo cho những ảnh dự đoán xa hơn.Ảnh loại P: sử dụng dự đoán bù chuyển động từ một ảnh tham khảo. Do đó một ảnh loạiP được dự đoán sử dụng dự đoán chuyển tiếp và bản thân một ảnh P có thể được sử dụnglàm tham khảo cho các ảnh dự đoán xa hơn.Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc ảnh Itrước và sau ảnh B hiện tại. Thông thường, một bộ mã hóa sẽ chọn một chế độ dự đoán(chuyển tiếp, hồi tiếp hay hai chiều) sao cho tạo ra được năng lượng thấp nhất trongmacroblock sai phân. Bản thân các ảnh loại B không được sử dụng như các tham khảo dựđoán cho bất kỳ khung dự đoán xa hơn nào.Chuẩn MPEG-1 không thực sự định nghĩa thiết kế của một bộ mã hóa: thay vào đó,chuẩn này mô tả cú pháp mã hóa và một bộ giải mã ‘tham khảo’ giả thuyết. Trong thựctế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chianhững chức năng nhất định.2. MPEG-2Ứng dụng giải trí quan trọng tiếp theo của video mã hóa (sau lưu trữ CD-ROM) là truyềnhình số. Để cung cấp một số lựa chọn cải tiến cho truyên hình tương tự, một vài đặc tínhchủ yếu đã được yêu cầu đối với nguyên lý mã hóa video. Nó phải hỗ trợ hiệu quả cáckích thước khung lớn hơn (thường là 720×576 hay 720×480 pixel cho độ phân giải củaITU-R 601) và mã hóa video kêt hợp. Với những độ phân giải chất lượng truyền hình,video kết hợp tạo ra hình ảnh video mịn hơn. MPEG-2 đã ra đời nhằm đáp ứng nhữngyêu câu này.MPEG-2 bao gồm 3 phân chính: Video, Audio (dựa trên mã hóa audio của MPEG- 1) vàSystems (định nghĩa, những phần chi tiết hơn MPEG-1, ghép kênh và truyền luồngaudio/visual mã hóa). Những điểm nâng cao được thêm vào bởi MPEG-2 bao gồm:  Mã hóa hiệu quả video với chất lượng truyền hình  Hỗ trợ mã hóa video kết hợp

×