Nhận viết luận văn Đại học , thạc sĩ - Zalo: 0917.193.864
Tham khảo bảng giá dịch vụ viết bài tại: vietbaocaothuctap.net
Download luận văn đồ án tốt nghiệp ngành điện tử công nghiệp với đề tài: Ứng dụng xử lý ảnh thiết kế thi công mạch chống trộm thông minh, cho các bạn làm luận văn tham khảo
Đề tài: Ứng dụng xử lý ảnh thiết kế mạch chống trộm thông minh
1. BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH
---------------------------------
ĐỒ ÁN TỐT NGHIỆP
NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ TRUYỀN THÔNG
ĐỀ TÀI:
ỨNG DỤNG XỬ LÝ ẢNH THIẾT KẾ
THI CÔNG MẠCH CHỐNG TRỘM
THÔNG MINH
GVHD : ThS. Võ Đức Dũng
SVTH: Tăng Nguyễn Công Thiên
MSSV : 13141328
Tp. Hồ Chí Minh - 7/2018
2. BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH
---------------------------------
ĐỒ ÁN TỐT NGHIỆP
NGÀNH KỸ THUẬT ĐIỆN TỬ TRUYỀN THÔNG
ĐỀ TÀI:
ỨNG DỤNG XỬ LÝ ẢNH THIẾT KẾ
THI CÔNG MẠCH CHỐNG TRỘM
THÔNG MINH
GVHD : ThS. Võ Đức Dũng
SVTH: Tăng Nguyễn Công Thiên
MSSV : 13141328
Tp. Hồ Chí Minh - 7/2018
3. TRƯỜNG ĐH. SƯ PHẠM KỸ THUẬT CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TP. HỒ CHÍ MINH ĐỘC LẬP - TỰ DO - HẠNH PHÚC
KHOA ĐIỆN-ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP Y SINH
Tp. HCM, ngày 16 tháng 7 năm 2018
NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Họ tên sinh viên: Tăng Nguyễn Công Thiên MSSV: 13141328
Chuyên ngành: Điện tử công nghiệp Mã ngành: 141
Hệ đào tạo: Đại học chính quy Mã hệ: 1
Khóa: 2013
I. TÊN ĐỀ TÀI: ỨNG DỤNG XỬ LÝ ẢNH THIẾT KẾ THI CÔNG MẠCH
CHỐNG TRỘM THÔNG MINH
II. NHIỆM VỤ
1. Các số liệu ban đầu:
Matlab 2017a.
Sử dụng Webcam Logitech.
Kit điều khiển chính: Arduino Uno R3, Servo SG90, Module Sim 800A, Nguồn tổ
ong 10V-5A, Chuông, 2 Led đơn.
2. Nội dung thực hiện:
Để tài thực hiện nội dung phát hiện người và nhận diện khuôn mặt với đầu vào là
hình ảnh lấy được từ webcam, kết quả sẽ được gửi qua arduino để điều khiển Servo
SG90, Module Sim 800A, Chuông, 2 Led đơn. Nhóm sẽ thực hiện các nôi dung như
sau:
Tìm hiểu về Matlab.
Tìm hiểu về Arduino Uno R3.
Cài đặt thưc viện cho Arduino và các liên kết giữa Matlab và Arduino.
Tìm hiểu các thuật toán nhận diện, phát hiện người và khuôn mặt.
Xây dựng quá trình xử lý ảnh đầu vào.
Xây dựng hệ thống phát hiện người và nhận diện khuôn mặt đồng thời gửi dữ liệu
thu được qua Arduino.
Xây dựng chương trình điều khiển servo SG90, Module Sim 800A, chuông, 2 Led
đơn.
Đánh giá kết quả thực hiện.
III. NGÀY GIAO NHIỆM VỤ: 21/03/2018
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 05/07/2018
V. HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: ThS. Võ Đức Dũng
CÁN BỘ HƯỚNG DẪN BM. ĐIỆN TỬ CÔNG NGHIỆP - Y SINH
4. TRƯỜNG ĐH. SƯ PHẠM KỸ THUẬT CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TP. HỒ CHÍ MINH ĐỘC LẬP - TỰ DO - HẠNH PHÚC
KHOA ĐIỆN-ĐIỆN TỬ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP
Tp.HCM, ngày 19 tháng 03 năm 2018
LỊCH TRÌNH THỰC HIỆN ĐỒ ÁN TỐT NGHIỆP
Họ tên sinh viên : Tăng Nguyễn Công Thiên..................................................................
Lớp:13141DT3B ..........................................................MSSV:13141328.......................
Tên đề tài: ỨNG DỤNG XỬ LÝ ẢNH THIẾT KẾ THI CÔNG MẠCH CHỐNG
TRỘM THÔNG MINH
Tuần/ngày Nội dung
Xác nhận
GVHD
1
(19-25/3)
Gặp GVHD để phổ biến quy định thực hiện,
chọn đề tài, tên đề tài, thời gian làm việc.
Duyệt đề tài.
Viết đề cương cho đề tài.
2
(26/3-1/4)
Tìm hiểu hoạt động và các kiến thức liên quan
tới Arduino và Matlab.
3
(2/4-8/4)
Cài đặt Matlab, kết nối Arduino với Matlab.
4
(9/4-15/4)
Lập trình và xây dựng chương trình cho xử lý
hình ảnh đầu vào trên Matlab.
5
(16/4-22/4)
Xây dựng hệ thống nhận diện và phát hiện
chuyển động con người.
6
(23/4-29/4)
Xây dựng hệ thống nhận diện và so sánh
khuôn mặt
Tiến hành xây dựng cơ sở dữ liệu để lưu giữ
khuôn mặt
7
(30/4-6/5)
Lập trình Arduino với các chân I/O để nhúng
dữ liệu.
8
(7/5-13/5)
Thiết kế sơ đồ khối giải thích chức năng các
khối của kết nối ngoại vi.
Tính toán số liệu.
9
(14/5-20/5)
Thi công mô hình.
Lắp đặt và kết nối các thiết vị ngoại vi.
10
(21/5-28/5)
Kiểm tra lỗi và chạy thử chương trình trên mô
hình hoàn chỉnh.
Viết báo cáo hoàn chỉnh.
5. ii
11
(29/5-3/6)
Hoàn thiện chính sửa báo cáo gửi cho GVHD
để xem xét và góp ý lần cuối.
12
(4/6-11/6)
Nộp quyển báo cáo hoàn chỉnh và làm slide
powerpoint báo cáo.
GV HƯỚNG DẪN
(Ký và ghi rõ họ và tên)
6. iv
LỜI CAM ĐOAN
Đề tài này là do nhóm sinh viên Tăng Nguyễn Công Thiên tự thực hiện, dựa vào một số
tài liệu trước đó và không sao chép từ tài liệu hay công trình đã có trước đó.
Người thực hiện đề tài
Tăng Nguyễn Công Thiên
7. v
LỜI CẢM ƠN
Trong thời gian thực hiện đề tài, những người thực hiện được sự giúp đỡ của gia
đình, quý thầy cô và bạn bè nên đề tài đã được hoàn thành. Những người thực hiện xin
chân thành gửi lời cảm ơn đến:
Thầy Võ Đức Dũng, giảng viên trường Đại Học Sư Phạm Kỹ Thuật Tp.HCM đã
trực tiếp hướng dẫn và tận tình giúp đỡ tạo điều kiện để nhóm có thể hoàn thành tốt đề
tài.
Những người thực hiện cũng xin chân thành cám ơn đến các thầy cô trong khoa
Điện - Điện tử của trường Đại Học Sư Phạm Kỹ Thuật Tp.HCM đã tận tình dạy dỗ, chỉ
bảo, cung cấp cho những người thực hiện những kiến thức nền, chuyên môn làm cơ sở để
hoàn thành đề tài này.
Cảm ơn gia đình đã động viên và luôn luôn bên cạnh trong những lúc khó khăn
nhất.
Xin gửi lời cảm ơn đến những người bạn sinh viên khoa Điện-Điện tử đã giúp đỡ
những người thực hiện đề tài để có thể hoàn thành tốt đề tài này.
Xin chân thành cảm ơn!
Người thực hiện đề tài:
Tăng Nguyễn Công Thiên
8. vi
MỤC LỤC
Trang bìa.................................................................................................................... i
Nhiệm vụ đồ án ........................................................................................................ii
Lịch trình thực hiện đồ án tốt nghiệp ......................................................................iii
Cam đoan ................................................................................................................ iv
Lời cảm ơn................................................................................................................ v
Mục lục.................................................................................................................... vi
Liệt kê hình vẽ......................................................................................................... ix
Liệt kê bảng vẽ ........................................................................................................ xi
Tóm tắt ...................................................................................................................xii
CHƯƠNG 1. TỔNG QUAN ............................................................................ 1
1.1 LÝ DO CHỌN ĐỀ TÀI ...................................................................................... 1
1.2 MỤC TIÊU ......................................................................................................... 2
1.2.1 Mục tiêu......................................................................................................... 2
1.2.2 Giới hạn......................................................................................................... 2
1.3 BỐ CỤC ĐỒ ÁN TỐT NHIỆP........................................................................... 2
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT................................................................ 4
2.1 GIỚI THIỆU VỀ HỆ THỐNG XỬ LÝ ẢNH .................................................... 4
2.1.1 Phần thu nhận ảnh (Image Acquisiton)......................................................... 5
2.1.2 Tiền xử lý (Image Processing) ...................................................................... 6
2.1.3 Phân đoạn (Segmentation) hay phân vùng ảnh............................................. 6
2.1.4 Biểu diễn ảnh (Image Representation).......................................................... 6
2.1.5 Nhận dạng và nội suy (Image Recognition and Interpretation).................... 6
2.1.6 Cơ sở tri thức................................................................................................. 7
2.1.7 Các thành phần cơ bản của hệ thống............................................................ 7
2.2 NHỮNG VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH........................................ 8
2.2.1 Điểm ảnh (Picture Element).......................................................................... 8
2.2.2 Độ phân giải của ảnh..................................................................................... 8
2.2.3 Mức xám của ảnh .......................................................................................... 9
2.2.4 Định nghĩa ảnh số.......................................................................................... 9
9. vii
2.3 GIỚI THIỆU KHÁI QUÁT VỀ CÁC LINH KIỆN SỬ DỤNG TRONG THIẾT
KẾ, THI CÔNG ĐỀ TÀI.......................................................................................... 9
2.3.1 Mạch Arduino Uno R3.................................................................................. 9
2.3.2 Tổng quan về động cơ Servo....................................................................... 14
2.3.3 Tổng quan về Buzzer................................................................................... 14
2.3.4 Module SIM 800A ...................................................................................... 15
CHƯƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ. ................................................ 16
3.1 TỔNG QUAN CÁC KỸ THUẬT NHẬN BIẾT MÀU DA DỰA TRÊN TÍNH
CHẤT ĐIỂM ẢNH ................................................................................................ 16
3.1.1 Giới thiệu..................................................................................................... 16
3.1.2 Không gian màu sử dụng cho mô hình hóa màu da.................................... 16
3.1.2.1 Không gian màu RGB............................................................................ 17
3.1.2.2 Không gian RGB chuẩn hóa .................................................................. 17
3.1.2.3 Không gian màu HIS, HSV, HSL.......................................................... 18
3.1.2.4 Không gian màu HIS ............................................................................. 18
3.1.2.5 Không gian màu HSV............................................................................ 19
3.1.2.6 Không gian màu HSL ............................................................................ 20
3.1.2.7 Không gian màu TSL............................................................................. 21
3.1.2.8 Không gian màu Y ......................................................................... 21
3.1.2.9 Các hệ tọa độ không gian màu khác ...................................................... 22
3.1.3 Mô hình hóa màu da.................................................................................... 22
3.1.3.1 Xác đinh ngƣỡng cụ thể một điểm ảnh là màu da ................................. 22
3.1.3.2 Phƣơng pháp mô hình hóa màu da sử dụng phân phôi không tham số . 23
3.1.3.3 Bảng tra cứu chuẩn cứu (LUT – Lookup Table) ................................... 23
3.1.3.4 Phân lớp Bayes (bayes Classifier) ......................................................... 24
3.1.3.5 Tổng kết phƣơng pháp không tham số................................................... 25
3.1.3.6 Mô hình hóa phân phối màu da có tham số ........................................... 25
3.1.3.7 Mô hình dựa trên phân phối Gauss đơn................................................. 26
3.1.3.8 Mô hình kết hợp trên dựa trên phân phối Gauss.................................... 26
3.1.3.9 Đa phân phối Gauss ............................................................................... 27
3.1.3.10 Tổng kết các phƣơng pháp mô hình hóa theo tham số ........................ 27
3.1.4 So sánh kết quả các mô hình....................................................................... 27
3.1.5 Đánh giá phƣơng pháp ................................................................................ 29
10. viii
3.1.6 Chọn lựa không gian màu và phƣơng pháp mô hình hóa dùn để nhận biết
màu da cho đồ án.................................................................................................. 29
3.2 PHÂN TÍCH THÀNH PHẦN CHÍNH PCA ................................................... 30
3.2.1 Tổng quan về phƣơng pháp PCA................................................................ 30
3.2.1.1 Giới thiệu ............................................................................................... 30
3.2.1.2 Ý tƣởng .................................................................................................. 30
3.2.2 Trích chọn đặc trƣng khuôn mặt ngƣời dựa trên phƣơng pháp PCA.......... 34
3.2.2.1 Chuyển đổi ảnh ...................................................................................... 34
3.2.2.2 Tính khuôn mặt ngƣời trung bình.......................................................... 35
3.2.2.3 Trừ mỗi ảnh cho mặt trung bình ............................................................ 35
3.2.2.4 Xây dựng ma trận hợp phƣơng sai......................................................... 35
3.2.2.5 Phép chiếu.............................................................................................. 36
3.3 PHÂN TÍCH HOG ........................................................................................... 37
3.3.1 Giới thiệu..................................................................................................... 37
3.3.2 Chuẩn hóa hình ảnh trƣớc khi xử lý............................................................ 38
3.3.3 Tính toán gradient ....................................................................................... 38
3.3.4 Lấy votes trong mỗi cell.............................................................................. 39
3.3.5 Chuẩn hóa các block ................................................................................... 40
3.3.6 Sử dụng trong bài toán object recognition .................................................. 40
3.3 KẾT NỐI VỚI THIẾT BỊ NGOẠI VI ............................................................. 41
3.4.1 Khối xử lý trung tâm ................................................................................... 42
3.4.2 Khối Module Sim 800A.............................................................................. 42
3.4.3 Khối động cơ servo ..................................................................................... 43
3.4.4 Khối hiển thị và báo động ........................................................................... 44
3.4.5 Khối nguồn.................................................................................................. 45
3.4.6 Sơ đồ nguyên lý hệ thống ngoại vi.............................................................. 46
CHƯƠNG 4. THI CÔNG HỆ THỐNG ....................................................... 47
4.1 GIỚI THIỆU....................................................................................................... 47
4.2 THI CÔNG HỆ THỐNG.................................................................................... 47
4.2.1 Hệ thống nhận hiện chuyển động................................................................ 47
4.2.1 Hệ thống nhận diện khuôn mặt ................................................................... 50
4.2.2.1 Lƣu đồ giải thuật của hệ thống nhận diện khuôn mặt............................ 50
4.2.2.2 Lƣu đồ giải thuật của hệ thống huấn luyện............................................ 51
4.2.2.3 Yêu cầu về dữ liệu ảnh........................................................................... 52
11. ix
4.2.2.4 Chuẩn hóa ảnh đầu vào.......................................................................... 53
4.2.2.5 Trích xuất đặc trƣng của khuôn mặt ...................................................... 53
4.2.2.6 Xuất kết quả ........................................................................................... 54
4.2.3 Hệ thống cảnh báo....................................................................................... 55
4.3 GIỚI THIỆU CHƢƠNG TRÌNH ....................................................................... 57
4.3.1 Hệ thống phát hiện chuyển động................................................................. 57
4.3.2 Hệ thống nhận diện khuôn mặt ................................................................... 58
4.4 ĐÓNG GÓI VÀ THI CÔNG MÔ HÌNH ........................................................... 62
4.4.1 Đóng gói bộ điều khiển............................................................................... 62
4.4.1 Thi công mô hình ........................................................................................ 63
CHƯƠNG 5. KẾT QUẢ_NHẬN XÉT_ĐÁNH GIÁ ................................... 65
5.1 KẾT QUẢ........................................................................................................... 65
5.2 NHẬN XÉT – ĐÁNH GIÁ ................................................................................ 76
CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................ 77
6.1 KẾT LUẬN ........................................................................................................ 77
6.2 HƢỚNG PHÁT TRIỂN ..................................................................................... 78
TÀI LIỆU THAM KHẢO............................................................................. 79
PHỤ LỤC………………………….. ............................................................. 80
12. ix
LIỆT KÊ HÌNH VẼ
Hình Trang
Hình 2.1 Các bước cơ bản trong xử lý ảnh ...................................................................5
Hình 2.2 Các thành phần chính cảu hệ thống xử lý ảnh ...............................................7
Hình 2.3 Arduino UNO R3 ..........................................................................................10
Hình 2.4 Sơ Đồ Chân Arduino UNO R3 ......................................................................10
Hình 2.5 Động cơ Servo................................................................................................14
Hình 2.6 Buzzer ............................................................................................................14
Hình 2.7 Module Sim 800A..........................................................................................15
Hình 3.1 Không gian màu RGB....................................................................................17
Hình 3.2 Không gian màu HSV ....................................................................................19
Hình 3.3 Ý tưởng chính của PCA .................................................................................34
Hình 3.4 Biểu đồ dựa trên Gy,Gx..................................................................................39
Hình 3.5 Các cell trong một block.................................................................................40
Hình 3.6 Sơ đồ kết nối ngoại vi ....................................................................................41
Hình 3.7 Module Sim 800A..........................................................................................42
Hình 3.8 Sơ đồ nguyên lý kết nối Module Sim 800A vào Arduino Uno R3................43
Hình 3.9 Động cơ Servo................................................................................................43
Hình 3.10 Sơ đồ nguyên lý kết nối Arduino Uno R3 với động cơ Servo.....................44
Hình 3.11 Sơ đồ kết nối Arduino Uno R3 với Buzzer ..................................................45
Hình 3.12 Nguồn tổ ong 12V 5A..................................................................................46
Hình 3.13 Nguồn tổ ong 5V 4A....................................................................................46
Hình 3.14 Sơ đồ nguyên lý hệ thống ngoại vi...............................................................46
Hình 4.1 Lưu đồ của hệ thống nhận diện chuyển động ................................................47
Hình 4.2 Lưu đồ đưa hình ảnh vào hệ thống phát hiện chuyển động ...........................48
Hình 4.3 Lưu đồ của nhận diện chuyển động ...............................................................49
Hình 4.4 Hệ thống nhận diện có chuyển động và khoanh vùng chuyển động..............49
Hình 4.5 Lưu đồ của hệ thống nhận diện khuôn mặt.....................................................50
Hình 4.6 Lưu đồ của hệ thống huấn luyện....................................................................51
Hình 4.7 Một số ảnh mẫu trong cơ sở dữ liệu...............................................................52
Hình 4.8 Lưu đồ tiến trình.............................................................................................53
Hình 4.9 Lưu đồ hệ thống cảnh báo chuyển động ........................................................55
Hình 4.10 Lưu đồ nhận diện khuôn mặt kết hợp với thiết bị ngoại vi..........................56
Hình 4.11 Giao diện chính của hệ thống chống trộm thông minh................................57
13. x
Hình 4.12 Giao diện chính của hệ thống phát hiện chuyển động .................................58
Hình 4.13 Giao diện chính của hệ thống phát hiện chuyển động khi đang hoạt động .58
Hình 4.14 Giao diện chính của hệ thống nhận diện khuôn mặt....................................59
Hình 4.15 Thêm ảnh cho cơ sở dữ liệu .........................................................................59
Hình 4.16 Huấn luyện cho cơ sở dữ liệu.......................................................................60
Hình 4.17 Tiến hành so sánh khuôn mặt với ảnh trong cơ sở dữ liệu ..........................60
Hình 4.18 Cho phép xóa ảnh trong cơ sở dữ liệu..........................................................61
Hình 4.19 Các khuôn mặt có sẵn trong cơ sở dữ liệu....................................................61
Hình 4.20 Xóa tất cả ảnh trong cơ sở dữ liệu ...............................................................62
Hình 4.21 Sơ đồ bố trí linh kiện mặt trước mô hình.....................................................62
Hình 4.22 Hình dạng mặt bên mô hình .........................................................................63
Hình 4.23 Hình dạng mặt trên mô hình.........................................................................64
Hình 5.1 Phát hiện chuyển động người ở phía trước.....................................................65
Hình 5.2 Phát hiện chuyển động người ở phía sau........................................................66
Hình 5.3 Phát hiện chuyển động người khi đang cúi xuống..........................................66
Hình 5.4 Hệ thống cảnh báo gửi tin nhắn đến cho gia chủ............................................67
Hình 5.5 Đèn và chuông hoạt động khi có chuyển động...............................................67
Hình 5.6 Ảnh chụp lại từ camera trong điều kiện ánh sáng yếu...................................68
Hình 5.7 Giao diện chính của hệ thống nhận diện khuôn mặt......................................68
Hình 5.8 Tiến hành thêm hình ảnh vào kho lưu trữ......................................................69
Hình 5.9 Chọn thiết bị để quét môi trường ...................................................................69
Hình 5.10 Chọn thiết bị để quét môi trường .................................................................70
Hình 5.11 Phát hiện ra khuôn mặt.................................................................................70
Hình 5.12 Yêu cầu nhập tên..........................................................................................71
Hình 5.13 Huấn luyện hệ thống.....................................................................................71
Hình 5.14 Đang tiến hành huấn luyện hệ thống............................................................72
Hình 5.15 Đã hoàn tấc huấn luyện ................................................................................72
Hình 5.16 Tiến hành so sánh khuôn mặt.......................................................................73
Hình 5.17 Phát hiện ra khuôn mặt có sẵn trong cơ sở dữ liệu.......................................73
Hình 5.18 Cửa mở ra trong 6 giây sau đó tự động đóng lại..........................................74
Hình 5.19 Phát hiện ra khuôn mặt không có trong cỡ sở dữ liệu..................................74
Hình 5.20 Đèn cảnh báo sáng lên kèm theo chuông.....................................................75
14. xi
LIỆT KÊ BẢNG
Bảng Trang
Bảng 2.1 Các thông số của Arduino UNO R3 ......................................................11
Bảng 3.1 Kết quả nhận biết đúng sai của các phương pháp ...........................28
15. xiii
TÓM TẮT
Hiện nay, hệ thống chống trộm ngày càng phổ biến và được tích hợp thêm nhiều các
thiết bị điện tử để nâng cao tính hiệu quả của hệ thống. Vì thế hệ thống chống trộm ngày
càng được ứng dụng nhiều hơn vào thực tiễn đời sống như không cho người lạ xâm nhập,
bảo vệ tài sản,… đã được đưa vào các hộ gia đình, công ty, trường học,...
Với mục đích muốn tiếp cận với các công nghệ đang phát triển trên. Vì vậy, nhóm
thực hiện đồ án với mong muốn chế tạo ra mô hình chống trộm sử dụng xử lý ảnh kết
hợp với sử dụng kit Arduino được giám sát bằng máy tính thông qua Laptop và tin nhắn
trong đó bao gồm:
Hệ thống có các chức năng như sau:
Hệ thống chính gồm có hai phần
Nhận diện được chuyển động người trong khu vực có camera quan sát và
đưa ra cảnh báo qua tin nhắn.
Nhận diện khuôn mặt và so sánh khuôn mặt đã quét với kho dữ liệu để đưa
ra hướng xử lý mở cửa hay không.
Hệ thống mở rộng bao gồm:
Hệ thống điều khiển thiết bị từ xa thông qua Internet, hiển thị tất cả thông tin
mà camera thu được vào thiết bị di động.
Mô hình sử dụng kit Arduino Uno R3 làm vi điều khiển trung tâm để điều khiển các
module mở rộng như Module Sim 800A, Buzzer, Servo.
Đóng mở cửa bằng cách sử dụng động cơ Servo. Người dùng tương tác sử dụng
thông qua camera được đặt sẵn.
Hệ thống cảnh báo bằng Module Sim 800A gửi tin nhắn cảnh báo khi có người lạ
đột nhập.
16. CHƯƠNG 1. TỔNG QUAN
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 1
CHƯƠNG 1
TỔNG QUAN
1.1 LÝ DO CHỌN ĐỀ TÀI
Tình hình an ninh trật tự đang là vấn đề nhức nhối của toàn xã hội, đặt biệt là vấn đề
trộm cắp tài sản tại tư gia khiến cho gia chủ phải tốn rất nhiều thời gian và công sức trong
việc bảo vệ tài sản
Dù ở mức độ trộm cắp nào đi chăng nữa cũng để lại là những hậu quả ảnh hưởng
trực tiếp cho gia chủ. Và một trong những nguyên nhân chủ yếu của nạn trộm cắp chính
là an ninh lỏng lẻo giúp kẻ trộm có cơ hội ra tay. Hiện nay khóa đang là hình thức được
sử dụng thông dụng nhất. Tuy nhiên những tên trộm hoàn toàn có thể bẻ, phá được khóa,
thậm chí là khóa số điện tử. Do đó cần phải có những thiết bị báo trộm, vừa để chủ nhà
nhận biết được có kẻ trộm đột nhâp, vừa để tên trộm khi biết đã bị phát hiện sẽ hoảng
loạn sẽ phải quay đầu bỏ chạy ngay. Với những ngôi nhà thông minh hay căn hộ chung
cư, thiết bị báo trộm lại càng cần thiết.
Chính vì cần có biện pháp hiệu quả hơn trong vấn đề an ninh, phòng chống những
rủi ro có thể xảy ra nên nhóm sinh viên chúng em chọn đề tài “Ứng dụng xử lý ảnh thiết
kế thi công mạch chống trộm thông minh.” để làm đồ án tốt nghiệp.
Nhằm khắc phục một phần và ngăn ngừa những hậu quả nêu trên, nhóm sinh viên
chúng em chọn đề tài “Ứng dụng xử lý ảnh thiết kế thi công mạch chống trộm thông
minh” để làm đồ án tốt nghiệp.
Đây là một đề tài không quá mới mẻ, đã được nghiên cứu nhiều trong các đề tài
trước đây. Và kết quả cho thấy rằng độ chính xác nằm ở mức trung bình . Đề tài đã khắc
phục những hạn chế như vẫn có thể so sánh liên tục với những kho ảnh đã lưu trữ, cảnh
báo cho người dùng … nhằm tăng độ chính xác trong việc phát hiện có kẻ lạ.
1.2 MỤC TIÊU VÀ GIỚI HẠN
1.2.1 Mục tiêu
17. CHƯƠNG 1. TỔNG QUAN
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 2
Thiết kế và thi công được hệ thống chống trộm thông minh thông qua quá trình xử
lý ảnh nhận diện chuyển động và nhận dạng khuôn mặt để cảnh báo bằng tin nhắn SMS
và báo động đồng thơi đóng mở cửa.
1.2.2 Giới hạn
Đặc tính của hệ thống xử lý ảnh thông thường bị ảnh hưởng bởi nhiều yếu tố. Trong
điều kiện thực tế cho phép nhóm thực hiện đề tài trong một số điều kiện giới hạn sau:
Điều kiện thu nhận hình ảnh ngày và đêm, trong điều kiện ánh sáng ổn định.
Khuôn mặt không trang điểm hoặc bị biến dạng.
Không thể xác định được mắt khi khuôn mặt nghiêng, xoay trái, xoay phải một góc
lớn hơn 45 độ, cúi xuống hoặc ngước lên một góc lớn hơn 300 độ.
Khoảng cách từ camera đến đối tượng dưới 1.2 mét, trên khoảng cách này thì việc
nhận dạng sẽ không được chính xác.
Chưa xây dựng app android để người dùng có khả năng quản lý hệ thống từ xa.
1.3 BỐ CỤC ĐỒ ÁN TỐT NGHIỆP
Đồ án tốt nghiệp có bố cục được thể hiện như sau:
Chương 1: Tổng quan
Giới thiệu và nêu lý do chọn đề tài.
Mục tiêu và giới hạn.
Trình bày bố cục đồ án.
Chương 2: Cơ sở lý thuyết
Giới thiệu về hệ thống xử lý ảnh.
Những vấn đề trong hệ thống xử lý ảnh.
Giới thiệu khái quát về các linh kiện sử dụng trong thiết kế, thi công đề tài.
Chương 3: Tính toán thiết kế
Tổng quan các kỹ thuật nhận biết màu da dựa trên tính chất điểm ảnh.
Phân tích thành phần chính bằng PCA.
Phân tích HOG.
Kết nối với thiết bị ngoại vi.
18. CHƯƠNG 1. TỔNG QUAN
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 3
Chương 4: Thi công và giới thiệu chương trình
Giới thiệu.
Thi công hệ thống.
Giới thiệu chương trình.
Đóng gói và thi công mô hình.
Chương 5: Kết quả_Nhận xét_Đánh giá
Kết quả.
Nhận xét_Đánh giá.
Chương 6: Kết Luận Và Hướng Phát Triển
Kết luận.
Hướng phát triển.
19. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 4
CHƢƠNG 2
CƠ SỞ LÝ THUYẾT
2.1 GIỚI THIỆU VỀ HỆ THỐNG XỬ LÝ ẢNH
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Nó là một ngành khoa
học mới mẻ so với nhiều ngành khoa học khác nhưng tốc đó phát triển của nó rất nhanh,
kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng
cho nó.
Xử lý ảnh là kỹ thuật áp dụng trong việc tăng cường và xử lý các ảnh thu nhận từ
các thiết bị như camera, webcam… Do đó, xử lý ảnh đã được ứng dụng và phát triển
trong rất nhiều lĩnh vực quan trọng như:
Trong lĩnh vực quân sự: xử lý và nhận dạng ảnh quân sự.
Trong lĩnh vực giao tiếp người máy: nhận dạng ảnh, xử lý âm thanh, đồ họa.
Trong lĩnh vực an, bảo mật: nhận diện khuôn mặt người, nhận diện vân tay, mẫu
mắt, …
Trong lĩnh vực giải trí: trò chơi điện tử.
Trong lĩnh vực y tế: Xử lý ảnh y sinh, chụp X quang, MRI,…
Các phương pháp xử lý ảnh bắt đầu từ các ứng dụng chính: nâng cao chất lượng và
phân tích ảnh. Ứng dụng đầu tiên được biết đến là nâng cao chất lượng ảnh báo được
truyền từ Luân đôn đến New York từ những năm 1920. Vấn đề nâng cao chất lượng ảnh
có liên quan tới phân bố mức sáng và độ phân giải của ảnh. Việc nâng cao chất lượng ảnh
được phát triển vào khoảng những năm 1955. Điều này có thể giải thích được vì sau thế
chiến thứ hai, máy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số được
thuận lợi hơn. Năm 1964, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ
mặt trăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh. Từ năm
1964 đến nay, các phương tiện xử lý, nâng cao chất lượng, nhận dạng ảnh phát triển
không ngừng. Các phương pháp tri thức nhân tạo như mạng nơ-ron nhân tạo, các thuật
20. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 5
toán xử lý hiện đâị và cải tiến, các công cụ nén ảnh ngày càng được áp dụng rộng rãi và
thu được nhiều kết quả khả quan hơn.
Sau đây, ta sẽ xét các bước cần thiết trong quá trình xử lý ảnh. Đầu tiên, ảnh tự
nhiên từ thế giới bên ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp
ảnh). Trước đây, ảnh thu qua Camera là các ảnh tương tự (loại Camera ống kiểu CCIR).
Gần đây với sự phát triển của công nghệ, ảnh màu hoặc đen trắng được lấy ra từ Camera,
sau đó nó được chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo. Mặt khác,
ảnh cũng có thể tiếp theo. Mặt khác ảnh có thể được quét từ vệ tinh chụp trực tiếp bằng
máy quét ảnh.
Hình 2.1 dưới đây mô tả các bước cơ bản trong xử lý ảnh.
Hình 2.1 Các bước cơ bản trong xử lý ảnh
Sơ đồ này bao gồm các thành phần sau:
2.1.1 Phần thu nhận ảnh (Image Acquisition)
Ảnh có thể nhận qua camera mà hoặc trắng đen. Thường ảnh nhận qua camera là
ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có
loại camera đã số hóa (như loại CCD – Change Coupled Device) là loại photodiot tạo
cường độ sáng tại mỗi điểm ảnh.
21. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 6
Camera thường dùng là loại quét dùng: ảnh tạo ra có dạng hai chiều. Chất lượng ảnh
thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh).
2.1.2 Tiền xử lý (Image Processing)
Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền xử lý
để nâng cao chất lượng. Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương
phản để làm ảnh rõ nét hơn.
2.1.3 Phân đoạn (Segmentation) hay phân vùng ảnh
Phân vừng ảnh là tách một ảnh ban đầu vào thành các vùng thành phần để biểu diễn
phân tích, nhận diện ảnh. Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư cho
mục đích phân loại bưu phẩm, cần chia các câu chữ về địa chỉ hoặc tên người thành các
từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng. Đây là phần phức tạp khó
khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh. Kết quả nhận
dạng ảnh phụ thuộc rất nhiều vào công đoạn này.
2.1.4 Biểu diễn ảnh (Image Representation)
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn) cộng
với mã liên kết ở các vùng lân cận. Việc biến đổi các số liệu này thành dạng thích hợp là
cần thiết cho xử lý tiếp theo bằng máy tính. Việc chọn các tính chất để thể hiện ảnh gọi là
trích chọn đặc trưng( Feature Extration) gắn với việc tách các đặc tính của ảnh dưới dạng
các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối tượng
khác trong phạm vi ảnh nhận được. Ví dụ: trong nhận dạng ký tự trên phong bì thư, chúng
ta miêu tả các đặc trưng của từng ký tự giúp phận biệt ký tự này với ký tự khác.
2.1.5 Nhận dạng và nôi suy ảnh (Image Recognition and Interpretation)
Nhận dạng ảnh là quá trình xác định ảnh. Quá trình này thường thu được bằng cách
so sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước. Nội suy là phán đoán theo ý
nghĩa trên cơ sở nhận dạng. Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thư có
thể nội suy thành mã điện thoại. Có nhiều cách phân loại ảnh khác nhau về ảnh. Theo lý
22. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 7
thuyết về nhận dạng, các mô hình toán học về ảnh được phân theo hai loại nhận dạng ảnh
cơ bản:
Nhận dạng theo tham số.
Nhận dạng theo cấu trúc.
Một số đối tượng nhận dạng khá phổ biến hiện nay được áp dụng trong khoa học và
công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử), nhận dạng văn bản
(Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt người,…
2.1.6 Cơ sơ tri thức
Ảnh là một dối tượng khá phức tạp về đường nét, độ sáng tối, dung lượng điểm ảnh,
môi trường để thu ảnh phong phú kéo theo nhiều. Trong nhiều khâu xử lý và phân tích
ảnh ngoài việc đơn giản hóa các phương pháp toán học đảm bảo tiện lợi cho xử lý, người
ta mong muốn bắt chước quy trình tiếp nhận và xử lý ảnh theo cách của con người. Trong
các bước xử ly đó, nhiều khâu hiện nay đã xử lý theo phương pháp trí tuệ con người.
2.1.7 Các thành phần cơ bản của hệ thống xử lý ảnh
Hình 2.2 Các thành phần chính của hệ thống xử lý ảnh
Một hệ thống xử lý ảnh cơ bản có thể gồm:máy tính các nhân kèm theo vi mạch
chuyển đổi đồ họa VGA hoặc SVGA. Nếu điều kiện cho phép, nên có một hệ thống như
hình 2.2, bao gồm một máy tính PC kem theo thiết bị xử lý ảnh, nối với cổng vào của
thiết bị thu nhận ảnh là một video camera và cổng ra nối với một màn hình.
Khi hệ thống này thực hiện một quá trình xử lý ảnh, đầu tiên, ảnh sẽ được nhận qua
thiết bị thu nhận ảnh. Ảnh này có thể là ảnh đen trắng hoặc ảnh màu, chất lượng ảnh tùy
thuộc vào chất lượng của camera cũng như các yếu tố của môi trường. Sau đó, ảnh sẽ
23. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 8
được đưa qua thiết bị xử lý ảnh, Ảnh sau khi được xử lý sẽ được đưa ra thiết bị hiển thị/
thực thi để xuất kết quả cuối cùng (hiển thị kết quả ra màn hình hoặc thực thi chức năng
của thiết bị: mở cửa, cảnh báo,…).
2.2 NHỮNG VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH
2.2.1 Điểm ảnh (Picture Element)
Gốc của ảnh (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng. Đề xử lý bằng
máy tính (số), ảnh cần phải được số hóa. Số hóa ảnh là sự biến đổi gần đúng một ảnh liên
tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức sáng).
Khoảng cách giữa các diểm ảnh đó được thiết lập sao cho mắt người không phân biệt
được ranh giới giữa chúng. Mỗi một điểm như vậy được gọi là điểm ảnh (PEL: Picture
Element) hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa
độ (x,).
Định nghĩa:
Điểm ảnh (Pixel) là một phần tử của ảnh số tại tọa độ (x,y) với độ xám hoặc màu
nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho
mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần
như ảnh thật. Mỗi phần tử trong ma trận được gọi là một phần tử ảnh.
2.2.2 Độ phân giải của ảnh
Định nghĩa: Độ phân giải (Resolution) của ảnh là mật độ của điểm ảnh được ấn định
trên một ảnh số được hiển thị.
Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người
vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên một mật
độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong không gian
hai chiều.
Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một
lưới điểm theo chiều ngang màn hình: 320 điểm chiều dọc nhân với 200 điểm ảnh
(320*200). Rõ ràng cùng màn hình CGA 12 inch ta nhận thấy mịn hơn màn hình CGA 17
24. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 9
inch độ phân giải 320*200. Lý do: cùng một mật độ (độ phân giải) nhwung diện tích màn
hình rộng hơn thì dộ mịn (liên tục của các điểm) kém hơn.
2.2.3 Mức xám của ảnh
Một điểm ảnh (pixel) có hai đặc trưng cơ bản là vị trí (x,y) của điểm ảnh va độ xám
của nó. Dưới đây chúng ta xem xét một số khái niệm và thuật ngữ thường được dùng
trong xử lý ảnh.
Định nghĩa: Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị
số tại điểm đó.
Ảnh trắng đen: là ảnh có hai màu đen, trắng (không chứa màu khác) với mức xám
ở các điểm ảnh có thể khác nhau.
Ảnh nhị phân ảnh: chỉ có hai mức đen trắng phân biệt tức dùng 1 bit mô ta 2 mức
khác nhau. Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1.
Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới
đa màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu:
256*256*256 hay triệu màu. Vì khi biểu diễn dưới dạng số, các giá trị
RGB thường được ghi bằng 3 cặp số nguyên giữa 0 và 255, mỗi số đại diện cho cường độ
của 3 màu: Red (255, 0, 0) Blue (0, 255, 0) Green (0, 0, 255).
2.2.4 Định nghĩa ảnh số
Ảnh số là tập hợp các ddiemr ảnh với mức xám phù hợp dùng để mô tả ảnh gần với
ảnh thật.
2.3 GIỚI THIỆU KHÁI QUÁT VỀ CÁC LINH KIỆN SỬ DỤNG TRONG
THIẾT KẾ, THI CÔNG ĐỀ TÀI
2.3.1 Mạch Arduino Uno R3
Hình dáng và công dụng của mạch Arduino Uno R3
25. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 10
Arduino là một board mạch vi xử lý, nhằm xây dựng các ứng dụng tương tác với
nhau hoặc với môi trường được thuận lợi hơn. Phần cứng bao gồm một board mạch
nguồn mở được thiết kế trên nền tảng vi xử lý AVR Atmel 8bit, hoặc ARM Atmel 32-bit.
Những Model hiện tại được trang bị gồm 1 cổng giao tiếp USB, 6 chân đầu vào analog,
14 chân I/O kỹ thuật số tương thích với nhiều board mở rộng khác nhau.
Được giới thiệu vào năm 2005, Những nhà thiết kế của Arduino cố gắng mang đến
một phương thức dễ dàng, không tốn kém cho những người yêu thích, sinh viên và giới
chuyên nghiệp để tạo ra những nhiết bị có khả năng tương tác với môi trường thông qua
các cảm biến và các cơ cấu chấp hành. Những ví dụ phổ biến cho những người yêu thích
mới bắt đầu bao gồm các robot đơn giản, điều khiển nhiệt độ và phát hiện chuyển động.
Hình 2.3 Arduino UNO R3
26. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 11
Hình 2.4 Sơ Đồ Chân Arduino Uno R3
Vi điều khiển ATmega328 họ 8 bit
Điện áp hoạt động 5V DC (chỉ được cấp qua cổng USB)
Tần số hoạt động 16 MHz
Dòng tiêu thụ Khoảng 30mA
Điện áp vào khuyên dung 7-12V DC
Điện áp vào giới hạn 6-20V DC
Số chân Digital I/O 14 (6 chân hardware PWM)
Số chân Analog 6 ( độ phân giải 10bit)
Dòng tối đa trên mỗi chân
I/O
30mA
Dòng ra tối đa (5V) 500 mA
Dòng ra tối đa (3.3V) 50 mA
Bộ nhớ flash 32 KB(ATmega328) với 0.5KB dùng
bởi bootloader
27. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 12
SRAM 2 KB(ATmega328)
EEPROM 1 KB(ATmega328)
Bảng 2.1 Các thông số của Arduino UNO R3
Một vài thông số của Arduino UNO R3
Arduino UNO sử dụng vi điều khiển ATmega328 .
Điện áp hoạt động: 5V - DC.
Tần số hoạt động: 16 MHz.
Dòng điện áp: 30 mA.
Điện áp vào khuyên dùng: 7-12V- DC.
Điện áp giới hạn: 6-12V - DC.
Số chân Digital I/O: 14 (6 chân PWM).
Số chân Analog: 6 (độ phân giải 10bit).
Dòng tối đa trên mỗi chân I/O: 30 mA
Dòng ra tối đa (5V): 500 mA.
Dòng ra tối đa (3.3V): 50 mA.
Bộ nhớ flash: 32 KB (ATmega328).
Các chân năng lƣợng :
GND (Ground): cực âm của nguồn điện cấp cho Arduino UNO.
5V: cấp điện áp 5V đầu ra. Dòng tối đa cho phép ở chân này là 500mA.
3.3V: cấp điện áp 3.3V đầu ra. Dòng tối đa cho phép ở chân này là 50mA.
Vin (Voltage Input): để cấp nguồn ngoài cho Arduino UNO.
IOREF: điện áp hoạt động của vi điều khiển trên Arduino UNO có thể được đo ở
chân này, luôn là 5V. Mặc dù vậy , không được lấy nguồn 5V từ chân này để sử dụng bởi
chức năng của nó không phải là cấp nguồn.
RESET: việc nhấn nút Reset trên board để reset vi điều khiển tương đương với việc
chân RESET được nối với GND qua 1 điện trở 10KΩ.
28. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 13
Bộ nhớ của Arduino Uno R3:
Sử dụng vi điều khiển Atmega328.
32KB bộ nhớ Flash: những đoạn lệnh bạn lập trình sẽ được lưu trữ trong bộ nhớ
Flash của vi điều khiển. Sẽ có khoảng vài KB trong số này sẽ được dùng cho bootloader
nhưng thường thì ít khi nào phải sử dụng quá 20kb bộ nhớ này.
2KB cho SRAM (Static Random Access Memory): giá trị các biến khai báo khi lập
trình sẽ lưu ở đây. Khai báo càng nhiều biến thì càng cần nhiều bộ nhớ RAM.
Chú ý: khi mất điện, dữ liệu trên SRAM sẽ bị mất.
1KB cho EEPROM (Electrically Eraseble Programmable Read Only Memory):
tương tự như một chiếc ổ cứng mini – nơi có thể đọc và ghi dữ liệu vào đây mà không
phải lo bị mất khi mất điện giống như dữ liệu trên SRAM.
Các cổng vào/ra:
Arduino UNO có 14 chân digital dùng để đọc hoặc xuất tín hiệu. Một số chân digital
có các chức năng đặc biệt như sau:
2 chân Serial: 0 (RX) và 1 (TX): dùng để gửi (transmit – TX) và nhận (receive –
RX) dữ liệu TTL Serial.
Arduino Uno có thể giao tiếp với thiết bị khác thông qua 2 chân này. Kết nối
bluetooth thường thấy nói nôm na chính là kết nối Serial không dây.
Chân giao tiếp SPI:10 (SS),11 (MOSI),12 (MISO),13 (SCK). Ngoài các chức năng
thông thường, 4 chân này còn dùng để truyền phát dữ liệu bằng giao thức SPI với các
thiết bị khác.
Led 13: trên Arduino UNO có 1 đèn led màu cam (kí hiệu chữ L). Khi bấm nút
Reset, sẽ thấy đèn này nhấp nháy để báo hiệu. Nó được nối với chân số 13. Khi chân này
được người dùng sử dụng, led sẽ sáng.
Chân PWM (~): 3, 5, 6, 9, 10, và 11: cho phép xuất ra xung PWM với độ phân giải
8bit (giá trị từ 0 → 28
-1 tương ứng với 0V → 5V) . Nói một cách đơn giản, có thể điều
chỉnh được điện áp ra ở chân này từ mức 0V đến 5V .
29. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 14
Hàm analogWrite() trong Arduino giúp việc tạo 1 xung dễ dàng hơn. Hàm này
truyền vào tham số cho phép thay đổi chu kì xung, bạn có thể tính toán ra được chu kì
xung như ở bảng trên. Tần số xung được Arduino thiết lập mặc định.
Đối với board Arduino UNO, xung trên các chân 3,9,10,11 có tần số là 490Hz, xung
trên chân 5,6 có tần số 980Hz.
Arduino UNO còn có 6 chân analog (A0 → A5): cung cấp độ phân giải tín hiệu
10bit (0 → 210
-1) để đọc giá trị điện áp trong khoảng 0V → 5V. Với chân AREF trên
board, có thể để đưa vào điện áp tham chiếu khi sử dụng các chân analog. Tức là nếu cấp
điện áp 2.5V vào chân này thì có thể dùng các chân analog để đo điện áp trong khoảng từ
0V → 2.5V với độ phân giải vẫn là 10bit.
Nhiệm vụ của analogRead() là đọc giá trị điện áp từ một chân Analog ADC.
AnalogRead luôn trả về 1 số nguyên nằm trong khoảng từ 0 đến 1023 tương ứng với
thang điện áp (mặc định) từ 0 đến 5V. Bạn có thể điều chỉnh thang điện áp này bằng
hàm analogReference.
Hàm analogRead() cần 100 micro giây để thực hiện.
Đặc biệt, Arduino UNO có 2 chân A4 (SDA) và A5 (SCL) hỗ trợ giao tiếp I2C/TWI
với các thiết bị khác.
2.3.2 Tổng quan về động cơ Servo
Servo là một dạng động cơ điện đặc biệt. Không giống như động cơ thông thường
cứ cắm điện vào là quay liên tục, servo chỉ quay khi được điều khiển (bằng xung PPM)
với góc quay nằm trong khoảng bất kì từ 0o -
180o
. Mỗi loại servo có kích thước, khối
lượng và cấu tạo khác nhau. Có loại thì nặng chỉ 9g (chủ yếu dùng trên máy bay mô
mình), có loại thì sở hữu một momen lực bá đạo (vài chục Newton/m), hoặc có loại thì
khỏe và nhông sắc chắc chắn,...
30. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 15
Hình 2.5 Động cơ Servo
2.3.3 Tổng quan về Buzzer
Buzzer còn gọi là loa mini hay còi báo. Nó dùng để phát ra các âm thanh. Nó gồm 2
chân: Chân GND nối GND arduino và chân tín hiệu nối pin arduino. Ta sẽ lập trình để nó
phát ra cao độ hay cường độ hay âm sắc gì đó thay đổi (Mù âm nhạc) từ đó tạo ra những
bản nhạc thú vị mang phong cách arduino.
Hình 2.6 Buzzer
2.3.4 Module sim 800A
Module Sim800A là một module GSM/GPRS cực kỳ nhỏ gọn tích hợp nguồn xung
và IC đệm thiết kế cho các ứng dụng cần độ bền và độ ổn định cao. Giao tiếp vật lý trong
ứng dụng điện thoại của SIM 800A là 68 chân, nó cung cấp tất cả các giao diện vật lý
giữa module Sim và board mạch.
31. CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 16
Hình 2.7 Module Sim800A
32. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 16
CHƢƠNG 3
TÍNH TOÁN THIẾT KẾ
3.1 TỔNG QUAN CÁC KỸ THUẬT NHẬN BIẾT MÀU DA DỰA TRÊN TÍNH
CHẤT ĐIỂM ẢNH
3.1.1 Giới thiệu
Dựa vào màu sắc của da người là một trong những phương pháp được dùng để phát
hiện mặt người, tuy nhiên nếu chỉ đơn thuần sử dụng màu sắc không thôi thì rất khó có
thể đạt được hiệu quả cao trong khuôn mặt để đối chiếu với những khuôn mặt đã lưu trữ
trước đó trong kho dữ liệu.Vì trong các khung cảnh thì có rất nhiều vật có màu sắc tương
tự như màu của khuôn mặt. Tuy nhiên nếu kết hợp phương pháp này với các phương pháp
khác lại có thể mang lại hiệu quả cao. Vì kinh nghiệm cho thấy màu da người có đặc tình
màu riêng biệt và đặc tính này cho phép dễ dàng nhận ra đâu là da người. Thông thường
trong hướng tiếp cận phát hiện mặt người dựa trên thông tin xuất hiện trong ảnh thì màu
da được sử dụng như mộ bước phân vùng các vùng ảnh có màu sắc giống màu da, điều đó
cho phép giảm không gian tìm kiếm khuôn mặt, cải thiện hiệu năng của hệ thống tìm
kiếm.
Phát hiện màu da dựa trên đặc tính điểm ảnh có một lịch sử phát triển khá dài, tuy
nhiên trong khuôn khổ tổng quan này, nhóm thực hiện chỉ đề cập và so sánh những kỹ
thuật đã được công bố và đánh giá hiệu quả.
Mục đích cuối cùng của phần tổng quan này là thu thập các kỹ thuật đã được công
bố, mô tả những ý tưởng chính của kỹ thuật đó, tổng hợp và đưa ra những ưu điểm, nhược
điểm và những đặc trưng của từng kỹ thuật. Từ đó, nhóm thực hiện sẽ đưa ra quyết định
lựa chọn kỹ thuật phu hợp dùng để phân vùng vùng màu da áp dụng cho đồ án này.
3.1.2 Không gian màu sử dụng cho mô hình hóa màu da
Trong lĩnh vực đo màu da, cũng như các lính vực trong truyền tín hiệu hình ảnh và
video sử dụng rất nhiều không gian màu với các tính chất khác nhau và trong số đó nhiều
33. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 17
không gian màu được áp dụng cho vấn đề mô hình hóa màu da. Sau đây là tóm lược
nhóm các không gian màu được sử dụng rộng rãi nhất cũng hư các tính chất của chúng.
3.1.2.1 Không gian màu RGB
RGB là không gian màu cơ bản được áp dụng từ lâu cho màn hình CRT. Trong
không gian màu này, mỗi điểm màu là sự kết hợp của ba thành phần đơn màu (Đỏ-Red,
Xanh lục-Green, Xanh da trời-Blue). Đây là một trong những không gian màu được sử
dụng phổ biến nhất cho việc xử lý và lưu trữ dữ liệu ảnh số. Tuy nhiên do tính chất tương
quan cao giữa các kênh, giá trị cảm nhận không đồn nhất, sự pha trộn giữa dữ liệu thành
phần màu và dữ liệu về độ sáng mà không gian RGB không được ưa thích sử dụng co
việc phân tích màu cũng như trong các thuật toán nhận dạng dựa trên màu sắc
Hình 3.1 Không gian màu RGB
3.1.2.2 Không gian RGB chuẩn hóa
Không gian RGB chuẩn hóa là không gian màu nhận được từ không gian RGB cơ
bản theo công thức chuẩn hóa đơn giản sau đây:
; g ;
(3.1)
34. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 18
Có thể dễ dang nhận thấy rằng, trong không gian này, r+g+b = 1. Do đó chỉ cần hai
trong ba thành phần trên là đủ để biểu diễn không gian màu này, thành phần thứ ba sẽ
không còn giá trị và có thể được bỏ qua, để rút ngắn được số chiều của không gian này.
Hai thành phần còn lại thường được gọi là các thành phần “màu tinh khiết” (pure color).
Thông thường, hai thành phần r và b thường được giữ lại, còn g bị rút bỏ đi. Tính chất cần
chú ý của không gian màu này đó là tính bất biến đối với sự thay đổi về hướng của bề
mặt. Nghĩa là nếu như không quan tâm đến ánh sáng xung quanh, thì không gian chuẩn
hóa RGB là bất biến đối với sự thay đổi về hướng về mặt liên quan đến nguồn chiếu (tất
nhiên là dưới một vai giả thiết nhất định). Kết hợp với phép chuyển đổi đơn giản từ không
gian màu RGB cơ bản mà không gian RGB chuẩn hóa này ngày càng được sử dụng rộng
rãi trong nhiều lĩnh vực, trong đó có lĩnh vực nhận dạng.
3.1.2.3 Không gian màu HIS, HSV, HSL
Không gian màu này dựa trên tính bão hòa màu được giới thiệu khi có những nhu
cầu trong việc xác định số lượng tính chất màu. Chúng miêu tả màu sắc với những giá trị
thuộc về trực giá, dựa trên ý kiến của các họa sỹ về những trạng thái khác nhau của màu
sắc, trạng thái bão hòa cũng như từng tông màu khác nhau. Hue biểu thị cho màu trội (
màu đỏ, màu lục, màu đỏ tía và màu vàng) của một vùng ảnh, saturation (độ bão hòa) là
thước đo cho giới mức ngưỡng màu của một vùng ảnh. Các khái niệm như “intensity”
(cường độ), “lightness” (tính dịu) hay “value” (giá trị) liên quan đến độ sáng của màu.
Giá trị trực giác của các thành phần màu của không gian màu là ưu điểm mà giúp cho
không gian này được sử dụng phổ biến trong vấn đề phần vùng da.
3.1.2.4 Không gian màu HIS
HIS là viết tắt của Hue, Saturation, Intensity. Không gian màu gồm 3 thành phần H,
S, I. Trong không gian màu này, các màu đều được biểu diễn dựa trên 3 thành phần H, S,
I này.
H được viết tắt cho Hue, nghĩa là màu sắc. Thành phần này biểu diễn màu sắc vốn
có của các màu như: đỏ, xanh da trời, da cam,… Nó có giá trị từ 0 đến 360 độ. S là viết
tắt cho Saturation, nghĩa là độ bão hòa. Ta có thể hiểu nó giống như khái niệm nồng độ
35. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 19
trong hóa học, với dung môi là màu trắng và chất tan là màu. I được viết tắt cho Intensity,
nó biểu thị cường độ sáng.
Công thức chuyển từ không gian RGB sang không gian HIS như sau:
) ))
√ ) ) )
)
(3.2)
)
3.1.2.5 Không gian màu HSV
HSV là viết tắt của Hue, Saturation, Value. Trong đó, hai thành phần H, S cũng
tương tự như của HIS, riêng V là thành phần biểu thị giá trị dộ sáng. Trong không gian
màu màu này, các màu đều cũng được biểu diễn dựa trên 3 thành phần H, S, V này.
Công thức biến đổi từ không gian RGB sang không gian HSV như sau:
H = H’*60
) )
)
(3.3)
V = Max(R,G,B)
Trong đó: H’=
{
) )
)
) )
)
) )
)
36. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 20
Hình 3.2 Không gian màu HSV
3.1.2.6 Không gian màu HSL
HSL là viết tắt của Hue, Saturation, Lightness. Nó tương tự như không gian màu
HSV (L tường ứng với V cùng chỉ cường độ sáng). Không gian này chú trọng đến các
thành phần của sự cảm nhận màu sắc của mắt (Hue, Saturation, Lightness) hơn không
gian RGB. Tuy nhiên, không gian HSL thực ra cũng chỉ là phép biến đổi gần đúng của
không gian RGB mà thôi.
Công thức biến đổi từ không gian RGB sang không gian HSL như sau:
L=(Max + Min)/2
{
)
(3.4)
{
))
))
Trong đó:{
Chú ý: Khi S=0 thì H là tùy ý và ta sẽ không định nghĩa H (H vô định).
37. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 21
Ngoài ra, ba không gian màu này còn có thể tính Hue va Saturation bằng cách sử
dụng hàm log cho các thành phần màu của không gian màu RGB. Phương pháp này có
thể làm giảm sự dộc lập của các thành phần màu theo mức sáng.
Hệ tọa độ giữa Hue và Saturation có thể gây ra nhiều khó khăn trong mô hình màu
da, chính vì vậy người ta còn chuyện nó sang hệ tọa độ Đề các theo công thức sau:
X = S cos H; Y = S sin H
(3.5)
3.1.2.7 Không gian màu TSL
TSL là viết tắt của Tint, Saturation, Lightness. Trong đó hai thành phần S, L cũng
tường tự như HSL, riêng T là thành phần biểu thị sác thái của màu. Trong không gian
này, các màu đều cũng được biểu diễn dựa trên 3 thành phần T, S, L này.
Không gian chuẩn hóa thành phần màu và độ sáng TSL được chuyển từ không gian
chuẩn hóa RGB theo công thức:
[ ]
{
( )
( )
(3.6)
L = 0.299R + 0.587g + 0.114B
Trong đó: r’ = r – 1/3, g’ = g – 1/3
Theo kết quả nghiên cứu, so sánh chín không gian màu sử dụng cho mô hình màu da
thì không gian chuẩn hóa TSL thực hiện mô hình hóa màu da nhanh hơn các không gian
khác.
3.1.2.8 Không gian màu Y
38. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 22
Y là không gian màu được sử dụng nhiều vấn đề nén ảnh. Màu sắc được biểu
diễn bởi luma (đó là giá trị độ sáng được tính toán từ không gian RGB), gồm va thành
phần, một thành phần là tổng các trọng số từ RGB, hai thành phần màu khác nhau và
được tạo ra bằng cách từ hai thành phần Red và Blue trong không gian màu RGB.
Công thức để chuyển đổi như sau:
L = 0.299R + 0.587g + 0.114B
= R-Y
(3.7)
= B-Y
Việc chuyển đổi đơn giản, tính phân chia rõ ràng của độ sáng và các thành phần màu
là những đặc tính giúp cho không gian nay lôi cuốn các nha nghiên cứu sử dụng cho việc
mô hình hóa màu da.
3.1.2.9 Các hệ tọa độ không gian màu khác
Bên cạnh Y , một không gian màu khác được tạo ra từ chuyển đổi tuyến tính
không gian RGB được sử dụng trong vấn đề phát hiện màu da. Như là YES, YUV hay
YIQ. Tuy nhiên chúng ít được sử dụng hơn.
3.1.3 Mô hình hóa màu da
Mục đích cuối cùng của phát hiện màu da là xây dựng một quy tắc có tính quyết
định. Đây là quy tắc sẽ giúp phân biệt một điểm ảnh là da hay không phải là da người.
Thông thường, quy tắc này thiết lập một giá trị đo cho phép tính toán mức độ tương đồng
giữa một điểm ảnh màu với đặc trưng màu da. Giá trị đo này được thiết lập như thế nào,
công thức ra sao tùy thuộc vào từng phương pháp môt hình hóa màu da.
3.1.3.1 Xác định ngƣỡng cụ thể một điểm ảnh là màu da
Trong một số không gian màu, phương pháp xây dựng và xếp lớp da bằng cách xác
định rõ ràng (thông qua một số quy tắc) biên giới các giá trị của điểm ảnh là màu da hay
không. Ví dụ như:
39. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 23
Trong không gian RGB:
(R,G,B) được xếp thuộc lớp màu da nếu như:
R > 95 và G > 40 và B > 20 và
Max(R,G,B) – Min(R,G,B) > 15 và
| | > 15 và R > G và R >B
Tính đơn giản của phương pháp này cũng thu hút nhiều sự tập trung nghiên cứu. Ưu
điểm dễ thấy ủa phương pháp này đó là tính đơn giản của quy tắc nhận biết màu da. Điều
này cho phép phân lớp một cách nhanh chóng và dễ dàng. Tuy nhiên kết quả đạt được khi
phân lớp là không cao trong trường hợp tổng quát. Vì vậy khó khăn chính của phương
pháp này nếu muốn có được hệ số nhận dạng cao đó là phải tìm ra được một không gian
màu thích hợp cũng như các quy tắc tốt để nhận biết màu da trong không gian màu này.
Các thuật toán máy học hiện nay đang được sử dụng không gian màu cũng như các
quy tắc phân lớp màu da thích hợp nhằm đạt được hệ số nhận dạng cao.
Tuy nhiên, với kết quả đạt được, chúng ta vẫn có thể tìm ra được những quy tắc cho
phép nhận biết chắc chắn một điểm ảnh không phải là màu da. Những quy tắc này có thể
được sử dụng làm bước lọc khởi tạo cho các phương phân lớp phức tạp hơn giữa vùng
màu da và vùng không phải màu da. Nó giúp cho quá trình phân lớp được thực hiện
nhanh chóng hơn và đỡ tốn công hơn.
3.1.3.2 Phƣơng pháp mô hình hóa màu da sử dụng phân phối không tham số
Ý tưởng chính của phương pháp mô hình hóa màu da không tham số đó là ước
lượng phân phối màu da từ dữ liệu huấn luyện mà không xuất phát từ một mô hình rõ
ràng nào của màu da. Kết quả của phương pháp này thường được biểu diễn dưới dạng một
bản đồ phân bố màu da (SPM – Skin Probability Map). Mỗi một giá trị phân bố được gán
cho mỗi điểm trong không gian màu.
3.1.3.3 Bảng tra cứu chuẩn cứu (LUT – Lookup Table)
Một số thuật toán phát hiện mặt người và bám sát mặt người sử dụng một lược đồ
mức xám dựa trên hướng tiếp cận phân vùng các điểm ảnh là màu da. Không gian màu
được lượng tử hóa thành từng nhóm, mỗi một nhóm đáp ứng cho một khoảng các thành
40. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 24
phân màu. Các nhóm lược đồ được tham chiêu tới một bảng gọi là bảng tra cứu. Mỗi một
nhóm lưu trữ một số lượng lần xuất hiện của một màu khi tiến hành huấn luyện ảnh da
người. Sau quá trình huấn luyện, biểu đồ sẽ tính toán và chuẩn hóa, chuyển sang giá trị
biểu đồ trong phân phối xác xuất miền rời rạc:
)
[ ]
(3.8)
Trong đó, skin[c] nhận giá trị của nhóm lược đồ, đáp ứng cho vector màu c, Norm là
một hệ số chuẩn hóa (tổng tất cả các giá trị của các nhóm biểu đồ) hay là giá trị lớn nhất
của một nhóm biểu đồ. Giá trị chuẩn hóa của bảng tra cứu các nhóm biểu đồ là căn cư để
cho phép quyết định một màu có là màu da hay không.
3.1.3.4 Phân lớp Bayes (Bayes Classifier)
Giá trị của ) trong công thức (3.6) là một điều kiện xác xuất, | ) xác
xuất một màu quan sát c là một pixel màu da. Và xác xuất thích hợp được dùng để phát
hiện màu da đó là | ) xác xuất quan sát màu được màu da khi xuất hiện một giá trị
màu c rời rạc. Để tính giá trị này, ta sử dụng công thức Bayes quen thuộc:
| )
| ) )
| ) ) | ) )
(3.9)
Trong đó | )và | ) được tính trực tiếp từ biểu đồ màu da và không màu
da. Xác suât toàn phần | )và | ) thì được ước lượng từ một số lượng các mẫu
là màu da và không màu da trong tập huấn luyện. Bất đẳng thức | ) , trong đó
là một giá trị ngưỡng, có thể được sử dụng để trở thành quy tắc trong phát hiện màu da.
Công thức trên đôi khi hơi phức tạp và để có thể tránh điều này, nếu như thực sự
không cần phải biết một cách chính xác suất | ) | ) mà chỉ cần biết tỷ số
giữa chúng thì ta thường đưa về công thức như sau:
| )
| )
| ) )
| ) )
41. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 25
(3.10)
So sánh công thức này với một ngưỡng có thể tạo ra một quy tắc cho phép phát hiện
tỷ số màu da và không phải mnauf da. Sau một vài phép biến đổi, chúng ta nhận được
công thức:
| )
| )
(3.11)
)
)
Công thức trên có thể thấy rằng, việc chọn lưa giá trị của xác suất toàn phần không
ảnh hưởng đến chất lượng của bộ phát hiện, vì với bất kì một xác xuất toàn phần )
đều có thể chọn được một giá trị K phù hợp sao cho giá trị ngưỡng là .
3.1.3.5 Tổng kết phƣơng pháp không tham số
Hai ưu điểm dễ thấy của phương pháp mô hình hóa phân phối không tham số đó là:
Thứ nhất chúng có thể huấn luyện và sử dụng được một cách nhanh chóng.
Thứ hai chúng độc lập với lý thuyết về hình dạng của phân phối màu da (điều này
không đúng trong mô hình hóa màu da có tham số). tuy nhiên nhược điểm của phương
pháp này đó là chúng yêu cầu nhiều bộ nhớ để lưu trữ và không có khả năng nội suy hay
tạo dữ liệu huấn luyện. Lấy ví dụ như, chúng ta lượng tử háo điểm ảnh trong không gian
RGB về 8 bit cho môi mãu, khi đó chúng ta phải có một mảng có tới phần tử để lưu
trữ tập tất cả các xác suất của môt hình. Để có thể giảm bớt kích thước này bằng cách loại
bỏ những dữ liệu huấn luyện nhỏ lẻ, không gian màu thường sử dụng kích thước
128*128*128, 64*64*64, 32*32*32. Theo nghiên cứu thì kích thước 32*32*32 là kích
thước không gian mang lại hiệu quả cao nhất.
3.1.3.6 Mô hình hóa phân phối màu da có tham số
Hầu hết các mô hình màu da không tham số dựa trên biểu đồ xám yêu cầu rất nhiều
bộ nhớ và hiệu năng của chúng phụ thuộc hoàn toàn vào tập ảnh huấn luyện cố định. Vì
vậy cần có một mô hình màu da có thể thêm hoặc tự tạo ra dữ liệu huấn luyện để giúp
42. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 26
giảm tải cho bộ nhớ và tăng hiệu năng cho hệ thống, điều đó dẫn đến sự ra đời của mô
hình phân phối tham số.
3.1.3.7 Mô hình dựa trên phân phối Gauss đơn
Phân phối màu da có thể được mô hình hóa bởi phân phối Gaus thêm vào hàm mật
độ xác suất. Định nghĩa như sau:
| )
|∑ |
) ∑ )
(3.12)
Ở đây, c là mmotj véc tơ màu, và ∑ là hai tham số phân phối (vector trung
bình và ma trận hiệp phương sai). Các tham số của mô hình được ước lượng thông
qua quá trình huấn luyện bởi hai công thức sau:
∑ ; ∑ ) )
(3.13)
Trong đó, n là tổng số các mẫu màu da. Xác suất | ) có thể được tính trực
tiếp mức độ tương tự màu da (likehood skin color) hoặc có thể tính bằng khoảng cách
Mahalanobis từ vector màu c, vector trung bình , ma trận hiệp phương sai ∑ . Công
thức tính khoảng cách Mahalanobis:
) ) ∑ )
(3.14)
Phương pháp mô hình hóa dựa trên phân phối đơn Gaus đã được triển khai và
nghiên cứu.
3.1.3.8 Mô hình kết hợp dựa trên phân phối Gauss
43. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 27
Một mô hình công phu, phức tạp hơn, có khả năng biểu diễn được phân phối phức
tạp đó là mô hình kết hợp dựa trên phân phôi Gauss. Đây là mô hình mở rộng từ mô hình
đơn Gauss trên, trong trường hợp này, hàm phân phối mật độ xác suất là:
| ) ∑ | )
(3.15)
Trong đó, k là số lượng các thành phần được kết hợp, là tham số kết hợp, thỏa
mãn ràng buộc∑ và | ) thỏa mãn hàm phối mật độ xác suất Gauss,
vớimỗi vector trung bình và ma trận phương sai của nó. Huấn luyện mô hình được thực
hiện với kỹ thuật được biết đến nhiều gọi là thuật toán kì vọng tối đa (EM – Expectation
Maximization), trong đó giả sử rằng số lượng các thành phần k là đã biết trước. Chi tiết
việc huấn luyện mô hình kết hợp Gauss với thuật toán EM này có thể được tìm thấy trong
nhiều nghiên cứu. VIệc phân lớp trong mô hình kết hợp Gauss được thực hiện nhờ việc so
sánh xác xuất | ) với một vài giá trị ngưỡng.
Việc chọn lựa số lượng thành phần k ở đay là quan trọng. Vì nó ảnh hưởng đến độ
chính xác của việc huấn luyện cho mô hình. Theo như những nghiên cứu hiện nay, k = 8là
sự lựa chọn mang hiệu năng cao nhất cho mô hình kết hợp phân phối Gausian.
3.1.3.9 Đa phân phối Gauss
Mức độ gần đúng của các nhóm màu da với phân phôi Gauss 3D trong không gian
Y đã được miêu tả trong nhiều bài báo. Một số lượng khác nhau các thuật toán phân
nhóm K trung bình được sử dụng cho nhóm Gauss thực hiện việc huấn luyện mô hình.
Các điểm ảnh được phân lớp màu da nếu như khoảng cách Mahalanobis từ véctơ màu c
đến trung tâm của cụm gần nhất trong mô hình nhỏ hơn một ngưỡng cho trước.
3.1.3.10 Tổng kết các phƣơng pháp mô hình hóa theo tham số
Tất cả các phương pháp mô hình hóa theo tham số được miêu tả như trên (ngoại trừ
3.3.3.3) đều tính toán trên mặt phẳng các thành phần màu của không gian mà bỏ qua
thông tin về độ sáng.
44. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 28
Dĩ nhiên, khi một mô hình phân phối cụ thể được sử dụng, sẽ có câu hỏi đặt ra về sự
xác thực về giá trị của mô hình đó. Tuy nhiên do yêu cầu quá cao về bộ nhớ mà khi đánh
giá hiệu năng thì mô hình có tham số lại có hiệu năng cao hơn.
3.1.4 So sánh kết quả các mô hình
Để có thể đánh giá và so sánh hiệu năng của các phương pháp mô hình hóa màu da
là không dễ, vì mỗi phương pháp thường được đề xuất của một nhóm các nhà nghiên cứu
và được thử nghiệm trên cơ sở dữ liệu riêng.Trong bảng so sánh được đua ra dưới đây là
kết quả tốt nhất mà mỗi phương pháp đạt được:
Phƣơng pháp Nhận biết đúng Nhận biết sai
Bayes SPM trong RGB
(Jones và Regh 1999)
80%
90%
8,5%
14,2%
Bayes SPM trong RGB
(Brand và Mason 2000)
93,4% 19,8%
Maximum Entropy Model trong RGB
(Jedynak và al.2002)
80% 8%
Gauss Mixture models trong RGB
(Jones và Regh 1999)
80%
90%
~9,5%
~15,5%
SOM in TS
(Brown và al.2002)
78% 32%
Elliptical boundary model trong CIE – xy
(Lee và Yoo 2002)
90% 20,9%
Single Gauss trong và
(Lee và Yoo 2002)
90% 33,3%
45. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 29
Gauss Mixture trong IQ
(Lee và Yoo 2002)
90% 30%
Thresholding của trục I trong YIQ
(Brand và Mason 2000)
94,7% 30,2%
Bảng 3.1 Kết quả nhận biết đúng sai của các phương pháp
3.1.5 Đánh giá phƣơng pháp
Ưu điểm của các phương pháp sử dụng các ngưỡng để phân lớp điểm ảnh là màu da
hay không đó là tính đơn giản và tính trực giác cao trong các quy tắc phân lớp. Tuy nhiên,
điểm khó khăn đó là cần phải tìm được cả một không gian màu tốt và các quy tắc xứng
đáng trong không gian đó. Phương pháp được đề xuất hienj nay sử dụng thuật toán máy
học để có thể tìm được không gian và các quy tắc thích hợp, tuy nhiên đề xuất vẫn còn là
vấn đề mở trong tương lai.
Các phương pháp sử dụng mô hình hóa không tham số thật sự nhanh trong cả việc
huấn luyện và phân lớp, đọc lập với phân bố phân bố hình dạng của màu da và cả không
gian màu. Tuy nhiên, phương pháp này lại có yêu cầu quá nhiều bộ nhớ lưu trữ và phụ
thuộc cố định vào tập dữ liệu huấn luyện.
Các phương pháp mô hình hóa có tham số cũng xử lý khá nhanh. Hơn nữa chúng lại
có khả năng tự tạo ra các dữ liệu phu hợp, chúng được miêu tả bằng một số lượng không
nhiều các tham số và đặc biệt chúng cần không đáng kể bộ nhớ lưu trữ. Tuy nhiên, chúng
có thể sẽ thực sự chậm (giống như mô hình kết hợp giữa trên phân phối Gauss) trong cả
huấn luyện và làm việc, và hiệu năng của chúng phụ thuộc nhiều vào hình dạng cảu phân
phối màu da. Bên cạnh đó, hầu hết các phương pháp mô hình hóa màu da có tham số đều
bỏ qua những thống kê về màu không phải là tham số.
3.1.6 Chọn lựa không gian màu và phƣơng pháp mô hình hóa dùng để nhận biết
màu da cho đồ án
Với mục đích là sử dụng nhận màu da để tiến hành phân vùng da, giảm không gian
tìm kiếm khuôn mặt. Vì vậy phương pháp cần thiết cho đồ án phải có hiệu năng cao, thời
46. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 30
gian thực hiện nhanh, yêu cầu bộ nhơ không lớn. Không gian nhớ phải phù hợp với
phương pháp nhận biết nhận biết màu da. Do khả năng nhóm thực hiện còn hạn chế, nên
sau khi xem xét tất cả phương pháp, các đặc trưng cũng như hiệu năng của tung phương
pháp, nhóm quyết định sử dụng phương pháp ngưỡng để tiến hành phân vùng màu da cho
ảnh và không gian màu được lựa chọn đó là không gian RGB, sự phân biệt rõ ràng giữa
độ sáng và các thành phần màu.
3.2 PHÂN TÍCH THÀNH PHẦN CHÍNH PCA
3.2.1 Tổng quan về phƣơng pháp PCA
3.2.1.1 Giới thiệu
Phân tích thành phần chính (Principal Compoment Analysis – PCA) được trình bày
theo nhiều quan điểm khác nhau khác nhau.
Với các nhà nhân tố học cổ điển thì kỹ thuật này là phương pháp phân tích nhân tố
trong trường hợp đặc biệt, khi phương sai này bằng không hoặc xấp xỉ bằng không.
Phương pháp này thường được sử dụng trong phân tích tâm lý, do Horst (1965) và
Harman (1966) đề xuất.
Sau cùng, theo quan điểm phổ biến hơn cả của các nhà phân tích số liệu thì PCA là
một kỹ thuật biểu diễn số liệu một cách tối ưu theo một tiêu chuẩn đại số và hình học đặc
biệt. Khi sử dụng kỹ thuật này người ta không đòi hỏi một giả thuyết thống kê hoặc một
mô hình đặc biệt nào. Quan điểm này trở nên phổ biến từ khi có máy tính điện tử, và là
quan điểm mới nhất. Trong công trình của C.R Rao (1964) nội dung lý tuyết của phương
pháp PCA được trình bày khá đơn giản và rõ ràng.
Lĩnh vực ứng dụng của phương pháp PCA rất rộng trong công nghiệp, nông nghiệp,
kinh tế, khoa học cơ bản,… với bảng số liệu mà các cột là các biến và các dòng là các cá
thể trên đó đo giá trị của biến.
3.2.1.2 Ý tƣởng
Ý tưởng chính của phương pháp PCA để trích chọn đặc trưng khuôn mặt người là
diễn tả một số lượng lớn các vector pixel một chiều được hình thành từ ảnh một chiều bởi
các thành phần thiết yếu không gian đặc trưng. Bước này được gọi là chiếu lên không
gian đặc trưng mặt. Không gian đặc trưng được tính toán từ định nghĩa vector đặc trưng
của ma trận hợp phương sai tình hình từ tập các khuôn mặt người (ở dạng vector).
47. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 31
Mô tả thuật toán:
Giả sử mỗi ảnh có kích thước M*N, ta coi mỗi bức ảnh này là một vector trong
không gian M*N chiều. Bây giờ mỗi khuôn mặt là một vector, ta thấy những vector này
không phân bố ngẫu nhiên trong không gian ảnh mà phân bố theo một quy lluật tương đối
nào đó, ta có thể nói những vector này nằm trong một không gian con gọi là không gian
khuôn mặt. Từ những vector trong tập huấn luyện, ta sẽ tìm một cơ sở trực chuẩn cho
không gian khuôn mặt, Những vector thuộc cơ sở này có thể coi là những vector mang nét
tông thể đặc trưng về khuôn mặt.
Giả sử tập huấn luyện có P ảnh, khi đó ta sẽ có P vector: .
Tính vector ảnh trung bình:
∑
(3.16)
Sự khác biệt giữa những khuôn mặt với ảnh trung bình là nhưng vector:
Ý tưởng của việc phân tích thành phần chính là tìm một tập nhương vector trực
chuẩn sao cho những vector này mô tả tốt nhất sự phân bố những vector khuôn mặt
trong không gian. Những vector được chọn sao cho:
⟨ | ⟩ {
(3.17)
∑⟨ | ⟩
Những vector và giá trị vô hướng chính là những vector riêng và trị
riêng tương ứng của ma trận . ⟨ | ⟩ là tích vô hướng giữa hai vector u,v.
[ ]
(3.18)
48. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 32
Ta thấy ma trận A có kích thước M*N x P, còn ma trận có kích thước
M*N x M*N, do kích thước ma trận này quá lớn nên ta không thể tìm được những
vector riêng và những trị riêng trực tiếp được, thay vào đó ta sẽ tìm những vector
riêng của ma trận có kích thước P x P.
Nếu v là một vector riêng của và λ là trị riêng tương ứng, khi đó ta có :
Av=Av
(3.19)
Tức là Av là một trị riêng của ma trận .
Thông thương ta chỉ lấy một số q vector riêng ứng với Q trị riêng có giá trị lớn nhất.
Sau khi có các vector riêng của ma trận , ta sẽ chuản hóa chúng để thu được một
cơ sở trực chuẩn của không gian khuôn mặt.
Đặt L = , tìm V là tập hợp các vector riêng còn L,D là tập hợp các trị riêng tương
ứng.
V bao gồm Q vector riêng ứng với những trị riêng lớn hơn một giá trị nào đó.
E = AV là tập các vector riêng ứng của . Do đây là những vector riêng, mà nó lại
có dạng khuôn mặt nên được gọi là Eigenfaces. E là ma trận M*N x Q, mỗi cột la một
vector riêng.
Chuẩn hóa ccs vector cột trong E (chia mỗi vector cho độ dài của vector đó).
Bây giờ ta có thể coi E là một cơ sở trực chuẩn của không gian khuôn mặt.
Với H là bức ảnh có cùng kích thước với những bức ảnh trong tập huấn luyện. Ta sẽ
xét nó có phải là bức ảnh khuôn mặt hay không, cũng như tìm bức ảnh giống với nó nhất
trong tập huấn luyện.
H được xem là một vector trong không gian M*N chiều.
Đặt K = H – m với m là vector ảnh trung bình.
Cho V là một không gian có tích vô hướng hữu hạn chiều và Ư là một không gian
con của V. Giả sử Ư có một cơ sở trực chuẩn là { }. Khi đó hình chiếu trực giao
của vector u bất kỳ lên Ư được xác định như sau
49. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 33
∑⟨ | ⟩
(3.20)
Độ dài ‖ ‖ được gọi là khoảng cách từ u đến W.
Tập hợp ⟨ | ⟩, i = 1,…, Q được gọi là tọa độ của trong không gian W.
Tìm C = K là tọa độ của hình chiếu của K lên không gian khuôn mặt. C là
vector cột Qx1
∑ với = C(i,l); = E(l,i)
(3.21)
Với là một cột trong ma trận A (tương ứng với bức ảnh trong tập huấn luyện).
Ta tính là tọa độ của hình chiếu của lên không gian khuôn mặt.
Ta tính hai đại lượng sau:
‖ ‖ xem như khoản cách từ bức ảnh H đến không gian mặt.
‖ ‖ xem như khoản cách từ bức ảnh H đến bức ảnh trong tập huấn
luyện.
Xét α và β là hai ngưỡng nào đó.
s < α thì H là bức ảnh khuôn mặt (do H đủ gần với không gian mặt).
< β thì là bức ảnh của cùng một người với H (H dủ gần với ).
Vậy là ta đã có thể tìm bức ảnh trong tập huấn luyện giống với bức ảnh H hay xác
định đó có phải là bức ảnh khuôn mặt hay không. Tuy nhiên ảnh H phải có cùng kích
thước với những bức ảnh tập huấn luyện. Bây giờ trong một bức ảnh lớn H có nhiều
khuôn mặt, ta sẽ xác định vị trí những khuôn mặt trong bức ảnh.
Tại mỗi vị trí (x,y) trong H, đặt H(x,y) là một vùng trong ảnh H có kích thước MxN
tại (x,y), ta xem ảnh con H(x,y) là một vector M*N chiều.
K(x,y) = H(x,y) – m
(3.22)
50. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 34
Tìm K(x,y) là hình chiếu của K(x,y) lên không gian khuôn mặt.
Tính s(x,y) = ‖ ) )‖
Tập hợp các giá trị s(x,y) tạo thành một bản đồ khuôn mặt (face map) của H,
từ đó ta có thể xác định vị trí những khuôn mặt trong ảnh.
Hình 3.3 Ý tưởng chính của PCA
3.2.2 Trích chọn đặc trƣng khuôn mặt ngƣời dựa trên phƣơng pháp PCA
Khuôn mặt người có rất nhiều nét để nhận biết, nếu như ta gặp lại một người bạn sau
một thời gian dài, ta có thể nhận ra ngay mặt người đó dù những chi tiết cụ thể trên mặt
có thể thay đổi như da, mái tóc. Ta nhận ra không phải vì nhớ đôi mắt hay mũi hay môi
hay tóc của người đó mà ta nhận ra vì nhớ diện mạo của người đó. Tức là trên khuôn mặt
người tồn tại một nét tổng thể nào đó để có thể nhận diện, thuật toán của ta bắt đầu từ ý
tưởng này.
Phân tích thành phần chính (Princial Compomenent Analysis) gọi tắc là PCA là
thuật toán trích chọn đặc trưng dựa trên những nét tổng thể của khuôn mặt người, ta sẽ áp
dụng thuật toán này để thực hiện hai công việc sau:
Thức nhất là tìm một khuôn mặt người giống với khuôn mặt người cho trước.
Thức hai là xác đinh đặc trưng những khuôn mặt người trong một bức ảnh.
Sơ đồ tiến trình trích chọn đặc tưng khuôn mặt người:
3.2.2.1 Chuyển đổi ảnh
Biểu diễn M ảnh trong không gian 2-D thành 1-D. Tạo vector có kích thước N (số
hàng của ảnh x số cột của ảnh) như mô tả sau:
51. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 35
⃗⃗ [ ] ̅̅̅̅̅̅
(3.23)
Với: là giá trị pixel của ảnh
T là chuyển vị của ma trận
Kết quả chuyển cho M ảnh đưa vào ma trận như sau:
Mỗi ảnh là một ma trận cột, ghép M ma trận cột ứng với M ảnh thành một ma trận
có kích thước NxM.
[ ]
(3.24)
Chỉ số đầu là thành phần của vector, chỉ số sau là số thứ tụ của ảnh.
3.2.2.2 Tính khuôn mặt ngƣời trung bình
Chi tiết công thức trên:
⃗⃗ [ ]=[ ]
(3.25)
3.2.2.3 Trừ mỗi ảnh cho mặt trung bình
Nhằm mục đích tạo ra sự giãn tương đối giá trị pixel của các ảnh
⃗⃗⃗⃗⃗⃗⃗ [ ], ⃗⃗⃗⃗⃗⃗ [ ],…, ⃗⃗⃗⃗⃗⃗ [ ]
(3.26)
Xây dụng ma trận từ các ⃗⃗⃗⃗⃗⃗ vừa tìm được
Đặt: A =(⃗⃗⃗⃗⃗⃗⃗ ⃗⃗⃗⃗⃗⃗⃗ …. ⃗⃗⃗⃗⃗⃗⃗⃗ ) sẽ được ma trận có kích thước NxM.
3.2.2.4 Xây dựng ma trận hợp phƣơng sai
52. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 36
Nhằm mục đích thể hiện sự tương quan của từng vector.
(3.27)
Tính trị riêng (eigenvalue: ), và vector riêng (eigenvector: ) của ma trận trận hợp
phương sai này. Đó chính ;à đặc trưng thành phần thiết yếu của ảnh.
Nhưng thực tế, nếu ảnh có kích thước 200x230 (độ trộng và cao của ảnh), thì khi đó
kích thước của ma trận cov là 46000x46000 (NxN). Kích thước khá lớn, do đó việc tính trị
riêng, vector riêng là vấn đề trở ngại khi tính trực tiếp teo cách này. Vì vậy cần phải áp
dụng lý thuyết đại số tuyến tính: trị riêng λ, và vector riêng có x thể tính bắng cách giải
quyết trị riêng, và vector riêng của ma trận A (kích thước MxM nhỏ hơn nhiều so với
NxN).
Đặt và là các trị riêng và vector riêng của ma trận A. Kết quả như sau:
=
(3.28)
Nhân mỗi vế của (3.6) cho A sẽ được:
A ) = )
(3.29)
Với X = A
Điều này cho thấy: M vector riêng và M trị riêng đầu tiên của tương ứng
chính là tích ( A với vector riêng của A) và .
Các vector riêng là không gian đặc trưng các khuôn mặt người trong cơ sở dữ liệu
ảnh ban dầu. Các vector riêng được sắp xếp theo thứ tự từ cao đến thấp theo trị liệu riêng
tương ứng. Vector riêng có trị riêng lớn nhất sẽ mang nhiều đặc trưng thiết yếu nhất của
không gian các khuôn mặt người (tức nó quyết định nhiều nhất sự biến đổi trong ảnh).
Ngược lại vector riêng có trị riêng bé nhất sẽ mang thành phần ít đặc trưng nhất trong
không gian đặc trưng các khuôn mặt người. Ở đây cho thấy chỉ với M hướng đặc trưng
mang trị riêng lớn nhất trong NxN không gian dặc trưng.
3.2.2.5 Phép chiếu
53. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 37
Chiếu lần lượt các ảnh trong cơ sở dữ liệu đến không gian đặc trưng M hướng này,
để sinh ra các khuôn mặt người đặc trưng trong không gian khuôn mặt người mới.
[⃗⃗⃗ ⃗⃗⃗⃗ ⃗⃗⃗⃗ ] ⃗⃗⃗⃗⃗⃗
(3.30)
Với i = ̅̅̅̅̅̅
Với [ ] [⃗⃗⃗ ⃗⃗⃗⃗ ⃗⃗⃗⃗ ] : là ma trận đặc trưng các khuôn mặt người đã rút trích
ra được, hay còn được gọi là eigenfaces.
⃗⃗⃗⃗⃗⃗ : là vector ảnh thứ I trừ khuôn mặt người trung bình.
Khi đó, ta sẽ có 4 trường hợp có thể xảy ra đối với ảnh đầu vào và các vector thành
phần để từ đó quyết định kết quả tại ngõ ra của nó:
Gần không gian khuôn mặt người và thuộc một lớp mặt. Trong trường hợp này, ảnh
sẽ được nhận dạng và xác định.
Gần không gian khuôn mặt người nhưng không thuộc lớp mặt. Trong trường hợp
này, ta sẽ nhận ra ảnh thuộc lớp mặt người nhưng không xác định được.
Xa không gian khuôn mặt người nhưng thuộc một lớp mặt. Trong trường hợp này,
ảnh sẽ bị nhận diện sai trong hầu hết hệ thống nhận diện hiện nay, tuy nhiên sự nhận diện
sai này sẽ bị phát hiện nếu hệ thống sử dụng một khoảng cách cần thiết giữa ảnh và không
gian con của ảnh mặt người.
Xa không gian khuôn mặt người và không thuộc lớp mặt nào. Trong trường hợp
này, ảnh không phải là ảnh khuôn mặt người.
3.3 PHÂN TÍCH HOG
3.3.1 Giới thiệu
HOG(histogram of oriented gradients) là một feature descriptor được sử dụng trong
computer vision và xử lý hình ảnh, dùng để phát hiện một đối tượng. Hog được sử dụng
chủ yếu để mô tả hình dạng và sự xuất hiện của một object trong ảnh Bài toán tính toán
Hog thường gồm 5 bước:
Chuẩn hóa hình ảnh trước khi xử lý
Tính toán gradient theo cả hướng x và y .
54. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 38
Lấy phiếu bầu cùng trọng số trong các cell
Chuẩn hóa các block
Thu thập tất cả các biểu đồ cường độ gradient định hướng để tạo ra feature vector
cuối cùng.
3.3.2 Chuẩn hóa hình ảnh trƣớc khi xử lý
Bước chuẩn hóa này hoàn toàn không bắt buộc, nhưng trong một số trường hợp,
bước này có thể cải thiện hiệu suất của bộ mô tả HOG. Có ba phương pháp chuẩn hóa
chính mà chúng ta có thể xem xét:
Quy định về chuẩn Gamma /power : Trong trường hợp này, ta lấy log(p) của mỗi
pixel p trong hình ảnh đầu vào.
Chuẩn hoá gốc-vuông: Ở đây chúng ta lấy √ ) của mỗi pixel p trong hình ảnh
đầu vào. Theo định nghĩa, sự bình thường của các căn bậc hai nén các cường độ điểm ảnh
đầu vào thấp hơn nhiều so với chuẩn bình thường của gamma.
Variance normalization: Ở đây, chúng ta tính cần giá trị cường độ điểm ảnh trung
bình muμ và độ lệch tiêu chuẩn σ của hình ảnh đầu vào. Với mỗi điểm ảnh ta trừ đi giá trị
trung bình của cường độ điểm ảnh và sau đó được chuẩn hóa bằng cách chia cho độ lệch
chuẩn: p′=(p−μ)/σ
3.3.3 Tính toán gradient
Để lấy được hình ảnh gradient, chúng ta sẽ sử dụng tích chập(convolution): Gx=I⋆Dx
và Gy=I⋆Dy với I là hình ảnh đầu vào, Dx là bộ lọc cho chiều x, và Dy là bộ lọc cho
chiều y . Sau khi có các ảnh gradient, chúng ta có thể tính toán cường độ gradient của hình
ảnh: | | √ Cuối cùng, định hướng của gradient cho mỗi pixel trong hình ảnh
ban đầu được tính bằng cách: ) Dự vào |G| và , chúng ta có thể tính
được một biểu đồ cường độ gradient, trong đó cột của histogram dựa trên theta và trọng số
của mỗi cột của biểu đồ được dựa trên
55. CHƢƠNG 3. TÍNH TOÁN VÀ THIẾT KẾ
BỘ MÔN ĐIỆN TỬ CÔNG NGHIỆP – Y SINH 39
Hình 3.4 Biểu đồ dựa trên Gy,Gx
3.3.4 Lấy votes trong mỗi cell
Bây giờ chúng ta cần chia hình ảnh của chúng ta thành các cell và block Một cell là
một vùng hình chữ nhật được xác định bởi số điểm ảnh thuộc mỗi cell. Ví dụ: nếu ta có
một hình ảnh 128 x 128 với pixel_per_cell = 4 x 4 thì sẽ có 32 x 32 = 1024 cell,
pixel_per_cell = 32 x 32, sẽ có 4 x 4 = 16 cell. Với mỗi cell trong bức ảnh, ta cần xây dựng
1 biểu đồ cường độ gradient. Mỗi pixcel sẽ được vote vào vào biểu đồ, trọng số của mỗi
vote chính là cường độ gradient tại pixel đó Cuối cùng, mỗi pixel đóng góp một phiếu bầu
có trọng số vào biểu đồ - trọng lượng của phiếu chỉ đơn giản là cường độ gradient |G| tại
pixel đó.Lúc này, chúng ta có thể thu thập và ghép các biểu đồ này để tạo ra feature vector
cuối cùng. Tuy nhiên, ta sẽ chuẩn hóa các block để có được kết quả tốt hơn