MỞ RỘNG CÁC TẬP DỮ LIỆU ĐA NGỮ DỰA VÀO
CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC
Kết hợp các phần mềm dịch tự động và môi trường hợp tác trên Internet để xây dựng, mở rộng các kho ngữ liệu
Xây dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn
Sau khi dịch tự động sẽ đưa kết quả nhận được cho mọi người góp ý, hiệu chỉnh
Xem tiếp U19 Việt Nam:
Pha cứu thua xuất sắc của Minh Long ở trận gặp U19 Trung Quốc : https://www.youtube.com/watch?v=f4HM5...
U19 chia tay - Công Phượng và Tuấn Tài ôm nhau khóc nức nở: https://www.youtube.com/watch?v=H2eyD...
U19 Việt Nam trình diễn Tiqui-taca thương hiệu Việt: https://www.youtube.com/watch?v=sgknk...
Cầu thủ U19 Việt Nam đẫm lệ ngày chia tay: https://www.youtube.com/watch?v=Oiy0-...
U19 Việt Nam lập tức dùng liệu pháp ngâm nước đá để hồi phục : https://www.youtube.com/watch?v=XTaGV...
Phó chủ tịch VFF Đoàn Nguyên Đức kêu gọi các cầu thủ U19 Việt Nam đoàn kết: https://www.youtube.com/watch?v=UuF-F...
Xúc động với hình ảnh cầu thủ U19 Việt Nam dìu nhau đứng dậy : https://www.youtube.com/watch?v=ru87K...
Xem tiếp U19 HAGL:
Kỳ 1: http://www.youtube.com/watch?v=Yg0cGW...
Kỳ 2: http://www.youtube.com/watch?v=BUbSoC...
Kỳ 3: http://www.youtube.com/watch?v=OWIjhh...
Kỳ 4: http://www.youtube.com/watch?v=R2OOxo...
Trần Gia Huy - "Siêu nhân" nhí của lò HAGL Arsenal JMG: https://www.youtube.com/watch?v=JYc0U...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
MỞ RỘNG CÁC TẬP DỮ LIỆU ĐA NGỮ DỰA VÀO CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC
1. ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA CÔNG NGHỆ THÔNG TIN
ĐỀ CƯƠNG LUẬN VĂN THẠC SĨĐỀ CƯƠNG LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNHNGÀNH KHOA HỌC MÁY TÍNH
Tên đề tài :Tên đề tài :
MỞ RỘNG CÁC TẬP DỮ LIỆU ĐA NGỮ DỰA VÀOMỞ RỘNG CÁC TẬP DỮ LIỆU ĐA NGỮ DỰA VÀO
CÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁCCÁC PHẦN MỀM DỊCH TỰ ĐỘNG VÀ MÔI TRƯỜNG HỢP TÁC
Họ và tên HVHọ và tên HV : NGUYỄN THỊ HOA: NGUYỄN THỊ HOA
Cán bộ hướng dẫnCán bộ hướng dẫn : PGS.TS. VÕ TRUNG HÙNG: PGS.TS. VÕ TRUNG HÙNG
Lớp Cao họcLớp Cao học : Khoá 14 (2010-2012): Khoá 14 (2010-2012)
Ngày bảo vệ
2. NỘI DUNG TRÌNH BÀYNỘI DUNG TRÌNH BÀY
Giới thiệu đề tài
Cơ sở lý thuyết
Nội dung giải pháp dự kiến
Kế hoạch triển khai dự kiến
Kết quả dự kiến
Kết luận
2/12
3. Bối cảnh
Nhân loại đã tạo ra lượng thông tin khổng lồ trên hệ
thống mạng Internet
Lượng thông tin này vẫn chưa được khai thác hết bởi
rất nhiều lý do
Cản trở lớn nhất để khai thác thông tin trên Internet là
rào cản về ngôn ngữ
Nhu cầu về các hệ thống xử lý ngôn ngữ tự nhiên
ngày càng tăng ứng dụng trong nhiều lĩnh vực
Các kho ngữ liệu là cơ sở để phát triển các hệ thống
xử lý ngôn ngữ tự nhiên
GiỚI THIỆU ĐỀ TÀIGiỚI THIỆU ĐỀ TÀI
3/16
4. Những vấn đề tồn tại
Còn thiếu các kho ngữ liệu lớn để phục vụ cho các hệ
thống xử lý ngôn ngữ tự nhiên
Đối với tiếng Việt, còn thiếu các kho ngữ liệu và đặc
biệt là các kho ngữ liệu đa ngữ để hỗ trợ phát triển
các hệ thống XLNNTN
Một số kho ngữ liệu phục vụ xử lý tiếng Việt còn chưa
được chia sẻ rộng rãi
Chi phí để phát triển một kho ngữ liệu là rất tốn kém
GiỚI THIỆU ĐẾ TÀIGiỚI THIỆU ĐẾ TÀI
4/16
5. Giải pháp đề xuất
Kết hợp các phần mềm dịch tự động và môi trường
hợp tác trên Internet để xây dựng, mở rộng các kho
ngữ liệu
Xây dựng công cụ để sử dụng lại các hệ thống dịch
tự động sẵn
Sau khi dịch tự động sẽ đưa kết quả nhận được cho
mọi người góp ý, hiệu chỉnh
GiỚI THIỆU ĐẾ TÀIGiỚI THIỆU ĐẾ TÀI
5/16
6. Mục tiêu: Xây dựng các kho ngữ liệu đa ngữ và có nội dung
bằng tiếng Việt nhằm phục vụ việc xử lý ngôn ngữ tự nhiên liên
quan đến tiếng Việt.
Nhiệm vụ
Về lý thuyết
Tìm hiểu về dịch tự động và các phương pháp dịch tự động
Nghiên cứu các phần mềm dịch tự động miễn phí trên mạng
Nghiên cứu về môi trường hợp tác
Nghiên cứu về kho ngữ liệu, kho ngữ liệu đa ngữ.
Về thực tiễn
Xây dựng công cụ để sử dụng lại các hệ thống dịch tự động sẵn có để
dịch tự động một số các kho ngữ liệu (corpus) sẵn có sang tiếng Việt
Tạo ra kho ngữ liệu (corpus) tiếng Việt từ các kho ngữ liệu (corpus)
sẵn có.
MỤC TIÊU VÀ NHIỆM VỤMỤC TIÊU VÀ NHIỆM VỤ
6/16
7. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
Kho ngữ liệu ngôn ngữ (Linguistics Corpus)
Ngôn ngữ lập trình PERL
Các hệ thống dịch hiện nay trên Internet như Systran, Google,
Reverso,…
Các công cụ phát triển như Tradoh, Traweb, Sandoh,…
Các mô hình triển khai hệ thống.
Một số bài báo và luận văn tốt nghiệp khóa trước
Trong khuôn khổ của một luận văn
thực nghiệm, tôi chỉ giới hạn thực nghiệm ở kho ngữ liệu tiếng
Anh nhờ hệ thống dịch sang tiếng Việt và từ đó xây dựng kho
ngữ liệu song ngữ Anh – Việt. 7/16
8. DỰ KIẾN PHƯƠNG PHÁP NGHIÊN CỨU
Phương pháp tài liệu
Các tài liệu về cơ sở lý thuyết: dịch tự động, môi trường cộng tác,
kho dữ liệu, kho ngữ liệu
Các tài liệu mô tả một số công cụ dịch tự động
Các tài liệu liên quan đến một số nghiên cứu
Phương pháp thực nghiệm
Sử dụng các hệ thống dịch tự động để dịch các kho ngữ liệu sẵn
có sang 1 ngôn ngữ khác
Thực nghiệm dịch và kiểm tra một số kho ngữ liệu sẵn có sang
tiếng Việt
Xây dựng một môi trường hợp tác để kiểm tra tính đúng đắn của
kho ngữ liệu
8/16
9. Tập
Corpus đa ngữ
HỆ THỐNG DỊCH
CORPUS
(Các hệ thống dịch
có sẵn trên Internet
(google))
Tập
Corpus đơn ngữ
MÔI TRƯỜNG
HƠP TÁC
Internet
9/16
10. MỤC ĐÍCH VÀ Ý NGHĨA
Mục đích: Nghiên cứu xây dựng môi trường sử dụng lại các
hệ thống dịch tự động sẵn có để mở rộng các kho ngữ liệu
(corpus) sang một ngôn ngữ mới, đặc biệt là cho tiếng Việt
Ý nghĩa:
Về khoa học: Nghiên cứu phối hợp các phần mềm dịch tự
động trực tuyến và môi trường cộng tác để phục vụ việc phát
triển các kho ngữ liệu đa ngữ phục vụ xử lý ngôn ngữ tự
nhiên
Về thực tiễn: Đề tài sẽ góp phần xây dựng một môi trường
dịch đa ngữ hỗ trợ dịch tự động trực tuyến và tập trung trước
hết vào việc phát triển các kho ngữ liệu (corpus) sẵn có
10/16
11. KẾT QUẢ DỰ KIẾN
Lý thuyếtLý thuyết
Nắm được quy trình làm việc của các hệ thống dịch tựNắm được quy trình làm việc của các hệ thống dịch tự
động trực tuyến và môi trường cộng tácđộng trực tuyến và môi trường cộng tác
Hiểu được cách xây dựng một kho ngữ liệu song ngữHiểu được cách xây dựng một kho ngữ liệu song ngữ
Thực tiễnThực tiễn
Một kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểuMột kho ngữ liệu đa ngữ Anh – Pháp – Việt tối thiểu
200.000 câu mỗi ngôn ngữ200.000 câu mỗi ngôn ngữ
Các công cụ hỗ trợ dịch tự động corpusCác công cụ hỗ trợ dịch tự động corpus
Phần mềm hợp tác để hiệu chỉnh corpusPhần mềm hợp tác để hiệu chỉnh corpus
11/16