4. Web hiện tại và các hạn chế
• Lượng tài nguyên trên web vô cùng lớn .
• HTML chỉ trình bày thông tin chứ không
mô tả thông tin.
• Thiếu cơ cấu hiệu quả để chia sẻ dữ liệu
vì các ứng dụng được phát triển một
cách độc lập.
=> Cần phải mở rộng thế hệ Web hiện tại
để máy tính có thể hiểu, tích hợp dữ liệu,
cũng như tái sử dụng dữ liệu thông qua
các ứng dụng khác nhau.
5. Semantic web (Web of data)
• Semantic web là một mạng lưới thông tin được liên kết theo
phương pháp sao cho thông tin có thể dễ dàng được xử lý bởi các
máy tính trên toàn cầu. Nó được xem là cách mô tả thông tin rất
hiệu quả trên World Wide Web, và nó cũng được xem là một cơ
sở dữ liệu có khả năng liên kết toàn cầu.
• Các công nghệ Semantic Web giúp con người có thể tạo các kho
dữ liệu trên web, xây dựng bộ từ vựng và viết các luật để xử lý dữ
liệu.
6. Semantic web
Cho phép định nghĩa
và liên kết dữ liệu một
cách có ngữ nghĩa.
Chia sẻ dữ liệu giữa
các ứng dụng.
Thông tin sẽ do máy
tự động xử lý.
7. Đôi nét về cha đẻ của Semantic web
Timothy John Berners-Lee (TimBL)
sinh 08/06/1955 tại London, Anh.
WWW, URIs, HTTP, và HTML,…
17. RDF
(Resource Description Framework)
• RDF là nền tảng của Semantic Web và xử lý metadata, được
định nghĩa bởi W3C. RDF cho phép trao đổi thông tin giữa các
ứng dụng trên Web mà máy có thể hiểu được.
• RDF là mô hình các triplets (các định dạng mà máy tính có khả
năng đọc được như RDF/XML, Turtle, N3, RDFa, Json, …)
18. Cấu trúc căn bản RDF triplets
(RDF statements)
Gồm:
- S (subject): URI
- P (predicate): URI
- O (object): URI hoặc literal
20. URI
• URI là nền tảng của Semantic Web. Trong khi mọi thành
phần khác của Web gần như có thể được thay thế nhưng URI
thì không. URI liên hệ các thành phần của Web lại với nhau
• http://www.w3.org/Addressing/
• uuid:04b749bf-3bb2-4dba-934c-c92c56b709df
• mailto:pw2538@bristol.ac.uk
21. RDF Schema
• Định nghĩa bộ từ vựng của RDF:
- Các quan hệ: hasName, hasPrice, authorOf, …
- Các class, subclass
- Properties, subproperties
- Domain
- Range
- …
22. XML
• Cho phép tự thiết kế định dạng tài liệu và sau đó viết một tài
liệu theo định dạng đó.
• Phần cốt yếu của tài liệu XML là bộ từ vựng của các thẻ và
sự kết hợp được cho phép theo khung cố định, nhưng có thể
được xác định thông qua mỗi ứng dụng XML.
23. XML trong Semantic web
• XML cho phép người dùng thêm cấu trúc tùy ý cho các tài
liệu của họ nhưng không đề cập gì đến ý nghĩa của các cấu
trúc. Tên các tag không cung cấp ý nghĩa.
=> Semantic Web chỉ dùng XML cho mục đích cú pháp.
24. RDF với HTML
Một số giải pháp:
• Sử dụng các microformat và chuyển đổi nội dung vào RDF
• Thêm các triplet vào microdata và chuyển đổi sang RDF
• Thêm các RDF triplet trực tiếp vào XHTML thông qua
RDFa
=> HTML + microdata hoặc HTML + RDFa đang dần trở
thành source chính của dữ liệu trên web
30. W3C đề xuất các công nghệ
• RDF và RDF Schema
• SKOS (Simple Knowledge Organization System)
• OWL (Web Ontology Language)
• RIF (Rule Interchange Format)
31. RDFS
Một số bộ từ vựng chính:
• Dublin Core: creator, date, …
• FOAF: tính cách của con người
• Good Relations: các thuật ngữ về eCommerce
• Creative Commons: các lớp về bản quyền, giấy phép
• schema.org: các sự kiện, tổ chức, địa điểm, đánh giá, …
32. SKOS
• Tái sử dụng các bộ từ đồng nghĩa, từ theo chuyên đề, từ
chuyên môn, v.v…
33. OWL (Web Ontology Language)
• Định nghĩa các bộ từ vựng phức tạp hơn với kiến trúc logic
mạnh mẽ
• OWL phức tạp.
35. RIF (Rule Interchange Format)
• Tạo framework định nghĩa các luật trong các thuật ngữ và dữ
liệu.
• RIF định nghĩa một số hình thái ngôn ngữ, tiếng địa
phương,..
37. SPARQL
(Protocol And RDF Query Language)
• CSDL quan hệ và XML sử dụng SPARQL để truy cập dữ
liệu đồ thị RDF.
• SPARQL gửi câu truy vấn và nhận kết quả trả về qua giao
thức HTTP và SOAP.
38. Tính năng của SPARQL
• Trích thông tin trong các dạng của URI, các blank node và
các plain hay typed literals.
• Trích thông tin từ các đồ thị con.
• Xây dựng một đồ thị RDF mới dựa trên thông tin trong đồ
thị truy vấn.
39. VD câu truy vấn
Ta có một RDF triple sau:
<http://example.org/book/book1>
<http://purl.org/dc/elements/1.1/title> "SPARQL Tutorial" .
Câu truy vấn:
SELECT ?title
WHERE {
<http://example.org/book/book1>
<http://purl.org/dc/elements/1.1/title> ?title
}
Kết quả truy vấn:
Title
"SPARQL Tutorial"
40. Một số cú pháp trong câu truy vấn
• Các giá trị được đặt trong dấu ‘<>’ dùng để chỉ một định danh URI.
• Các giá trị được đặt trong dấu (“ “) là các giá trị literal.
• Biến trong ngôn ngữ truy vấn có giá trị toàn cục. Biến thường bắt
đầu với kí tự ‘?’ hoặc ‘$’
• …
43. Search Engine
• Các Search Engine hiện nay hầu hết đều là Keyword Search
Engine.
• Nếu Search Engine được tích hợp tri thức để hiểu được ý
nghĩa của các từ thì nó sẽ cho kết quả chính xác hơn. Lúc đó
việc tìm kiếm dựa trên khái niệm chứ không phải theo từ
khóa.
44. Framework quản lý tri thức
• Thúc đẩy khả năng tìm kiếm tri thức với độ chính xác cao.
• Tăng khả năng truy cập cấu tạo các nguồn tri thức cần thiết
cho việc giải quyết một vấn đề nào đó.
45. Internet Agent
• Để hoàn thành công việc, các internet agent yêu cầu các
trang Web thu thập thông tin và xử lý chúng: so sánh giá cả,
tham gia đấu thầu, sắp xếp, và đăng kí công việc…
• => Tự động hóa, hiệu suất cao, giảm chi phí,…
46. Push System
Các hệ thống push system hiện nay sẽ phát sinh các thông tin
từ Web một cách thường xuyên đến các user dựa vào profile
của họ.
Tuy nhiên, hiện nay thông tin mà user nhận được thường
không phù hợp với yêu cầu của họ. Do đó, cần phải tích hợp
semantic để đánh giá chính xác hơn.
47. Relationship
Semantic Web còn được dùng để tổ chức lại các trang Web có
nội dung liên quan nhau, phục vụ công việc chọn lọc và index.
50. Tài liệu tham khảo
• Ivan Herman, “Tutorial on Semantic Web”, W3C, 2012.
• Nguyễn Thúc Duy Anh và Nguyễn Thị Khánh Hòa, khóa
luận cử nhân tin học “Nghiên cứu, tìm hiểu và xây dựng ứng
dụng với Semantic Web”, ĐH KHTN, 2005.
• http://www.w3.org/standards/semanticweb/
• www.mdpi.com/journal/futureinternet
• http://www.youtube.com/watch?v=oKiXpO2rbJM