3. Nội dung
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Seminar 2012
4. Giới thiệu
Trong 2 thập kỷ qua, mạng internet phát triển rất mạnh mẽ.
Trang web đầu tiên trên thế giới là info.cern.ch (Tim Berners-
Lee), đến năm 2008 chúng ta đã có 162 triệu trang web
Seminar 2012
6. Giới thiệu
Vấn đề đặt ra:
làm sao để khai thác
tối đa những thông
tin mà người sử
dụng cần ???
Giải pháp:
Tạo sự liên kết giữa các trang web với nhau
Seminar 2012
14. Nội dung
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Seminar 2012
15. Đồ thị web
Định nghĩa
Các tính chất của đồ thị web
Cấu trúc vi mô
Luật tăng trưởng
Mô hình
Seminar 2012
16. Đồ thị web
Định nghĩa:
Các trang web ngoài các đặc trưng về sự hiển thị trên trình
duyệt qua ngôn ngữ HTML, CSS mà chúng còn có sự liên kết,
kết nối đến nhau. Chính những liên kết này tạo nên đồ thị web.
Seminar 2012
19. Đồ thị web
Đồ thị và ma trận biểu diễn sự liên kết giữa các trang
1 2 3 4
1 1
2 0 0 0
3 0
4 0 0
Seminar 2012
20. Đồ thị web
Tính chất của đồ thị web
Các trang web được xem như là các nút của đồ thị
Các siêu liên kết được xem như là các cạnh của đồ thị
Nút
Cạnh
Seminar 2012
21. Đồ thị web
Các thuật toán phân hạng web hiện nay:
PageRank
Topic Sensitive PageRank
Adaptive PageRank
Timed PageRank
HITS
Seminar 2012
22. Cấu trúc đồ thị web
Có 4 thành phần:
SCC(strongly connected component)
IN
OUT
TENDRILS
Seminar 2012
24. Ý nghĩa của đồ thị web
Liên kết được nhiều trang web với nhau
Mạng lưới của những liên kết này là nguồn phong
phú của các thông tin tiềm ẩn.
Seminar 2012
27. Mô hình trong đồ thị web
Các thuộc tính trong mô hình đồ thị web
On-line property
Power law degree distribution
Small world property
Seminar 2012
29. Mô hình trong đồ thị web
Một số mô hình trong đồ thị web:
Mô hình tập tin đính kèm ưu đãi ( preferential attachment
models)
Mô hình LCD PA (The LCD PA model)
Mô hình sao chép (The copying model)
Mô hình growth-deletion ( growth – deletion models)
Mô hình hình học (geometric model)
Mô hình off – line (off – line model)
Seminar 2012
30. Nội dung
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Seminar 2012
35. Thuật toán PageRank
Kết quả thừa nhận
Trang A được trỏ bởi càng
nhiều link thì càng quan
trọng.
“A => B thì độ quan trọng
của trang A cũng ảnh
hưởng đến độ quan trọng
của trang B”.
Seminar 2012
37. Thuật toán PageRank
Xây dựng mô hình bài toán.
Xây dựng đồ thị có hướng G=(V,E):
• V={Vi : Vi đại diện cho 1 web, i = 1..n }
• E={(i,j): có liên kết từ i tới j; i,j=1..n}
Mọi tính toán hạng trang thực hiện trên đồ thị
này.
Seminar 2012
39. Thuật toán PageRank
Thuật toán
Đầu vào:
• Đồ thị web.
• Các trang web đã có page rank mặc định
Đầu ra:
• Các trang được xếp hạng theo page rank thực
Seminar 2012
41. Thuật toán PageRank
Vấn đề:
Số lượng thông tin rất lớn.
Cần phương pháp để tính toán
Giải quyết:
Thử đưa về mô hình toán học, áp dụng các
thuật toán tính toán nhanh
Seminar 2012
46. Thuật toán PageRank
Lưu ý.
Thuật toán sử dụng lặp để tính toán liên tiếp, tác
giả đã khẳng định sau khoảng 50 vòng lặp sẽ nhận
kết quả với sai số chấp nhận được
Đánh giá.
Seminar 2012
47. Nội dung
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Seminar 2012
51. Adaptive PageRank
Sepandar D. Kamvar và cộng sự, 2003
Tận dụng những trang hội tụ sớm và kết quả độ quan
trọng của các trang đã hội tụ có thể không cần tính
tiếp
Seminar 2012
54. Nội dung
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Seminar 2012
55. HITS
HITS - Hypertext Induced Topic Selection
Jon M. Kleinberg đề xuất, 1998 - 1999
Không giống như PageRank - một thuật toán xếp hạng tĩnh,
HITS phụ thuộc vào truy vấn tìm kiếm.
Seminar 2012
56. Authority
Authority pages: là những trang được xem là phù hợp
nhất đối với mỗi câu truy vấn cụ thể nào đó.
Auth
Seminar 2012
57. Hub
Hub pages: là những trang không cần có đặc tính
“authority” nhưng lại trỏ tới nhiều trang có đặc tính
“authority”.
Hub
Seminar 2012
59. Ý tưởng của HITS
Trang có hub tốt là trang có nhiều liên kết ra.
Trang có authority tốt là trang có nhiều liên kết tới.
Trang trỏ tới trang có authority cao thì trọng số hub
càng cao, trang nào được nhiều trang có hub cao trỏ
tới thì trọng số authority càng cao.
Seminar 2012
60. HITS - 1
Xác định tập hợp cơ sở S
Cho phép thiết lập các dữ liệu trả về bởi một công cụ
tìm kiếm tiêu chuẩn được gọi là các root set (thiết lập
gốc) R
Khởi tạo S cho R
Seminar 2012
68. PageRank - HITS
HITS nhấn mạnh tăng cường lẫn nhau giữa các trang
authority và hub, trong khi PageRank thì không.
PageRank xếp hạng trang chỉ bởi các trang authority.
HITS được áp dụng cho các vùng lân cận của các
trang xung quanh kết quả của một truy vấn trong khi
PageRank được áp dụng cho toàn bộ trang web
HITS là truy vấn phụ thuộc nhưng PageRank là truy
vấn độc lập
Seminar 2012
69. PageRank - HITS
Cả HITS và PageRank đều tính toán trên ma trận.
Đều không ổn định: thay đổi một số liên kết có thể
dẫn đến bảng xếp hạng khác nhau.
PageRank không quản lý các trang không có cạnh
ngoài rất tốt, vì nó giảm PageRank tổng thể
Seminar 2012
70. Kết luận
Khai phá dữ liệu Web(Web mining) có ý nghĩa quan
trọng trong cuộc sống và công nghệ.
PageRank hay HITS là các thuật toán cơ bản để xây
dựng các Search Engine.
Tuy nhiên, các search engine nổi tiếng như Google,
Yahoo hay Bing đều có những cải tiến và các thuật
toán khác không được công bố!
Seminar 2012
71. Nội dung
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Seminar 2012
Theo khảosátcủadịchvụPingdongcủaviệngiámsátThụyĐiển
Quan tâm đến nội dung trang Web. Hơn nữa, nếu khai thác được mối quan tâm của người dùng đối với trang Web trong quá trình tính độ phù hợp của trang Web với câu hỏi người dùng, thì rất có ý nghĩa.Miền quan tâm của người dùng gọi là “phạm vi ngữ cảnh”B1: Phân các trang Web thành các lớp chủ đề, mỗi lớp tương tứng với 1 vector PageRank, mà thành phân của nó là giá trị PageRank của mỗi trang trong lớp.B2: Được thực hiện trong thời gian hỏi đáp:Truy vấn thường thì chính truy vấn là phạm vi ngữ cảnh (tức là miền quan tâm của người dùng)Phức tạp hơn thì dùng thuật toán phân lớp Bayes
PageRank đánh giá hạng trang thông qua liên kết giữa các Website bằng cách tính vector riêng của ma trận kề biểu diễn các trang WebNhưng kích thước WWW là khổng lồ, cần rất nhiều thời gian tính toánViệc tính toán nhanh vector riêng sẽ giảm thời gian chết của việc chờ đưa kết quả sang các thành phần khác của máy tìm kiếm
Giải pháp: Adaptive PageRank, sau khi cài đặt và chạy chương trình, độ quan trọng của các trang Web hội tụ nhanh hoặc chậm. Ta sẽ tận dụng những trang hội tụ sớm và kết quả độ quan trọng của các trang đã hội tụ có thể không cần tính tiếp giảm tính toán dư thừa, tăng hiệu suất tính toán của hệ thống !
Đã bao giờ, bạn tìm kiếm trên Google thấy một bài viết rất hay nhưng click vào thì kết quả trả về lại là lỗi 404 not found!Nguyên nhân thì có thể có nhiều, nhưng có thể bài viết đó đã quá lâu, và bị trang web đó xóa đi rồi, nhưng Google vẫn lưu trữ chúngViệc xếp hạng trang web cần được cập nhật thêm trường thời gian
Xét đến tính đúng lúc của kết quả tìm kiếm (các trang web đã chất lượng chưa chắc đã có chất lượng so với hiện tại hay tương lai)Vấn đề: những trang cũ có lượng inbound link(liên kết gửi đến) lớn, nhưng những trang mới thì có rất ít (hoặc không có)Giải quyết: nếu là trang cũ thì f(t) sẽ nhỏ và 1-f(t) lớn xác suất nhảy đến trang khác sẽ lớn. Ngược lại, nếu trang mới thì xác suất nhảy đến trang khác là nhỏ !Xin Li, Bing Liu, và Philip S. Yu. Time Sensitive Ranking with Application to Publication Search. Conference on Data Mining 2008
-Phương pháp này được đưa ra đầu tiên bởi Jon M.Kleinberg. Không như phương pháp PageRank chỉ tính một giá trị xếp hạng đơn cho mỗi trang Web, phương pháp này tính toán hai chỉ số khác nhau cho mỗi trang Web, đó là chỉ số “authority” và “hub”.Hub và authority là hai chỉ số của một đỉnh thể hiện giá trị xếp hạng đồ thị dùng trong phương pháp HITS. Ở đây, authority là giá trị thể hiện khi các đỉnh khác liên kết đến đỉnh đang xét và hub là giá trị thể hiện khi đỉnh đang xét trỏ đến các đỉnh khác. Đương nhiên chúng không phải là số lượng các cạnh, mà đây chỉ là chỉ số thể hiện tính chất của một đỉnh, tính chất của một đỉnh có thể là authority hay hub.Khi người sử dụng thực hiện một truy vấn tìm kiếm: + HITS đầu tiên mở rộng danh sách các trang có liên quan được trả về bởi một công cụ tìm kiếm + Vàsau đó tạo ra hai bảng xếp hạng của các thiết lập mở rộng của các trang, xếp hạng authority và xếp hạng hub.
- Authority pages: Là những trang được xem là phù hợp nhất đối với mỗi câu truy vấn cụthểnào đó. Ví dụ, trang chủcủa Yahoo chính là trang “authority” của câu truy vấn “yahoo”.
Hub pages:Là những trang không cần có đặc tính “authority” nhưng lại trỏtới nhiều trang có đặc tính “authority”. Ví dụnhưtrang “Searchenginewatch.com” là một trang “hub” vì nó liên kết tới nhiều trang chủcủa máy tìm kiếm. Trang “hub” có ý nghĩa khá quan trọng, thứnhất bởi vì nó có những thông tin có thể được sửdụng trong việc tìm kiếm những thông tin hữu ích, thứhai bởi vì nó được sửdụng trong thuật toán HIST đểtính toán “authority”. Vì trang “hub” mang ý nghĩa là trang trỏtới nhiều trang “authority” nên nếu một trang “authority” tốt có thểđược coi là trang có nhiều “hub” chỉtới.
Độ quan trọng của một trang web được xác định dựa trên hai trọng số authority và hub. Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt là trang có nhiều liên kết tới. Hai trọng số này có quan hệ qua lại với nhau: trang trỏ tới trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hubcao trỏ tới thì trọng số authority càng cao.