SlideShare uma empresa Scribd logo
1 de 73
Đại học Bách Khoa Hà Nội
   Viện Toán ứng dụng và Tin học




  Seminar Tin ứng dụng
Web graph and Page rank




               Bùi Đức Hiệu
             Phạm Anh Tuấn
             Nguyễn Văn Vũ
Giới thiệu




Ảnh chụp của đồ thị Internet
   (Nguồn: Wikipedia)
                               Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
Giới thiệu

 Trong 2 thập kỷ qua, mạng internet phát triển rất mạnh mẽ.
  Trang web đầu tiên trên thế giới là info.cern.ch (Tim Berners-
  Lee), đến năm 2008 chúng ta đã có 162 triệu trang web




                                                         Seminar 2012
Giới thiệu




             Seminar 2012
Giới thiệu

Vấn đề đặt ra:
         làm sao để khai thác
         tối đa những thông
         tin mà người sử
         dụng cần ???



Giải pháp:
       Tạo sự liên kết giữa các trang web với nhau


                                                     Seminar 2012
Giới thiệu




             Seminar 2012
Đồ thị

Đồ thị: là một tập các đối tượng gọi là đỉnh nối với nhau bởi
  các cạnh.




                                                         Seminar 2012
Đồ thị

Một số khái niệm liên quan đến đồ thị:
 Đồ thị vô hướng




                                          Seminar 2012
Đồ thị

 Đồ thị có hướng




                             Seminar 2012
Ma trận






                                     1
        A   B   C   D            A       B
    A   0   1   2   3                3
                             2           6
    B       0
    C           0   3            C   3   D
    D               0



                                             Seminar 2012
Ma trận






              Seminar 2012
Ma trận






              Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
Đồ thị web

Định nghĩa

Các tính chất của đồ thị web

Cấu trúc vi mô

Luật tăng trưởng

Mô hình



                                   Seminar 2012
Đồ thị web

Định nghĩa:
        Các trang web ngoài các đặc trưng về sự hiển thị trên trình
duyệt qua ngôn ngữ HTML, CSS mà chúng còn có sự liên kết,
kết nối đến nhau. Chính những liên kết này tạo nên đồ thị web.




                                                            Seminar 2012
Đồ thị web




             Seminar 2012
Đồ thị web




             Seminar 2012
Đồ thị web

Đồ thị và ma trận biểu diễn sự liên kết giữa các trang




                       1   2    3   4
                   1            1
                   2        0   0   0
                   3            0
                   4            0   0
                                                  Seminar 2012
Đồ thị web

Tính chất của đồ thị web
   Các trang web được xem như là các nút của đồ thị
   Các siêu liên kết được xem như là các cạnh của đồ thị


                                                      Nút



                                                      Cạnh




                                                        Seminar 2012
Đồ thị web

Các thuật toán phân hạng web hiện nay:
   PageRank

   Topic Sensitive PageRank

   Adaptive PageRank

   Timed PageRank

   HITS




                                          Seminar 2012
Cấu trúc đồ thị web

Có 4 thành phần:
   SCC(strongly connected component)

   IN

   OUT

   TENDRILS




                                        Seminar 2012
Cấu trúc đồ thị web




                      Seminar 2012
Ý nghĩa của đồ thị web


Liên kết được nhiều trang web với nhau

Mạng lưới của những liên kết này là nguồn phong
 phú của các thông tin tiềm ẩn.




                                           Seminar 2012
Luật tăng trưởng






                       Seminar 2012
Luật tăng trưởng






                       Seminar 2012
Mô hình trong đồ thị web

Các thuộc tính trong mô hình đồ thị web
   On-line property

   Power law degree distribution

   Small world property




                                           Seminar 2012
Mô hình đồ thị web






                         Seminar 2012
Mô hình trong đồ thị web

Một số mô hình trong đồ thị web:
   Mô hình tập tin đính kèm ưu đãi ( preferential attachment
    models)
   Mô hình LCD PA (The LCD PA model)
   Mô hình sao chép (The copying model)
   Mô hình growth-deletion ( growth – deletion models)
   Mô hình hình học (geometric model)
   Mô hình off – line (off – line model)




                                                         Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
Thuật toán PageRank

Vấn đề:




                                 Seminar 2012
Thuật toán PageRank

Vấn đề
  Số lượng lớn
  Thay đổi liên tục
  Thông tin rác
  Độ phân tán
            CẦN MỘT PHƯƠNG PHÁP
            KHAI THÁC THÔNG TIN

                                   Seminar 2012
Thuật toán PageRank


           Nhanh




CẦN GÌ     Dễ dàng cài đặt



           Chính xác

                               Seminar 2012
Thuật toán PageRank

Tổng quan




                                   Seminar 2012
Thuật toán PageRank

Kết quả thừa nhận

  Trang A được trỏ bởi càng
   nhiều link thì càng quan
   trọng.

  “A => B thì độ quan trọng
   của trang A cũng ảnh
   hưởng đến độ quan trọng
   của trang B”.
                                   Seminar 2012
Thuật toán PageRank

Ý tưởng.
   Sử dụng:




                                     Seminar 2012
Thuật toán PageRank

Xây dựng mô hình bài toán.
   Xây dựng đồ thị có hướng G=(V,E):
     • V={Vi : Vi đại diện cho 1 web, i = 1..n }
     • E={(i,j): có liên kết từ i tới j; i,j=1..n}

   Mọi tính toán hạng trang thực hiện trên đồ thị
    này.


                                                 Seminar 2012
Thuật toán PageRank




                      Seminar 2012
Thuật toán PageRank

Thuật toán
   Đầu vào:
    • Đồ thị web.
    • Các trang web đã có page rank mặc định
   Đầu ra:
    • Các trang được xếp hạng theo page rank thực




                                               Seminar 2012
Thuật toán PageRank






                          Seminar 2012
Thuật toán PageRank

Vấn đề:
   Số lượng thông tin rất lớn.

           Cần phương pháp để tính toán


Giải quyết:
   Thử đưa về mô hình toán học, áp dụng các
    thuật toán tính toán nhanh

                                               Seminar 2012
Thuật toán PageRank






                          Seminar 2012
Thuật toán PageRank






                          Seminar 2012
Thuật toán PageRank

Thuật toán – Cải tiến
   Vì sao phải cải tiến?
   Liệu có trang web nào có page rank bằng 0?




                                            Seminar 2012
Thuật toán PageRank






                          Seminar 2012
Thuật toán PageRank

Lưu ý.
  Thuật toán sử dụng lặp để tính toán liên tiếp, tác
   giả đã khẳng định sau khoảng 50 vòng lặp sẽ nhận
   kết quả với sai số chấp nhận được
Đánh giá.




                                                Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
Topic Sensitive PageRank




                           Seminar 2012
Topic Sensitive PageRank





                               Seminar 2012
Adaptive PageRank




                    Seminar 2012
Adaptive PageRank

Sepandar D. Kamvar và cộng sự, 2003
Tận dụng những trang hội tụ sớm và kết quả độ quan
 trọng của các trang đã hội tụ có thể không cần tính
 tiếp




                                               Seminar 2012
Timed PageRank




                 Seminar 2012
Timed PageRank






                     Seminar 2012
Nội dung

Giới thiệu

Đồ thị Web

Thuật toán PageRank

Cải tiến thuật toán PageRank

Thuật toán HITS

Cài đặt các thuật toán

                                Seminar 2012
HITS

 HITS - Hypertext Induced Topic Selection
 Jon M. Kleinberg đề xuất, 1998 - 1999
 Không giống như PageRank - một thuật toán xếp hạng tĩnh,
  HITS phụ thuộc vào truy vấn tìm kiếm.




                                                       Seminar 2012
Authority

Authority pages: là những trang được xem là phù hợp
 nhất đối với mỗi câu truy vấn cụ thể nào đó.




                     Auth




                                               Seminar 2012
Hub

Hub pages: là những trang không cần có đặc tính
 “authority” nhưng lại trỏ tới nhiều trang có đặc tính
 “authority”.



                        Hub




                                                  Seminar 2012
Hub và Authority




                   Seminar 2012
Ý tưởng của HITS

Trang có hub tốt là trang có nhiều liên kết ra.

Trang có authority tốt là trang có nhiều liên kết tới.

Trang trỏ tới trang có authority cao thì trọng số hub
  càng cao, trang nào được nhiều trang có hub cao trỏ
  tới thì trọng số authority càng cao.




                                                    Seminar 2012
HITS - 1

Xác định tập hợp cơ sở S
Cho phép thiết lập các dữ liệu trả về bởi một công cụ
 tìm kiếm tiêu chuẩn được gọi là các root set (thiết lập
 gốc) R
Khởi tạo S cho R




                                                   Seminar 2012
HITS - 2






               Seminar 2012
HITS - 3






               Seminar 2012
HITS - 4






               Seminar 2012
HITS - 5






               Seminar 2012
Giả mã của HITS






                      Seminar 2012
Ví dụ




 Root Set R {1,2,3,4}
 Mở rộng nó để tạo thành Base Set S



                                       Seminar 2012
Kết quả của ví dụ


     Authority
     Hub




1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

                                      Seminar 2012
PageRank - HITS

HITS nhấn mạnh tăng cường lẫn nhau giữa các trang
 authority và hub, trong khi PageRank thì không.
 PageRank xếp hạng trang chỉ bởi các trang authority.
HITS được áp dụng cho các vùng lân cận của các
 trang xung quanh kết quả của một truy vấn trong khi
 PageRank được áp dụng cho toàn bộ trang web
HITS là truy vấn phụ thuộc nhưng PageRank là truy
 vấn độc lập



                                                Seminar 2012
PageRank - HITS

Cả HITS và PageRank đều tính toán trên ma trận.
Đều không ổn định: thay đổi một số liên kết có thể
 dẫn đến bảng xếp hạng khác nhau.
PageRank không quản lý các trang không có cạnh
 ngoài rất tốt, vì nó giảm PageRank tổng thể




                                                 Seminar 2012
Kết luận

Khai phá dữ liệu Web(Web mining) có ý nghĩa quan
 trọng trong cuộc sống và công nghệ.
 PageRank hay HITS là các thuật toán cơ bản để xây
 dựng các Search Engine.
Tuy nhiên, các search engine nổi tiếng như Google,
 Yahoo hay Bing đều có những cải tiến và các thuật
 toán khác không được công bố!




                                               Seminar 2012
Nội dung

 Giới thiệu

 Đồ thị Web

 Thuật toán PageRank

 Cải tiến thuật toán PageRank

 Thuật toán HITS

 Cài đặt các thuật toán



                                      Seminar 2012
Q&A




      Seminar 2012
Web graph and Page rank

Mais conteúdo relacionado

Mais procurados

Bắt đầu học data science
Bắt đầu học data scienceBắt đầu học data science
Bắt đầu học data scienceHong Ong
 
Tìm hiểu về cloud computing
Tìm hiểu về cloud computingTìm hiểu về cloud computing
Tìm hiểu về cloud computinglanhuonga3
 
Xây dựng website bán hàng qua mạng
Xây dựng website bán hàng qua mạngXây dựng website bán hàng qua mạng
Xây dựng website bán hàng qua mạngleemindinh
 
ERD - Database Design
ERD - Database DesignERD - Database Design
ERD - Database Designyht4ever
 
Phân tích những tác động của các tác nhân môi trường marketing đến sản phẩm t...
Phân tích những tác động của các tác nhân môi trường marketing đến sản phẩm t...Phân tích những tác động của các tác nhân môi trường marketing đến sản phẩm t...
Phân tích những tác động của các tác nhân môi trường marketing đến sản phẩm t...Hee Young Shin
 
Cơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quếCơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quếTran Tien
 
Bài 5: Thiết kế giao diện - Giáo trình FPT
Bài 5: Thiết kế giao diện - Giáo trình FPTBài 5: Thiết kế giao diện - Giáo trình FPT
Bài 5: Thiết kế giao diện - Giáo trình FPTMasterCode.vn
 
Laravel
LaravelLaravel
LaravelHoc Vu
 
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng HồBáo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng HồzDollz Lovez
 
Nhập môn Css
Nhập môn CssNhập môn Css
Nhập môn CssLy hai
 
[Athena]Nghiên Cứu Và Xây Dựng Website Bằng Wordpress
[Athena]Nghiên Cứu Và Xây Dựng Website Bằng Wordpress[Athena]Nghiên Cứu Và Xây Dựng Website Bằng Wordpress
[Athena]Nghiên Cứu Và Xây Dựng Website Bằng WordpressCương Trần
 
đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155nataliej4
 
Ctdl 08-string matching-01
Ctdl 08-string matching-01Ctdl 08-string matching-01
Ctdl 08-string matching-01Bích Anna
 
Nhap mon-internet-va-e-learning
Nhap mon-internet-va-e-learningNhap mon-internet-va-e-learning
Nhap mon-internet-va-e-learningntlinh
 
Phương pháp luận nghiên cứu khoa học
Phương pháp luận nghiên cứu khoa họcPhương pháp luận nghiên cứu khoa học
Phương pháp luận nghiên cứu khoa họcTuấn Nguyễn Văn
 
Mô hình điện toán đám mây
Mô hình điện toán đám mâyMô hình điện toán đám mây
Mô hình điện toán đám mâyPhamTuanKhiem
 
Introduction to NuoDB
Introduction to NuoDBIntroduction to NuoDB
Introduction to NuoDBSandun Perera
 

Mais procurados (20)

Bắt đầu học data science
Bắt đầu học data scienceBắt đầu học data science
Bắt đầu học data science
 
Tìm hiểu về cloud computing
Tìm hiểu về cloud computingTìm hiểu về cloud computing
Tìm hiểu về cloud computing
 
Xây dựng website bán hàng qua mạng
Xây dựng website bán hàng qua mạngXây dựng website bán hàng qua mạng
Xây dựng website bán hàng qua mạng
 
ERD - Database Design
ERD - Database DesignERD - Database Design
ERD - Database Design
 
Facebook Proposal ngành sữa
Facebook Proposal ngành sữaFacebook Proposal ngành sữa
Facebook Proposal ngành sữa
 
Phân tích những tác động của các tác nhân môi trường marketing đến sản phẩm t...
Phân tích những tác động của các tác nhân môi trường marketing đến sản phẩm t...Phân tích những tác động của các tác nhân môi trường marketing đến sản phẩm t...
Phân tích những tác động của các tác nhân môi trường marketing đến sản phẩm t...
 
Cơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quếCơ sở dữ liệu phân tán - phạm thế quế
Cơ sở dữ liệu phân tán - phạm thế quế
 
Bài 5: Thiết kế giao diện - Giáo trình FPT
Bài 5: Thiết kế giao diện - Giáo trình FPTBài 5: Thiết kế giao diện - Giáo trình FPT
Bài 5: Thiết kế giao diện - Giáo trình FPT
 
Laravel
LaravelLaravel
Laravel
 
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng HồBáo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
 
Nhập môn Css
Nhập môn CssNhập môn Css
Nhập môn Css
 
[Athena]Nghiên Cứu Và Xây Dựng Website Bằng Wordpress
[Athena]Nghiên Cứu Và Xây Dựng Website Bằng Wordpress[Athena]Nghiên Cứu Và Xây Dựng Website Bằng Wordpress
[Athena]Nghiên Cứu Và Xây Dựng Website Bằng Wordpress
 
đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155đồ áN xây dựng website bán laptop 1129155
đồ áN xây dựng website bán laptop 1129155
 
Ctdl 08-string matching-01
Ctdl 08-string matching-01Ctdl 08-string matching-01
Ctdl 08-string matching-01
 
Nhap mon-internet-va-e-learning
Nhap mon-internet-va-e-learningNhap mon-internet-va-e-learning
Nhap mon-internet-va-e-learning
 
Phương pháp luận nghiên cứu khoa học
Phương pháp luận nghiên cứu khoa họcPhương pháp luận nghiên cứu khoa học
Phương pháp luận nghiên cứu khoa học
 
Đề tài: Nghiên cứu và triển khai hệ thống Windown Server 2012
Đề tài: Nghiên cứu và triển khai hệ thống Windown Server 2012Đề tài: Nghiên cứu và triển khai hệ thống Windown Server 2012
Đề tài: Nghiên cứu và triển khai hệ thống Windown Server 2012
 
Mô hình điện toán đám mây
Mô hình điện toán đám mâyMô hình điện toán đám mây
Mô hình điện toán đám mây
 
Lý Thuyết SQL
Lý Thuyết SQLLý Thuyết SQL
Lý Thuyết SQL
 
Introduction to NuoDB
Introduction to NuoDBIntroduction to NuoDB
Introduction to NuoDB
 

Semelhante a Web graph and Page rank

Doanh Việt - SEOer - Hội ngộ đỉnh cao 2012
Doanh Việt - SEOer - Hội ngộ đỉnh cao 2012Doanh Việt - SEOer - Hội ngộ đỉnh cao 2012
Doanh Việt - SEOer - Hội ngộ đỉnh cao 2012hoangnguyen_edu_vn
 
Bao cao wesite bán giày.docx
Bao cao wesite bán giày.docxBao cao wesite bán giày.docx
Bao cao wesite bán giày.docxssuser11005a
 
Luận văn thạc sĩ máy tính.
Luận văn thạc sĩ máy tính.Luận văn thạc sĩ máy tính.
Luận văn thạc sĩ máy tính.ssuser499fca
 
Team9_PowerBI_Report.pptx
Team9_PowerBI_Report.pptxTeam9_PowerBI_Report.pptx
Team9_PowerBI_Report.pptxSnNguynTn1
 
Báo cáo môn lập trình web TMĐT.pptx
Báo cáo môn lập trình web TMĐT.pptxBáo cáo môn lập trình web TMĐT.pptx
Báo cáo môn lập trình web TMĐT.pptxQuangSn11
 
Seo toan tap 2011
Seo toan tap 2011Seo toan tap 2011
Seo toan tap 2011Anh Việt
 
Slide tài liệu - Tổng quan về SEO (update 2017)
Slide tài liệu - Tổng quan về SEO (update 2017)Slide tài liệu - Tổng quan về SEO (update 2017)
Slide tài liệu - Tổng quan về SEO (update 2017)Dung Hoang Seothetop
 
Khóa đào tạo SEO tại Quy Nhơn - Bình Đinh của Linh Nguyễn có gì hấp dẫn
Khóa đào tạo SEO tại Quy Nhơn - Bình Đinh của Linh Nguyễn có gì hấp dẫnKhóa đào tạo SEO tại Quy Nhơn - Bình Đinh của Linh Nguyễn có gì hấp dẫn
Khóa đào tạo SEO tại Quy Nhơn - Bình Đinh của Linh Nguyễn có gì hấp dẫnlinhnguyenfaceseo
 
Yếu tố giúp bạn trở thành Seoer Giỏi
Yếu tố giúp bạn trở thành Seoer GiỏiYếu tố giúp bạn trở thành Seoer Giỏi
Yếu tố giúp bạn trở thành Seoer GiỏiSEONGON
 
Vận dụng kiến thức lập trình web vào môi trường thực tế
Vận dụng kiến thức lập trình web vào môi trường thực tếVận dụng kiến thức lập trình web vào môi trường thực tế
Vận dụng kiến thức lập trình web vào môi trường thực tếVKhang Yang
 
Lap trinhhuongdoituong v3.1
Lap trinhhuongdoituong v3.1Lap trinhhuongdoituong v3.1
Lap trinhhuongdoituong v3.1volll
 
Bai 9 -_trien_khai_du_an_tmdt_-_v2
Bai 9 -_trien_khai_du_an_tmdt_-_v2Bai 9 -_trien_khai_du_an_tmdt_-_v2
Bai 9 -_trien_khai_du_an_tmdt_-_v2NTPhuong
 
Bai 9 -_trien_khai_du_an_tmdt_-_v2
Bai 9 -_trien_khai_du_an_tmdt_-_v2Bai 9 -_trien_khai_du_an_tmdt_-_v2
Bai 9 -_trien_khai_du_an_tmdt_-_v2NTPhuong
 
T d que_lap_trinh_huong_doi_tuong
T d que_lap_trinh_huong_doi_tuongT d que_lap_trinh_huong_doi_tuong
T d que_lap_trinh_huong_doi_tuongtoiseden91
 
Lap trinh huong doi tuong voi java tran dinh que
Lap trinh huong doi tuong voi java   tran dinh queLap trinh huong doi tuong voi java   tran dinh que
Lap trinh huong doi tuong voi java tran dinh queNguyễn Công Hoàng
 

Semelhante a Web graph and Page rank (20)

Doanh Việt - SEOer - Hội ngộ đỉnh cao 2012
Doanh Việt - SEOer - Hội ngộ đỉnh cao 2012Doanh Việt - SEOer - Hội ngộ đỉnh cao 2012
Doanh Việt - SEOer - Hội ngộ đỉnh cao 2012
 
Cach seo top 10 google
Cach seo top 10 googleCach seo top 10 google
Cach seo top 10 google
 
Bao cao wesite bán giày.docx
Bao cao wesite bán giày.docxBao cao wesite bán giày.docx
Bao cao wesite bán giày.docx
 
Luận văn thạc sĩ máy tính.
Luận văn thạc sĩ máy tính.Luận văn thạc sĩ máy tính.
Luận văn thạc sĩ máy tính.
 
Team9_PowerBI_Report.pptx
Team9_PowerBI_Report.pptxTeam9_PowerBI_Report.pptx
Team9_PowerBI_Report.pptx
 
Báo cáo môn lập trình web TMĐT.pptx
Báo cáo môn lập trình web TMĐT.pptxBáo cáo môn lập trình web TMĐT.pptx
Báo cáo môn lập trình web TMĐT.pptx
 
Seo toan tap 2011
Seo toan tap 2011Seo toan tap 2011
Seo toan tap 2011
 
Slide tài liệu - Tổng quan về SEO (update 2017)
Slide tài liệu - Tổng quan về SEO (update 2017)Slide tài liệu - Tổng quan về SEO (update 2017)
Slide tài liệu - Tổng quan về SEO (update 2017)
 
LeManhHung.pptx
LeManhHung.pptxLeManhHung.pptx
LeManhHung.pptx
 
Khóa đào tạo SEO tại Quy Nhơn - Bình Đinh của Linh Nguyễn có gì hấp dẫn
Khóa đào tạo SEO tại Quy Nhơn - Bình Đinh của Linh Nguyễn có gì hấp dẫnKhóa đào tạo SEO tại Quy Nhơn - Bình Đinh của Linh Nguyễn có gì hấp dẫn
Khóa đào tạo SEO tại Quy Nhơn - Bình Đinh của Linh Nguyễn có gì hấp dẫn
 
Wordpress
WordpressWordpress
Wordpress
 
GOBRANDING present Shinhan Bank
GOBRANDING present Shinhan BankGOBRANDING present Shinhan Bank
GOBRANDING present Shinhan Bank
 
Yếu tố giúp bạn trở thành Seoer Giỏi
Yếu tố giúp bạn trở thành Seoer GiỏiYếu tố giúp bạn trở thành Seoer Giỏi
Yếu tố giúp bạn trở thành Seoer Giỏi
 
Seo panda
Seo pandaSeo panda
Seo panda
 
Vận dụng kiến thức lập trình web vào môi trường thực tế
Vận dụng kiến thức lập trình web vào môi trường thực tếVận dụng kiến thức lập trình web vào môi trường thực tế
Vận dụng kiến thức lập trình web vào môi trường thực tế
 
Lap trinhhuongdoituong v3.1
Lap trinhhuongdoituong v3.1Lap trinhhuongdoituong v3.1
Lap trinhhuongdoituong v3.1
 
Bai 9 -_trien_khai_du_an_tmdt_-_v2
Bai 9 -_trien_khai_du_an_tmdt_-_v2Bai 9 -_trien_khai_du_an_tmdt_-_v2
Bai 9 -_trien_khai_du_an_tmdt_-_v2
 
Bai 9 -_trien_khai_du_an_tmdt_-_v2
Bai 9 -_trien_khai_du_an_tmdt_-_v2Bai 9 -_trien_khai_du_an_tmdt_-_v2
Bai 9 -_trien_khai_du_an_tmdt_-_v2
 
T d que_lap_trinh_huong_doi_tuong
T d que_lap_trinh_huong_doi_tuongT d que_lap_trinh_huong_doi_tuong
T d que_lap_trinh_huong_doi_tuong
 
Lap trinh huong doi tuong voi java tran dinh que
Lap trinh huong doi tuong voi java   tran dinh queLap trinh huong doi tuong voi java   tran dinh que
Lap trinh huong doi tuong voi java tran dinh que
 

Web graph and Page rank

  • 1. Đại học Bách Khoa Hà Nội Viện Toán ứng dụng và Tin học Seminar Tin ứng dụng Web graph and Page rank Bùi Đức Hiệu Phạm Anh Tuấn Nguyễn Văn Vũ
  • 2. Giới thiệu Ảnh chụp của đồ thị Internet (Nguồn: Wikipedia) Seminar 2012
  • 3. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 4. Giới thiệu  Trong 2 thập kỷ qua, mạng internet phát triển rất mạnh mẽ. Trang web đầu tiên trên thế giới là info.cern.ch (Tim Berners- Lee), đến năm 2008 chúng ta đã có 162 triệu trang web Seminar 2012
  • 5. Giới thiệu Seminar 2012
  • 6. Giới thiệu Vấn đề đặt ra: làm sao để khai thác tối đa những thông tin mà người sử dụng cần ??? Giải pháp: Tạo sự liên kết giữa các trang web với nhau Seminar 2012
  • 7. Giới thiệu Seminar 2012
  • 8. Đồ thị Đồ thị: là một tập các đối tượng gọi là đỉnh nối với nhau bởi các cạnh. Seminar 2012
  • 9. Đồ thị Một số khái niệm liên quan đến đồ thị:  Đồ thị vô hướng Seminar 2012
  • 10. Đồ thị  Đồ thị có hướng Seminar 2012
  • 11. Ma trận  1 A B C D A B A 0 1 2 3 3 2 6 B 0 C 0 3 C 3 D D 0 Seminar 2012
  • 12. Ma trận  Seminar 2012
  • 13. Ma trận  Seminar 2012
  • 14. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 15. Đồ thị web Định nghĩa Các tính chất của đồ thị web Cấu trúc vi mô Luật tăng trưởng Mô hình Seminar 2012
  • 16. Đồ thị web Định nghĩa: Các trang web ngoài các đặc trưng về sự hiển thị trên trình duyệt qua ngôn ngữ HTML, CSS mà chúng còn có sự liên kết, kết nối đến nhau. Chính những liên kết này tạo nên đồ thị web. Seminar 2012
  • 17. Đồ thị web Seminar 2012
  • 18. Đồ thị web Seminar 2012
  • 19. Đồ thị web Đồ thị và ma trận biểu diễn sự liên kết giữa các trang 1 2 3 4 1 1 2 0 0 0 3 0 4 0 0 Seminar 2012
  • 20. Đồ thị web Tính chất của đồ thị web  Các trang web được xem như là các nút của đồ thị  Các siêu liên kết được xem như là các cạnh của đồ thị Nút Cạnh Seminar 2012
  • 21. Đồ thị web Các thuật toán phân hạng web hiện nay:  PageRank  Topic Sensitive PageRank  Adaptive PageRank  Timed PageRank  HITS Seminar 2012
  • 22. Cấu trúc đồ thị web Có 4 thành phần:  SCC(strongly connected component)  IN  OUT  TENDRILS Seminar 2012
  • 23. Cấu trúc đồ thị web Seminar 2012
  • 24. Ý nghĩa của đồ thị web Liên kết được nhiều trang web với nhau Mạng lưới của những liên kết này là nguồn phong phú của các thông tin tiềm ẩn. Seminar 2012
  • 27. Mô hình trong đồ thị web Các thuộc tính trong mô hình đồ thị web  On-line property  Power law degree distribution  Small world property Seminar 2012
  • 28. Mô hình đồ thị web  Seminar 2012
  • 29. Mô hình trong đồ thị web Một số mô hình trong đồ thị web:  Mô hình tập tin đính kèm ưu đãi ( preferential attachment models)  Mô hình LCD PA (The LCD PA model)  Mô hình sao chép (The copying model)  Mô hình growth-deletion ( growth – deletion models)  Mô hình hình học (geometric model)  Mô hình off – line (off – line model) Seminar 2012
  • 30. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 31. Thuật toán PageRank Vấn đề: Seminar 2012
  • 32. Thuật toán PageRank Vấn đề  Số lượng lớn  Thay đổi liên tục  Thông tin rác  Độ phân tán CẦN MỘT PHƯƠNG PHÁP KHAI THÁC THÔNG TIN Seminar 2012
  • 33. Thuật toán PageRank Nhanh CẦN GÌ Dễ dàng cài đặt Chính xác Seminar 2012
  • 34. Thuật toán PageRank Tổng quan Seminar 2012
  • 35. Thuật toán PageRank Kết quả thừa nhận Trang A được trỏ bởi càng nhiều link thì càng quan trọng. “A => B thì độ quan trọng của trang A cũng ảnh hưởng đến độ quan trọng của trang B”. Seminar 2012
  • 36. Thuật toán PageRank Ý tưởng.  Sử dụng: Seminar 2012
  • 37. Thuật toán PageRank Xây dựng mô hình bài toán.  Xây dựng đồ thị có hướng G=(V,E): • V={Vi : Vi đại diện cho 1 web, i = 1..n } • E={(i,j): có liên kết từ i tới j; i,j=1..n}  Mọi tính toán hạng trang thực hiện trên đồ thị này. Seminar 2012
  • 38. Thuật toán PageRank Seminar 2012
  • 39. Thuật toán PageRank Thuật toán  Đầu vào: • Đồ thị web. • Các trang web đã có page rank mặc định  Đầu ra: • Các trang được xếp hạng theo page rank thực Seminar 2012
  • 41. Thuật toán PageRank Vấn đề:  Số lượng thông tin rất lớn. Cần phương pháp để tính toán Giải quyết:  Thử đưa về mô hình toán học, áp dụng các thuật toán tính toán nhanh Seminar 2012
  • 44. Thuật toán PageRank Thuật toán – Cải tiến  Vì sao phải cải tiến?  Liệu có trang web nào có page rank bằng 0? Seminar 2012
  • 46. Thuật toán PageRank Lưu ý.  Thuật toán sử dụng lặp để tính toán liên tiếp, tác giả đã khẳng định sau khoảng 50 vòng lặp sẽ nhận kết quả với sai số chấp nhận được Đánh giá. Seminar 2012
  • 47. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 48. Topic Sensitive PageRank Seminar 2012
  • 50. Adaptive PageRank Seminar 2012
  • 51. Adaptive PageRank Sepandar D. Kamvar và cộng sự, 2003 Tận dụng những trang hội tụ sớm và kết quả độ quan trọng của các trang đã hội tụ có thể không cần tính tiếp Seminar 2012
  • 52. Timed PageRank Seminar 2012
  • 53. Timed PageRank  Seminar 2012
  • 54. Nội dung Giới thiệu Đồ thị Web Thuật toán PageRank Cải tiến thuật toán PageRank Thuật toán HITS Cài đặt các thuật toán Seminar 2012
  • 55. HITS  HITS - Hypertext Induced Topic Selection  Jon M. Kleinberg đề xuất, 1998 - 1999  Không giống như PageRank - một thuật toán xếp hạng tĩnh, HITS phụ thuộc vào truy vấn tìm kiếm. Seminar 2012
  • 56. Authority Authority pages: là những trang được xem là phù hợp nhất đối với mỗi câu truy vấn cụ thể nào đó. Auth Seminar 2012
  • 57. Hub Hub pages: là những trang không cần có đặc tính “authority” nhưng lại trỏ tới nhiều trang có đặc tính “authority”. Hub Seminar 2012
  • 58. Hub và Authority Seminar 2012
  • 59. Ý tưởng của HITS Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt là trang có nhiều liên kết tới. Trang trỏ tới trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hub cao trỏ tới thì trọng số authority càng cao. Seminar 2012
  • 60. HITS - 1 Xác định tập hợp cơ sở S Cho phép thiết lập các dữ liệu trả về bởi một công cụ tìm kiếm tiêu chuẩn được gọi là các root set (thiết lập gốc) R Khởi tạo S cho R Seminar 2012
  • 61. HITS - 2  Seminar 2012
  • 62. HITS - 3  Seminar 2012
  • 63. HITS - 4  Seminar 2012
  • 64. HITS - 5  Seminar 2012
  • 65. Giả mã của HITS  Seminar 2012
  • 66. Ví dụ  Root Set R {1,2,3,4}  Mở rộng nó để tạo thành Base Set S Seminar 2012
  • 67. Kết quả của ví dụ Authority Hub 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Seminar 2012
  • 68. PageRank - HITS HITS nhấn mạnh tăng cường lẫn nhau giữa các trang authority và hub, trong khi PageRank thì không. PageRank xếp hạng trang chỉ bởi các trang authority. HITS được áp dụng cho các vùng lân cận của các trang xung quanh kết quả của một truy vấn trong khi PageRank được áp dụng cho toàn bộ trang web HITS là truy vấn phụ thuộc nhưng PageRank là truy vấn độc lập Seminar 2012
  • 69. PageRank - HITS Cả HITS và PageRank đều tính toán trên ma trận. Đều không ổn định: thay đổi một số liên kết có thể dẫn đến bảng xếp hạng khác nhau. PageRank không quản lý các trang không có cạnh ngoài rất tốt, vì nó giảm PageRank tổng thể Seminar 2012
  • 70. Kết luận Khai phá dữ liệu Web(Web mining) có ý nghĩa quan trọng trong cuộc sống và công nghệ.  PageRank hay HITS là các thuật toán cơ bản để xây dựng các Search Engine. Tuy nhiên, các search engine nổi tiếng như Google, Yahoo hay Bing đều có những cải tiến và các thuật toán khác không được công bố! Seminar 2012
  • 71. Nội dung  Giới thiệu  Đồ thị Web  Thuật toán PageRank  Cải tiến thuật toán PageRank  Thuật toán HITS  Cài đặt các thuật toán Seminar 2012
  • 72. Q&A Seminar 2012

Notas do Editor

  1. Theo khảosátcủadịchvụPingdongcủaviệngiámsátThụyĐiển
  2. Quan tâm đến nội dung trang Web. Hơn nữa, nếu khai thác được mối quan tâm của người dùng đối với trang Web trong quá trình tính độ phù hợp của trang Web với câu hỏi người dùng, thì rất có ý nghĩa.Miền quan tâm của người dùng gọi là “phạm vi ngữ cảnh”B1: Phân các trang Web thành các lớp chủ đề, mỗi lớp tương tứng với 1 vector PageRank, mà thành phân của nó là giá trị PageRank của mỗi trang trong lớp.B2: Được thực hiện trong thời gian hỏi đáp:Truy vấn thường thì chính truy vấn là phạm vi ngữ cảnh (tức là miền quan tâm của người dùng)Phức tạp hơn thì dùng thuật toán phân lớp Bayes
  3. PageRank đánh giá hạng trang thông qua liên kết giữa các Website bằng cách tính vector riêng của ma trận kề biểu diễn các trang WebNhưng kích thước WWW là khổng lồ, cần rất nhiều thời gian tính toánViệc tính toán nhanh vector riêng sẽ giảm thời gian chết của việc chờ đưa kết quả sang các thành phần khác của máy tìm kiếm
  4. Giải pháp: Adaptive PageRank, sau khi cài đặt và chạy chương trình, độ quan trọng của các trang Web hội tụ nhanh hoặc chậm. Ta sẽ tận dụng những trang hội tụ sớm và kết quả độ quan trọng của các trang đã hội tụ có thể không cần tính tiếp giảm tính toán dư thừa, tăng hiệu suất tính toán của hệ thống !
  5. Đã bao giờ, bạn tìm kiếm trên Google thấy một bài viết rất hay nhưng click vào thì kết quả trả về lại là lỗi 404 not found!Nguyên nhân thì có thể có nhiều, nhưng có thể bài viết đó đã quá lâu, và bị trang web đó xóa đi rồi, nhưng Google vẫn lưu trữ chúngViệc xếp hạng trang web cần được cập nhật thêm trường thời gian
  6. Xét đến tính đúng lúc của kết quả tìm kiếm (các trang web đã chất lượng chưa chắc đã có chất lượng so với hiện tại hay tương lai)Vấn đề: những trang cũ có lượng inbound link(liên kết gửi đến) lớn, nhưng những trang mới thì có rất ít (hoặc không có)Giải quyết: nếu là trang cũ thì f(t) sẽ nhỏ và 1-f(t) lớn  xác suất nhảy đến trang khác sẽ lớn. Ngược lại, nếu trang mới thì xác suất nhảy đến trang khác là nhỏ !Xin Li, Bing Liu, và Philip S. Yu. Time Sensitive Ranking with Application to Publication Search. Conference on Data Mining 2008
  7. -Phương pháp này được đưa ra đầu tiên bởi Jon M.Kleinberg. Không như phương pháp PageRank chỉ tính một giá trị xếp hạng đơn cho mỗi trang Web, phương pháp này tính toán hai chỉ số khác nhau cho mỗi trang Web, đó là chỉ số “authority” và “hub”.Hub và authority là hai chỉ số của một đỉnh thể hiện giá trị xếp hạng đồ thị dùng trong phương pháp HITS. Ở đây, authority là giá trị thể hiện khi các đỉnh khác liên kết đến đỉnh đang xét và hub là giá trị thể hiện khi đỉnh đang xét trỏ đến các đỉnh khác. Đương nhiên chúng không phải là số lượng các cạnh, mà đây chỉ là chỉ số thể hiện tính chất của một đỉnh, tính chất của một đỉnh có thể là authority hay hub.Khi người sử dụng thực hiện một truy vấn tìm kiếm: + HITS đầu tiên mở rộng danh sách các trang có liên quan được trả về bởi một công cụ tìm kiếm + Vàsau đó tạo ra hai bảng xếp hạng của các thiết lập mở rộng của các trang, xếp hạng authority và xếp hạng hub.
  8. - Authority pages: Là những trang được xem là phù hợp nhất đối với mỗi câu truy vấn cụthểnào đó. Ví dụ, trang chủcủa Yahoo chính là trang “authority” của câu truy vấn “yahoo”.
  9. Hub pages:Là những trang không cần có đặc tính “authority” nhưng lại trỏtới nhiều trang có đặc tính “authority”. Ví dụnhưtrang “Searchenginewatch.com” là một trang “hub” vì nó liên kết tới nhiều trang chủcủa máy tìm kiếm. Trang “hub” có ý nghĩa khá quan trọng, thứnhất bởi vì nó có những thông tin có thể được sửdụng trong việc tìm kiếm những thông tin hữu ích, thứhai bởi vì nó được sửdụng trong thuật toán HIST đểtính toán “authority”. Vì trang “hub” mang ý nghĩa là trang trỏtới nhiều trang “authority” nên nếu một trang “authority” tốt có thểđược coi là trang có nhiều “hub” chỉtới.
  10. Độ quan trọng của một trang web được xác định dựa trên hai trọng số authority và hub. Trang có hub tốt là trang có nhiều liên kết ra. Trang có authority tốt là trang có nhiều liên kết tới. Hai trọng số này có quan hệ qua lại với nhau: trang trỏ tới trang có authority cao thì trọng số hub càng cao, trang nào được nhiều trang có hubcao trỏ tới thì trọng số authority càng cao.