O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
S 
Vét dữ liệu từ Internet 
bằng Mechanize 
WWW Scraping
Nguyễn Bỉnh Diệu 
(Justin) 
Web (Ruby on Rails) & iOS 
developer at Zoy Viet Nam 
https://github.com/dieunb
Tại sao và như thế nào? 
• Dữ liệu không phải lúc nào cũng là 
Json. 
• Dữ liệu không phải do mình quản lý. 
• Cần tự động...
Giới thiệu Mechanize 
“The Mechanize library is used for 
automating interaction with websites. 
Mechanize automatically s...
Mechanize
Điều kiện để scraping 
1. Nội dung cần lấy có bản quyền không?  
2.Trang web lấy dữ liệu có cho phép scraping 
không? 
3....
Demo
Cám ơn mọi người đã lắng nghe
Próximos SlideShares
Carregando em…5
×

Web scraping

897 visualizações

Publicada em

Web scraping

Publicada em: Dados e análise

Web scraping

  1. 1. S Vét dữ liệu từ Internet bằng Mechanize WWW Scraping
  2. 2. Nguyễn Bỉnh Diệu (Justin) Web (Ruby on Rails) & iOS developer at Zoy Viet Nam https://github.com/dieunb
  3. 3. Tại sao và như thế nào? • Dữ liệu không phải lúc nào cũng là Json. • Dữ liệu không phải do mình quản lý. • Cần tự động hóa.  Sử dụng các công cụ để thực hiện việc này.  Scriping language là lựa chọn phổ biến cho việc scraping: Perl, Python, Ruby.
  4. 4. Giới thiệu Mechanize “The Mechanize library is used for automating interaction with websites. Mechanize automatically stores and sends cookies, follows redirects, and can follow links and submit forms. Form fields can be populated and submitted. Mechanize also keeps track of the sites that you have visited as a history.” Copyright © 2005 Michael Neumann (mneumann@ntecs.de) Copyright © 2006-2011: • Aaron Patterson (aaronp@rubyforge.org) • Mike Dalessio (mike@csa.net) Copyright © 2011-2013: • Eric Hodel (drbrain@segment7.net) • Akinori MUSHA (knu@idaemons.org) • Lee Jarvis (ljjarvis@gmail.com) https://github.com/sparklemotion/mechanize Authors:
  5. 5. Mechanize
  6. 6. Điều kiện để scraping 1. Nội dung cần lấy có bản quyền không?  2.Trang web lấy dữ liệu có cho phép scraping không? 3. Dữ liệu được bảo vệ từ phía server không?
  7. 7. Demo
  8. 8. Cám ơn mọi người đã lắng nghe

×