Web crawler

mantovani@perl.org.br
São Paulo Perl Monger
Yet Another Perl Conference
Web Crawler
Daniel de O. Mantovani
Aware

Web Crawler
Web Crawler é um software que faz uma
navegação automatizada na Web.

Mercado
O Google usa Web Crawler, sem esse conceito
não tem Google.

Usabilidade
up-to-date

Outras Empresas
JáCotei
Buscapé
Bing
Yahoo
Zura
Aware

Perl
Maturidade
CPAN
Cultura
Comunidade

Maturidade
23 anos de evolução

CPAN
18588 módulos e enquanto eu falo, a
comunidade Perl produz Perl

Cultura
TIMTOWTDI
“There Is More Than One Way To Do It”

Comunidade
IRC
irc.perl.org #sao-paulo.pm #rio-pm …
Lista
sao-paulo.pm.org/lista
rio.pm.org/lista.pl

Antes
Regular Expression
Caos
Inferno
Manutenção ? Não existe isso

From Hell
while ($string =~ m{<a class="EsquerdaMenu"
href="(ListaProdutos.asp?IDLoja=d+&Y=d+(?:&cch=)?
&IDCategoria=d+)".*?>(.+?)</a>}sig) {
my $link = 'http://www.foo.com.br/sistema/'.$1;
my $cat = $2;
$link =~ s/Y=d+/Y=/io;
if($cat !~ m/Novidades/io) {
push(@{$spider->{linhas_cfg}}, $spider-
>dicionario($spider->retira_html($cat)) . ";$link");
}
}

O código anterior não é
code-golf
É um código usado num ambiente real de
produção.
Não me perguntem o que o código anterior faz

Evolução
HTML::Element->HTML::TreeBuilder-
>HTML::TreeBuilder::XPath

XPath
XPath é usado para navegar através de
elementos e atributos em um documento XML

Exemplo
//div[@class=”menu”][1]

Termologia
Nodes
Items

Relacionamento
Parent
Children
Siblings
Ancestors
Descendants

Parent
Cada elemento e atributo tem um parent.
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
O elemento book é pai do title,author, year e
price.

Children
Children pode ter zero, one ou mais childrens.
<book>
<year>2005</year>
</book>
O elemento, title, author, year e price são
todas childrens do elemento book.

Siblings
São nodes que tem o mesmo elemento.
<book>
<year>2005</year>
</book>
O node title, author, year e price são todos
siblings.

Ancestors
São todos os antepassados do elemento.
<bookstore>
<book>
<year>2005</year>
</book>
</bookstore>
O ancestors do title é o book e o bookstore.

Descendants
São todos os descendentes do elemento.
<bookstore>
<book>
<year>2005</year>
</book>
</bookstore>
Os descendants do elemento bookstore são
book, e todos irmãos do title. (e o title)

WWW::Mechanize
Um módulo Perl feito para automatizar as ações
de um browser.
Ele cuida de todos os os métodos HTTP, ele cuida de até um
certo nível de parsing como links e imagens, suporte SSL,
cookies, permite customizar o cabeçalho HTTP, te redireciona
automaticamente, Proxy e autentificação HTTP.
Entre outros.

Mechanize ;)
use WWW::Mechanize;
my $mech = WWW::Mechanize->new(
agent_alias => 'Linux Mozilla',
stack_depth => 5
);
$mech->get($url);
print $mech->content;

HTML::TreeBuilder::XPath
my $tree = HTML::TreeBuilder::XPath->new_from_content($content);
my $menu = $xpath->findnodes('//ul[@class="sMenu"]')->[0];
my $sub_menus = $menu->findnodes('.//ul');

Firebug
Uma ótima ferramenta

Problemas
JavaScript
Captcha
Bloqueio de IP
HTML que não é HTML

Captcha
use Image::OCR::Tesseract 'get_ocr';
my $image = './hi.jpg';
my $text = get_ocr($image);

Imagemagick
resize

Requisições
Live HTTP Header

Agradecimento
Daniel Ruoso
Eden Cardim
Gabriel Vieira

Web crawler

Mais conteúdo relacionado

Destaque

Web crawler