9. Ricercare nel web (Parte I)

Edizione 2013-14
Università degli Studi di Milano Bicocca
Dipartimento di Informatica, Sistemistica e Comunicazione
Corso di Strumenti e applicazioni del Web
9. Ricercare nel Web (Parte I)
Roberto Polillo

Una visualizzazione [di una parte] del web
La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links
WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/
R.Polillo - Marzo 2014
3

4

5

Come trovare l'informazione in rete
 Directories
Indici strutturati di argomenti (gestiti da una redazione)
 Wikipedia
Enciclopedia collaborativa
 Motori di ricerca
Query Risultati
 Motori semantici
www.wolframalpha.com, …
 Sistemi di Q&A sociale
Yahoo! Answer, …
 Esplorazione
Browsing, serendipity
6

Web directories
7
 Storicamente, il primo strumento di ausilio alle ricerche
nel Web
 Classificazione gerarchica dei siti (e non delle pagine) in
categorie e sottocategorie, a più livelli, effettuata "a
mano" -> varie "tassonomie"
 Directories “generaliste” e directories verticali o di nicchia,
anche prodotte in modo collaborativo
 http://en.wikipedia.org/wiki/Web_directory

Tassonomia
8
Emporio celeste dei riconoscimenti benevoli
(Enciclopedia cinese, J.L.Borges, 1973)
Gli animali si dividono in:
a) Appartenenti all’imperatore
b) Imbalsamati
c) Ammaestrati
d) Lattonzoli
e) Sirene
f) Favolosi
g) Cani randagi
h) Inclusi in questa classificazione
i) Che si agitano come pazzi
j) Innumerevoli
k) Disegnati con un pennello finissimo di peli di
cammello
l) Eccetera
m) Che hanno ritto il vaso
n) Che da lontano sembrano mosche.
 Raggruppamento di
oggetti in classi,
secondo qualche
criterio
 taxis=ordine
nomos=regola
 Ogni tassonomia è
arbitraria, e dipende
dagli obiettivi

Yahoo! (http://dir.yahoo.com)
9
- Nasce come “La guida al
WWW di Jerry e David”, nel
1994
- Qui la home del 1996, da
www.archive.org
http://en.wikipedia.org/wiki/Int
ernet_Archive

The Open Directory Project (ODP)
10
 Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/
 Directory gratuita, aperta e multilingua
 Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e
manutenuta da una comunità di editor volontari
 http://en.wikipedia.org/wiki/Open_Directory_Project

Domoz vs Yahoo!
11
Dmoz Yahoo!

Wikipedia come strumento di ricerca
12
 Wikipedia è un formidabile strumento di ricerca e accesso
al web
 Ogni voce di Wikipedia è corredata da numerosi link
interni ed esterni, che spesso permettono di raggiungere i
siti più significativi correlati all’argomento esaminato
 Inoltre Wikipedia contiene numerosi indici e directories,
fra cui anche veri e propri portali tematici
(http://en.wikipedia.org/wiki/Portal:Contents/Portals)

Serendipità
13
 Cerco una cosa e ne trovo un'altra
 Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di
Serendip” (Serendip è l'antico nome di Sri Lanka)
 Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere
l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e
riconoscere il valore di esperienze che non corrispondono alle
originarie aspettative
 http://en.wikipedia.org/wiki/Serendipity
 http://serendip.brynmawr.edu/serendip/about.html

www.stumbleupon.com
16
 to stumble: inciampare, scoprire per caso
 È una discovery engine di pagine web, fondato in Canada nel 2001
 Premendo il bottone STUMBLE! installato sul browser, viene
proposto un sito, un’immagine o un video scelti sulla base delle
preferenze dell’utente, o delle raccomandazioni dei suoi amici o da
altri utenti che hanno interessi simili
 Il processo di selezione si affina sulla base del gradimento espresso
(opzionalmente) dall’utente:

Motori di ricerca per il Web
 Componente software (utilizzabile come servizio
online) progettato per ricercare informazioni sul
World Wide Web
 Le informazioni (di solito nella forma di link) sono
presentate in una serie di Search Engine Results
Page (SERP)
 La qualità di un motore si valuta sulla base della
pertinenza e rilevanza dei risultati
17

Motori di ricerca
Una storia complessa, iniziata negli anni '90. Oggi, i
primi:
Google
- Dal 1998
Baidu
- dal 2000, cinese
Yahoo!
- Con motori esterni (dal 2009 "Powered by Bing")
Bing
- Dal 2009 (prima: MSN Search, Windows Live Search, Live Search)
18

Search engine market share
19
Fonte: http://www.netmarketshare.com
Dic 2013, solo desktop

Motori di ricerca: struttura
20
Interfaccia
Query
processing
Ranking
dei risultati
Query
Risultati
(SERP)
Front-end process
Indici +
cached pages
Crawler
Crawler
IndicizzatoreCrawler
Richieste
Pagine
web
Pagine
web
WWW
Back-end process

Web crawling
 I crawler (robot, spider, bot) sono programmi che
navigano il Web, esaminando le diverse pagine e
seguendo i link in esse presenti
 Seguono opportune politiche di navigazione (per
es. per decidere quando riesaminare una pagina già
vista)
 L'interazione con i Web server segue specifici
protocolli (per es. robot exclusion protocol, o
robot.txt)
 Non tutto il Web è accessibile ai crawler
22

robots.txt: esempio
www.domain.com
23
/
robots.txt
utenti
foto
about
User-agent: Google
Disallow /utenti/foto
Allow: *
Crawl-delay: 20 sec

Deep vs surface Web
 Non tutto il Web è accessibile ai motori di ricerca
 Il Web invisibile ("deep Web") è parecchi ordini di
grandezza più vasto del Web visibile ("surface
Web")
 Deep Web, esempi:
 Pagine "vietate" dai Web server (robots.txt)
 Pagine generate dinamicamente a fronte di query o di input
forniti attraverso form
 Pagine senza link entranti
 Pagine accessibili tramite registrazione e login
 Ecc.
24

Struttura del web: uno studio
Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web,
WWW Conference 2000, http://www9.org/w9cdrom/160/160.html
17 million nodes
25
Strongly Connected
Component: per
ogni coppia di nodi
c’è un cammino da
uno all’altro
One can pass from any node
of IN through SCC to any node of OUT.
Hanging off IN and OUT are TENDRILS
containing nodes that are reachable
from portions of IN, or that can reach
portions of OUT, without passage
through SCC. It is possible for a
TENDRIL hanging off from IN to
be hooked into a TENDRIL leading
into OUT, forming a TUBE -- a
passage from a portion of IN to
a portion of OUT without touching SCC.

Tipi di query
 Informativa
Obiettivo: trovare un'informazione
 Navigazionale
Obiettivo: trovare una pagina web, che conosco già
 Risorsa
Obiettivo: trovare una risorsa (non informativa)
disponibile sul web
 Il risultato è di solito (ma non sempre!) una lista di link a
pagine web
 Evoluzione: dal contenitore (anche) al contenuto
26

9. Ricercare nel web (Parte I)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a 9. Ricercare nel web (Parte I)

Semelhante a 9. Ricercare nel web (Parte I) (20)

Mais de Roberto Polillo

Mais de Roberto Polillo (20)

Último

Último (11)

9. Ricercare nel web (Parte I)