1. Sistemi Di Elaborazione
Dell’informazione
Dott. Antonio Calanducci
Lezione V: Google Web Search
Corso di Laurea in Scienze della Comunicazione
Anno accademico 2009/2010
2. wdwdwdwdwdw
Storia di Google
• 1995:incontro di Larry Page con Sergey Brin alla
Stanford University (CA)
• 1996: i due iniziano a lavorare su BackRub
- motore di ricerca basato sull’analisi dei link
• 1998: comprano una serie di hard disk d’occasione
- primo server di Google (Lego case)
- Andy Bechtolsheim (Sun co-founder) stacca un
assegno di $100,000 => nasce Google, Inc.
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 2
3. wdwdwdwdwdw
Storia di Google
• Primo sede: garage di un amico a Menlo Park (CA) - 1 impiegato
• Passaparola su Internet
- interfaccia minimalista
- ricerche pertinenti
- “Mi sento fortunato”
• Feb 1999: nuova sede a Palo Alto (8 impiegati)
- $25,000,000 di finanziamento
• Set 1999: nuova sede a Mountain View (40 impiegati)
• Dic 2007: circa 20000 dipendenti
• http://www.google.com/corporate/history.html
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 3
4. wdwdwdwdwdw
Google laboratory
• Continuo miglioramento dei servizi esistenti e aggiunta
di nuovi
• Oltre ai servizi Web:
- nuovo browser: Google Chrome
- Google Earth, Sketch Up, Android OS
- Android e Google Phone (Nexus One)
- http://www.project10tothe100.com/intl/IT/index.html
- 10 milioni di dollari per idee originali
- piani per installare i propri server in mezzo al mare!!!
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 4
5. wdwdwdwdwdw
Origine del termine Google
• to google = “fare una ricerca sul web”
• etimologia:
- googol (un 1 seguito da 100 zeri)
- goggles: “binocolo” --> guardare la rete da vicino
- formula magica africana, buon auspicio per la caccia
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 5
6. wdwdwdwdwdw
Ricerca Web
• Il più popolare “motore di ricerca” (search engine)
• disponibile in 118 lingue su 162 domini nazionali
• Interfaccia sobria ed essenziale
- la versione statunitense (www.google.com) è la più
aggiornata
- versione italiana (www.google.it) attiva dal 15
settembre 2002
• Demo: Analisi interfaccia principale di www.google.it
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 6
7. wdwdwdwdwdw
Loghi celebrativi
• In occasioni di eventi speciali ed eventi storici:
- Natale, 1 aprile, Thanksgiving, 1st of the year, etc..
- olimpiadi, festa nazionale della bastiglia, etc..
• disegnati da Dennis Hwang
• primodoodle (=disegnino, ghirigoro): agosto 1998, in
occasione del Burning Man Festival (Nevada)
• http://www.google.com/logos/
• http://www.doodlesource.com/
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 7
8. wdwdwdwdwdw
Ricerca di base
• chiavi di ricerca (keywords) nel campo ricerca
• “Mi sento fortunato” => reindirizzamento al primo risultato
• Risultati:
- riepilogo (numero, tempo di esecuzione)
- Titolo
- Breve testo con keywords in grassetto
- URL, data e dimensione
- links a “Copia cache” e “Pagini Simili”
• Il “suggeritore”: correttore lessicale
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 8
9. wdwdwdwdwdw
Il PageRank
• Successo di Google: pertinenza dei risultati
• Algoritmo di classificazione delle pagine in base all’importanza
(indice di popolarità, rango)
- classifiche di rilevanza -> determina la posizione nei risultati di
una ricerca
• Tecnologia brevettata da Google Inc
• PageRank definito per singola pagina
• “Democrazia” nel web: ogni link verso una pagina è come un
“voto” in una elezione
- numero di link (di “voti”)
- “importanza” della pagina web che ha assegnato il voto
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 9
10. wdwdwdwdwdw
PageRank e risultati
• Più link verso una determinata pagina, più alto è il PageRank
• simile al meccanismo citazioni articoli scientifici
• PageRank espresso in decimi
• conoscere il valore di PageRank di una pag:
- Google Toolbar o www.prchecker.info
• Rilevanza nei risultati:
- integrazione di PageRank con numero di occorrenze delle
chiavi di ricerca nella pagina (e in quelle collegate ad essa)
• Sistema difficile da “hackerare” dai webmasters
• I clienti di Google non possono salire di posizione
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 10
11. wdwdwdwdwdw
Indicizzazione e cache
• Google archivia le pagine analizzate sui propri server
giornalmente (cache)
• Ricerca nella cache:
- utile nel caso in cui il server che ospita una data
pagina non risulta più accessibile
- cons: non è aggiornata il real time
• Demo
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 11
12. wdwdwdwdwdw
Operatori ricerca
• Case insensitive: non c’è distinzione tra lettere minuscole e
maiuscole
• Operatore AND (automatico)
- cerca pagine che contengono TUTTI i termini, tenendo conto
dell’ordine
• Operatore OR
- cerca pagina che contengono ALMENO uno dei termini
• Operatore +
- esclusione automatica di parole e carattere d’uso comune
(singole cifre e lettere, preposizioni, “dove”/”quando”)
- usare “+” per una ricerca esplicita
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 12
13. wdwdwdwdwdw
Operatori ricerca
• Operatore “-”
- esclude uno o più termini dai risultati
- es: televisione -satellitare
• Operatore virgolette (“”)
- ricerca esatta della frase tra virgolette
- es: “Mario Rossi”
• Operatore asterisco (*)
- termine jolly, in sostituzione di qualsiasi termine all’interno di
una frase
- es: mi * di immenso
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 13
14. wdwdwdwdwdw
Composizione degli operatori
• Gli
operatori possono concatenati per la creazione di
complesse interrogazioni:
- es: televisione “domenica sportiva” -calcio
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 14
15. wdwdwdwdwdw
Domini delle ricerche
• Opzione “pagine in Italiano”
- solo pagine il cui contenuto è scritto nella ns lingua
• Opzione “pagine provenienti da: Italia”
- pagine redatte in Italiano su server con dominio .it
• Opzione “Cerca tra i risultati”
- affina ulteriormente la ricerca, filtrando i risultati
correnti
- applicazione di un AND
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 15
16. wdwdwdwdwdw
Ricerca avanzata
• http://www.google.it/advanced_search?hl=it
• Campi “Trova risultati”: semplificano l’uso degli
operatori AND, “”, OR, -
• Pagine redatte in una data lingua e situate in un dato
paese
• Formato file: permette di includere/escludere alcuni
formati di files dai risultati della ricerca (DOC, PDF, PPT,
XLS, RTF, ...)
• Data:pagine aggiornate nelle ultime 24 ore, ultima
settimana, ultimo mese, ultimo anno
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 16
17. wdwdwdwdwdw
Ricerca avanzata
• Cerca in: consente di specificare se cercare le chiavi di
ricerca nel titolo, nel corpo, nell’indirizzo, nei
collegamenti, ovunque nella pagina
• Dominio: ricerca all’interno di un dato sito o dominio
• Diritti
di utilizzo: in base alla licenza (Creative
Commons) di utilizzo:
- utilizzati e condivisi/modificati gratuitamente (e anche
a scopo commerciale)
• SafeSearch: filtro per contenuti espliciti
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 17
18. wdwdwdwdwdw
Ricerca avanzata
• Terza sezione della ricerca avanzata:
- possibilità di fornire una URL
• Pagine simili: pagine apparteneti allo stesso argomento
• Collegamenti: pagine che contengono collegamenti alla
pagina di cui viene fornito la URL
- verificare chi mi sta “linkando”
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 18
19. wdwdwdwdwdw
Funzioni speciali
• Calcolatrice:
- 5+2*2
- quanto è 1 km in miglia?
- converti 2 metri in piedi
- 3 minuti in secondi
- quanti mesi ci sono in 4 anni?
• Conversione di unità
- 3 piedi in metri
- 16 gradi celsius in fareneith
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 19
20. wdwdwdwdwdw
Funzioni speciali
• Conversione di valute
- 10 USD in euro
- converti 5 euro in pesos messicani
• Meteo
- meteo catania
• Quotazioni di borsa
- AAPL, CSCO
• Risultati sportivi, programmazione film locali, ricerca locale
- AC Milan, film Catania, pizzerie a Catani
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 20
21. wdwdwdwdwdw
Operatori avanzati
• operatore site:
- limita la ricerca ad un dominio o sito specifico
• operatore link:
- tutte le pagine che dispongono di un collegamento al
sito stesso
• operatore related:
- un elenco di pagine considerate “simili”
• operatore filetype:
- restringe la ricerca ad un solo tipo di file
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 21
22. wdwdwdwdwdw
Operatori avanzati
• operatore inurl, allinurl:
- una (inurl) chiave di ricerca contenuta nella URL o tutte le chiavi (allinurl)
• operatore intitle, allintitle:
- come sopra ma riferito al title di una pagina
• operatore cache:
- ottiene la copia cache di una pagina
• operatore info:
- restituisce tutte le informazione che google conosce sulla pagina indicata
dopo l’operatore
• Per approfondimenti sugli operatori:
- http://www.googleguide.com/advanced_operators.html
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 22
23. wdwdwdwdwdw
Preferenze di Google
• Accessibili da “Impostazioni di ricerca”
• Lingua dell’interfaccia
• Lingua della ricerca
• Filtro SafeSearch
- restrizioni contenuti espliciti sessuali
• Numero di risultati
- risultati per pagina (10/20/30/50/100)
• Finestra dei risultati
• Proposta suggerimenti
A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010 23