SlideShare uma empresa Scribd logo
1 de 29
Baixar para ler offline
ANATOMIA
DI UN
MOTORE DI RICERCA
INFORMAZIONE
Anatomia motori ricerca
Immagazzinata
UtilizzataTrasferita
Ricercabile
Era Digitale
Internet è Grande!
14.3 Trilioni – pagine attive
672,000,000,000 Gigabytes di dati
Motori di Ricerca
Componenti
Componenti
CRAWLERS INDEX
SERPQUERIES
Crawlers
Impossibile fare una Live Search
Pre indicizzazione con i Crawlers
Crawlers
Internet è come una ragnatela
Google indicizza 48 miliardi di pagine
Bing 16 miliardi di pagine
I crawler percorrono
Internet passando da link a
link
Anatomia motori ricerca
Il crawler categorizza le pagine trovate
- Estrae le parole chiave
(no stop-words)
- Varie meta informazioni
- Dati tecnici della pagina
- Dati stilistici
Etc…
Crawlers
Immagazzinamento e Strutturazione
Index
Indice Inverso
Index
Docs:
1. Le volpi scappano dai cani.
2. La volpe ha il pelo rosso.
3. Cani da caccia.
Estrazione e Stemming
volpe
cane
pelo
rosso
caccia
scappare
Indice Inverso
Index
Key Doc
volpe 1, 2
cane 1, 3
pelo 2
rosso 2
caccia 3
scappare 1
Estrazione e Stemming
volpe
cane
pelo
rosso
caccia
scappare
Parole da cercare dentro l’indice
Queries
Singolarmente o in congiunzione
con operatori Booleani:
AND, OR, NOT
Queries
Key Doc
volpe 1, 2
cane 1, 3
pelo 2
rosso 2
caccia 3
scappare 1
Query:
“volpe”: 1, 2
“Cani OR volpi”: 1, 2, 3
“Cani volpi”: 1
“Cani -volpi”: 3
SERP
SERP
Search Engine Result Page
SERP
Ranking
SERP
Ranking: Tf-idf
SERP
Term Frequency (Tf) = ni,j/dj
Inverse Document Frequency (idf) = log(D/dt)
Tf-idf = Tf x idf
Ranking: Page Rank
SERP
Media pesata del Page Rank delle pagine referenti
Ranking: Page Rank
SERP
Algoritmi moderni:
SERP
- Velocità di caricamento
- Correttezza e velocità del codice
- Correttezza grammaticale
- User Profiling (check out DuckDuckGo.com)
- Etc…
Potenti e segreti
Esempi
Concludendo…
Grazie e…
Buona Ricerca!

Mais conteúdo relacionado

Mais de Angelo D'Ambrosio

Flow chart: Analisi richiesta informazione
Flow chart: Analisi richiesta informazioneFlow chart: Analisi richiesta informazione
Flow chart: Analisi richiesta informazioneAngelo D'Ambrosio
 
Report su richiesta, condivisione, produzione di informazione su Salute Preco...
Report su richiesta, condivisione, produzione di informazione su Salute Preco...Report su richiesta, condivisione, produzione di informazione su Salute Preco...
Report su richiesta, condivisione, produzione di informazione su Salute Preco...Angelo D'Ambrosio
 
Report sulla richiesta di informazione su Salute Preconcezionale e Gravidanza
Report sulla richiesta di informazione su Salute Preconcezionale e GravidanzaReport sulla richiesta di informazione su Salute Preconcezionale e Gravidanza
Report sulla richiesta di informazione su Salute Preconcezionale e GravidanzaAngelo D'Ambrosio
 
Thesis Presentation: Influenza del paradigma Fear Conditioning sull’espressi...
Thesis Presentation: Influenza del paradigma Fear Conditioning  sull’espressi...Thesis Presentation: Influenza del paradigma Fear Conditioning  sull’espressi...
Thesis Presentation: Influenza del paradigma Fear Conditioning sull’espressi...Angelo D'Ambrosio
 
Presentazione SISM Open Access
Presentazione SISM Open AccessPresentazione SISM Open Access
Presentazione SISM Open AccessAngelo D'Ambrosio
 
Presentazione Webgroup Plenary SISM Meeting 2011
Presentazione Webgroup Plenary SISM Meeting 2011Presentazione Webgroup Plenary SISM Meeting 2011
Presentazione Webgroup Plenary SISM Meeting 2011Angelo D'Ambrosio
 

Mais de Angelo D'Ambrosio (6)

Flow chart: Analisi richiesta informazione
Flow chart: Analisi richiesta informazioneFlow chart: Analisi richiesta informazione
Flow chart: Analisi richiesta informazione
 
Report su richiesta, condivisione, produzione di informazione su Salute Preco...
Report su richiesta, condivisione, produzione di informazione su Salute Preco...Report su richiesta, condivisione, produzione di informazione su Salute Preco...
Report su richiesta, condivisione, produzione di informazione su Salute Preco...
 
Report sulla richiesta di informazione su Salute Preconcezionale e Gravidanza
Report sulla richiesta di informazione su Salute Preconcezionale e GravidanzaReport sulla richiesta di informazione su Salute Preconcezionale e Gravidanza
Report sulla richiesta di informazione su Salute Preconcezionale e Gravidanza
 
Thesis Presentation: Influenza del paradigma Fear Conditioning sull’espressi...
Thesis Presentation: Influenza del paradigma Fear Conditioning  sull’espressi...Thesis Presentation: Influenza del paradigma Fear Conditioning  sull’espressi...
Thesis Presentation: Influenza del paradigma Fear Conditioning sull’espressi...
 
Presentazione SISM Open Access
Presentazione SISM Open AccessPresentazione SISM Open Access
Presentazione SISM Open Access
 
Presentazione Webgroup Plenary SISM Meeting 2011
Presentazione Webgroup Plenary SISM Meeting 2011Presentazione Webgroup Plenary SISM Meeting 2011
Presentazione Webgroup Plenary SISM Meeting 2011
 

Anatomia motori ricerca

Notas do Editor

  1. Ogni giorno registriamo più informazione di tutta quella prodotta nella storia prima degli anni 50.
  2. Internet ha generato una data sfera intorno al pianeta densissima di informazioneCiò che vogliamo trovare può veramente diventare l'emblematico ago nel pagliaio!
  3. Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  4. Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  5. Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  6. Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  7. Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  8. Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  9. Quindi i motori di ricerca attraverso i crawler cercano di immagazzinare solo alcune informazioni essenziali:Prima di tutto le parole chiave.Il testo viene estratto dalla pagina, ripulito degli elementi non semantici e di tutte quelle parole che sono troppo di uso comune, come articoli e proposizioni, comunemente dette stop words.Altre informazioni che dipendono dal motore di ricerca stessovelocità di caricamentopesantezza della paginadata di pubblicazione,linksimmaginietc...A questo punto tali informazioni vanno immagazzinate
  10. Qui entra in gioco l'indice, ovvero il tentativo di trasformare informazione sparsa e non strutturata in informazione facilmente cercabile.l'indice è un database in cui sono immagazzinati separatemente gli url delle pagine con le altre informazioni prese dal crawler da una parte e le varie parole estratte dai siti dall'altra.questo permette da una parte di avere un database con le informazioni che ci servono e dall'altra un database di ricerca per facilitare il ritrovamento delle risorse.Gli indici possono essere di vari tipi e ne escono sempre di nuovi e con tecnologie più potenti.
  11. I moderni motori eseguono almeno alcune operazioniCome abbiamo detto il testo viene estratto dalle pagine trovate e ripulito degli elementi inutili. Inoltre alcuni motori eseguono persino lo stemming delle parole ovvero trasformano una parola nella sua forma base prima di immagazzinarla.tipo se trovano cani -> caneAlcuni motori come google cercano anche i sinonimi, acronimi, metodi alternativi di scrivere una parola.
  12. Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  13. Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  14. I motori di ricerca più potenti sono molto flessibili nell'interpretare le query riportando suggerimenti, correggendo probabili errori di battitura, trovando sinonimi, etc...Costruire delle buone query, essendo consci del funzionamento dei motori di ricerca è fondamentale per trovare ciò che cercate ed è un argomento che verrà trattato in modo approfindito oggi.
  15. Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  16. Passiamo quindi ai risultati.In gergo, indipendentemente dal formato, si dice che un motore di ricerca ritorna i risultati organizzati in una SERP (Search Engine Result Page)Ovviamente le SERP cambiano molto in funzione del tipo di motore di ricerca.Si puo andare da un elenco di pagine come su google, ad un elenco di indirizzi su un'applicazione di navigazione (google, maps, apple)
  17. Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  18. Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  19. Un altro sistema di ranking, introdotto dai creatori di google, è il cosiddetto PageRank.si basa sul concetto che se una pagina è linkata da buone fonti, allora anche la pagina in questione sarà buona.Il calcolo è presto fatto: basta fare la media dei PageRank di tutte le pagine che linkano alla pagina in questioneÈ iterativo
  20. Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  21. Una volta isolate le parole queste vengono messe nell'indice, ovviamente togliendo i doppioni. Ad ogni parola vengono quindi associati le pagine in cui è stata trovata.
  22. Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale
  23. Di conseguenza insieme all'era dell'informazione è nata anche l'arte della ricerca.Un motore di ricerca può prendere vari aspetti e talvolta non ci rendiamo conto neanche che stiamo usando un motore di ricerca.Apparte la classica ricerca su internetcercare una pagina all'interno di un sitouna via o un ristorante sulla nostra applicazione di navigazioneun paziente nel nostro database clinicoriconoscere una canzone automaticamente con programmi tipo ShazamOra faremo un carrellata veloce per vedere i concetti comuni alle spalle di più o meno tutti i motori di ricerca ed infine faremo qualche esempio di qualche caso particolare.Questi concetti non si applicano solo ai motori di ricerca per internet ma in generale