SlideShare uma empresa Scribd logo
1 de 19
Baixar para ler offline
Università degli Studi del Molise
Tesi di Laurea in Informatica
Applicazioni di modelli matematici
alla ricerca semantica
Candidato
Dario Di Nucci
130804
Relatore
Prof. Giovanni Capobianco
Internet è una rete di computer
mondiale ad accesso pubblico che
attualmente rappresenta il principale
mezzo di comunicazione di massa.
I suoi utenti nel 2010 hanno raggiunto
quota 1,97 miliardi in crescita del 14%
rispetto all’anno precedente.
Il numero dei siti web nel 2010 ha
raggiunto quota 255 milioni, di cui 21,4
aperti nell’ultimo anno.
Contesto applicativo
EVOLUZIONE DI INTERNET
Cosa è?
Insieme delle tecniche atte al recupero
mirato dell’informazione in formato
elettronico.
Cosa fa?
Le tecniche di IR basate su modelli
vettoriali, applicano il concetto di
somiglianza testuale tra una base di dati e
una query, restituendo una serie di
documenti pertinenti.
Modelli matematici più importanti?
 Vector Space Model
 Latent Semantic Indexing
 …
Applicazioni più note?
Motori di ricerca.
Contesto applicativo
INFORMATION RETRIEVAL
Dati due vettori:
 𝑄, rappresentante una query
 𝐷, rappresentante un documento
la loro similarità può essere calcolata
attraverso il coseno dell’angolo 𝜃 ,
compreso tra essi.
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 (𝐷, 𝑄) ∈ [−1,1].
Contesto applicativo
VECTOR SPACE MODEL
Problema: l’utente va alla ricerca delle informazioni basandosi su concetti e non
su singole parole.
Il cuore del LSI è rappresentato dalla decomposizione ai valori singolari (SVD).
𝑿
La matrice Σ0 rappresenta i concetti ordinati in ordine di importanza.
𝑼 𝟎
𝜮 𝟎 𝑽 𝟎
Contesto applicativo
LATENT SEMANTIC INDEXING
Nella fruizione dei documenti presenti sul web è
fondamentale per l’utente un motore di ricerca che
restituisca risultati corretti.
Nella sua realizzazione tre problemi che sicuramente
incidono negativamente sulla bontà dei risultati sono:
 polisemia
 sinonimia
 query malformate
Motivazioni
PROBLEMATICHE COMUNI
Molte parole hanno più di un significato, quindi una query potrebbe
condividere dei termini con un documento, sebbene quest’ultimo non sia
rilevante.
Conte
Motivazioni
POLISEMIA
Esistono diversi modi per esprimere uno stesso concetto; ciò implica che
una query potrebbe non condividere termini con un documento, sebbene
quest’ultimo sia rilevante per la query stessa.
Automobile Macchina Auto
Motivazioni
SINONIMIA
Spesso l’utente inserisce, per errore, query non valide o che non
rappresentano bene l’informazione ricercata.
Conta
Motivazioni
QUERY MALFORMATE
Obiettivi
Migliorare l’accuratezza dei risultati forniti da un motore
di ricerca, attraverso il profiling degli utenti.
Profiling?!
Attraverso le query fornite dall’utente e i risultati da
questi selezionati, il sistema acquisisce esperienza.
In questo modo restituisce risultati con un grado di
correttezza crescente.
PROFILING
E’ stato realizzato un motore di ricerca basato su una nota libreria di
Information Retrieval, Lucene.
Lucene è un progetto open source promosso dalla Apache Software
Foundation.
docs Hound
INTRODUZIONE
Si occupa di analizzare le pagine web.
Per ogni documento:
 estrapola informazioni testuali
 individua le categorie inerenti
 aggiorna le definizioni delle categorie
Ogni categoria è identificata da un vocabolario, costituito da
un insieme di termini.
docs Hound
INDEXER
Ad ogni utente è associato un
profilo di ricerca, sotto forma di
distribuzione di probabilità.
Il valore della preferenza di una
categoria aumenta seguendo
l'andamento di una funzione
logistica.
I valori delle categorie non scelte
sono decrementati in modo
proporzionale.
docs Hound
PROFILING UTENTE
Scelte occasionali per una
categoria modificano soltanto
lievemente il profilo, mentre
scelte consecutive hanno effetto
via via maggiore.
Quando la preferenza per una
categoria raggiunge un valore
sufficientemente più elevato
rispetto alle altre, si stabilizza su
tale posizione.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
docs Hound
FUNZIONE LOGISTICA
Restituisce le pagine web ordinandole per punteggio.
Il punteggio è calcolato in funzione dell'attinenza della
pagina web con la query e il profilo dell'utente.
In particolare:
punteggio = punteggio query * (1 + punteggio profilo)
Per ridurre i problemi causati da query malformate, il
parser delle query applica a queste un grado di casualità
utilizzando tecniche fuzzy.
docs Hound
SEARCHER
docs Hound
TESTING
Query 1 Query 2 Query 3 Query 4 Query 5 Tot diff
Utente 1
1
1
0
1
1
0
1
1
0
3
2
-1
1
1
0
-1
Utente 2
3
1
-2
2
2
0
1
1
0
1
1
0
1
1
0
-2
Utente 3
1
1
0
1
1
0
2
1
-1
2
2
0
1
1
0
-1
Utente 4
1
1
0
1
1
0
2
1
-1
2
1
-1
2
1
-1
-3
Utente 5
1
1
0
2
2
0
1
1
0
1
1
0
1
1
0
0
 Al termine della sperimentazione si può affermare
che le tecniche di profiling sono una buona
soluzione per il problema della polisemia.
 Il problema delle query malformate è stato
mitigato applicando un grado di casualità ad esse.
CONCLUSIONI
 Integrazione di un crawler nel sistema al fine di
renderlo operativo.
 Miglioramento della categorizzazione di utenti e
pagine attraverso una crescente accuratezza dei
vocabolari che ne costituiscono le definizioni.
 Gestione automatica della funzione logistica in base al
numero di categorie.
 Testing approfondito con un maggior numero di utenti.
SVILUPPI FUTURI
Grazie per l’attenzione

Mais conteúdo relacionado

Destaque

Hypervolume-based search for test case prioritization - ssbse 2015
Hypervolume-based search for test case prioritization - ssbse 2015Hypervolume-based search for test case prioritization - ssbse 2015
Hypervolume-based search for test case prioritization - ssbse 2015Vrije Universiteit Brussel
 
GSOC 2013 - Un nuovo look and feel per Java basato su GTK+ 3
GSOC 2013 - Un nuovo look and feel per Java basato su GTK+ 3GSOC 2013 - Un nuovo look and feel per Java basato su GTK+ 3
GSOC 2013 - Un nuovo look and feel per Java basato su GTK+ 3D'Eugenio Elisa
 
Jointly owned companies as instruments of local government
Jointly owned companies as instruments of local governmentJointly owned companies as instruments of local government
Jointly owned companies as instruments of local governmentVrije Universiteit Brussel
 
Gnome Maps: free software services for a new desktop experience
Gnome Maps: free software services for a new desktop experienceGnome Maps: free software services for a new desktop experience
Gnome Maps: free software services for a new desktop experienceVrije Universiteit Brussel
 
Lightweight Detection of Android-specific Code Smells: the aDoctor Project
Lightweight Detection of Android-specific Code Smells: the aDoctor ProjectLightweight Detection of Android-specific Code Smells: the aDoctor Project
Lightweight Detection of Android-specific Code Smells: the aDoctor ProjectVrije Universiteit Brussel
 
Search-based testing of procedural programs:iterative single-target or multi-...
Search-based testing of procedural programs:iterative single-target or multi-...Search-based testing of procedural programs:iterative single-target or multi-...
Search-based testing of procedural programs:iterative single-target or multi-...Vrije Universiteit Brussel
 
Software-Based Energy Profiling of Android Apps: Simple, Efficient and Reliable?
Software-Based Energy Profiling of Android Apps: Simple, Efficient and Reliable?Software-Based Energy Profiling of Android Apps: Simple, Efficient and Reliable?
Software-Based Energy Profiling of Android Apps: Simple, Efficient and Reliable?Vrije Universiteit Brussel
 
Evoluzione della normazione ISO
Evoluzione della normazione ISOEvoluzione della normazione ISO
Evoluzione della normazione ISOD'Eugenio Elisa
 

Destaque (11)

Hypervolume-based search for test case prioritization - ssbse 2015
Hypervolume-based search for test case prioritization - ssbse 2015Hypervolume-based search for test case prioritization - ssbse 2015
Hypervolume-based search for test case prioritization - ssbse 2015
 
GSOC 2013 - Un nuovo look and feel per Java basato su GTK+ 3
GSOC 2013 - Un nuovo look and feel per Java basato su GTK+ 3GSOC 2013 - Un nuovo look and feel per Java basato su GTK+ 3
GSOC 2013 - Un nuovo look and feel per Java basato su GTK+ 3
 
La diffusione
La diffusioneLa diffusione
La diffusione
 
Jointly owned companies as instruments of local government
Jointly owned companies as instruments of local governmentJointly owned companies as instruments of local government
Jointly owned companies as instruments of local government
 
Gnome Maps: free software services for a new desktop experience
Gnome Maps: free software services for a new desktop experienceGnome Maps: free software services for a new desktop experience
Gnome Maps: free software services for a new desktop experience
 
Next! Navigator
Next! NavigatorNext! Navigator
Next! Navigator
 
Lightweight Detection of Android-specific Code Smells: the aDoctor Project
Lightweight Detection of Android-specific Code Smells: the aDoctor ProjectLightweight Detection of Android-specific Code Smells: the aDoctor Project
Lightweight Detection of Android-specific Code Smells: the aDoctor Project
 
Search-based testing of procedural programs:iterative single-target or multi-...
Search-based testing of procedural programs:iterative single-target or multi-...Search-based testing of procedural programs:iterative single-target or multi-...
Search-based testing of procedural programs:iterative single-target or multi-...
 
Software-Based Energy Profiling of Android Apps: Simple, Efficient and Reliable?
Software-Based Energy Profiling of Android Apps: Simple, Efficient and Reliable?Software-Based Energy Profiling of Android Apps: Simple, Efficient and Reliable?
Software-Based Energy Profiling of Android Apps: Simple, Efficient and Reliable?
 
Evoluzione della normazione ISO
Evoluzione della normazione ISOEvoluzione della normazione ISO
Evoluzione della normazione ISO
 
People management
People managementPeople management
People management
 

Semelhante a Applicazioni di modelli matematici alla ricerca semantica

Presentazione Tesi Laurea Magistrale
Presentazione Tesi Laurea MagistralePresentazione Tesi Laurea Magistrale
Presentazione Tesi Laurea MagistraleMatteo Vacca
 
SERP step by step: viaggio nell’evoluzione dei motori di ricerca
SERP step by step: viaggio nell’evoluzione dei motori di ricercaSERP step by step: viaggio nell’evoluzione dei motori di ricerca
SERP step by step: viaggio nell’evoluzione dei motori di ricercaSemrush Italia
 
Lezione Tecniche di Scrittura Multimediale - Ipermedia, Social Network e Moto...
Lezione Tecniche di Scrittura Multimediale - Ipermedia, Social Network e Moto...Lezione Tecniche di Scrittura Multimediale - Ipermedia, Social Network e Moto...
Lezione Tecniche di Scrittura Multimediale - Ipermedia, Social Network e Moto...Michele Mazzali
 
Per una IA efficace: armonizzare usabilità, SEO e web analytics
Per una IA efficace: armonizzare usabilità, SEO e web analyticsPer una IA efficace: armonizzare usabilità, SEO e web analytics
Per una IA efficace: armonizzare usabilità, SEO e web analyticsaboutuser
 
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologieAndrea Rossetti
 
Stefano Penge - Open labor, opendata for visible and trasparent European job ...
Stefano Penge - Open labor, opendata for visible and trasparent European job ...Stefano Penge - Open labor, opendata for visible and trasparent European job ...
Stefano Penge - Open labor, opendata for visible and trasparent European job ...International Open Data Day Italia
 
DotFlorence Srl :: Lezione Seo Luglio 2010
DotFlorence Srl :: Lezione Seo Luglio 2010DotFlorence Srl :: Lezione Seo Luglio 2010
DotFlorence Srl :: Lezione Seo Luglio 2010Dotflorence
 
Evoluzione della SEO: dal posizionamento alle curve di traffico
Evoluzione della SEO: dal posizionamento alle curve di trafficoEvoluzione della SEO: dal posizionamento alle curve di traffico
Evoluzione della SEO: dal posizionamento alle curve di trafficoSQcuola di Blog
 
[EH2023] SEO, AI e Machine Learning per l'eCommerce: la nuova SEO - Massimo F...
[EH2023] SEO, AI e Machine Learning per l'eCommerce: la nuova SEO - Massimo F...[EH2023] SEO, AI e Machine Learning per l'eCommerce: la nuova SEO - Massimo F...
[EH2023] SEO, AI e Machine Learning per l'eCommerce: la nuova SEO - Massimo F...Ecommerce HUB
 
Sondaggio: Cosa vorrei da una piattaforma Elearning
Sondaggio: Cosa vorrei da una piattaforma ElearningSondaggio: Cosa vorrei da una piattaforma Elearning
Sondaggio: Cosa vorrei da una piattaforma ElearningFormaLms
 
Seminario Voglioilruolo - 12 maggio 2011
Seminario Voglioilruolo - 12 maggio 2011Seminario Voglioilruolo - 12 maggio 2011
Seminario Voglioilruolo - 12 maggio 2011Miowelfare
 
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...Flavio Bontà
 
Metodologie e sperimentazione di confronto tra tool di data integration
Metodologie e sperimentazione di confronto tra tool di data integrationMetodologie e sperimentazione di confronto tra tool di data integration
Metodologie e sperimentazione di confronto tra tool di data integrationAlessandro Longo
 
Orientamento alle professioni del web: il Web Analyst
Orientamento alle professioni del web: il Web AnalystOrientamento alle professioni del web: il Web Analyst
Orientamento alle professioni del web: il Web AnalystMarco Cerrone
 
B com 2013 | SEO: Search Experience Optimization. Quello che piace agli Utent...
B com 2013 | SEO: Search Experience Optimization. Quello che piace agli Utent...B com 2013 | SEO: Search Experience Optimization. Quello che piace agli Utent...
B com 2013 | SEO: Search Experience Optimization. Quello che piace agli Utent...B com Expo | GL events Italia
 
Marco Berlot - Qualità dati - Lunch Nexa
Marco Berlot - Qualità dati - Lunch NexaMarco Berlot - Qualità dati - Lunch Nexa
Marco Berlot - Qualità dati - Lunch NexaSynapta
 

Semelhante a Applicazioni di modelli matematici alla ricerca semantica (20)

Presentazione Tesi Laurea Magistrale
Presentazione Tesi Laurea MagistralePresentazione Tesi Laurea Magistrale
Presentazione Tesi Laurea Magistrale
 
SERP step by step: viaggio nell’evoluzione dei motori di ricerca
SERP step by step: viaggio nell’evoluzione dei motori di ricercaSERP step by step: viaggio nell’evoluzione dei motori di ricerca
SERP step by step: viaggio nell’evoluzione dei motori di ricerca
 
Introduzione alla SEO
Introduzione alla SEOIntroduzione alla SEO
Introduzione alla SEO
 
Lezione Tecniche di Scrittura Multimediale - Ipermedia, Social Network e Moto...
Lezione Tecniche di Scrittura Multimediale - Ipermedia, Social Network e Moto...Lezione Tecniche di Scrittura Multimediale - Ipermedia, Social Network e Moto...
Lezione Tecniche di Scrittura Multimediale - Ipermedia, Social Network e Moto...
 
Per una IA efficace: armonizzare usabilità, SEO e web analytics
Per una IA efficace: armonizzare usabilità, SEO e web analyticsPer una IA efficace: armonizzare usabilità, SEO e web analytics
Per una IA efficace: armonizzare usabilità, SEO e web analytics
 
Search Engine Copywriting
Search Engine CopywritingSearch Engine Copywriting
Search Engine Copywriting
 
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
 
Stefano Penge - Open labor, opendata for visible and trasparent European job ...
Stefano Penge - Open labor, opendata for visible and trasparent European job ...Stefano Penge - Open labor, opendata for visible and trasparent European job ...
Stefano Penge - Open labor, opendata for visible and trasparent European job ...
 
DotFlorence Srl :: Lezione Seo Luglio 2010
DotFlorence Srl :: Lezione Seo Luglio 2010DotFlorence Srl :: Lezione Seo Luglio 2010
DotFlorence Srl :: Lezione Seo Luglio 2010
 
Evoluzione della SEO: dal posizionamento alle curve di traffico
Evoluzione della SEO: dal posizionamento alle curve di trafficoEvoluzione della SEO: dal posizionamento alle curve di traffico
Evoluzione della SEO: dal posizionamento alle curve di traffico
 
[EH2023] SEO, AI e Machine Learning per l'eCommerce: la nuova SEO - Massimo F...
[EH2023] SEO, AI e Machine Learning per l'eCommerce: la nuova SEO - Massimo F...[EH2023] SEO, AI e Machine Learning per l'eCommerce: la nuova SEO - Massimo F...
[EH2023] SEO, AI e Machine Learning per l'eCommerce: la nuova SEO - Massimo F...
 
Sondaggio: Cosa vorrei da una piattaforma Elearning
Sondaggio: Cosa vorrei da una piattaforma ElearningSondaggio: Cosa vorrei da una piattaforma Elearning
Sondaggio: Cosa vorrei da una piattaforma Elearning
 
Workshop Seo Basic
Workshop Seo BasicWorkshop Seo Basic
Workshop Seo Basic
 
Seminario Voglioilruolo - 12 maggio 2011
Seminario Voglioilruolo - 12 maggio 2011Seminario Voglioilruolo - 12 maggio 2011
Seminario Voglioilruolo - 12 maggio 2011
 
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
Una webapp per il servizio di e-receuitment: progettazione e sviluppo con dat...
 
Metodologie e sperimentazione di confronto tra tool di data integration
Metodologie e sperimentazione di confronto tra tool di data integrationMetodologie e sperimentazione di confronto tra tool di data integration
Metodologie e sperimentazione di confronto tra tool di data integration
 
Orientamento alle professioni del web: il Web Analyst
Orientamento alle professioni del web: il Web AnalystOrientamento alle professioni del web: il Web Analyst
Orientamento alle professioni del web: il Web Analyst
 
B com 2013 | SEO: Search Experience Optimization. Quello che piace agli Utent...
B com 2013 | SEO: Search Experience Optimization. Quello che piace agli Utent...B com 2013 | SEO: Search Experience Optimization. Quello che piace agli Utent...
B com 2013 | SEO: Search Experience Optimization. Quello che piace agli Utent...
 
Marco Berlot - Qualità dati - Lunch Nexa
Marco Berlot - Qualità dati - Lunch NexaMarco Berlot - Qualità dati - Lunch Nexa
Marco Berlot - Qualità dati - Lunch Nexa
 
Tell Me Quality
Tell Me QualityTell Me Quality
Tell Me Quality
 

Applicazioni di modelli matematici alla ricerca semantica

  • 1. Università degli Studi del Molise Tesi di Laurea in Informatica Applicazioni di modelli matematici alla ricerca semantica Candidato Dario Di Nucci 130804 Relatore Prof. Giovanni Capobianco
  • 2. Internet è una rete di computer mondiale ad accesso pubblico che attualmente rappresenta il principale mezzo di comunicazione di massa. I suoi utenti nel 2010 hanno raggiunto quota 1,97 miliardi in crescita del 14% rispetto all’anno precedente. Il numero dei siti web nel 2010 ha raggiunto quota 255 milioni, di cui 21,4 aperti nell’ultimo anno. Contesto applicativo EVOLUZIONE DI INTERNET
  • 3. Cosa è? Insieme delle tecniche atte al recupero mirato dell’informazione in formato elettronico. Cosa fa? Le tecniche di IR basate su modelli vettoriali, applicano il concetto di somiglianza testuale tra una base di dati e una query, restituendo una serie di documenti pertinenti. Modelli matematici più importanti?  Vector Space Model  Latent Semantic Indexing  … Applicazioni più note? Motori di ricerca. Contesto applicativo INFORMATION RETRIEVAL
  • 4. Dati due vettori:  𝑄, rappresentante una query  𝐷, rappresentante un documento la loro similarità può essere calcolata attraverso il coseno dell’angolo 𝜃 , compreso tra essi. 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 (𝐷, 𝑄) ∈ [−1,1]. Contesto applicativo VECTOR SPACE MODEL
  • 5. Problema: l’utente va alla ricerca delle informazioni basandosi su concetti e non su singole parole. Il cuore del LSI è rappresentato dalla decomposizione ai valori singolari (SVD). 𝑿 La matrice Σ0 rappresenta i concetti ordinati in ordine di importanza. 𝑼 𝟎 𝜮 𝟎 𝑽 𝟎 Contesto applicativo LATENT SEMANTIC INDEXING
  • 6. Nella fruizione dei documenti presenti sul web è fondamentale per l’utente un motore di ricerca che restituisca risultati corretti. Nella sua realizzazione tre problemi che sicuramente incidono negativamente sulla bontà dei risultati sono:  polisemia  sinonimia  query malformate Motivazioni PROBLEMATICHE COMUNI
  • 7. Molte parole hanno più di un significato, quindi una query potrebbe condividere dei termini con un documento, sebbene quest’ultimo non sia rilevante. Conte Motivazioni POLISEMIA
  • 8. Esistono diversi modi per esprimere uno stesso concetto; ciò implica che una query potrebbe non condividere termini con un documento, sebbene quest’ultimo sia rilevante per la query stessa. Automobile Macchina Auto Motivazioni SINONIMIA
  • 9. Spesso l’utente inserisce, per errore, query non valide o che non rappresentano bene l’informazione ricercata. Conta Motivazioni QUERY MALFORMATE
  • 10. Obiettivi Migliorare l’accuratezza dei risultati forniti da un motore di ricerca, attraverso il profiling degli utenti. Profiling?! Attraverso le query fornite dall’utente e i risultati da questi selezionati, il sistema acquisisce esperienza. In questo modo restituisce risultati con un grado di correttezza crescente. PROFILING
  • 11. E’ stato realizzato un motore di ricerca basato su una nota libreria di Information Retrieval, Lucene. Lucene è un progetto open source promosso dalla Apache Software Foundation. docs Hound INTRODUZIONE
  • 12. Si occupa di analizzare le pagine web. Per ogni documento:  estrapola informazioni testuali  individua le categorie inerenti  aggiorna le definizioni delle categorie Ogni categoria è identificata da un vocabolario, costituito da un insieme di termini. docs Hound INDEXER
  • 13. Ad ogni utente è associato un profilo di ricerca, sotto forma di distribuzione di probabilità. Il valore della preferenza di una categoria aumenta seguendo l'andamento di una funzione logistica. I valori delle categorie non scelte sono decrementati in modo proporzionale. docs Hound PROFILING UTENTE
  • 14. Scelte occasionali per una categoria modificano soltanto lievemente il profilo, mentre scelte consecutive hanno effetto via via maggiore. Quando la preferenza per una categoria raggiunge un valore sufficientemente più elevato rispetto alle altre, si stabilizza su tale posizione. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 docs Hound FUNZIONE LOGISTICA
  • 15. Restituisce le pagine web ordinandole per punteggio. Il punteggio è calcolato in funzione dell'attinenza della pagina web con la query e il profilo dell'utente. In particolare: punteggio = punteggio query * (1 + punteggio profilo) Per ridurre i problemi causati da query malformate, il parser delle query applica a queste un grado di casualità utilizzando tecniche fuzzy. docs Hound SEARCHER
  • 16. docs Hound TESTING Query 1 Query 2 Query 3 Query 4 Query 5 Tot diff Utente 1 1 1 0 1 1 0 1 1 0 3 2 -1 1 1 0 -1 Utente 2 3 1 -2 2 2 0 1 1 0 1 1 0 1 1 0 -2 Utente 3 1 1 0 1 1 0 2 1 -1 2 2 0 1 1 0 -1 Utente 4 1 1 0 1 1 0 2 1 -1 2 1 -1 2 1 -1 -3 Utente 5 1 1 0 2 2 0 1 1 0 1 1 0 1 1 0 0
  • 17.  Al termine della sperimentazione si può affermare che le tecniche di profiling sono una buona soluzione per il problema della polisemia.  Il problema delle query malformate è stato mitigato applicando un grado di casualità ad esse. CONCLUSIONI
  • 18.  Integrazione di un crawler nel sistema al fine di renderlo operativo.  Miglioramento della categorizzazione di utenti e pagine attraverso una crescente accuratezza dei vocabolari che ne costituiscono le definizioni.  Gestione automatica della funzione logistica in base al numero di categorie.  Testing approfondito con un maggior numero di utenti. SVILUPPI FUTURI