O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Agora Search Engine v1.0 - LSI

329 visualizações

Publicada em

The Agora project is a mini engine research based on Latent Semantic Indexing and it can be used in the search for documents in various formats (PDF, html, DOC, etc) or extrapolate information directly from a database (MySQL, PostgreSQL, Oracle, MSSQL, etc).

Publicada em: Ciências
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://soo.gd/irt2 } ......................................................................................................................... Download Full EPUB Ebook here { https://soo.gd/irt2 } ......................................................................................................................... Download Full doc Ebook here { https://soo.gd/irt2 } ......................................................................................................................... Download PDF EBOOK here { https://soo.gd/irt2 } ......................................................................................................................... Download EPUB Ebook here { https://soo.gd/irt2 } ......................................................................................................................... Download doc Ebook here { https://soo.gd/irt2 } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book THIS can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer THIS is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story THIS Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money THIS the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths THIS Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://soo.gd/qURD } ......................................................................................................................... Download Full EPUB Ebook here { https://soo.gd/qURD } ......................................................................................................................... Download Full doc Ebook here { https://soo.gd/qURD } ......................................................................................................................... Download PDF EBOOK here { https://soo.gd/qURD } ......................................................................................................................... Download EPUB Ebook here { https://soo.gd/qURD } ......................................................................................................................... Download doc Ebook here { https://soo.gd/qURD } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book THIS can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer THIS is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story THIS Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money THIS the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths THIS Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://soo.gd/qURD } ......................................................................................................................... Download Full EPUB Ebook here { https://soo.gd/qURD } ......................................................................................................................... Download Full doc Ebook here { https://soo.gd/qURD } ......................................................................................................................... Download PDF EBOOK here { https://soo.gd/qURD } ......................................................................................................................... Download EPUB Ebook here { https://soo.gd/qURD } ......................................................................................................................... Download doc Ebook here { https://soo.gd/qURD } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book THIS can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer THIS is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story THIS Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money THIS the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths THIS Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui

Agora Search Engine v1.0 - LSI

  1. 1. Agor`a Search Engine - Un mini motore di ricerca basato sul Latent Semantic Indexing Vannutelli Sofien February 27, 2012 Contents 1 La Singular Value Decomposition 2 1.1 Le matrici U, Σ e V [1, 2] . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 La riduzione di rango approssimata [5] . . . . . . . . . . . . . . . . . . . . 3 2 Il Latent Semantic Indexing [1, 2] 4 2.1 Proiezione della Query e Ranking dei Documenti [1, 2] . . . . . . . . . . . 4 2.2 Cenni sul Latent Semantic Analysis [4] . . . . . . . . . . . . . . . . . . . . 5 3 Agor`a Search Engine 6 4 Conclusioni 9 References 10 Abstract In questa breve relazione viene presentato il progetto Agor`a, un mini motore di ricerca basato sul Latent Semantic Indexing, sfruttando il linguaggio di program- mazione Java. I passi eseguiti per la sua implementazione sono stati: 1. Caricamento dei file di testo dalla directory di nome prova, eseguendo l’operazione di stopword per ciascun file, e con la creazione creando del vocabolario1 del mini motore. 2. Salvataggio dei termini del dizionario sul disco. 3. Costruzione della matrice L termini-documenti utilizzando la lista dei files, letti precedentemente, e confrontando i singoli termini2 presenti in ciascun file con i termini presenti nel dizionario. 4. Calcolo della Singular Value Decomposition della matrice L termini-documenti X = UΣV T . 1 Ogni volta che viene avviato il mini motore, nel dizionario vengono inseriti solo quei termini che non sono presenti in esso. 2 In inglese Tokens. 1
  2. 2. 5. Scelta di un numero k3 di autovalori e autovettori (concetti) e costruzione delle matrici ridotte Uk, Σk, Vk. [2, 1] 6. Trasformazione di ciascun documento (colonna di L, x) nello spazio dei concetti come ˆx = xT UkΣ−1 k . [2, 1] 7. Costruzione della query q utilizzando la lista dei files e confrontando i presenti in ciascun file con i termini presenti nel dizionario. 8. Proiezione della query q nello spazio dei concetti, ˆq, come ˆq = qT UkΣ−1 k . [2, 1] 9. Calcolo della somiglianza della query q a ciascun documento calcolando il coseno, θ ∈ [−1; 1], tra il vettore della query e quello del documento (ambedue nello spazio dei concetti): θ = ˆqT ˆx ˆq ˆx = qT UkΣ−1 k Σ−1 k Ukx qT UkΣ−1 k xT UkΣ−1 k [2] 10. Ordinamento dei documenti in ordine decrescente per θ.[2, 1] 1 La Singular Value Decomposition In algebra lineare, la Singular Value Decomposition4 `e una particolare fattorizzazione basata sull’uso di autovalori e autovettori, utilizzata per produrre un’approssimazione della matrice originaria con minor rango possibile. [5] Figure 1: Matrice L termine-documento e vettore q query. 1.1 Le matrici U, Σ e V [1, 2] Nelle righe della matrice V (o colonne della matrice V T ) vengono memorizzate le coor- dinate vettoriali dei documenti. Cos`ı, si possono prendere due documenti alla volta per poi confrontarli attraverso il calcolo della similitudune del coseno. Queste informazioni possono essere utilizzate per gruppi di documenti (cluster), per classificare i documenti in base al tema (analisi topic) o costruire collezioni di documenti simili (directory). 3 La scelta di k viene fatta in via definitiva per un qualsiasi set di documenti 4 Abbreviato SVD. 2
  3. 3. Nella diagonale della matrice Σ vengono rappresentate le dimensioni dello spazio LSI. Queste dimensioni sono utilizzate per proiettare i vettori che rappresentano i documenti, la query e i termini. Figure 2: Le matrici U, Σ e V . Infine, nelle righe della matrice U vengono memorizzate le coordinate dei vettori per ciascun termine. Cos`ı si possono prendere due termini alla volta, per poi calcolargli le somiglianze del coseno. Con queste informazioni siamo in grado di fare un raggruppa- mento di termini e la costruzione automatica di un thesaurus5, trovando termini analoghi per essere utilizzati in una successiva ricerca (Query Expansion). 1.2 La riduzione di rango approssimata [5] La SVD pu`o essere utilizzata per risolvere il problema della riduzione di rango per l’approssimazione della matrice L. A tal fine, per effettuare tale riduzione dobbiamo seguire la seguente procedura: 1. Data la matrice L (termini-documenti), costruire la sua SVD nella forma L = UΣV T . 2. Dalla matrice Σ, si deriva la matrice ridotta Σk formata dalla sostituzione con gli zeri dei r − k valori singolari pi`u piccoli posizionati sulla diagonale di Σ. 3. Calcola e restituisce la matrice Lk = UkΣkV T k con il rank k-esimo di approssi- mazione alla matrice originaria L. Il rango di Lk `e al massimo k: ci`o deriva dal fatto che Σk ha al massimo k valori diversi da zero. Cos`ı sembra plausibile che la sostituzione di questi autovalori piccoli con zero non alterano sostanzialmente il risultato, lasciando ”chiusa” la matrice L. 5 Un thesaurus `e un glossario che fornisce informazioni di sinonimia e correlazione fra termini. 3
  4. 4. 2 Il Latent Semantic Indexing [1, 2] Il Latent Semantic Indexing6 `e un metodo di indicizzazione e di recupero informazioni, che utilizza la tecnica matematica SVD, gi`a descritta nel paragrafo precedente, e serve per identificare i modelli nei rapporti tra i termini e i concetti contenuti in un set di documenti non strutturati. LSI si basa sul principio che le parole che vengono utilizzate negli stessi contesti tendono ad avere significati simili. Una caratteristica fondamentale di LSI `e la capacit`a di estrarre il contenuto concettuale di un corpo del testo stabilendo associazioni tra quei termini che si verificano in contesti simili. [4] LSI `e anche un’applicazione di analisi corrispondenza, una tecnica statistica multi- variata sviluppata da Jean-Paul Benz´ecri nei primi anni 1970, ad una tabella di contin- genza costruita dal numero di parole nei documenti. ´E chiamato LSI per la sua capacit`a di correlare i termini semanticamente correlati che sono latenti in una collezione di testo ed `e stato applicato per la prima volta al testo presso i Bell Laboratories alla fine degli anni 1980. Il metodo, come `e stato gia detto, scopre la sottostante struttura semantica latente nell’uso delle parole in un corpo di testo e come pu`o essere usato per estrarre il significato del testo in risposta alle richieste degli utenti, comunemente denominato come ”ricerche concettuali”. Query, o ”ricerche concettuali”, nei confronti di una serie di documenti proiettati nello spazioLSI, restituiranno risultati che sono concettualmente simili nel significato ai criteri di ricerca anche se i risultati non condividono una specifica parola o le parole con i criteri di ricerca. 2.1 Proiezione della Query e Ranking dei Documenti [1, 2] Ora si vedr`a come proiettare la query nello spazio LSI, insieme al set di documenti. Si considera ora il caso della matrice L costituito da un numero di documenti > 1. Sia L = UΣV T . La matrice V consiste di n righe, dove ciascuna di esse contiene le coordinate di un vettore documento. Per un dato vettore, si pu`o riscrivere l’equazione documento in quest’altro modo d = dT UΣ−1. Dato che in LSI una query `e trattata come un altro documento, allora il vettore query si pu`o riscrivere con l’equazione q = qT UΣ−1. Nel spazio k-dimensionale LSI ridotto si possono riscrivere le precedenti equazioni cos`ı: • d = dT UΣ−1 • q = qT UΣ−1 Nelle equazioni vengono memorizzate le nuove coordinate dei vettori in questo spazio ridotto. 6 Abbreviato LSI. 4
  5. 5. Figure 3: Vettori query-documenti nello spazio LSI. La misurazione della similarit`a del coseno tra la query e il documento `e dato dalla seguente funzione (vedi Figura 3): sim(q, d) = sim(qT UkΣ−1 k , dT UkΣ−1 k ) 2.2 Cenni sul Latent Semantic Analysis [4] Il Latent Semantic Analysis7 `e una teoria e metodo per l’estrazione e che rappresenta l’utilizzo contestuale del significato delle parole, attraverso calcoli statistici applicati a un corpus di testo vasto (Landauer e Dumais, 1997). L’idea di fondo `e che l’insieme di tutte le parole in un preciso contesto, nella quale una determinata parola fornisce o non sembra fornire su di un insieme vincoli di reciprocit`a, determinano in larga misura la somiglianza del significato delle parole e un insieme di parole reciprocamente. L’adeguatezza della riflessione del LSA nella conoscenza umana `e stata stabilita in una variet`a di modi. Ad esempio, i suoi punteggi si sovrappongono a quelli degli esseri umani sul vocabolario standard e sulle prove dell’oggetto stesso. LSA imita l’ordinamento umano della parola e il giudizio della categoria; simula termine-termine e il passaggio-parola per l’adescamento lessicale dei dati e stima con precisione la coerenza del passaggio, l’apprendibilit`a dei passaggi da singoli studenti, e la qualit`a e la quantit`a di conoscenza contenuta in un saggio. In pratica, LSA non `e altro che una tecnica di elaborazione del linguaggio naturale, in particolare della semantica vettoriale, di analisi dei rapporti tra una serie di documenti ed i termini in essi contenuti, producendo una serie di concetti relativi ai documenti e ai termini. LSA presuppone che le parole che sono vicine nel significato logico saranno vicini nel testo (ad esempio Apple Computer hanno significato logico insieme. 7 Abbreviato LSA. 5
  6. 6. 3 Agor`a Search Engine Come descritto nell’abstract, Agor`a Search Engine `e stato implementato nel linguaggio di programmazione Java e non `e stata utilizzata nessuna libreria OpenSource per la parte riguardante il Latent Semantic Indexing. Le uniche funzioni esterne utilizzate in Agor`a Serach Engine sono state: • svd(): per il calcolo della Singular Value Decomposition della matrice L. • inverse(): per il calcolo di Σ−1 k , la quale al suo interno richiama le funzione LUDe- composition()8 e solve(B)9, dove B `e una matrice quadrata. Entrambe le funzioni appartengono a Jama10. Jama fornisce le operazioni fondamen- tali dell’algebra lineare numerica, insieme a quelle sopra citate: il calcolo della traccia di una matrice, la trasposta di una matrice, la somma tra due matrici, la differenza tra due matrici, la norma di Frobenius, il massimo valore singolare, il rapporto tra il pi`u grande e il pi`u piccolo valore singolare. Agor`a Serach Engine consente di indicizzare soltanto documenti di testo semplici, tralasciando (per adesso) i restanti formati di documento (PDF, HTML, documenti Office, etc.) e le informazioni extrapolate da un database. L’applicazione pu`o sinteticamente essere suddivisa in sei parti: 1. Indicizzazione, analisi ed immagazzinamento delle parole chiave, prese da un set di documenti. 2. Calcolo dei valori singolari della matrice L e la riduzione di rango per le matrici Σ−1 k e Uk. 3. Proiezione della query e del set di documenti nello spazio LSI ridotto. 4. Calcolo la funzione di similitudine per ogni documento con la query. 5. Ordinamento dei documenti in base al valore di similitudine. 6. Mostra dei risultati ottenuti dalla ricerca. L’applicazione stessa possiede una GUI, suddivisa: • in una text field per l’inserimento della query da parte dell’utente, • in una text area per la visualizzazione dei messaggi riguardanti le operazioni di inizializzazione dello stesso: i risultati della ricerca fatta dall’utente e gli eventuali messaggi di errori sollevati dall’applicazione. • in una status bar per visualizzare i vari stati dell’applicazione. 6
  7. 7. Figure 4: Descrizione principale GUI. Figure 5: Descrizione secondaria GUI. 7
  8. 8. Agor`a Search Engine `e implementato in multithreading, ciascuna funzione ha associ- ato un thread per la propria esecuzione. La parte logica e la parte GUI hanno entrambe due thread associati per il funzionamento. Nella fase di avvio dell’applicazione un thread si occupa di inizializzare e visualizzare la GUI, mentre un’altro thread si occupa di eseguire il kernel dell’applicazione (la logica); in questo modo si evitano attese inutili (o il blocco della GUI) e le operazioni stesse possono essere eseguite in modo concorrente. Le operazioni di ricerca, come descritto, avvengono dopo aver generato e proiettato i documenti nello spazio LSI ; ogni qualvolta che un utente effettua una ricerca, il risultato `e immediato e viene mostrato direttamente dall’applicazione. Figure 6: Ricerca andata a buon fine. Nel caso in cui la ricerca `e andata a buon fine si mostra il risultato, con il numero di documenti recuperati in ordine decrescente (vedi figura 3), altrimenti viene mostrato un messaggio: ”Nessun Risultato” e la text field si evidenzia di rosso. Premendo il tasto ESC si termina la ricerca. 8 La funzione LUDecomposition() calcola la fattorizzazione della matrice A in una matrice triangolare inferiore L e una matrice triangolare superiore U. 9 La funzione solve(B) risolve il sistema A ∗ X = B. 10 Acronimo di Java Matrix Class. 8
  9. 9. Figure 7: Nessun risultato. 4 Conclusioni Le conclusioni sulla LSI viste, in questa applicazione, sono: • il costo computazionale della SVD `e significativo in quanto la sua complessit`a di calcolo `e O(N3). ´E stato uno dei motivi per cui non c’e stata diffusione del metodo LSI, • la scelta del valore di k per la riduzione della matrice, • una buona scelta del valore di k pu`o effettivamente aumentare la precisione su alcuni parametri di riferimento di query. Questo ci f`a capire che per un certo valore di k, LSI affronta alcune delle sfide di sinonimia. • infine, LSI lavora meglio in applicazioni dove c’`e poca sovrapposizione tra le query e documenti. Per il futuro di Agora Search Engine potrebbe essere utile implementare la fun- zione di lettura di documenti, di vari formati (PDF, html, documenti Oracle, etc) e di informazioni direttamente extrapolate da un database (MySQL,PostgreSQL, Oracle, MSSQL), per avere una visione pi`u ampia sul suo funzionamento, oppure fare un piccolo esperimento trasformardolo in un’applicazione web, sfruttando i linguaggio di program- mazione JSP/Servlet, con la funzione di motore di ricerca per le pagine Web, per valutare 9
  10. 10. le prestazioni sia dal punto di vista computazionale e sia dal punto di vista di recupero dei documenti. References [1] Prof.ssa Paola Velardi. Latent Semantic Indexing. Corso di Metodi di estrazione di Informazioni dal Web a.a. 2010/11. [2] Dr. E. Garcia. SVD and LSI Tutorial4: Latent Semantic Indexing (LSI) How-to Calculations. Mi Islita.com. [3] Dr. E. Garcia. SVD and LSI Tutorial5: LSI Keyword Research and Co-Occurrence Theory. Mi Islita.com. [4] Thomas K Landauer (Department of Psychology - University of Colorado at Boul- der), Peter W. Foltz (Department of Psychology - New Mexico State University), Darrell Laham (Department of Psychology - University of Colorado at Boulder). An Introduction to Latent Semantic Analysis (1998). Discourse Processes. [5] Christopher D. Manning, Prabhakar Raghavan, Hinrich Sch¨utze. An Introduction to Information Retrieval April 1, 2009 - Cambridge University Press. 10

×