Drupal + Apache SOLR

Apache SOLR + Drupal Claudio Cicali Claudio Cicali (vedi ultima slide)

Drupal + Apache SOLR – Claudio Cicali Un paio d'anni fa, un nostro cliente...

Drupal + Apache SOLR – Claudio Cicali ,[object Object]

Necessità di ri-pubblicazione su siti “remoti”, Drupal o no

Sistema di ricerca sofisticato e – ovviamente - veloce Il progetto

Drupal + Apache SOLR – Claudio Cicali Nasceva «Mittwoch»

Drupal + Apache SOLR – Claudio Cicali OK, e la ricerca? Il sistema di ricerca fulltext core di Drupal è stato abbandonato (quasi) subito In realtà ci abbiamo anche provato, ma... ,[object Object]

Tabelle di servizio alla ricerca nello stesso DB dei documenti

Indicizzazione contenuti in puro PHP

Impatta direttamente (e in maniera poco predicibile) le prestazioni del cronjob

Non delegabile su altri server

Interfaccia utente non eccezionale per la ricerca avanzata

Modulo esterno per la ricerca a faccette (poco scalabile esso stesso)

Drupal + Apache SOLR – Claudio Cicali Here comes... Solr is the popular, blazing fast open source enterprise search platform from the Apache Lucene project (da http://lucene.apache.org/solr/intro) (a onor del vero sono stati condotti anche altri esperimenti...)

Drupal + Apache SOLR – Claudio Cicali Troppo potenza! Per quello che fa e per come lo fa, non è semplicissimo da domare Né è troppo facile capire cosa possa fare per me Né è facile capire quale sia il modo migliore di fare una certa cosa Se queste parole vi fanno venire in mente Drupal ho ottenuto il risultato sperato ;) Questo è sicuramente il punto più arduo da superare; per tutto il resto c'è il manuale

Drupal + Apache SOLR – Claudio Cicali In breve... SOLR è un sistema (server) al quale tu dai un set di documenti e successivamente richiedi quelli che soddisfano certe condizioni /parametri Dunque esiste: ,[object Object]

un modo per RICHIEDERE informazioni

un modo per definire una struttura sulla quale imporre delle condizioni

Drupal + Apache SOLR – Claudio Cicali «Product Highlights» Vale la pena cercare di capire come funziona? ,[object Object]

Ottime prestazioni ( caching out-of-the-box)

Scalabile all'infinito perché viene gestita la replicazione degli indici

Si appoggia su tecnologie robuste e enterprise grade da anni (Lucene, Tomcat, Java)

Supporto alla faceted search (ricerca a faccette) continua...

Estensibile (vuoi che la risposta alle ricerche sia in CSV?)

Agnostico sul tipo di documento (nodi Drupal o un catalogo di parti meccaniche). La ricerca è sui campi, non su dei blob

Query time field & document boosting (no reindex)

Gli indici contengono i dati serializzati (query del tipo: “cerca FORD nel TITLE e ritornami BODY, DATE e AUTHOR”)

Drupal + Apache SOLR – Claudio Cicali Consigliato! In pratica permette di rispondere sempre “Sì” alle richieste che riguardano un sistema di ricerca. Se (gran) parte del valore della nostra applicazione o della nostra azienda sta nel sistema di ricerca, credo sia praticamente obbligatorio capire in cosa SOLR possa aiutarci. Se poi l' interfaccia con Drupal è già pronta, tanto meglio ;)

Drupal + Apache SOLR – Claudio Cicali Zooming In... Apache SOLR Server La nostra applicazione

Drupal + Apache SOLR – Claudio Cicali Zooming in... Apache SOLR Server HTTP POST/GET La nostra applicazione DB INDEX

Drupal + Apache SOLR – Claudio Cicali Zooming in... HTTP POST/GET DARE e RICHIEDERE STRUTTURA SOLR Server La nostra applicazione DB INDEX schema.xml solrconfig.xml

Drupal + Apache SOLR – Claudio Cicali La struttura dei dati Ogni documento che viene spedito a SOLR non è un blob informe di dati ma è invece composto da CAMPI, tanti quanti se ne ritengano necessari. Questi campi vengono definiti in fase di progettazione del nostro indice. È ben presente il concetto di tipo di dato (ed è possibile addirittura definirne di nuovi)

Drupal + Apache SOLR – Claudio Cicali La struttura dei dati SOLR necessita di una definizione esplicita della struttura dei documenti che gli diamo in pasto. Questa struttura viene definita tramite il file SCHEMA.XML ... < fieldType name="integer" class="solr.IntField"/> <fieldType name="long" class="solr.LongField"/> <fieldType name="float" class="solr.FloatField"/> ... < field name="id" type="string" indexed ="true" stored ="true" required ="true" /> <field name="body" type="text" indexed="true" stored="true"/> <field name="teaser" type="text" indexed="false" stored="true"/> <field name="type" type="string" indexed="true" stored="true"/> <field name="type_name" type="string" indexed="true" stored="true"/> <field name="path" type="string" indexed="true" stored="true"/> ... <uniqueKey>id</uniqueKey> <defaultSearchField>body</defaultSearchField> ...

La struttura dei dati I campi sono analizzati/filtrati sia in ingresso (index time) che in uscita (query time) [...] <fieldType name="text" class="solr.TextField"> <analyzer type="index"> <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/> <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> </analyzer> <analyzer type="query"> <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/> <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> </analyzer> </fieldType> [...] Drupal + Apache SOLR – Claudio Cicali

Drupal + Apache SOLR – Claudio Cicali Tutto molto bello, ma... Sebbene la definizione dello SCHEMA.XML rappresenti la parte più complessa e caratteristica della configurazione di un server SOLR, questo lavoro per quanto riguarda l'integrazione con Drupal è già fatto . Il modulo che integra Drupal con SOLR, infatti, provvede anche uno SCHEMA.XML pronto all'uso (e anche un solrconfig.xml).

Drupal + Apache SOLR – Claudio Cicali Mettiamolo in moto... Versione corrente, SOLR 1.4, 10 novembre 2009 SOLR è una web application Java e per funzionare ha dunque bisogno di un servlet container Appena scaricato SOLR è comunque pronto all'uso: insieme a lui viene distribuito Jetty Per provarlo non è dunque necessario essere degli esperti J2EE In produzione è caldamente consigliato l'utilizzo di Tomcat

Drupal + Apache SOLR – Claudio Cicali Una volta partito SOLR attiva due listener HTTP . Uno per le richieste applicative (ricerca e aggiornamento indici) e uno che fornisce una (orribile) interfaccia di amministrazione

Drupal + Apache SOLR – Claudio Cicali Interfaccia di “ispezione”

Drupal + Apache SOLR – Claudio Cicali Interfaccia di “ispezione” SOLR “full interface”

Risposta XML Drupal + Apache SOLR – Claudio Cicali

Drupal + Apache SOLR – Claudio Cicali Sommario dei componenti

Drupal + Apache SOLR

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Drupal + Apache SOLR

Semelhante a Drupal + Apache SOLR (20)

Drupal + Apache SOLR