Aplicando elasticidad en la búsqueda con Grails

Aplicando elasticidad a
la búsqueda en Grails
Enrique Medina Montenegro
@emedinam

Índice

1. Acerca del ponente

2. Si buscas, encontrarás

3. Elasticidad en la búsqueda

4. Preguntas y respuestas

5. Contacto

2


•Ingeniero en Informática (Univ. Alicante -
1991/1996)

•Fundador del y el

•Socio fundador/desarrollador de
•Colaborador de la comunidad “Open Source”
•Más de 4 años usando Groovy/Grails
•Blogger, liberal, padre, emprendedor, mac-ero

3

Índice





5. Contacto

4


Búsqueda y recuperación de
información
“Es la ciencia de la búsqueda de información en documentos electrónicos y cualquier tipo de colección
documental digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que
describan documentos, o también la búsqueda en bases de datos relacionales, ya sea a través de
internet, intranet, y como objetivo realiza la recuperación en textos, imágenes, sonido o datos de otras
características, de manera pertinente y relevante.”

Fuente: Wikipedia

5


Búsqueda ‘full text’
(por texto completo)
“En recuperación de textos/documentos, la búsqueda por texto completo se reﬁere a las técnicas para la
búsqueda de documentos simples o colecciones de ellos en un almacenamiento computerizado a partir de
unidades gramaticales simples. Se distingue de otras búsquedas porque examina todas y cada una de las
palabras almacenadas en un documento para, posteriormente, examinar si coinciden con un determinado
criterio de búsqueda.”

Fuente: Wikipedia

6


•Empecemos por lo que conocemos, las bases de
datos (BBDD):


datos (BBDD):

‣ Indexación tradicional
CREATE INDEX idx_nombre ON cliente (nombre)


datos (BBDD):

‣ Indexación tradicional
CREATE INDEX idx_nombre ON cliente (nombre)

‣ Indexación de texto completo
CREATE FULLTEXT INDEX idx_desc ON producto (descripcion)


•Indexación por texto completo:

9


‣ Funciones de búsqueda de texto completo
MATCH (col1,col2,...) AGAINST (expr [IN NATURAL LANGUAGE MODE | IN NATURAL
LANGUAGE MODE WITH QUERY EXPANSION | IN BOOLEAN MODE | WITH QUERY EXPANSION])

9



★ Búsquedas en lenguaje natural
MATCH (titulo, cuerpo) AGAINST (‘tutorial’ IN NATURAL LANGUAGE MODE)

9




★ Búsquedas booleanas de texto completo
MATCH (titulo, cuerpo) AGAINST (‘+Grails -Ruby’ IN BOOLEAN MODE)

9




★ Búsquedas booleanas de texto completo
MATCH (titulo, cuerpo) AGAINST (‘+Grails -Ruby’ IN BOOLEAN MODE)

★ Búsquedas con expansión de consulta
MATCH (titulo, cuerpo) AGAINST (‘database’)
MATCH (titulo, cuerpo) AGAINST (‘database’ WITH QUERY EXPANSION)

9


•Limitaciones a la búsqueda por texto completo:

10


‣ Stopwords (5.1+)
a, ante, bajo, cabe, con, contra, de, desde, en, entre, hacia, hasta, ...

10



‣ Sólo tipos CHAR, VARCHAR, TEXT

10



‣ No existen analizadores que permitan deﬁnir:
★ Tokenizadores (división en palabras)

★ Filtros (mayúsculas/minúsculas, conversores
ASCII, supresión de etiquetas HTML, etc.)

★ Stemmers (raíz derivativa de una palabra)

10



‣ No existen analizadores que permitan deﬁnir:
★ Tokenizadores (división en palabras)

★ Filtros (mayúsculas/minúsculas, conversores
ASCII, supresión de etiquetas HTML, etc.)

★ Stemmers (raíz derivativa de una palabra)

‣ Consultas complejas (faceted, fuzzy, span, score)

10


•Otras BBDD que soportan texto completo:


•¿Y si sacamos la búsqueda fuera de la BBDD?:

Apache Lucene(TM) es una librería que implementa un
motor de búsqueda de texto completo de alto
rendimiento y que ha sido escrita enteramente en Java. Se
trata, pues, de una tecnología apropiada para casi
cualquier aplicación que requiera de búsquedas de texto
completo, independientemente de cuál sea su plataforma.


‣ Indexación escalable, de alto rendimiento
✓ Hasta 95GB/hora con hardware de última generación

✓ Requisitos de RAM mínimos -- tan sólo 1MB (pila)

✓ Indexación incremental tan rápida como indexación por lotes

✓ Tamaño del índice approx. 20-30% del tamaño real del texto indexado






‣ Algoritmos de búsqueda potentes, precisos y eﬁcientes
✓ Búsquedas por puntuación -- los mejores resultados se devuelven los primeros

✓ Todo tipo de consultas: por frase, con comodines, por proximidad, por rango, etc.

✓ Búsquedas por campos, con ordenación por cualquier campo

✓ Búsquedas por múltiple índice combinadas

✓ Permite indexación y búsqueda simultánea






‣ SoporteAlgoritmos de búsqueda potentes, precisos y eﬁcientes
‣ multi-plataforma
✓ Disponible como software Open frase, con bajo licencia de Apache
✓ Todo tipo de consultas: por
Source comodines, por proximidad, por rango, etc.

✓ ✓ puro
100% Java Búsquedas por campos, con ordenación por cualquier campo
✓ Implementaciones en otros lenguajes con compatibilidad de índices






‣ Algoritmos de búsqueda potentes, precisos y eﬁcientes

✓ Todo tipo de consultas: por frase, con comodines, por proximidad, por rango, etc.

✓ Búsquedas por campos, con ordenación por cualquier campo



‣ Soporte multi-plataforma
✓ Disponible como software Open Source bajo licencia de Apache
✓ 100% Java puro
✓ Implementaciones en otros lenguajes con compatibilidad de índices


‣ Ecosistema de proyectos relacionados:


‣ Ecosistema de proyectos relacionados:
✓ Apache Hadoop
✓ Apache Solr
✓ Apache ManifoldCF
✓ Apache Lucene.NET
✓ Apache Lucy
✓ Apache Mahout
✓ Apache Nutch
✓ Apache OpenNLP
✓ Apache Tika
✓ Apache Zookeeper


‣ Simpliﬁcación en la búsqueda sobre Lucene:
✴ API de Lucene complicada - Muy bajo nivel
✴ Proporciona un mapeador OR fácil de usar
✴ Distintos formatos: Object, XML, JSON, Resource
✴ Capa transaccional con integración JTA/XA
✴ Utiliza Spring e incorpora TX, MVC y AOP
✴ Soporta índices distribuidos: BBDD / Data Grid


‣ Pero, ¿cómo mejorar si cabe más Compass?:
✴ Solución mucho más escalable / distribuida
✴ Características de búsqueda simpliﬁcadas:
➡ Facets (multifacética): estadísticas, etc.
➡ Difusa / “Como ésta”
➡ Puntuación personalizada/derivada
➡ Filtros: geodistancia, rangos, etc.
✴ JSON sobre HTTP, RESTful, Groovy


elasticsearch.

Índice





5. Contacto

18

‣ Ya sabes, para Buscar:
★ Open Source (Apache 2)
★ Motor distribuido, RESTful, sobre Lucene
‣ Libre de esquema & Orientado a Documento:
★ Modelo NoSQL basado en JSON
‣ Búsqueda:
★ DSL basado en JSON: queries, facets, highlighting, scripting, percolator,
geobúsquedas, etc.
★ Multi-tenancy: búsqueda por múltiples índices
‣ Distribuido:
★ Índices --> fragmentos (shards) --> réplicas
★ Cluster --> nodos --> 1..n fragmentos
★ Balanceo, enrutado, tolerancia a fallos (Gateway), etc.

19


✓ Integración en la aplicación
‣ Mediante plugin:
★ “As for now, you should only use this plugin for testing purpose since
you may lack some functionalities in a production environment”

‣ Directamente con la API de elasticsearch:
★ REST API --> Expuesta mediante HTTP, thrift, memcached
★ Java API --> Asíncrona, soporta 100% la REST API
★ Groovy API --> Asíncrona, envoltorio limitado sobre la Java API
‣ Clientes:
★ Node --> Se une al cluster como un nodo más y puede almacenar
información o no, incluso conﬁgurarse como cluster local
★ Transport --> No se une al cluster; conexión remota

20


DEMO
REST API
21


DEMO
ES PLUGIN
22


✓ Integración en la aplicación (...continua)
‣ Analizador propio de español

23


SpanishAnalyzer.java

23


SpanishAnalyzer.java

elasticsearch/conﬁg/elasticsearch.yml

23


‣ Creación del índice y mapeo del tipo ‘producto’

24



$ curl -XPUT 'http://localhost:9200/cuestamenos/' -d
'
{
settings : {
index : {
number_of_shards : 3,
number_of_replicas : 2
}
}
}
'

24


$ curl -XPUT 'http://localhost:9200/cuestamenos/producto/mapping' -d
'

'

24


‣ Conﬁguración del cliente

25



grails-app/conf/spring/resources.groovy

25



25


TransportClientFactoryBean.groovy

25

‣ Indexación por lotes (bulk indexing)

26


IndexRequestQueue.groovy

26

‣ Búsqueda avanzada

27

{
"from" : 0, size: 10,
"sort" : [ { "_score" : "desc" } ],
“query” : {
"filtered" : {
"query" : {
"bool" : {
"must" : { "field" : { "_all" : "horror" } },
"must" : { "field" : { “_all" : "noche" } }
}
},
"filter" : {

"bool" : {

"must" : { "term" : { "categorias1" : "Ocio y cultura" } },

"must" : { "term" : { "tienda" : "Casa del Libro" } }

}
}
}
},
"facets" : {
"categorias2" : {
"terms" : {
"field" : "categorias2",
"size" : 10
},
"facet_filter" : {
"term" : { "categorias1" : "Ocio y cultura" }
}
},
"tienda" : {
"terms" : {
"field" : "tienda",
"size" : 10
},
"facet_filter" : {
"term" : { "tienda" : "Casa del Libro" }
}
}
}
}

27

{
‣ Búsqueda avanzada "from" : 0, size: 10,
"sort" : [ { "_score" : "desc" } ],
“query” : {
"filtered" : {
"query" : {
"bool" : {
}
},
"filter" : {

"bool" : {



}
}
}
},
"facets" : {
"categorias2" : {
"terms" : {
"size" : 10
},
"facet_filter" : {
}
},
"tienda" : {
"terms" : {
"size" : 10
},
"facet_filter" : {
}
}
}
}

27

{
"from" : 0, size: 10,
"sort" : [ { "_score" : "desc" } ],
“query” : {
"filtered" : {
"query" : {
"bool" : { ElasticSearchUtil.groovy
}
},
"filter" : {

"bool" : {



}
}
}
},
"facets" : {
"categorias2" : {
"terms" : {
"size" : 10
},
"facet_filter" : {
}
},
"tienda" : {
"terms" : {
"size" : 10
},
"facet_filter" : {
}
}
}
}

27

{
"from" : 0, size: 10,
"sort" : [ { "_score" : "desc" } ],
“query” : {
"filtered" : {
"query" : {
"bool" : {
}
},

"filter" : {
"bool" : { ElasticSearchUtil.groovy


}
}
}
},
"facets" : {
"categorias2" : {
"terms" : {
"size" : 10
},
"facet_filter" : {
}
},
"tienda" : {
"terms" : {
"size" : 10
},
"facet_filter" : {
}
}
}
}

27

{
"from" : 0, size: 10,
"sort" : [ { "_score" : "desc" } ], ElasticSearchUtil.groovy
“query” : {
"filtered" : {
"query" : {
"bool" : {
}
},
"filter" : {

"bool" : {



}
}
}
},
"facets" : {
"categorias2" : {
"terms" : {
"size" : 10
},
"facet_filter" : {
}
},
"tienda" : {
"terms" : {
"size" : 10
},
"facet_filter" : {
}
}
}
}

27


✓ En resumen...
‣ Añadir búsqueda de texto completo a tu aplicación es un juego de
niños con ElasticSearch

‣ Conﬁguración sin dolores de cabeza (para comenzar a trabajar)

‣ Funcionalidad compleja a tu alcance (facets, highlighting, percolator,
etc.) con JSON simple sobre HTTP

‣ ES no es un repositorio NoSQL, aunque se parece (orientado a
documentos sin esquema predeterminado)

‣ Distribuido, disponible, escalable, tiempo real, para la nube

28

Índice





5. Contacto

29

4. P & R

PREGUNTAS
&
RESPUESTAS
30

Índice





5. Contacto

31

5. Contacto

E-mail: e.medina.m@gmail.com

Twitter: @emedinam
@observadegrails
@cuestamenos

http://observatoriodegrails.com

http://forodegrails.com

http://cuestamenos.com

GRACIAS POR VUESTRA ATENCIÓN
32

Aplicando elasticidad en la búsqueda con Grails

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (18)

Semelhante a Aplicando elasticidad en la búsqueda con Grails

Semelhante a Aplicando elasticidad en la búsqueda con Grails (15)

Último

Último (11)

Aplicando elasticidad en la búsqueda con Grails

Notas do Editor