Introduccion a azure cognitive search. e integracion con sharepoint office 365 live
1.
2. P A T R O C I N A D O R E S
Comprometidos con una visión de
desarrollo social e integral que
generando un alto impacto el acceso al
conocimiento y favorezca la apropiación
social del mismo, las siguientes empresas
hacen posible la existencia de este gran
evento:
5. M I C R O S O F T
3 6 5 L I V E
Luis Valencia
MVP, OFFICE DEVELOPMENT
Arquitecto de Soluciones en PwC Bélgica
Office Development MVP - 4 yr.
18 yr de experiencia
Arquitecto Empresarial
Fundador: Brussels Developers User Group
Co-fundador: #SOMOSLULOTV
Twitter: @levalencia
Blog: www.luisevalencia.com
6. • Introducción
• Beneficios basicos
• Arquitectura
AGENDA
• Búsqueda con IA
• Usando Azure Search desde Sharepoint
7. Que es Azure Search
Azure Search es un servicio en la nube de Microsoft que da
a los desarrolladores APIs y herramientas para agregar
experiencias de búsqueda a aplicaciones, web, móviles y
aplicaciones empresariales, donde las consultas se realizan
sobre un índice definido por el usuario.
8. Beneficios
• Cree un índice de búsqueda que contenga solo sus
datos, provenientes de múltiples tipos de contenido y
plataformas.
• Aproveche los enriquecimientos de AI para extraer texto
y características de archivos de imagen, o entidades y
frases clave de texto sin formato.
• Cree experiencias de búsqueda intuitivas con
navegación por facetas y filtros, sinónimos,
autocompletado y análisis de texto para términos de
búsqueda autocorregidos. Obtenga ajustes de relevancia
a través de funciones y lógica de refuerzo.
• Cree aplicaciones de búsqueda para casos de uso
específicos. La búsqueda geográfica admite una
experiencia de "buscar cerca de mí". La búsqueda
multilingüe se admite a través de analizadores de
idiomas para la búsqueda de texto completo que no está
en inglés.
9. Características principales
• La búsqueda de texto completo es un caso de uso principal para la mayoría de
las aplicaciones basadas en búsquedas. Las consultas se pueden formular
utilizando una sintaxis compatible.
• La sintaxis de consulta simple proporciona operadores lógicos, operadores de
búsqueda de frases, operadores de sufijos, operadores de precedencia.
• La sintaxis de consulta de Lucene incluye todas las operaciones en sintaxis
simple, con extensiones para búsqueda difusa, búsqueda de proximidad,
refuerzo de términos y expresiones regulares.
Búsqueda de texto completo
• La puntuación simple es un beneficio clave de Azure Search. Los perfiles de puntuación
se utilizan para modelar la relevancia en función de los valores en los propios
documentos. Por ejemplo, es posible que desee que los productos más nuevos o los
productos con descuento aparezcan más arriba en los resultados de búsqueda.
También puede crear perfiles de puntaje utilizando etiquetas para puntajes
personalizados basados en las preferencias de búsqueda de clientes que ha rastreado
y almacenado por separado.
Puntuación o relevancia
• Azure Search procesa, filtra y muestra ubicaciones geográficas. Permite a los usuarios
explorar datos basados en la proximidad de un resultado de búsqueda a una ubicación
física.
Geo búsqueda
10. Características principales
• La navegación por facetas se habilita a través de un único parámetro de consulta.
Azure Search devuelve una estructura de navegación facetada que puede usar como
código detrás de una lista de categorías, para el filtrado autodirigido (por ejemplo,
para filtrar elementos del catálogo por rango de precios o marca).
• Los filtros se pueden utilizar para incorporar navegación facetada en la interfaz de
usuario de su aplicación, mejorar la formulación de consultas y filtrar según los
criterios especificados por el usuario o el desarrollador. Cree filtros con la sintaxis de
OData.
Filtros y facetas
• El autocompletado se puede habilitar para consultas de escritura anticipada en una
barra de búsqueda.
• Las sugerencias de búsqueda también funcionan a partir de entradas de texto
parciales en una barra de búsqueda, pero los resultados son documentos reales en su
índice en lugar de términos de consulta.
• Los sinónimos asocian términos equivalentes que amplían implícitamente el alcance
de una consulta, sin que el usuario tenga que proporcionar los términos alternativos.
• El resaltado de resultados aplica el formato de texto a una palabra clave coincidente
en los resultados de búsqueda. Puede elegir qué campos devuelven fragmentos
resaltados.
• La ordenación se ofrece para múltiples campos a través del esquema de índice y luego
se alterna en el momento de la consulta con un solo parámetro de búsqueda.
• La paginación y la aceleración de sus resultados de búsqueda es sencilla con el control
finamente ajustado que ofrece Azure Search sobre sus resultados de búsqueda.
Características de experiencia de usuario
11. Características IA
•La búsqueda cognitiva de imágenes y análisis de texto se puede aplicar a
una canalización de indexación para extraer información de texto del
contenido sin procesar. Algunos ejemplos de habilidades incorporadas
incluyen el reconocimiento óptico de caracteres (que permite buscar
archivos JPEG escaneados), el reconocimiento de entidades (identificación
de una organización, nombre o ubicación) y el reconocimiento de frases
clave. También puede codificar habilidades personalizadas para adjuntar a
la tubería.
Documentos enriquecidos con Inteligencia Artificial
•Knowledge Store (vista previa) es una extensión de la indexación basada
en IA. Con Azure Storage como backend, puede guardar los
enriquecimientos creados durante la indexación. Estos artefactos se
pueden usar para ayudarlo a diseñar mejores conjuntos de habilidades o
crear formas y estructuras a partir de datos amorfos o ambiguos. Puede
crear proyecciones de estas estructuras que se dirijan a cargas de trabajo
o usuarios específicos. También puede analizar directamente los datos
extraídos o cargarlos en otras aplicaciones.
Enriquecimientos almacenados para análisis y consumo.
12. Importación de Datos e
indexación
•Los índices de Azure Search aceptan datos de cualquier fuente, siempre que se presenten
como una estructura de datos JSON.
•Los indexadores automatizan la ingestión de datos para las fuentes de datos de Azure
compatibles y manejan la serialización JSON. Conéctese a Azure SQL Database, Azure Cosmos
DB o Azure Blob Storage para extraer contenido de búsqueda en almacenes de datos primarios.
Los indexadores de blobs de Azure pueden realizar el craqueo de documentos para extraer
texto de los principales formatos de archivo, incluidos documentos de Microsoft Office, PDF y
HTML.
Fuentes de datos
•Los tipos y colecciones complejas le permiten modelar prácticamente cualquier tipo de
estructura JSON como índice de Azure Search. La cardinalidad de uno a muchos y de muchos a
muchos se puede expresar de forma nativa a través de colecciones, tipos complejos y
colecciones de tipos complejos.
Estructuras de datos jerárquicas y complejas
•Los analizadores son componentes utilizados para el procesamiento de texto durante las
operaciones de indexación y búsqueda. Hay dos tipos.
•Los analizadores léxicos personalizados se utilizan para consultas de búsqueda complejas
utilizando coincidencias fonéticas y expresiones regulares.
•Los analizadores de idiomas de Lucene o Microsoft se utilizan para manejar de manera
inteligente la lingüística específica del idioma, incluidos los tiempos verbales, el género, los
sustantivos en plural irregulares (por ejemplo, 'mouse' vs. 'mouse'), descomposición de
palabras, separación de palabras (para idiomas con sin espacios) y más.
Análisis lingüístico
13. • Creando un recurso de Azure Search
• Indexando nuestro primer set de
datos con el Wizard
DEMO
14. Proceso de consulta
• El procesamiento de una consulta de búsqueda de texto completo
comienza con el análisis del texto de la consulta para extraer los términos
de búsqueda. El motor de búsqueda utiliza un índice para recuperar
documentos con términos coincidentes. Los términos de consulta
individuales a veces se dividen y se reconstituyen en nuevas formas para
proyectar una red más amplia sobre lo que podría considerarse como una
coincidencia potencial. Un conjunto de resultados se ordena por una
puntuación de relevancia asignada a cada documento coincidente
individual. Los que están en la parte superior de la lista clasificada se
devuelven a la aplicación de llamada.
• La ejecución de la consulta tiene cuatro etapas:
• Análisis de consultas
• Análisis léxico
• Recuperación de documentos
• Puntuación
• El diagrama ilustra los componentes utilizados para procesar una solicitud
de búsqueda.
16. Búsqueda cognitiva
Las habilidades cognitivas en Azure Cognitive Search se basan en modelos
de aprendizaje automático en API de servicios cognitivos: visión por
computadora y análisis de texto. (https://azure.microsoft.com/en-
us/services/cognitive-services/#api)
El procesamiento de imágenes y lenguaje natural se aplica durante la fase
de ingestión de datos, y los resultados se convierten en parte de la
composición de un documento en un índice de búsqueda en Azure
Cognitive Search. Los datos se obtienen como un conjunto de datos de
Azure y luego se envían a través de una canalización de indexación
utilizando las habilidades integradas que necesite. La arquitectura es
extensible, por lo que si las habilidades integradas no son suficientes,
puede crear y adjuntar habilidades personalizadas para integrar el
procesamiento personalizado. Los ejemplos pueden ser un módulo de
entidad personalizado o un clasificador de documentos dirigido a un
dominio específico como finanzas, publicaciones científicas o medicina.
17. Paso 1: fase de conexión y
descifrado de documentos
Al comienzo de la canalización (pipeline), tiene contenido no estructurado
de texto o sin texto (como archivos JPEG de imágenes y documentos
escaneados). Los datos deben existir en un servicio de almacenamiento de
datos de Azure al que pueda acceder un indexador. Los indexadores
pueden "descifrar" los documentos fuente para extraer texto de los datos
fuente.
Las fuentes admitidas incluyen Azure Blob Storage, Azure Table Storage,
Azure SQL Database y Azure Cosmos DB. El contenido basado en texto se
puede extraer de los siguientes tipos de archivos: archivos PDF, Word,
PowerPoint, CSV.
18. Paso 2: Habilidades cognitivas y
fase de enriquecimiento Al
Tenemos contenido no estructurado de texto o sin texto (como archivos JPEG
de imágenes y documentos escaneados). Los datos deben existir en un servicio
de almacenamiento de datos de Azure al que pueda acceder un indexador. Los
indexadores pueden "descifrar" los documentos fuente para extraer texto de
los datos fuente.
El enriquecimiento es a través de habilidades cognitivas que realizan
operaciones atómicas. Por ejemplo, una vez que tiene contenido de texto de un
PDF, puede aplicar la detección de idioma de reconocimiento de entidad o la
extracción de frases clave para producir nuevos campos en su índice que no
están disponibles de forma nativa en la fuente. En conjunto, la colección de
habilidades utilizadas en su canalización se denomina conjunto de habilidades.
Un conjunto de habilidades se basa en habilidades cognitivas predefinidas o
habilidades personalizadas que usted proporciona y se conecta al conjunto de
habilidades. Un conjunto de habilidades puede ser mínimo o altamente
complejo, y determina no solo el tipo de procesamiento, sino también el orden
de las operaciones. Un conjunto de habilidades más las asignaciones de campo
definidas como parte de un indexador especifica completamente la
canalización de enriquecimiento.
19. Paso 3: índice de búsqueda y
acceso basado en consultas
Cuando finaliza el procesamiento, tiene un índice de búsqueda que consta
de documentos enriquecidos, con total búsqueda de texto en Azure
Search. Al consultar el índice, los desarrolladores y los usuarios acceden al
contenido enriquecido generado por la canalización.
El índice es como cualquier otro que pueda crear para Azure Search:
puede complementarlo con analizadores personalizados, invocar consultas
de búsqueda difusas, agregar búsqueda filtrada o experimentar con
perfiles de puntuación para remodelar los resultados de búsqueda.