3. Bio
Andrés Eyherabide
Business Analytics Tech Lead
Andrés es un especialista en el campo de Business Analytics, con
más de 10 años de experiencia trabajando con diversos vendors
como SAS, MicroStrategy, Oracle, Business Objects y plataformas
open source como Pentaho y R. Posee amplia experiencia en el
liderazgo de proyectos internacionales de BI con un enfoque ágil y
equipos de trabajo distribuidos para clientes como HP, Intel, GE,
BBVA, Aon, Banelco, etc.
Ing. en Sistemas de Información (UTN) y especializado en Data
Mining (Universidad Austral), Andrés se ha desempeñado en el
pasado como Arquitecto y Tech Lead en empresas de la talla de
IBM, Grupo ASSA y SAS, y es co-fundador de Datalytics.
6. Studios
Cloud Computing
Managed Services
Information Security
Data Architecture
Data Science
Data Visualization
Hybrid
Native
E-commerce
Content Management
Travel
User Experience
Visual Design
Front-End Engineering
Digital Marketing
Test Automation
Mobile Testing
Game QA
PODS
Digital Platforms
Game Development
Graphic Engineering
Collaboration Solutions
Process Engineering Tools
7. Big Data & High Performance Studio
Muchas empresas en industrias como finanzas, IT y
telecomunicaciones requieren software diseñado para alcanzar
niveles extremadamente altos de seguridad, alta disponibilidad y
performance de manera tal de poder manejar altos volúmenes de
datos o transacciones.
Desarrollamos software seguro y preparado para manejar grandes
volúmenes de información. Nuestro software escalable le permite a
nuestros clientes manejar las diferentes fases del ciclo de vida de los
.
datos, asegurando alta performance y disponibilidad.
Proveemos maestría en algoritmos, modelado de datos, sistemas de
alta disponibilidad y performance, usando las últimas tecnologías,
plataformas y lenguajes, tanto open source como propietarios.
.
8. High Performance Solution Studio
Reliability
Data lifecycle management
Improve IT infrastructure costs
High available platforms
Patterns discovery
and performance
Transactional systems
Predictive algorithms
De-risking customer's growth
High security
Data visualization
10. Cuán crítica es la información?
●
●
●
Los datos constituyen uno de los
principales activos de las
compañías
De acuerdo a Gartner, los
ejecutivos hoy usan sólo 10% de
la información disponible para la
toma de decisiones
Existe un importante potencial
para incrementar el “IQ” de las
compañías a través del análisis
de sus datos
11. Un día en la oficina...
Qué nuevas geografías
deberíamos incluir en nuestro
objetivo de venta?
Cuán efectivas son
nuestras acciones
de MKT?
Cuál es la
rentabilidad del
producto X?
Nuestras ventas
presentan estacionalidad?
Cuántos de nuestros
clientes migrarían a la
competencia si subimos
el precio un X%?
Dónde están
nuestros clientes
más rentables?
13. Que impide a las empresas usar sus datos?
●
●
●
●
●
●
●
●
●
●
●
Islas de información: datos dispersos en diferentes áreas, sistemas y arquitecturas
Visión incompleta: solo se ve el árbol, pero no el bosque
Falta de una única visión de la verdad, multiplicidad de criterios y terminologías
La información no se encuentra actualizada
Pobre calidad de datos: los sistemas transaccionales y su carga manual suelen presentar problemas de
calidad de datos
Los sistemas no están preparados para responder en tiempo y forma las preguntas del negocio
Pareto invertido: los analistas pasan más tiempo recolectando y masajeando datos que analizandolos
Complejidad: los datos son guardados en estructuras que los usuarios no saben explotar
Diversidad de fuentes: no solo BD y Excel. Se sumaron redes sociales y sistemas en la nube
Big Data: la información se está duplicando cada 2 años, y el 80% es data no estructurada
En resumen: la información nunca está disponible cuando se la necesita
14. La solución
Datos
Tomadores de Decisión
VSAM
MQSeries
AS/400
DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
Flat File
FTP/SFTP
Cloud Apps
Social Nets
Web Logs
Extract
Transform
Clean
Load
Data
Warehouse
15. Que es Business Analytics?
●
●
●
●
●
●
Lo que no se puede medir no se puede controlar...
Lo que no se puede controlar no se puede mejorar
Los datos constituyen uno de los mayores activos con el que cuenta cualquier empresa, los cuales en
general son pobremente explotados y analizados.
Business Analytics se trata de saber...
○
Que pasó?
○
Que esta pasando?
○
En base a la información que tenemos, que puede ocurrir?
Business Analytics se refiere al conjunto de procesos que se realiza sobre los datos utilizando
tecnologías de la información para proveer a la empresa/organización de información para la toma de
decisiones.
Se trata de una disciplina o proceso de negocio, no una tecnología.
16. Soporte a todos los niveles de análisis
Alta
Detección de patrones fraudulentos
Si conocemos quiénes compraron un producto
¿quiénes más lo comprarán?
¿Ventas del mes, por producto, canal, clientes?
¿Quién está fuera del rango normal?
¿Cuántos nuevos clientes adquirimos?
Baja
Complejidad de Análisis
17. Soporte a todos los niveles de análisis
Alta
Data Science
Data Visualization & Discovery
Análisis estadístico básico
Query & Reporting
Baja
Complejidad de Análisis
18. Dato, información y conocimiento
Conocimiento
Información
●
Dato
●
●
●
●
●
Resultado directo de una
observación
Fácilmente capturados,
estructurados y
transferidos
Tiene relevancia y un
propósito
Necesita de la intervención
humana
Sujeta a la capacidad de
análisis del interpretador
●
●
Entendimiento que se da en la
mente a la información
Difícil de estructurar,
transferir y capturar en
máquinas
Frecuentemente tácita y su
documentación no tiene lugar
19. Sistemas OLTP vs. Sistemas OLAP
●
●
●
●
●
●
Los sistemas transaccionales, llamados OLTP (On-Line Transaction Processing) están orientados a
soportar el día a día de una organización
Sus bases de datos poseen datos detallados y actuales, diseñados generalmente en 3FN para eliminar
la redundancia de datos y almacenamiento en disco. Se caracterizan por un gran número de cortas
transacciones en línea (INSERT, UPDATE, DELETE)
No aptos para responder consultas que incluyan grandes volúmenes de información y consolidación
de datos en tiempos satisfactorios
Los sistemas analíticos, llamados OLAP (On-Line Analytical Processing) se caracteriza por un
volumen relativamente bajo de consultas a menudo muy complejas e implican agregaciones
Para los sistemas OLAP un tiempo de respuesta es una medida de eficacia
Sus bases de datos se caracterizan por guardar información histórica, almacenados generalmente en
un esquema en estrella
20. Sistemas OLTP vs. Sistemas OLAP
Sistemas OLTP
●
●
●
●
●
●
●
●
●
Almacena datos actuales
Almacena datos de detalle
Los datos son dinámicos (van cambiando en el
tiempo)
Las transacciones son repetitivas
El número de transacciones es elevado
Dedicado al procesamiento de transacciones
Orientado a los procesos de la organización
Soporta operatoria diaria
Sirve a muchos usuarios administrativos
Sistemas OLAP
●
●
●
●
●
●
●
●
●
Almacena datos históricos
Almacena datos de detalle y datos agregados a
distintos niveles
Los datos son estáticos
Los procesos no son previsibles
El número de transacciones es bajo o medio
Dedicado al análisis de datos
Orientado a la información relevante
Soporta decisiones estratégicas
Sirve a analistas y tomadores de decisión
21. Una Arquitectura Típica
Data Integration
Data Viz & Discovery
VSAM
MQSeries
AS/400
DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
Flat File
FTP/SFTP
Cloud Apps
Social Nets
Web Logs
Extract
Transform
Clean
Load
Data Science
Data
Warehouse
24. Data Integration
●
●
Data
Integration
●
●
●
●
La integración de datos es la práctica que consiste en recolectar los datos de
diversas fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un
Data Warehouse
El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load:
○ Extract: de los diversos sistemas transaccionales y fuentes
○ Transform: transformar los datos, cruzarlos, enriquecerlos, etc.
○ Load: cargar la información en un repositorio centralizado.
Las herramientas de ETL son herramientas visuales orientadas a Drag-AndDrop y zero-coding, lo que se traduce en mayor productividad del equipo de
desarrollo, menor time-to-value y un mantenimiento más sencillo
La herramienta de ETL debe poder conectarse a diversas fuentes y diversas
arquitecturas
Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo
cual se suele aplicar en esta etapa procesos de validación y limpieza (Data
Quality)
Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar
los sistemas transaccionales con pesadas consultas
26. Data Warehouse
●
●
●
●
●
●
●
●
●
El Data Warehouse es el corazón de toda solución de Business Analytics
Se trata de una base de datos centralizada que se alimenta de diferentes sistemas transaccionales
Es un repositorio orientado a dar respuesta a consultas de los analistas de negocio, modelado para
optimizar el tiempo de respuesta
No posee el mismo nivel de detalle que los sistemas transaccionales
Dado que los usuarios deben buscar y analizar tendencias y patrones, es una base por definición
histórica. Su tamaño puede crecer muy rápidamente
Si bien se puede implementar sobre motores tradicionales (Oracle, IBM DB2, MS SQL Server, etc.)
existen motores específicamente diseñados para el análisis de datos (Teratada, Greenplum, etc).
El Data Warehouse hace posible el concepto de única versión de la verdad, ya que cualquier análisis
que se realice en la organización se debe hacer a partir de la información contenida en el DW, o
derivada de este.
También se suele hablar de Data Marts. El concepto es el mismo, pero su alcance es más acotado,
generalmente enfocado en las necesidades de un área en particular.
Clave: historia, provee relevancia y contexto a lo largo del tiempo.
27. Modelado Dimensional
●
●
A diferencia de los sistemas OLTP, los DW se modelan de acuerdo a los lineamientos y mejores
prácticas del modelado dimensional (ver obra de Ralph Kimball).
Optimizado para consultas ad-hoc sobre grandes volúmenes de datos con agregaciones dinámicas.
Producto
Empleado
Geografía
Ventas
Tiempo
●
●
●
Cliente
Tablas de dimensión: 1 tabla (o varias) por cada entidad del negocio o eje de análisis. Aportan
contexto y definen la apertura que tendrán los KPIs: Cliente, Tiempo, Producto.
Tabla de hechos: tabla que contiene 1 columna por cada KPI a analizar: importe, cantidad, ticket
promedio, etc. Además de los KPI cuenta con 1 columna por cada tabla de dimensión.
A esto se lo conoce comúnmente como esquema o modelo estrella.
28. Dimensiones y Métricas - What and By
●
Regla semántica: métricas por dimensión. Ej: costo por empleado por año.
29. 3FN vs. Modelo Estrella
●
●
El modelo estrella presenta cierto grado de desnormalización para aplanar tablas y reducir joins
Se privilegian los tiempos de lectura sobre los de escritura
30. Data Visualization & Discovery
Data Integration
Data Viz & Discovery
VSAM
MQSeries
AS/400
DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
Flat File
FTP/SFTP
Cloud Apps
Social Nets
Web Logs
Extract
Transform
Clean
Load
Data
Warehouse
31. Data Visualization & Discovery
●
●
●
Data Viz &
Discovery
●
●
●
●
La presentación de los datos afecta como la información es interpretada por
los usuarios y el valor que obtienen de ella
Para mejorar la UX y aumentar el valor de la solución, debemos proveer a los
usuarios de una plataforma interactiva que les permita navegar grandes
volúmenes de datos a la velocidad del pensamiento
En lugar de los clásicos reportes y dashboards, se busca que el usuario
pueda elegir que analizar, a que nivel de agregación, y en que formato lo
quiere visualizar
El Data Discovery permite explorar la información para detectar tendencias y
patrones ocultos, reduciendo la dependencia de IT
Las interacciones gráficas con los datos mediante un navegador web se han
convertido en un standard, gracias a tecnologías como AJAX, JS y HTML5
El tiempo de respuesta es un factor crítico, por lo que se suele recurrir a
diferentes tecnologías como bases de datos analíticas (OLAP, column
orientated, etc.) e In-Memory analytics
El Visual Discovery libera a los usuarios de algunas limitaciones típicas del
BI como las preguntas predefinidas y respuestas conocidas (ej.: ventas por
región).
33. Data Science
Data Integration
Data Viz & Discovery
VSAM
MQSeries
AS/400
DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
Flat File
FTP/SFTP
Cloud Apps
Social Nets
Web Logs
Extract
Transform
Clean
Load
Data Science
Data
Warehouse
34. Data Science
●
●
Data
Science
●
Data Science consiste en la extracción de información que reside de manera
implícita en los datos mediante técnicas estadísticas y/o diversos
algoritmos del campo de la inteligencia artificial.
Existen 2 grandes tipos de técnicas:
○
Modelos descriptivos: entender más sobre la actualidad
○
Modelos predictivos: tratar de predecir que va a pasar
Algunos ejemplos de aplicaciones prácticas de DM:
○
Caracterización de perfiles de clientes para definir acciones de MKT,
ofertas, etc.
○
Gestión de campañas, predicción de respuestas
○
Canasta de consumo. Determinación de Paquetes de productos Ofertas
○
Detección/Prevención de fraudes
○
Modelos de predicción de abandono (Attrition/Churn)
○
Programas de millaje y fidelización de clientes
○
Optimización de stock y modelos de proyección de demanda.
35. Vendors y Tecnologías de Business Analytics
Data Integration
SQL Data Storage
Data Visualization & Discovery
Data Science
36. Claves para el éxito
●
●
●
●
●
●
●
●
●
Participación: contar con el apoyo de la organización e Involucrar a usuarios claves
Priorizar los Quick-Wins en lugar de buscar el efecto Big-Bang, acelerando el time-to-value y ROI
Single Version of the Truth: la solución debe aportar una visión unificada de la realidad, recolectando
y consolidando información de diversos sistemas, normalizando y estandarizando la información
Data Quality: difícilmente se puedan tomar buenas decisiones a partir de datos incorrectos. Una pobre
calidad de datos pone en jaque la confianza de la solución a los ojos de los usuarios
Self-Service: la solución debe estar orientada a que los usuarios puedan explotar e interactuar ellos
mismos la información, navegando las dimensiones, seleccionando las métricas, reduciendo su
dependencia de las áreas de IT
Analytics: Menos tiempo recolectando datos, y más tiempo para analizarlos! La solución debe ser una
herramienta que permita el análisis de la información, y no simplemente un medio para descargar
miles de datos crudos a nivel transaccional
Anytime, anywhere: Acceso a información actualizada desde cualquier lugar y dispositivo, 24x7
Data Governance: resguardar el acceso a la información de acuerdo a perfiles de usuario
Agile: La solución debe ser ágil, escalable y evolutiva, de manera de poder acompañar al negocio e
incorporar constantemente información de nuevos sistemas, nuevos indicadores, y permitir análisis
cada vez de mayor valor para la organización
37. Desafíos por delante
●
●
●
●
●
●
●
●
●
Social Intelligence
Cloud-based platforms
Mobile BI
Big Data Analytics
Embedded Analytics
Geospatial Analytics
Real Time Analytics
Audiencia y público objetivo
Agile BI
39. HUB International
HUB International
Creación de una única versión de la verdad, integrando datos de
diferentes sistemas a un Enterprise Data Warehouse.
Desarrollo cubos In-Memory para proveer capacidades de selfservice Data Discovery a la velocidad del pensamiento.
Mejoras en la experiencia de usuario con visualizaciones
avanzadas como mapas interactivos (Geo Analytics).
Customización del modelo de seguridad para aportar mayor
flexibilidad en el control de acceso a la información.
Mejoras en el modelo dimensional y tuning general para mayor
performance contra grandes volúmenes de datos.
Tools & Technologies
Pentaho Business Analytics
Microsoft Integration Services (SSIS)
Microsoft SQL Server
40. Mindshare
Mindshare
Diseño de un modelo dimensional para consolidar
información de múltiples plataformas de web analytics.
Desarrollo de procesos automáticos para extraer datos de la
nube y cargarlos en el modelo dimensional.
Creación de varios cubos OLAP, habilitando análisis de tipo
ad-hoc usando técnicos como drill-down y slice-&-dice
Evaluación y POCs con diferentes tecnologías de Data Viz &
Discovery: Pentaho, QlikView y Tableau.
Tools & Technologies
Microsoft Integration Services (SSIS)
Microsoft SQL Server
Microsoft Analysis Services (SSAS)
Microsoft PowerPivot
41. Claro
Claro
Creación de un Data Mart Comercial con información sobre
las ventas e instalaciones de productos y servicios.
Desarrollo de procesos automáticos para recolectar y
consolidar la información proveniente del ERP.
Implementación de un dashboard que permite a los usuarios
filtrar y analizar los datos por regiones, canales de
distribución, segmentos, etc.
Análisis de tendencias de ventas e instalaciones mediante
series de tiempo.
Tools & Technologies
Oracle 11g
OBIEE 11g
Microsoft SQL Server
Access
42. Amadeus
Amadeus
Desarrollo de una Web UI para cadenas hoteleras,
otorgándoles acceso a la información y la posibilidad de
crear sus propios dashboards y reportes.
La solución le brindó a los hoteles y cadenas la posibilidad
de recolectar y analizar datos del comportamiento y
actividad de sus clientes.
Embedded Analytics: solución desarrollada con la
plataforma de BI de Amadeus (Oracle BI Enterprise Edition)
Frameworks
OBIEE 11g
jQuery
HMTL5
Java
43. MoneyGram International
MoneyGram International
Desarrollo de un modelo para detectar operaciones financieras
fraudulentas, basándose en patrones y comportamientos
fraudulentos observados con anterioridad.
Modelo híbrido basado en clustering y árboles de decisión.
Dado que esta clase de sistemas requieren de monitoreo y
ajustes, se implementaron procesos automáticos y alertas
para informar degradación en la performance del modelo.
Tools & Technologies
R