2. Definición de Big Data
Aplicaciones
Casos de éxito conocidos
Casos de éxito en StrateBI
Aplicaciones más comunes
Demos Big Data StrateBI
Tecnologías
Clasificación
Infraestructura
Formación en Big Data
Big Data - Tecnologías y aplicaciones analíticas
3. Definición de Big Data
Aplicaciones
Casos de éxito conocidos
Casos de éxito en StrateBI
Aplicaciones más comunes
Demos Big Data StrateBI
Tecnologías
Clasificación
Infraestructura
Formación en Big Data
Big Data - Tecnologías y aplicaciones analíticas
4. Big Data: es resultado de los cambios que se han producido en la
naturaleza de los datos manejados por las organizaciones
Volumen: De Terabytes (103 Gb) a Petabytes (106)
Variedad: Datos estructurados + semi estructurados + no estructurados
Velocidad: Incremento de la velocidad a la que se generan y se
distribuyen los datos en las fuentes
Estas son las cuestiones principales que debemos plantearnos para
determinar si estamos ante un escenario Big Data
Definición de Big Data
5. Definición de Big Data
Aplicaciones
Casos de éxito conocidos
Casos de éxito en StrateBI
Aplicaciones más comunes
Demos Big Data StrateBI
Tecnologías
Clasificación
Infraestructura
Metodología Big Data StrateBI
Formaciones
Big Data - Tecnologías y aplicaciones analíticas
6. Campañas políticas del Partido Demócrata de EEUU (Barack Obama)
Integración de datos de encuestas, redes sociales, afiliados ...
Pronostican resultados con alta precisión (> 99%) y optimizan la
ubicación de la publicidad
Sistema de recomendación de Amazon.com
Aplicaciones – Casos de éxito conocidos
7. Bancos y aseguradoras como Morgan Stanley o ING Direct usan Big
Data
Detección de fraude
Análisis de riesgos en prestamos y seguros,
Prevención de la perdida de clientes (customer churn)
UPS invierte 1 millón de dólares al año en Big Data
Sensores en sus vehículos para optimizar la ruta/consumo de combustible,
mantenimiento, emisiones de CO2,...
Ahorra 50 millones de dólares en gasolina al año gracias a Big Data
Aplicaciones – Casos de éxito conocidos
8. DHL esta aplicando Big Data con éxito
Optimización de operaciones:
Optimización de rutas en tiempo real, recogida y entrega basada en grupos,
planificación estratégica de la red, planificación de la capacidad operativa…
La experiencia del cliente:
Gestión de la confianza del cliente, mejora continua del servicio y la
innovación de productos, la evaluación de riesgos y planificación de la
capacidad de recuperación…
Nuevos modelos de negocio:
Inteligencia de mercado para las pequeñas y medianas empresas, análisis de
la demanda financiera y de la cadena de suministros, verificación de
direcciones postales de entrega, inteligencia ambiental…
Aplicaciones – Casos de éxito conocidos
10. Definición de Big Data
Aplicaciones
Casos de éxito conocidos
Casos de éxito en StrateBI
Aplicaciones más comunes
Demos Big Data StrateBI
Tecnologías
Clasificación
Infraestructura
Formación en Big Data
Big Data - Tecnologías y aplicaciones analíticas
11. Boeing:
Optimización, mantenimiento y mejora de una plataforma Big
Data basada en la distribución Cloudera de Hadoop
Data Lake y plataforma de procesamiento de Big Data
Donde se almacenan distintos tipos de datos generados
Vuelos: rutas, tiempos, incidencias, meteorología…
Fabricación: piezas, duración,…
Distintos departamentos de I+D+i de la empresa puedan explorar
los datos para descubrir nuevas aplicaciones analíticas
En distintos procesos de la empresa: Seguridad, eficiencia, mejora
de proceso de fabricación…
Aplicaciones – Casos de éxito en StrateBI
13. Empresa tecnológica especialista en el sector retail:
Objetivo: Desarrollo de una módulo de analíticas como producto
complementario a su CRM
Big Data:
Volumen: Histórico con cientos de millones de tickets de venta (> 1
TB)
Variedad: Datos de ventas (CSV – semi estructurado) + otros (redes
sociales)
Velocidad: previsión de > 100.000 tickets diarios , 90 millones
anuales
Aplicaciones – Casos de éxito en StrateBI
14. Empresa tecnológica especialista en el sector retail:
Desarrollo de una solución Big Data – Hadoop basada en la
plataforma Hortonworks
Soporte a consultas analíticas interactivas (OLAP)
Data Warehouse Híbrido
Apache Hive + Oracle
Clasificación de productos dinámica del usuario
Procesos de Machine Learning
Sensibilidad de los precios a las fluctuaciones (ej. promociones)
Carrito de la compra
Productos cruzados
Producto gancho
Aplicaciones – Casos de éxito en StrateBI
15. Telefónica Educación - MiriadaX:
Desarrollo de una solución Big Data para el análisis de los datos
generados por la plataforma de cursos MOOC de Telefónica Educación
Arquitectura mixta
ETL: Pentaho Data Integration
DB: Cassandra (relacional, ML) + PostgreeSQL (Data Warehouse)
Visualización: Pentaho BI Server – Ctools (Dashboards)
Procesos Machine Learning (Apache Spark)
Implementación
Data Lake
Cuadros de Mando MiriadaX
Sistema de recomendación
Aplicaciones – Casos de éxito en StrateBI
17. Otros casos de éxito:
Análisis de los datos generados por un campo de placas solares
Análisis de Big Data para toma de decisiones en agricultura
Datos generados sensores cultivos + otros de tipo meteorológico
Generación de alertas y obtención de predicciones
Análisis de datos de redes sociales
Vigilancia tecnología para empresa de seguridad
Detección y prevención de ataques o escenarios peligrosos mediante el análisis
de datos de las redes sociales
Detección de tendencias en redes sociales para empresa de gestión de
contenidos digitales
Publicación inteligente de contenidos
Big Data
18. Análisis de los datos generados por un campo de placas solares
Big Data
19. Análisis real time de Big Data para toma de decisiones en agricultura
Big Data
21. Definición de Big Data
Aplicaciones
Casos de éxito conocidos
Casos de éxito en StrateBI
Aplicaciones más comunes
Demos Big Data StrateBI
Tecnologías
Clasificación
Infraestructura
Metodología Big Data StrateBI
Formaciones
Big Data - Tecnologías y aplicaciones analíticas
22. Data Lake:
Consiste en implementar una plataforma de datos Big Data, donde se
almacenarán datos de las distintas fuentes internas y externas de la
empresa
Los datos a almacenar son Big Data (cumplen las 3Vs)
Muy ligado a la tecnología del entorno Hadoop:
HDFS (sistema de archivos distribuido), MapReduce (procesamiento distribuido),
Hive (data warehouse), PIG (ETL), Spark (real time & data mining), Hbase (NoSQL),
Sqoop (carga relacionales),…
Es la forma menos costosa y arriesgada de adoptar Big Data
Enfoque bottom-up en fuentes de datos, herramientas Big Data, inversión en
infraestructura y desarrollo de aplicaciones…
No invasivo: Puede convivir con nuestras aplicaciones y sistemas previos sin
interferir en los mismos
Aplicaciones más comunes
23. Data Lake:
Permite la exploración de los datos y desarrollo iterativo de aplicaciones
para la extracción de conocimiento de los datos
Podemos no tener aplicaciones objetivo definidas a priori
Damos acceso a distintos perfiles usuarios: Departamentos de I+D+i,
desarrolladores, analistas, usuarios en clientes, …
Qué puedo hacer con un Data Lake
Ahorrar dinero: Almacenamiento de datos (muy bajo coste por MB), descubrimiento o
análisis iterativo de los datos almacenados sin necesidad de transformarlos
previamente (ej. datos menos estructurados), procesos ETL, enriquecimiento de los
datos, data warehousing,…
Ganar dinero: adquisición de nuevos clientes, retención de los existentes, desarrollo de
modelos predictivos (ej. demanda), mejorar efectividad del marketing, análisis de
sentimiento, sistemas de recomendación de productos, modelos de precios (ej.
sensibilidad a la variación), prevención de riesgos, detección de fraude, optimización de
la red, sistemas de alertas y prevención de incidencias en industria, ….
Aplicaciones más comunes
24. Data Lake:
Aplicaciones más comunes
Fuentes de datos Plataforma Big Data Aplicaciones
Dispositivos
ERP, CRM
Web
Relacional
Social
Sensores
Logs
CSV, Excel,
Txt
Analítica de datos
• Generación de informes
• Análisis OLAP
• Cuadros de Mando
Minería de datos
• Sistemas de recomendación
• Sistemas de clasificación
• Prediciones
• Análisis social de sentimiento
• Modelos de precios
• …
Otras aplicaciones
• Venta de datos como servicio
• Aplicaciones que combinan
algunas de las anteriores
• …Imagen Video
Social
Sensores
Relacional
Logs
25. Telemetría:
Implantación de sistemas para la recolección y análisis
de datos de medidas generadas por dispositivos
Muy ligado al concepto de Internet de las cosas (IoT)
Machine to Machine (M2M): Dispositivos que se comunican entre
sí
Los datos que generan son, en muchos casos, Big Data (las 3Vs)
Los dispositivos de medida
Cada vez son más baratos: RFID, Arduino…
Forman parte de accesorios indispensables: Teléfonos móviles,
ropa, vehículos, electrodomésticos, generadores eléctricos,…
Aplicaciones más comunes
26. Telemetría:
Aplicaciones más comunes
Sensores
Ropa Inteligente
Smartphones
Vehículos
Fuentes de datos Recolección Procesamiento en
tiempo real
Almacenamiento
Aplicaciones
Optimización
operaciones
Mantenimiento
preventivo
Seguridad
Venta de datos
como servicio
27. Telemetría:
Por ejemplo, recolección de datos de conducción
Objetivo: Identificación de perfiles de conductores (ej. seguro, agresivo,
económico…)
Cómo:
Dispositivo móvil del conductor: Aplicación móvil y GPS
Bonificaciones a los buenos conductores: descuentos en gasolina, seguros,
servicios legales, alquiler de vehículos…
Datos recogidos de la conducción se cruzan con datos de cartografía,
meteorología y otros.
Posibles interesados:
Operadores de flotas
Compañías de seguros
Aplicaciones más comunes
28. Análisis de ficheros de logs
Los datos de los ficheros de registro de actividad generados por distintas
aplicaciones o máquinas contienen mucha información potencialmente
útil
Avisos, errores, rastros que permiten recuperar eventos, tiempo de duración
de esos eventos...
Se generan de forma continua y a una gran Velocidad
Volumen de datos es muy elevado, múltiples máquinas generando logs
El análisis de los datos generado en tiempo real suele aportarnos un gran
valor
Sistema de alertas, prevención de incidencias, detección de ataques DDOS en
redes,….
Datos poco estructurados (texto separado por comas, campos que no
aparecen siempre…)
Aplicaciones más comunes
29. Análisis de ficheros de logs
Por ejemplo, análisis de clickstream de una web:
Los usuarios que acceden a una web dejan un rastro
de actividad en los logs del servidor
Algunas aplicaciones
Segmentación de usuarios
Mejora usabilidad de la web
Mejora sistemas de
recomendación de productos
Integración con datos de CRM
y BD operacional
Aplicaciones más comunes
30. Extensión del Data Warehouse:
Entornos Big Data donde se requiere la implementación de un Data
Warehouse que soporte consultas de baja latencia
Aplicaciones: vistas OLAP, informes y cuadros de mando dinámicos,…
Dos enfoques:
Arquitecturas híbridas
Apache Kylin: Motor OLAP en Hadoop
Aplicaciones más comunes
31. Extensión del Data Warehouse:
Apache Kylin: Motor OLAP en Hadoop
Sistema híbrido H-OLAP sobre Hadoop
Resuelve consultas de agregación (sumas, medias, recuentos,…)
sobre volúmenes > 10 billones de filas en pocos segundo
Soporte para aplicaciones OLAP (tablas dinámicas), generación de
informes o cuadros de mando
Descubre esta tecnología en nuestra demo Big Data
Vistas OLAP
http://bigdata.stratebi.com/kylin-olap/index.htm
Cuadros de mando
http://bigdata.stratebi.com/kylin-zeppelin/index.htm
Aplicaciones más comunes
33. Definición de Big Data
Aplicaciones
Casos de éxito conocidos
Casos de éxito en StrateBI
Aplicaciones más comunes
Demos Big Data StrateBI
Tecnologías
Clasificación
Infraestructura
Formación en Big Data
Big Data - Tecnologías y aplicaciones analíticas
34. En StrateBI hemos desarrollado una web de demos Big Data
Creemos que es la mejor forma de dar a conocer la tecnología Big Data
con la que trabajamos
El usuario puede interactuar con las demos y vislumbrar posibles casos
de aplicación
URL: http://bigdata.stratebi.com/
Demos Big Data StrateBI
35. Definición de Big Data
Aplicaciones
Casos de éxito conocidos
Casos de éxito en StrateBI
Aplicaciones más comunes
Demos Big Data StrateBI
Tecnologías
Clasificación
Infraestructura
Formación en Big Data
Big Data - Tecnologías y aplicaciones analíticas
36. Tecnologías Big Data
Los procesos y herramientas tradicionales de BBDD y Business
Intelligence se han visto superados por las características del Big
Data.
Esta situación ha propiciado el surgimiento y desarrollo de un
amplio abanico de tecnologías y herramientas para el
tratamiento del Big Data
La mayoría de estas tecnologías son Open Source
Problema (Know-How):
¿Qué tecnologías usar en escenario y cómo combinarlas para
rentabilizar con éxito la gestión y procesamiento del Big Data?
Tecnologías - Clasificación
38. Clasificación de las tecnologías Big Data
Podemos clasificar las tecnologías Big Data de las que hacemos
uso en StrateBI en 3 grandes grupos
Tecnologías - Clasificación
39. Cada tecnología es más adecuada para unas aplicaciones
Hadoop:
Entorno de procesamiento Big Data que da soporte a todos los tipos
de fuentes y procesamiento Big Data
Adquisición, procesamiento en batch y tiempo real, ETL, SQL,
Machine Learning, NoSQL, Reporting, OLAP,…
Aplicaciones analíticas: Optimizado para leer grandes
volúmenes de datos de forma secuencial
NoSQL:
Bases de datos para el almacenamiento y consulta de datos,
principalmente semi estructurados
Aplicaciones operacionales: Soporte para transacciones y
optimizada para lecturas y escrituras aleatorias
Tecnologías - Clasificación
40. Cada tecnología es más adecuada para unas aplicaciones
Bases de datos relacionales extendidas:
Añaden características a las bases de datos tradicionales para el
almacenamiento y procesamiento de ingentes volúmenes de
información relacional (datos estructurados)
Almacenamiento y procesamiento distribuido
Almacenamiento columnar: Optimizado para realizar agregaciones de
datos (sumas, recuentos, medias, máximos….)
También conocidas como MPP (Massive Paralell Processing)
HP Vertica, Pivotal Greemplum
Ideales para aplicaciones BI que requieren muy baja latencia de
consulta (OLAP, reporting y cuadros de mando dinámicos….)
Tecnologías - Clasificación
41. Clasificación de las tecnologías Big Data
Otra forma de clasificar las tecnologías Big Data es en base a su
función en un arquitectura Big Data
Tecnologías - Clasificación
Adquisición Almacenamiento Procesamiento Orquestación Análisis Visualización
42. Apache Hadoop. Distribuciones
Distribuciónes Hadoop: Paquete de software que
incluye una o más de las herramientas anteriores
junto con HDFS y MapReduce
Ventajas
Facilitan la instalación en distintos sistemas operativos: Ubuntu, CentOS,
Debian, Windows Server...
Gestión de actualizaciones
En StrateBI trabajamos fundamentalmente
Hortonworks Data Platform (HDP)
Cloudera
Tecnologías - Clasificación
43. Pentaho & Big Data
La suite Pentaho se integra a la perfección con un amplia gama fuentes
de datos y plataformas Big Data
Pentaho Data Integration
Pentaho Reporting Designer
Pentaho Metadata Editor
Pentaho BI Server
Integración con Hadoop
Distribuciones Cloudera, Hortonworks, Map R
También soporte para Hbase, MongoDB,…
Tecnologías - Clasificación
45. Definición de Big Data
Aplicaciones
Casos de éxito conocidos
Casos de éxito en StrateBI
Aplicaciones más comunes
Demos Big Data StrateBI
Tecnologías
Clasificación
Infraestructura
Formación en Big Data
Big Data - Tecnologías y aplicaciones analíticas
46. Se requiere una infraestructura tecnológica adecuada a cada
tipo de proyecto
Infraestructura física
Ventajas: Mayor control sobre los datos y máquinas
Desventaja: El coste de instalación y mantenimiento puede ser
demasiado alto para algunos proyectos
Infraestructura en la nube
Ventajas: Costes de hardware y mantenimiento asociados muy
reducidos.
Desventajas: Menor control sobre los datos y las máquinas.
Recomendación StrateBI:
Comenzar con una arquitectura en la nube y, cuando el proyecto empiece
a dar resultados, plantearse la necesidad de migrar a una arquitectura
física
Tecnologías - Infraestructura
47. Además en StrateBI trabajamos con dos tipos de infraestructuras
cloud
Escalables horizontalmente y virtualizadas
Alquiler de un servidor en la nube y aplicar virtualización
Adecuado para pruebas de concepto (POC), entornos de desarrollo,
proyectos pequeños (pre y producción),…
Costes muy bajos
Escalables horizontal y verticalmente
Infraestructura en la nube escalable en máquinas y recursos de cada
máquina
Mayor coste pero rendimiento adecuado para cualquier tipo de proyecto
Tecnologías - Infraestructura
48. Definición de Big Data
Aplicaciones
Casos de éxito conocidos
Casos de éxito en StrateBI
Aplicaciones más comunes
Demos Big Data StrateBI
Tecnologías
Clasificación
Infraestructura
Formación en Big Data
Big Data - Tecnologías y aplicaciones analíticas
49. Ofertamos formación en todas las tecnologías
Big Data anteriores
Algunos de los cursos ofertados
Introducción a Big Data (3 Jornadas)
Una visión holística de Big Data, apoyándonos en su capacidad para generar
oportunidades de negocio, así como optimizar los ya existentes
Especialista técnico en Data Science (5 Jornadas)
Visión detallada y práctica desde el punto de vista técnico del Big Data, así
como la puesta práctica de las diferentes técnicas y tecnologías estudiadas
Introducción a Machine Learning con Big Data (3 Jornadas)
Introducción al Machine Learning, analizando su capacidad para generar
oportunidades de negocio y para la resolución de problemas de distinta
naturaleza que involucren el uso de datos masivos (Big Data)
Formación en Big Data