Herramientas que posibilitan la información y la investigación.pdf
Introduccion a Big Data stack
1. Ing. Eduardo Castro, PhD
MVP de Microsoft SQL Server
PASS Regional de Mentor
PASS Board of Directors
ecastro@linchpinpeople.com
http://www.youtube.com/eduardocastrom
Introducción a Big Data Stack
2. Introducción a los Big Data
¿Qué es el Big Data?
¿Qué es Hadoop?
Introducción a Map / Reduce
Soluciones de Big Data de Microsoft
3. Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024
Megabytes.
Un Petabyte es una unidad de almacenamiento de información
cuyo símbolo es PB, equivale a 1024 Terabytes =
1.125.899.906.842.624 de bytes.
4. Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
1 Petabyte es suficiente para almacenar 13.3 años de video HD
1.5 Petabytes son necesarios para almacenar 10 Billones de
fotos de Facebook
Google procesa alrededor de 24 Petabytes de información por
día.
Avatar, la película de James Cameron del 2009, usó 1 Petabyte
de información para realizar los efectos especiales.
AT&T, el carrier del iPhone en Estados Unidos, transmite 19
Petabytes de datos por mes.
5. Big data, o los datos sólo complejos?
velocidad
variedad complejidad
volumen
Datos
interpretarpreparació
n
6. Grandes volúmenes de datos de hoy en día,
pocos datos del mañana
Complejidad vs capacidades actuales
FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
7. ¿Qué es el Big Data?
Datos que son demasiado grandes o complejos para el
análisis de bases de datos relacionales tradicionales
Caracterizado por las tres” V”
Volumen - Enormes cantidades de datos
Variedad - Una mezcla de datos estructurados y datos no
estructurados
Velocidad - Nuevos datos generados extremadamente rápido
8. Dominio Escenarios de grandes volúmenes datos
comunes
Servicios financieros Modelado riesgo verdadero
Análisis de las amenazas y detección de fraude
Vigilancia Comercio
El puntaje de crédito y análisis
Medios y Entretenimiento Los motores de recomendación
Focalización Ad
Buscar calidad
Los abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de
ventas
Análisis de la pérdida de clientes
El análisis de sentimientos (sentiment
analysis)
Telecomunicaciones Cliente prevención del churn
La optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisis
Predicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)
La congestión del tráfico y re-enrutamiento
Monitoreo Ambiental
Monitoreo Antisocial través de medios sociales
Salud La investigación del genoma
La investigación del cáncer
Pandemias detección temprana
Monitoreo de la calidad del aire
9. Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización
10. Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA
11. La naturaleza cambiante del Big Data
Big Data tiene importantes cualidades distintivas que lo
diferencian de los datos corporativos "tradicionales".
Los datos no son centralizadas, muy estructurados y de fácil
manejo, ahora más que nunca los datos están muy
dispersos, poco estructurados (o no tiene estructura en
absoluto), y cada vez más con volúmenes más grandes
12. La naturaleza cambiante del Big Data
La web
Dispositivos móviles
Infraestructura de TI
y otras fuentes está creciendo exponencialmente cada año.
Volumen - La cantidad de datos que han
creado las empresas a través de
13. La naturaleza cambiante del Big Data
Tipo - La variedad de tipos de datos es cada vez mayor,
No estructurados de datos basados en texto
Datos semi-estructurados como los datos de los medios sociales
Los datos basados en la localización
Datos de logs, ejemplo servidores Web
14. La naturaleza cambiante del Big Data
Velocidad
La velocidad a la que se está creando nuevos datos
La necesidad de análisis en tiempo real para obtener valor de
negocio de ella - es cada vez mayor gracias a la digitalización de las
transacciones, la informática móvil y el gran número de usuarios de
dispositivos de Internet y el móvil.
15. Principales fuentes de datos
Redes sociales y medios de comunicación
700 millones de usuarios de Facebook, 250 millones de usuarios de
Twitter y 156 millones de blogs públicos
Dispositivos móviles
Más de 5 mil millones de teléfonos móviles en uso en todo el mundo
Transacciones en Internet
miles de millones de compras en línea, operaciones de bolsa y otras
transacciones ocurren todos los días
Dispositivos de red y sensores
17. Casos en los cuales se utiliza Big Data
Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas
que ni siquiera saben que preguntar.
Dar lugar a ideas que conducen a nuevas ideas de
productos o ayudar a identificar formas de mejorar la
eficiencia operativa.
Casos de uso ya identificadas para Big Data, tanto para
los gigantes de internet como Google, Facebook y
LinkedIn, y para la empresa más tradicional
18. Casos en los cuales se utiliza Big Data
Sentiment Analysis
Utilizado junto con Hadoop, herramientas avanzadas de análisis
de texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
Incluyendo los Tweets y mensajes de Facebook, para determinar
la confianza del usuario en relación con determinadas empresas,
marcas o productos.
El análisis puede centrarse en el sentimiento a nivel macro hasta
el sentimiento usuario individual.
19. Casos en los cuales se utiliza Big Data
Modelado de riesgo
Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de
los activos financieros
Para preparar la posible "qué pasaría si" los escenarios
basados en el comportamiento del mercado simulado, y para
puntuación de clientes potenciales por el riesgo.
20. Casos en los cuales se utiliza Big Data
Motor de recomendación
Los minoristas en línea utilizan Hadoop para igualar y recomendar
a los usuarios entre sí o con los productos y servicios basados en
el análisis del perfil de usuario y los datos de comportamiento.
LinkedIn utiliza este enfoque para potenciar su función de "la
gente puede saber", mientras que Amazon utiliza para sugerir
productos a la venta a los consumidores en línea.
21. Casos en los cuales se utiliza Big Data
Detección de Fraude
Utilizar técnicas de Big Data para combinar el
comportamiento del cliente, históricos y datos de
transacciones para detectar la actividad fraudulenta.
Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
22. Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear
y determinar la efectividad de las campañas de marketing.
Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares,
como los datos de click-stream y registros detallados de
llamadas, para aumentar la precisión de los análisis.
23. Casos en los cuales se utiliza Big Data
Análisis Social Graph
Junto con Hadoop los datos de redes sociales se extraen para
determinar qué clientes representan la mayor influencia sobre
los demás dentro de las redes sociales.
Esto ayuda a determinar las empresas que son sus clientes
"más importantes", que no siempre son los que compran la
mayoría de los productos o de los que más gastan, pero los
que tienden a influir en el comportamiento de compra de la
mayoría de los demás.
24. Casos en los cuales se utiliza Big Data
Customer Experience Analytics
Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los
datos de antes silos canales de interacción con clientes
Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
25. Nuevos Enfoques para el procesamiento y análisis de
datos
Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
Hadoop
NoSQL
Bases de datos analíticos masivamente paralelo
27. Científico de datos
Ciencia de datos: un término utilizado indistintamente con
inteligencia de negocio o análitica empresarial
28. Qué es ciencia de datos?
Descubrir lo que nó sabemos de los datos
Obtener conocimiento de los datos, que permita hacer
predicciones y tomar acciones
Crear soluciones basadas en datos que tienen impacto en el
negocio
Relacionar los datos con el negocio
Crear confianza en la toma de decisiones que brindan valor
para el negocio
29. Científico de datos
Un científico de datos incorpora técnicas y teorías de muchos
campos, incluyendo las matemáticas, la estadística, la ingeniería de
datos, reconocimiento de patrones, aprendizaje avanzado ,
visualización, modelado de la incertidumbre, almacenamiento de
datos y la computación de alto rendimiento con el objetivo de
extraer el significado de datos.
30. Quién es un científico de datos?
Alguien mejor en las estadísticas que cualquier ingeniero
de software, y alguien mejor
en la ingeniería de software que cualquier estadístico
31. Qué es un Data Scientist?
Un científico de datos definitivamente tiene un mucho mayor
comprensión de la informática y se espera que él desarrolle
herramientas o que utilice algunas herramientas no estándar
para las necesidades de productos o las necesidades de la
empresa.
32. Qué es un Data Scientist?
Data Science London. 2013.
33. 10 Cosas que hacen los científicos de datos
Modelar datos, modelar algoritmos
Entender las relaciones de los datos
Decirle a la máquina cómo aprender de los datos
Crear soluciones de datos que entregar conocimiento para
tomar decisiones
Expresar los datos con conocimiento que es relevante para el
negocio
36. Aplicaciones de datos
intensivos
Activity Queue
Azure Storage
Google Analytics
Logs
Azure Storage
Email DBs
SQL Azure x 16
Username DBs
SQL Azure x 16
User Profiles
SQL Azure x 400
Activity Table
X 50 Partitions
Azure Storage
IIS Logs
Azure Storage
Data Analysis: Staging
Virtual Machine
Data
Warehouse
Reporting
Services
Activity Processors
Worker Roles x 2
Cache
Users and Friends Feed
Games and Leader Boards
Resources and References
Distributed Cache x 32
Cache Tasks
Worker Roles x 4
Back Office
Web Roles x 2
Background Tasks DB
Utility DB, Content
DB, Taxonomy DB
SQL Azure
Web Application
Web Roles x 180
Web Service/API
Web Roles x 2
Moderation
Service/Appliance
CRISP/3rd
Party
37.
38.
39.
40. Introducción a Big Data y Hadoop
Big data se enfrenta a complejidades de alto volumen, la velocidad
y la variedad de los datos
Apache Hadoop, es un conjunto de proyectos de código abierto que
transforman el hardware tradicional en un servicio que puede:
Almacenar petabytes de información
Permite procedamiento distribuido
Principales atributos:
Redundante y confiable (no se pierden datos)
Centrado en el análisis por lotes
Facilidad de crear aplicaciones y procesamiento distribuido
Ejecuta en cualquier hardware
41. Qué es Hadoop?
Hadoop es un proyecto de código abierto, supervisado por la
Apache Software Foundation
Originalmente basado en documentos publicados por Google
en 2003 y 2004
Hadoop es un ecosistema, no un solo producto
Hadoop trabaja en diversas organizaciones e incluye
Facebook, Yahoo!, Twitter, Cloudera, Hortonworks
41
42. Hadoop Timeline
• Iniciado por Doug Nutch en Yahoo! a principios del 2006
• Hadoop 2.x, lanzado en el 2012, es la base para todas las
distribuciones Hadoop actuales y estables
• Apache Hadoop 2.0.xx
CDH4.*
HDP2.*
42
43. ¿Qué es Hadoop?
• Clusters de Hadoop
• Varios servidores con un sistema de archivos compartido
denominado HDFS
• Las solicitudes de cliente son atendidos por el “Name Node”
• Varios nodos de datos procesan los datos mediante Map/Reduce
• Proyectos relacionados
• Hive
• HCatalog
• Pig
• Oozie
• Mahout
44. Hadoop - Inspiración
44
Google Equivalente de Hadoop
GFS HDFS
MapReduce Hadoop MapReduce
Sawzall Hive, Pig
BigTable HBase
Chubby ZooKeeper
Pregel Giraph
Google obtuvo una patente para “map reduce – un sistema de procesamiento de
datos de gran escala" en 2010, pero favorece a Apache Hadoop mediante la
concesión de una licencia.
45. Estrategia de datos tradicional
ETL Tools DW / Marts BI Analytics
comercial
Informatica Teradata Microstrategy SAS
Oracle Data Integrator Oracle OBIEE TIBCO Spotfire
IBM Datastage DB2, Netezza Cognos SPSS
Microsoft SSIS SQL server Microsoft SSRS
EMC Greenplum
Open source Talend mySQL Pentaho , Jaspersoft R, RapidMiner
46. Estrategia con Hadoop
46
Hadoop puede complementar el ambiente DW existente así como reemplazar
algunos de los componentes de una estrategia de datos tradicionales.
47. Componentes de Hadoop
• Almacenamiento
• HDFS – Es un Sistema de archivos NO una DBMS
• HBase - Almacenamiento columnar que sirve de baja latencia de lectura / escritura a petición
• Extraer - Cargar
• Fuente / Destino es RDBMS - Sqoop, hiho
• Stream processing - Flume, Scribe, Chukwa, S4, Storm
• Transformación
• Map-reduce (Java u otro lenguaje), Pig, Hive, Oozie etc.
• Talend e Informatica han construido productos para abstraer la complejidad de la map-reduce
47
48. Componentes de Hadoop
• Analytics
• RHadoop, Mahout
• BI – Todas las empresas actuales poseen conectores de Hadoop
48
51. Introducción a Big Data y Hadoop
Big data se enfrenta a complejidades de alto volumen, la velocidad y
la variedad de los datos
Apache Hadoop, es un conjunto de proyectos de código abierto que
transforman el hardware tradicional en un servicio que puede:
Almacenar petabytes de información
Permite procedamiento distribuido
Principales atributos:
Redundante y confiable (no se pierden datos)
Centrado en el análisis por lotes
Facilidad de crear aplicaciones y procesamiento distribuido
Ejecuta en cualquier hardware
55. Clúster Hadoop
Buster Cluster, un proyecto de investigación Miles Osborne, de
la Universidad de Edimburgo, Facultad de Informática.
Imagen utilizada con permiso.
http://homepages.inf.ed.ac.uk/miles/
57. Pig Latin
• Lenguaje orientado a flujo de datos
• Idioma de alto nivel para el enrutamiento de datos, permite la fácil integración de Java para
tareas complejas
• Tipos de datos incluyen conjuntos, matrices asociativas, tuplas
57
• Herramientas de cliente
• El Pig Interpreter convirte el pig-script a Java map-
reduce y los envía mediante el JobTracker
• No instala adicional necesario en el Hadoop Cluster
• Desempeño de Pig ~ 1.4x Java MapReduce, pero
necesitan menos líneas de código ~ 1/10th
• Desarrollado por Yahoo!
58. Hive
• Aplicación de datawarehouse basado en SQL
• Conjunto de características es similar a Pig pero se asimila a TSQL
• Soporta SELECT, JOIN, GROUP BY, etc.
• Utiliza la filosofía “Schema on Read”
• Características para el análisis de grandes conjuntos de datos
• Partition columns
• Sampling
• Buckets
• Requiere la instalación de metastore en cluster de Hadoop
• Desarrollado por Facebook
58
59. HBase
Distribuido, versionado, orientada a la columnas basado en HDFS
Objetivo: para almacenar las tablas con miles de millones de filas y millones columnas
Proporciona una opción de "baja latencia" (OLTP) Lee y escribe junto con el soporte para el
modelo de procesamiento por lotes de map-reduce
Cluster de HBase consiste en un único "maestro HBase" y varios "RegionServers“
Facebook utiliza HBase para impulsar su infraestructura de mensajería
Estadísticas - servicio de Chat soporta más 300 millones los usuarios que envían mensajes
más 120 billones por mes
Valores NULL no se almacena por diseño y parece tabla típica del almacenaje
59
Row-key Column-family Column Timestamp Value
1 CF Name Ts1 Vijay
1 CF Address Ts1 Mumbai
1 CF Address Ts2 Goa
60. Sqoop
RDBMS hacia Hadoop
Herramienta de línea de comandos para importar cualquier JDBC de base de datos hacia Hadoop
Y también exportar datos de Hadoop a cualquier base de datos
Genera trabajos de map-reduce para conectar a los registros de base de datos y
lectura/escritura
DB conectores específicos aportados por los proveedores –
Oraoop for Oracle by Quest software
Teradata connector from Teradata
Netezza connector from IBM
Desarrollado por Cloudera
Oracle ha llegado con "Oracle Loader para Hadoop" y afirman que
está optimizado para "Oracle Database 11g"
60
61. Flume
Flume es un servicio distribuido, fiable y disponible para mover eficientemente grandes
cantidades de datos a manera como se produce, casi en línea
Desarrollado en Cloudera
61
62. Machine Learning
• Apache Mahout
• Biblioteca de aprendizaje máquina escalable la mayoría de los algoritmos implementados sobre Apache
Hadoop utilizando map/reduce
• Algoritmos soportados –
• Recomendación minería - toma el comportamiento de los usuarios y encontrar artículos dijeron le
gustaría usuario especificado.
• Agrupamiento - toma por ejemplo, documentos de texto y grupos de ellos basados en temas
relacionados con documento.
• Clasificación- Aprende de los documentos existentes categorizados cómo documentos categoría
específica y es capaces de asignar documentos sin etiqueta a la categoría adecuada.
• Frequent item set mining - Toma un conjunto de elemento de grupos (e.g. términos en una sesión
de consulta, contenido del carrito de compras) e identifica, qué elementos individuales típicamente
aparece juntos.
• RHadoop (Revolution Analytics) y RHIPE (Purdue University) permiten ejecutar programas R en Apache
Hadoop
62
64. Soluciones Big Data Microsoft
SQL Server Parallel Data Warehouse
Appliance para data warehouse corporativo
Procesamiento paralelo masivo (MPP), arquitectura de Shared-
Noting
Windows Azure HDInsight
Implementación de Hadoop basada en la nube
Disponible como un servicio de Microsoft Azure
Polibase
Tecnología de integración de SQL Server Parallel Data Warehouse
y HDInsight
65. Integración con herramientas Microsoft
Integración con las
herramientas de
Análisis de Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP, POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
67. Hadoop y Kafka
Centro de datos en
directo
Centro de datos fuera
de línea
HadoopHadoopDev
Hadoop
InterfazInterfazLos
consumidoresre
s en tiempo real
KafkaKafkaKafka
KafkaKafkaKafka
HadoopHadoopPROD
Hadoop
68. ¿Apache Storm?
4
Fácil de programar
Una plataforma de
procesamiento en tiempo
real distribuido
Tolerante a fallos
Se espera que que falle y
esta preparado para
recuperarse
Rápido
Velocidad de 1M +
mensajes por segundo
por nodo
Escalable
Miles de workers por
grupo
Seguro
Entrega de mensajes
garantizada
Exactamente una vez
Análisis de
Streaming de
datos
70. Casos de uso de Storm
7
Entrada Operadores (Ejemplos) Lookup Salida
Lenguaje De
Programación
Automoviles
Conectados
Event hubs
Window based aggregation,
Join stream/split stream
HBase, ML DocumentDB C# hybrid, Java
ETL Event Hubs
Partitioning/
organize
N/A WASB Java
IoT Event Hubs Window based aggregation Hbase, ML
DocumentDB,
HBase
Java
Detección
Fraude
ServiceBus
Queue
Filter ML Hbase C# hybrid
Análisis Sociales Twitter Groupby/trending topics N/A
Realtime dashboard
(BI)
Trident
Supervisión de
la red
Kafka Split (on success/ failure) ML SQL C# hybrid
Búsqueda de
Log
Storage
Queue/ Event
Hub
Parsing & index N/A Elastic Search Java
Dispositivos
Moviles
Eventhub Count HBase SignalR C# hybrid
71. iter. 1 iter. 2 . . .
Entrada
Intercambio de Datos en
Spark
Repartido
memoria
Entrada
consulta 1
pregunta 2
consulta 3
. . .
una vez
tratamiento
10-100× más rápido que la red y el disco
73. La automatización de la automatización
Utilizar computadoras para programar computadoras
Escribir software es el cuello de botella
Deje que los datos hagan el trabajo!
Qué es el aprendizaje autómático o Machine Learning
78. Alto rendimiento y
optimizado en el
hardware
Autenticación del
usuario final con
Active Directory
Accesible para todo
el mundo con las
herramientas de
Microsoft BI
Administrado y
monitoreado
utilizando System
Center
100-por ciento
Apache Hadoop
SQL Server
Parallel Data
warehouse
Microsoft
HDInsight
Polibase
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
79. (HDFS) Bridge
Resultado
s
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación
PDW
Los datos no relacional
Aplicaciones
Social
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional
almacén de datos
PDWPuente HDFS
Enhanced PDW
query engine
La tabla externa
Los datos
externos
Archivo
externo
Regular
T-SQL
Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data tan convincente es que permiten a las empresas a encontrar respuestas a preguntas que ni siquiera saben que preguntar.
Esto puede dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.
Sin embargo, hay una serie de casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional.
Give some background on – basically generating business reports
Tracking data is crucial to measure user engagement – unique member visits per day, ad metrics CTR to ad publishers
Also data analytics – new models for PYMK
Collapse multple boxes into one. Show multiple Hadoop clusters
If you track some new data, it will automatically reach Hadoop in a few minutes.