3. Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
ecastro@simsasys.com
http://www.youtube.com/eduardocastrom
Comunidad Windows Costa Rica
HDInsight utilizando Hadoop + SQL con
análisis en Excel
6. Objetivos de la sesión
Qué es Big data
Introducción a HDInsight
Autoservicio de Inteligencia de Negocios (BI):
Excel 2013 PowerPivot
Excel 2013 Power View
Características de BI de Excel 2013
Creación de un solución de BI con Big Data BI dentro de Excel
2013
7. Esquema
Introducción:
Big Data y Hadoop
HDInsight
PowerPivot en Excel 2013
Power View en Excel 2013
Modelaje de “Big Data” con PowerPivot:
Beneficios
Consideraciones
Demostraciones
8. Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso
de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento,
búsqueda, intercambio, análisis y visualización
9. Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA
11. La naturaleza cambiante del Big Data
Big Data tiene importantes cualidades distintivas que lo
diferencian de los datos corporativos "tradicionales".
Los datos no son centralizadas, muy estructurados y de fácil
manejo, ahora más que nunca los datos están muy dispersos,
poco estructurados (o no tiene estructura en absoluto), y cada
vez más con volúmenes más grandes
12. La naturaleza cambiante del Big Data
Volumen - La cantidad de datos que han creado las empresas
a través de
La web
Dispositivos móviles
Infraestructura de TI
y otras fuentes está creciendo exponencialmente cada año.
13. La naturaleza cambiante del Big Data
Tipo - La variedad de tipos de datos es cada vez mayor,
No estructurados de datos basados en texto
Datos semi-estructurados como los datos de los medios sociales
Los datos basados en la localización
Datos de logs, ejemplo servidores Web
14. La naturaleza cambiante del Big Data
Velocidad
La velocidad a la que se está creando nuevos datos
La necesidad de análisis en tiempo real para obtener valor de negocio
de ella - es cada vez mayor gracias a la digitalización de las
transacciones, la informática móvil y el gran número de usuarios de
dispositivos de Internet y el móvil.
15. Principales fuentes de datos
Redes sociales y medios de comunicación
700 millones de usuarios de Facebook, 250 millones de usuarios de
Twitter y 156 millones de blogs públicos
Dispositivos móviles
Más de 5 mil millones de teléfonos móviles en uso en todo el mundo
Transacciones en Internet
miles de millones de compras en línea, operaciones de bolsa y otras
transacciones ocurren todos los días
Dispositivos de red y sensores
17. Casos en los cuales se utiliza Big Data
Parte de lo que hace Hadoop y otras tecnologías y enfoques
Big Data es encontrar respuestas a preguntas que ni siquiera
saben que preguntar.
Dar lugar a ideas que conducen a nuevas ideas de productos
o ayudar a identificar formas de mejorar la eficiencia
operativa.
Casos de uso ya identificadas para Big Data, tanto para los
gigantes de internet como Google, Facebook y LinkedIn, y
para la empresa más tradicional
18. Casos en los cuales se utiliza Big Data
Sentiment Analysis
Utilizado junto con Hadoop, herramientas avanzadas de análisis de
texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
Incluyendo los Tweets y mensajes de Facebook, para determinar la
confianza del usuario en relación con determinadas empresas,
marcas o productos.
El análisis puede centrarse en el sentimiento a nivel macro hasta el
sentimiento usuario individual.
19. Casos en los cuales se utiliza Big Data
Modelado de riesgo
Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de los
activos financieros
Para preparar la posible "qué pasaría si" los escenarios basados en el
comportamiento del mercado simulado, y para puntuación de clientes
potenciales por el riesgo.
20. Casos en los cuales se utiliza Big Data
Motor de recomendación
Los minoristas en línea utilizan Hadoop para igualar y recomendar a
los usuarios entre sí o con los productos y servicios basados en el
análisis del perfil de usuario y los datos de comportamiento.
LinkedIn utiliza este enfoque para potenciar su función de "la gente
puede saber", mientras que Amazon utiliza para sugerir productos a la
venta a los consumidores en línea.
21. Casos en los cuales se utiliza Big Data
Detección de Fraude
Utilizar técnicas de Big Data para combinar el comportamiento
del cliente, históricos y datos de transacciones para detectar
la actividad fraudulenta.
Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
22. Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear
y determinar la efectividad de las campañas de marketing.
Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares, como
los datos de click-stream y registros detallados de llamadas,
para aumentar la precisión de los análisis.
23. Casos en los cuales se utiliza Big Data
Análisis Social Graph
Junto con Hadoop los datos de redes sociales se extraen para
determinar qué clientes representan la mayor influencia sobre
los demás dentro de las redes sociales.
Esto ayuda a determinar las empresas que son sus clientes
"más importantes", que no siempre son los que compran la
mayoría de los productos o de los que más gastan, pero los
que tienden a influir en el comportamiento de compra de la
mayoría de los demás.
24. Casos en los cuales se utiliza Big Data
Customer Experience Analytics
Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los datos
de antes silos canales de interacción con clientes
Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
25. Nuevos Enfoques para el procesamiento y análisis
de datos grandes
Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
Hadoop
NoSQL
Bases de datos analíticos masivamente paralelo
27. Introducción a Big Data y Hadoop
Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de
los datos
Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el
hardware tradicional en un servicio que puede:
Almacenar petabytes de información
Permite procedamiento distribuido
Principales atributos:
Redundante y confiable (no se pierden datos)
Centrado en el análisis por lotes
Facilidad de crear aplicaciones y procesamiento distribuido
Ejecuta en cualquier hardware
28. Componentes de Hadoop
Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en
cualquier clúster Hadoop dado;
Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en
lugar del grupo de datos en particular se almacenan y si los nodos fallan;
Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente
y almacena los datos del nombre de nodo debe fallar;
Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el
tratamiento de los datos.
Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos
almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
29. Hadoop Ecosystem
Distributed Storage
(HDFS)
Query
(Hive)
Distributed Processing
(MapReduce)
Scripting
(Pig)
NoSQLDatabase
(HBase)
Metadata
(HCatalog)
DataIntegration
(ODBC/SQOOP/REST)
Relational
(SQL
Server)
Machine
Learning
(Mahout)
Graph
(Pegasus)
Stats
processin
g
(RHadoop
)
EventPipeline
(Flume)
Active
Directory
(Security)
Monitoring &
Deployment
(System
Center)
C#, F#,
.NET
JavaScript
Pipeline/Workflow
(Oozie)
Azure Storage
Vault (ASV) PDWPolybase
Business
Intelligence
(Excel,Power
View,SSAS)
World's Data
(Azure Data
Marketplace)
Event
Driven
Processin
g
Legend
Red = Core
Hadoop
Blue = Data
processing
Purple = Microsoft
integration points
and value adds
Yellow = Data
Movement
Green = Packages
Via Hadoop Ecosystem pptx, Cindy Gross. Used with permission
34. Cómo trabaja?
SECOND, TAKE THE PROCESSING TO THE DATA
// Map Reduce function in JavaScript
var map = function (key, value, context) {
var words = value.split(/[^a-zA-Z]/);
for (var i = 0; i < words.length; i++) {
if (words[i] !== "")
context.write(words[i].toLowerCase(),
1);}
}};
var reduce = function (key, values, context)
{
var sum = 0;
while (values.hasNext()) {
sum += parseInt(values.next());
}
context.write(key, sum);
};
ServerServer
ServerServer
RUNTIME
Code
35. Windows HADOOP
2 Versiones
Cloud
Azure Service
On Permise
Integración con el Hadoop File System with Active Directory
Integración con BI
Herramientas de integración
Sqoop
Integración con SQL Server
36. Introducción a HDInsight
HDInsight es una implementación de Microsoft 100% compatible
con la distribución de Apache Hadoop
Disponible tanto para Windows Server y como un servicio
Windows Azure
Permite que las empresas analicen datos no estructurados con
herramientas bien conocidas tales como Excel
37. Windows Azure HDInsight Service
Hadoop
Windows Azure Blob StorageHDFS
Hadoop Filesystem Interface
Hive Pig Map
Reduce
Query &
Metadata:
SqoopData
Movement:
OozieWorkflow:
HCatalog
Gateway (REST APIs)
Carga/Descarga de Datos
AmbariMonitoring:
Job submission (hive query, etc)
38. Windows Azure HDInsight Service
Compute
NodeCompute
NodeCompute
NodeCompute
Node
Windows Azure
Blob StorageHead
Node
Gateway (REST APIs)
Hadoop Cluster
Job submission (hive query, etc)
Cluster Dashboard
UI
40. HDP para Windows
Hortonworks
Data Platform (HDP) For
Windows
100% Open Source Enterprise Hadoop
HORTONWORKS
DATA PLATFORM (HDP)
For Windows
PLATFORM SERVICES
HADOOP CORE
Distributed
Storage & Processing
DATA
SERVICES
Store,
Process and
Access Data
OPERATIONAL
SERVICES
Manage &
Operate at
Scale
Manage &
Operate at
Scale
Store,
Process and
Access Data
Distributed
Storage & Processing
Enterprise Readiness
44. Interoperatibilidad
Integración con las
herramientas de
Análisis de Microsoft
APP
LICA
TIO
NS
DAT
A
SYST
EMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DAT
A
SOU
RCE
S
MOBILE
DATA
OLTP, POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
45.
46. Introducción a PowerPivot
PowerPivot permite que los usuarios creen modelos de datos
de autoservicio con Excel
Se logra mediante una versión del lado del cliente de of SQL Server
Analysis Services conocido como xVelocity In-Memory Analytics
Engine
Puede almacenar de forma eficiente volúmenes de datos más
grandes que las hojas típicas de Excel
47. Introducción a PowerPivot
Una ventana se puede utilizar para cargar, explorar,
relacionar y enriquecer datos con cálculos personalizados
Puede importar y relacionar datos de la empresa, datos
locales, o distintos almacenes de datos
En el Excel 2013 Professional Plus edition, PowerPivot está
instalado pero no habilitado
48. Introducción a Power View
Power View una experiencia de exploración de datos,
visualización y presentación
Experiencia centrada en la interacción
Interacción con metadatos
Permite que los usuarios creen reportes ad-hoc
Los reportes pueden estár basado en modelos de datos
tabulares, incluyen modelos de PowerPivot
49. Introducción a Power View
En Excel 2013, se incluyen nuevas características:
• Maps
• Pie charts
• Hierarchies
• KPIs
• Drill down/Drill up
• Report styles, themes and text resizing
• Backgrounds with images
• Hyperlinks
50. Modelando “Big Data” con PowerPivot
Big data puede ser integrado con otras fuentes de datos
Potencial de Autoservicio de BI:
PowerPivot puede cargar Big Data mediante el Table Import Wizard
ODBC para HDInsight
OLE DB para SQL Server con enlace a HDInsight
PowerPivot puede ser fuente para:
Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View
Otras herramientas de análisis (una vez publicado en SharePoint)
51. Consideraciones de modelar “Big Data” con
PowerPivot
Los resultados de Big Data pueden ser muy grandes para
almacenamiento en memoria
Workaround: minizar la cantidad de datos consultados
Recuperar un periodo de tiempo más pequeño
Reducir las dimensiones o ser más granular
Una vez que está cargado el modelo puede ser manipulado con
rapidez
53. 1.Creación de una solución con HDInsight
2.Crear un PowerPivot Workbook con HDInsight
3.Creación de repores en Excel
Demostraciones
54. Cargar datos al blog storage de Windows Azure
Para prototipos y ejemplos: #put
Para producción utilizer el blob storage APIs.
AzCopy Command Line
CopyBlob REST API
55. Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Yes
Excel Codename “Data Explorer” No
Otra Blob Storage
Account
Azure Blob Storage REST APIs (Copy Blob,
etc)
No
SQL Server Analysis
Services
Hive ODBC Driver Yes
BI Apps Existentes Hive ODBC Driver (assumes app supports
ODBC connections to data sources)
Yes
58. SQL Server-Hadoop Connector
Sqoop-based connector
Import
tables in SQL Server to delimited text files on HDFS
tables in SQL Server to SequenceFiles files on HDFS
tables in SQL Server to tables in Hive
Result of queries executed on SQL Server to delimited text files on
HDFS
Result of queries executed on SQL Server to SequenceFiles files on
HDFS
Result of queries executed on SQL Server to tables in Hive
Export
Delimited text files on HDFS to SQL Server
59. Recursos Adicionales
Microsoft Big Data
http://www.microsoft.com/bigdata
Windows Azure HDInsight
https://www.hadooponazure.com
HDInsight Services for Windows
Includes an excellent set of BI specific resources in the section named “Using
HDInsight with Other BI Technologies”
http://social.technet.microsoft.com/wiki/contents/articles/6204.hadoop-based-
services-for-windows-en-us.aspx
Blog: Big Data for Everyone: Using Microsoft’s Familiar BI Tools with Hadoop
http://blogs.msdn.com/b/microsoft_business_intelligence1/archive/2012/02/24/big-
data-for-everyone-using-microsoft-s-familiar-bi-tools-with-hadoop.aspx