SlideShare uma empresa Scribd logo
1 de 86
Ing. Eduardo Castro, PhD
MVP de Microsoft SQL Server
PASS Regional de Mentor
PASS Board of Directors
ecastro@linchpinpeople.com
http://www.youtube.com/eduardocastrom
Introducción a Big Data Stack
Introducción a los Big Data
 ¿Qué es el Big Data?
 ¿Qué es Hadoop?
 Introducción a Map / Reduce
 Soluciones de Big Data de Microsoft
Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024
Megabytes.
Un Petabyte es una unidad de almacenamiento de información
cuyo símbolo es PB, equivale a 1024 Terabytes =
1.125.899.906.842.624 de bytes.
Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
 1 Petabyte es suficiente para almacenar 13.3 años de video HD
 1.5 Petabytes son necesarios para almacenar 10 Billones de
fotos de Facebook
 Google procesa alrededor de 24 Petabytes de información por
día.
 Avatar, la película de James Cameron del 2009, usó 1 Petabyte
de información para realizar los efectos especiales.
 AT&T, el carrier del iPhone en Estados Unidos, transmite 19
Petabytes de datos por mes.
Big data, o los datos sólo complejos?
velocidad
variedad complejidad
volumen
Datos
interpretarpreparació
n
Grandes volúmenes de datos de hoy en día,
pocos datos del mañana
Complejidad vs capacidades actuales
FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
¿Qué es el Big Data?
 Datos que son demasiado grandes o complejos para el
análisis de bases de datos relacionales tradicionales
 Caracterizado por las tres” V”
 Volumen - Enormes cantidades de datos
 Variedad - Una mezcla de datos estructurados y datos no
estructurados
 Velocidad - Nuevos datos generados extremadamente rápido
Dominio Escenarios de grandes volúmenes datos
comunes
Servicios financieros Modelado riesgo verdadero
Análisis de las amenazas y detección de fraude
Vigilancia Comercio
El puntaje de crédito y análisis
Medios y Entretenimiento Los motores de recomendación
Focalización Ad
Buscar calidad
Los abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de
ventas
Análisis de la pérdida de clientes
El análisis de sentimientos (sentiment
analysis)
Telecomunicaciones Cliente prevención del churn
La optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisis
Predicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)
La congestión del tráfico y re-enrutamiento
Monitoreo Ambiental
Monitoreo Antisocial través de medios sociales
Salud La investigación del genoma
La investigación del cáncer
Pandemias detección temprana
Monitoreo de la calidad del aire
Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización
Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA
La naturaleza cambiante del Big Data
 Big Data tiene importantes cualidades distintivas que lo
diferencian de los datos corporativos "tradicionales".
 Los datos no son centralizadas, muy estructurados y de fácil
manejo, ahora más que nunca los datos están muy
dispersos, poco estructurados (o no tiene estructura en
absoluto), y cada vez más con volúmenes más grandes
La naturaleza cambiante del Big Data
 La web
 Dispositivos móviles
 Infraestructura de TI
 y otras fuentes está creciendo exponencialmente cada año.
Volumen - La cantidad de datos que han
creado las empresas a través de
La naturaleza cambiante del Big Data
Tipo - La variedad de tipos de datos es cada vez mayor,
 No estructurados de datos basados ​​en texto
 Datos semi-estructurados como los datos de los medios sociales
 Los datos basados ​​en la localización
 Datos de logs, ejemplo servidores Web
La naturaleza cambiante del Big Data
Velocidad
 La velocidad a la que se está creando nuevos datos
 La necesidad de análisis en tiempo real para obtener valor de
negocio de ella - es cada vez mayor gracias a la digitalización de las
transacciones, la informática móvil y el gran número de usuarios de
dispositivos de Internet y el móvil.
Principales fuentes de datos
 Redes sociales y medios de comunicación
 700 millones de usuarios de Facebook, 250 millones de usuarios de
Twitter y 156 millones de blogs públicos
 Dispositivos móviles
 Más de 5 mil millones de teléfonos móviles en uso en todo el mundo
 Transacciones en Internet
 miles de millones de compras en línea, operaciones de bolsa y otras
transacciones ocurren todos los días
 Dispositivos de red y sensores
Big Data
Casos en los cuales se utiliza Big Data
 Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas
que ni siquiera saben que preguntar.
 Dar lugar a ideas que conducen a nuevas ideas de
productos o ayudar a identificar formas de mejorar la
eficiencia operativa.
 Casos de uso ya identificadas para Big Data, tanto para
los gigantes de internet como Google, Facebook y
LinkedIn, y para la empresa más tradicional
Casos en los cuales se utiliza Big Data
Sentiment Analysis
 Utilizado junto con Hadoop, herramientas avanzadas de análisis
de texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
 Incluyendo los Tweets y mensajes de Facebook, para determinar
la confianza del usuario en relación con determinadas empresas,
marcas o productos.
 El análisis puede centrarse en el sentimiento a nivel macro hasta
el sentimiento usuario individual.
Casos en los cuales se utiliza Big Data
Modelado de riesgo
 Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de
los activos financieros
 Para preparar la posible "qué pasaría si" los escenarios
basados ​​en el comportamiento del mercado simulado, y para
puntuación de clientes potenciales por el riesgo.
Casos en los cuales se utiliza Big Data
Motor de recomendación
 Los minoristas en línea utilizan Hadoop para igualar y recomendar
a los usuarios entre sí o con los productos y servicios basados ​​en
el análisis del perfil de usuario y los datos de comportamiento.
 LinkedIn utiliza este enfoque para potenciar su función de "la
gente puede saber", mientras que Amazon utiliza para sugerir
productos a la venta a los consumidores en línea.
Casos en los cuales se utiliza Big Data
Detección de Fraude
 Utilizar técnicas de Big Data para combinar el
comportamiento del cliente, históricos y datos de
transacciones para detectar la actividad fraudulenta.
 Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
Casos en los cuales se utiliza Big Data
Análisis de la campaña de marketing
 Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear
y determinar la efectividad de las campañas de marketing.
 Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares,
como los datos de click-stream y registros detallados de
llamadas, para aumentar la precisión de los análisis.
Casos en los cuales se utiliza Big Data
Análisis Social Graph
 Junto con Hadoop los datos de redes sociales se extraen para
determinar qué clientes representan la mayor influencia sobre
los demás dentro de las redes sociales.
 Esto ayuda a determinar las empresas que son sus clientes
"más importantes", que no siempre son los que compran la
mayoría de los productos o de los que más gastan, pero los
que tienden a influir en el comportamiento de compra de la
mayoría de los demás.
Casos en los cuales se utiliza Big Data
Customer Experience Analytics
 Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los
datos de antes silos canales de interacción con clientes
 Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
Nuevos Enfoques para el procesamiento y análisis de
datos
 Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
 Hadoop
 NoSQL
 Bases de datos analíticos masivamente paralelo
Nuevos Enfoques para el procesamiento y análisis de datos
grandes
Científico de datos
 Ciencia de datos: un término utilizado indistintamente con
inteligencia de negocio o análitica empresarial
Qué es ciencia de datos?
 Descubrir lo que nó sabemos de los datos
 Obtener conocimiento de los datos, que permita hacer
predicciones y tomar acciones
 Crear soluciones basadas en datos que tienen impacto en el
negocio
 Relacionar los datos con el negocio
 Crear confianza en la toma de decisiones que brindan valor
para el negocio
Científico de datos
 Un científico de datos incorpora técnicas y teorías de muchos
campos, incluyendo las matemáticas, la estadística, la ingeniería de
datos, reconocimiento de patrones, aprendizaje avanzado ,
visualización, modelado de la incertidumbre, almacenamiento de
datos y la computación de alto rendimiento con el objetivo de
extraer el significado de datos.
Quién es un científico de datos?
Alguien mejor en las estadísticas que cualquier ingeniero
de software, y alguien mejor
en la ingeniería de software que cualquier estadístico
Qué es un Data Scientist?
Un científico de datos definitivamente tiene un mucho mayor
comprensión de la informática y se espera que él desarrolle
herramientas o que utilice algunas herramientas no estándar
para las necesidades de productos o las necesidades de la
empresa.
Qué es un Data Scientist?
Data Science London. 2013.
10 Cosas que hacen los científicos de datos
 Modelar datos, modelar algoritmos
 Entender las relaciones de los datos
 Decirle a la máquina cómo aprender de los datos
 Crear soluciones de datos que entregar conocimiento para
tomar decisiones
 Expresar los datos con conocimiento que es relevante para el
negocio
Data Scientist Toolkit
 Java, R, Python… (bonus: Clojure, Haskell, Scala)
 Hadoop, HDFS MapReduce… (bonus: Spark, Storm)
 HBase, Pig Hive… (bonus: Shark, Impala, Cascalog)
 ETL, Webscrapers,Flume, Sqoop… (bonus: Hume)
 SQL, RDBMS, DW, OLAP…
 Knime, Weka, RapidMiner…(bonus: SciPy, NumPy, scikit-learn,
pandas)
 D3.js, Gephi, ggplot2, Tableu, Flare, Shiny…
 SPSS, Matlab, SAS
 NoSQL, Mongo DB, Couchbase, Cassandra
 MS-Excel: la herramienta más utilizada
Almacenamiento
adaptadores
Corriente
tratamient
o
Gateways Nube
(APIs web)
Field
gateways
Aplicaciones
Búsqueda y consulta
Análisis de datos (Excel)
/ Cliente pesado Web
cuadros de mando
Dispositivos
Kafka /
RabbitMQ /
ActiveMQ
Web y Social
Dispositivos
Sensore
s
Aplicaciones de datos
intensivos
Activity Queue
Azure Storage
Google Analytics
Logs
Azure Storage
Email DBs
SQL Azure x 16
Username DBs
SQL Azure x 16
User Profiles
SQL Azure x 400
Activity Table
X 50 Partitions
Azure Storage
IIS Logs
Azure Storage
Data Analysis: Staging
Virtual Machine
Data
Warehouse
Reporting
Services
Activity Processors
Worker Roles x 2
Cache
Users and Friends Feed
Games and Leader Boards
Resources and References
Distributed Cache x 32
Cache Tasks
Worker Roles x 4
Back Office
Web Roles x 2
Background Tasks DB
Utility DB, Content
DB, Taxonomy DB
SQL Azure
Web Application
Web Roles x 180
Web Service/API
Web Roles x 2
Moderation
Service/Appliance
CRISP/3rd
Party
Introducción a Big Data y Hadoop
 Big data se enfrenta a complejidades de alto volumen, la velocidad
y la variedad de los datos
 Apache Hadoop, es un conjunto de proyectos de código abierto que
transforman el hardware tradicional en un servicio que puede:
 Almacenar petabytes de información
 Permite procedamiento distribuido
 Principales atributos:
 Redundante y confiable (no se pierden datos)
 Centrado en el análisis por lotes
 Facilidad de crear aplicaciones y procesamiento distribuido
 Ejecuta en cualquier hardware
Qué es Hadoop?
 Hadoop es un proyecto de código abierto, supervisado por la
Apache Software Foundation
 Originalmente basado en documentos publicados por Google
en 2003 y 2004
 Hadoop es un ecosistema, no un solo producto
 Hadoop trabaja en diversas organizaciones e incluye
Facebook, Yahoo!, Twitter, Cloudera, Hortonworks
41
Hadoop Timeline
• Iniciado por Doug Nutch en Yahoo! a principios del 2006
• Hadoop 2.x, lanzado en el 2012, es la base para todas las
distribuciones Hadoop actuales y estables
• Apache Hadoop 2.0.xx
 CDH4.*
 HDP2.*
42
¿Qué es Hadoop?
• Clusters de Hadoop
• Varios servidores con un sistema de archivos compartido
denominado HDFS
• Las solicitudes de cliente son atendidos por el “Name Node”
• Varios nodos de datos procesan los datos mediante Map/Reduce
• Proyectos relacionados
• Hive
• HCatalog
• Pig
• Oozie
• Mahout
Hadoop - Inspiración
44
Google Equivalente de Hadoop
GFS HDFS
MapReduce Hadoop MapReduce
Sawzall Hive, Pig
BigTable HBase
Chubby ZooKeeper
Pregel Giraph
Google obtuvo una patente para “map reduce – un sistema de procesamiento de
datos de gran escala" en 2010, pero favorece a Apache Hadoop mediante la
concesión de una licencia.
Estrategia de datos tradicional
ETL Tools DW / Marts BI Analytics
comercial
Informatica Teradata Microstrategy SAS
Oracle Data Integrator Oracle OBIEE TIBCO Spotfire
IBM Datastage DB2, Netezza Cognos SPSS
Microsoft SSIS SQL server Microsoft SSRS
EMC Greenplum
Open source Talend mySQL Pentaho , Jaspersoft R, RapidMiner
Estrategia con Hadoop
46
Hadoop puede complementar el ambiente DW existente así como reemplazar
algunos de los componentes de una estrategia de datos tradicionales.
Componentes de Hadoop
• Almacenamiento
• HDFS – Es un Sistema de archivos NO una DBMS
• HBase - Almacenamiento columnar que sirve de baja latencia de lectura / escritura a petición
• Extraer - Cargar
• Fuente / Destino es RDBMS - Sqoop, hiho
• Stream processing - Flume, Scribe, Chukwa, S4, Storm
• Transformación
• Map-reduce (Java u otro lenguaje), Pig, Hive, Oozie etc.
• Talend e Informatica han construido productos para abstraer la complejidad de la map-reduce
47
Componentes de Hadoop
• Analytics
• RHadoop, Mahout
• BI – Todas las empresas actuales poseen conectores de Hadoop
48
Ecosistema de Hadoop
49
Ecosistema de Hadoop
50
Introducción a Big Data y Hadoop
 Big data se enfrenta a complejidades de alto volumen, la velocidad y
la variedad de los datos
 Apache Hadoop, es un conjunto de proyectos de código abierto que
transforman el hardware tradicional en un servicio que puede:
 Almacenar petabytes de información
 Permite procedamiento distribuido
 Principales atributos:
 Redundante y confiable (no se pierden datos)
 Centrado en el análisis por lotes
 Facilidad de crear aplicaciones y procesamiento distribuido
 Ejecuta en cualquier hardware
Datos en Hadoop
MapReduce
De bajo nivel, fundamentos de Hadoop
Clúster Hadoop
Yahoo! Hadoop clúster, 2007.
Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
Clúster Hadoop
Buster Cluster, un proyecto de investigación Miles Osborne, de
la Universidad de Edimburgo, Facultad de Informática.
Imagen utilizada con permiso.
http://homepages.inf.ed.ac.uk/miles/
Cluster Hadoop
Nube
Rent-A-Hadoop-cluster, o bien:
"Superordenador de centavos"
Windows Azure HD Insight
Pig Latin
• Lenguaje orientado a flujo de datos
• Idioma de alto nivel para el enrutamiento de datos, permite la fácil integración de Java para
tareas complejas
• Tipos de datos incluyen conjuntos, matrices asociativas, tuplas
57
• Herramientas de cliente
• El Pig Interpreter convirte el pig-script a Java map-
reduce y los envía mediante el JobTracker
• No instala adicional necesario en el Hadoop Cluster
• Desempeño de Pig ~ 1.4x Java MapReduce, pero
necesitan menos líneas de código ~ 1/10th
• Desarrollado por Yahoo!
Hive
• Aplicación de datawarehouse basado en SQL
• Conjunto de características es similar a Pig pero se asimila a TSQL
• Soporta SELECT, JOIN, GROUP BY, etc.
• Utiliza la filosofía “Schema on Read”
• Características para el análisis de grandes conjuntos de datos
• Partition columns
• Sampling
• Buckets
• Requiere la instalación de metastore en cluster de Hadoop
• Desarrollado por Facebook
58
HBase
 Distribuido, versionado, orientada a la columnas basado en HDFS
 Objetivo: para almacenar las tablas con miles de millones de filas y millones columnas
 Proporciona una opción de "baja latencia" (OLTP) Lee y escribe junto con el soporte para el
modelo de procesamiento por lotes de map-reduce
 Cluster de HBase consiste en un único "maestro HBase" y varios "RegionServers“
 Facebook utiliza HBase para impulsar su infraestructura de mensajería
 Estadísticas - servicio de Chat soporta más 300 millones los usuarios que envían mensajes
más 120 billones por mes
 Valores NULL no se almacena por diseño y parece tabla típica del almacenaje
59
Row-key Column-family Column Timestamp Value
1 CF Name Ts1 Vijay
1 CF Address Ts1 Mumbai
1 CF Address Ts2 Goa
Sqoop
 RDBMS hacia Hadoop
 Herramienta de línea de comandos para importar cualquier JDBC de base de datos hacia Hadoop
 Y también exportar datos de Hadoop a cualquier base de datos
 Genera trabajos de map-reduce para conectar a los registros de base de datos y
lectura/escritura
 DB conectores específicos aportados por los proveedores –
 Oraoop for Oracle by Quest software
 Teradata connector from Teradata
 Netezza connector from IBM
 Desarrollado por Cloudera
 Oracle ha llegado con "Oracle Loader para Hadoop" y afirman que
está optimizado para "Oracle Database 11g"
60
Flume
 Flume es un servicio distribuido, fiable y disponible para mover eficientemente grandes
cantidades de datos a manera como se produce, casi en línea
 Desarrollado en Cloudera
61
Machine Learning
• Apache Mahout
• Biblioteca de aprendizaje máquina escalable la mayoría de los algoritmos implementados sobre Apache
Hadoop utilizando map/reduce
• Algoritmos soportados –
• Recomendación minería - toma el comportamiento de los usuarios y encontrar artículos dijeron le
gustaría usuario especificado.
• Agrupamiento - toma por ejemplo, documentos de texto y grupos de ellos basados en temas
relacionados con documento.
• Clasificación- Aprende de los documentos existentes categorizados cómo documentos categoría
específica y es capaces de asignar documentos sin etiqueta a la categoría adecuada.
• Frequent item set mining - Toma un conjunto de elemento de grupos (e.g. términos en una sesión
de consulta, contenido del carrito de compras) e identifica, qué elementos individuales típicamente
aparece juntos.
• RHadoop (Revolution Analytics) y RHIPE (Purdue University) permiten ejecutar programas R en Apache
Hadoop
62
Plataforma de Big Data Micrsooft
Soluciones Big Data Microsoft
 SQL Server Parallel Data Warehouse
 Appliance para data warehouse corporativo
 Procesamiento paralelo masivo (MPP), arquitectura de Shared-
Noting
 Windows Azure HDInsight
 Implementación de Hadoop basada en la nube
 Disponible como un servicio de Microsoft Azure
 Polibase
 Tecnología de integración de SQL Server Parallel Data Warehouse
y HDInsight
Integración con herramientas Microsoft
Integración con las
herramientas de
Análisis de Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP, POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
HDInsight: HadoopOnAzure.com
66
Hadoop y Kafka
Centro de datos en
directo
Centro de datos fuera
de línea
HadoopHadoopDev
Hadoop
InterfazInterfazLos
consumidoresre
s en tiempo real
KafkaKafkaKafka
KafkaKafkaKafka
HadoopHadoopPROD
Hadoop
¿Apache Storm?
4
Fácil de programar
Una plataforma de
procesamiento en tiempo
real distribuido
Tolerante a fallos
Se espera que que falle y
esta preparado para
recuperarse
Rápido
Velocidad de 1M +
mensajes por segundo
por nodo
Escalable
Miles de workers por
grupo
Seguro
Entrega de mensajes
garantizada
Exactamente una vez
Análisis de
Streaming de
datos
Storm Cluster
5
5
http://files.meetup.com/15878892/Storm%20Presentation.pptx
Casos de uso de Storm
7
Entrada Operadores (Ejemplos) Lookup Salida
Lenguaje De
Programación
Automoviles
Conectados
Event hubs
Window based aggregation,
Join stream/split stream
HBase, ML DocumentDB C# hybrid, Java
ETL Event Hubs
Partitioning/
organize
N/A WASB Java
IoT Event Hubs Window based aggregation Hbase, ML
DocumentDB,
HBase
Java
Detección
Fraude
ServiceBus
Queue
Filter ML Hbase C# hybrid
Análisis Sociales Twitter Groupby/trending topics N/A
Realtime dashboard
(BI)
Trident
Supervisión de
la red
Kafka Split (on success/ failure) ML SQL C# hybrid
Búsqueda de
Log
Storage
Queue/ Event
Hub
Parsing & index N/A Elastic Search Java
Dispositivos
Moviles
Eventhub Count HBase SignalR C# hybrid
iter. 1 iter. 2 . . .
Entrada
Intercambio de Datos en
Spark
Repartido
memoria
Entrada
consulta 1
pregunta 2
consulta 3
. . .
una vez
tratamiento
10-100× más rápido que la red y el disco
Qué es Azure Stream Analytics
 La automatización de la automatización
 Utilizar computadoras para programar computadoras
 Escribir software es el cuello de botella
 Deje que los datos hagan el trabajo!
Qué es el aprendizaje autómático o Machine Learning
Flujo en Azure Machine Learning
Flujo en Azure Machine Learning
Flujo en Azure Machine Learning
Flujo en Azure Machine Learning
Alto rendimiento y
optimizado en el
hardware
Autenticación del
usuario final con
Active Directory
Accesible para todo
el mundo con las
herramientas de
Microsoft BI
Administrado y
monitoreado
utilizando System
Center
100-por ciento
Apache Hadoop
SQL Server
Parallel Data
warehouse
Microsoft
HDInsight
Polibase
APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
(HDFS) Bridge
Resultado
s
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación
PDW
Los datos no relacional
Aplicaciones
Social
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional
almacén de datos
PDWPuente HDFS
Enhanced PDW
query engine
La tabla externa
Los datos
externos
Archivo
externo
Regular
T-SQL
80
SSIS hacia HDInsight
81
SSIS
Procesamiento
SSAS
Tabular
de Datos de
Autoría
SQOOP, HiveODBC,
Templeton, CSV, etc
Conectividad de BI
Big Data Utilice Excel!
2 Servidores, 3 meses
110 GB
Archivos
Binarios
SSIS
SSIS
SSIS
SSIS extraer
1.2GB de texto
120MB gz
Hadoop hacia
PowerPivot
6MB
PowerPivot Hoja de Excel de HoA Audit data
Power View de Audit Data

Mais conteúdo relacionado

Mais procurados

[NEW LAUNCH!] Introducing Amazon Comprehend Medical (AIM398) - AWS re:Invent ...
[NEW LAUNCH!] Introducing Amazon Comprehend Medical (AIM398) - AWS re:Invent ...[NEW LAUNCH!] Introducing Amazon Comprehend Medical (AIM398) - AWS re:Invent ...
[NEW LAUNCH!] Introducing Amazon Comprehend Medical (AIM398) - AWS re:Invent ...Amazon Web Services
 
Unidad 2 - Componentes de los Sistemas de Información
Unidad 2 - Componentes de los Sistemas de InformaciónUnidad 2 - Componentes de los Sistemas de Información
Unidad 2 - Componentes de los Sistemas de InformaciónJennifer Michelle Rojas Chica
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDavid Alayón
 
INTELIGENCIA ARTIFICIAL
INTELIGENCIA ARTIFICIALINTELIGENCIA ARTIFICIAL
INTELIGENCIA ARTIFICIALmarca994
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjeffersonjsk
 
Data strategy in a Big Data world
Data strategy in a Big Data worldData strategy in a Big Data world
Data strategy in a Big Data worldCraig Milroy
 
Building a Data Driven Culture and AI Revolution With Gregory Little | Curren...
Building a Data Driven Culture and AI Revolution With Gregory Little | Curren...Building a Data Driven Culture and AI Revolution With Gregory Little | Curren...
Building a Data Driven Culture and AI Revolution With Gregory Little | Curren...HostedbyConfluent
 
The Smart Cube | Marketing Mix Modeling: An Old Remedy for New Ills
The Smart Cube | Marketing Mix Modeling: An Old Remedy for New IllsThe Smart Cube | Marketing Mix Modeling: An Old Remedy for New Ills
The Smart Cube | Marketing Mix Modeling: An Old Remedy for New IllsMelissa Luongo
 
Rahat Yasir: Enterprise Data & AI Strategy & Platform Designing
Rahat Yasir: Enterprise Data & AI Strategy & Platform DesigningRahat Yasir: Enterprise Data & AI Strategy & Platform Designing
Rahat Yasir: Enterprise Data & AI Strategy & Platform DesigningLviv Startup Club
 
Introduction To Data Science
Introduction To Data ScienceIntroduction To Data Science
Introduction To Data ScienceSpotle.ai
 
Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoCustomer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoSngular Meaning
 
Big Data and Data Science: The Technologies Shaping Our Lives
Big Data and Data Science: The Technologies Shaping Our LivesBig Data and Data Science: The Technologies Shaping Our Lives
Big Data and Data Science: The Technologies Shaping Our LivesRukshan Batuwita
 

Mais procurados (20)

Big data
Big dataBig data
Big data
 
[NEW LAUNCH!] Introducing Amazon Comprehend Medical (AIM398) - AWS re:Invent ...
[NEW LAUNCH!] Introducing Amazon Comprehend Medical (AIM398) - AWS re:Invent ...[NEW LAUNCH!] Introducing Amazon Comprehend Medical (AIM398) - AWS re:Invent ...
[NEW LAUNCH!] Introducing Amazon Comprehend Medical (AIM398) - AWS re:Invent ...
 
Unidad 2 - Componentes de los Sistemas de Información
Unidad 2 - Componentes de los Sistemas de InformaciónUnidad 2 - Componentes de los Sistemas de Información
Unidad 2 - Componentes de los Sistemas de Información
 
Big data
Big dataBig data
Big data
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
INTELIGENCIA ARTIFICIAL
INTELIGENCIA ARTIFICIALINTELIGENCIA ARTIFICIAL
INTELIGENCIA ARTIFICIAL
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Data strategy in a Big Data world
Data strategy in a Big Data worldData strategy in a Big Data world
Data strategy in a Big Data world
 
Big data.
Big data.Big data.
Big data.
 
Big Data
Big DataBig Data
Big Data
 
Building a Data Driven Culture and AI Revolution With Gregory Little | Curren...
Building a Data Driven Culture and AI Revolution With Gregory Little | Curren...Building a Data Driven Culture and AI Revolution With Gregory Little | Curren...
Building a Data Driven Culture and AI Revolution With Gregory Little | Curren...
 
The Smart Cube | Marketing Mix Modeling: An Old Remedy for New Ills
The Smart Cube | Marketing Mix Modeling: An Old Remedy for New IllsThe Smart Cube | Marketing Mix Modeling: An Old Remedy for New Ills
The Smart Cube | Marketing Mix Modeling: An Old Remedy for New Ills
 
Big_data_ppt
Big_data_ppt Big_data_ppt
Big_data_ppt
 
Rahat Yasir: Enterprise Data & AI Strategy & Platform Designing
Rahat Yasir: Enterprise Data & AI Strategy & Platform DesigningRahat Yasir: Enterprise Data & AI Strategy & Platform Designing
Rahat Yasir: Enterprise Data & AI Strategy & Platform Designing
 
Introduction To Data Science
Introduction To Data ScienceIntroduction To Data Science
Introduction To Data Science
 
Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoCustomer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
 
Big Data and Data Science: The Technologies Shaping Our Lives
Big Data and Data Science: The Technologies Shaping Our LivesBig Data and Data Science: The Technologies Shaping Our Lives
Big Data and Data Science: The Technologies Shaping Our Lives
 
Big data
Big dataBig data
Big data
 
Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 

Destaque

Introduccion a SQL Server 2017 en Docker
Introduccion a SQL Server 2017 en Docker Introduccion a SQL Server 2017 en Docker
Introduccion a SQL Server 2017 en Docker Eduardo Castro
 
Always On y grupos de disponibilidad SQL Server 2012
Always On y grupos de disponibilidad SQL Server 2012Always On y grupos de disponibilidad SQL Server 2012
Always On y grupos de disponibilidad SQL Server 2012SolidQ
 
SQL Server Alta disponibilidad en ambientes empresariales
SQL Server Alta disponibilidad en ambientes empresarialesSQL Server Alta disponibilidad en ambientes empresariales
SQL Server Alta disponibilidad en ambientes empresarialesEduardo Castro
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integraciónEduardo Castro
 
Azure sql database escalabilidad
Azure sql database escalabilidadAzure sql database escalabilidad
Azure sql database escalabilidadEduardo Castro
 
Mejores prácticas desarrollo de base de datos
Mejores prácticas desarrollo de base de datos Mejores prácticas desarrollo de base de datos
Mejores prácticas desarrollo de base de datos Eduardo Castro
 
SQL Server 2016 Reporting Services
SQL Server 2016 Reporting ServicesSQL Server 2016 Reporting Services
SQL Server 2016 Reporting ServicesEduardo Castro
 
Análisis de datos con Apache Spark
Análisis de datos con Apache SparkAnálisis de datos con Apache Spark
Análisis de datos con Apache SparkEduardo Castro
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesEduardo Castro
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integraciónEduardo Castro
 
Cuadros de mando de BI con SQL Server
Cuadros de mando de BI con SQL ServerCuadros de mando de BI con SQL Server
Cuadros de mando de BI con SQL ServerEduardo Castro
 
SQL 2016 Column Store Index
SQL 2016 Column Store IndexSQL 2016 Column Store Index
SQL 2016 Column Store IndexEduardo Castro
 
PowerQueryy el Lenguaje M
PowerQueryy el Lenguaje MPowerQueryy el Lenguaje M
PowerQueryy el Lenguaje MSpanishPASSVC
 
Smart Grid Big Data e IoT
Smart Grid Big Data e IoTSmart Grid Big Data e IoT
Smart Grid Big Data e IoTEduardo Castro
 
Vistazo a lo nuevo en SQL Server 2016
Vistazo a lo nuevo en SQL Server 2016Vistazo a lo nuevo en SQL Server 2016
Vistazo a lo nuevo en SQL Server 2016Eduardo Castro
 
SQL Server Query Processor
SQL Server Query ProcessorSQL Server Query Processor
SQL Server Query ProcessorEduardo Castro
 
Consideraciones de memoria sql server hardware
Consideraciones de memoria sql server hardwareConsideraciones de memoria sql server hardware
Consideraciones de memoria sql server hardwareEduardo Castro
 
Consideraciones de sql server hardware
Consideraciones de sql server hardwareConsideraciones de sql server hardware
Consideraciones de sql server hardwareEduardo Castro
 

Destaque (20)

Introduccion a SQL Server 2017 en Docker
Introduccion a SQL Server 2017 en Docker Introduccion a SQL Server 2017 en Docker
Introduccion a SQL Server 2017 en Docker
 
Always On y grupos de disponibilidad SQL Server 2012
Always On y grupos de disponibilidad SQL Server 2012Always On y grupos de disponibilidad SQL Server 2012
Always On y grupos de disponibilidad SQL Server 2012
 
SQL Server Alta disponibilidad en ambientes empresariales
SQL Server Alta disponibilidad en ambientes empresarialesSQL Server Alta disponibilidad en ambientes empresariales
SQL Server Alta disponibilidad en ambientes empresariales
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integración
 
Azure sql database escalabilidad
Azure sql database escalabilidadAzure sql database escalabilidad
Azure sql database escalabilidad
 
Mejores prácticas desarrollo de base de datos
Mejores prácticas desarrollo de base de datos Mejores prácticas desarrollo de base de datos
Mejores prácticas desarrollo de base de datos
 
Microsoft R Server
Microsoft R ServerMicrosoft R Server
Microsoft R Server
 
SQL Server 2016 Reporting Services
SQL Server 2016 Reporting ServicesSQL Server 2016 Reporting Services
SQL Server 2016 Reporting Services
 
Análisis de datos con Apache Spark
Análisis de datos con Apache SparkAnálisis de datos con Apache Spark
Análisis de datos con Apache Spark
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch Databases
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integración
 
Cuadros de mando de BI con SQL Server
Cuadros de mando de BI con SQL ServerCuadros de mando de BI con SQL Server
Cuadros de mando de BI con SQL Server
 
SQL 2016 Column Store Index
SQL 2016 Column Store IndexSQL 2016 Column Store Index
SQL 2016 Column Store Index
 
PowerQueryy el Lenguaje M
PowerQueryy el Lenguaje MPowerQueryy el Lenguaje M
PowerQueryy el Lenguaje M
 
Smart Grid Big Data e IoT
Smart Grid Big Data e IoTSmart Grid Big Data e IoT
Smart Grid Big Data e IoT
 
MVC: La Vista
MVC: La VistaMVC: La Vista
MVC: La Vista
 
Vistazo a lo nuevo en SQL Server 2016
Vistazo a lo nuevo en SQL Server 2016Vistazo a lo nuevo en SQL Server 2016
Vistazo a lo nuevo en SQL Server 2016
 
SQL Server Query Processor
SQL Server Query ProcessorSQL Server Query Processor
SQL Server Query Processor
 
Consideraciones de memoria sql server hardware
Consideraciones de memoria sql server hardwareConsideraciones de memoria sql server hardware
Consideraciones de memoria sql server hardware
 
Consideraciones de sql server hardware
Consideraciones de sql server hardwareConsideraciones de sql server hardware
Consideraciones de sql server hardware
 

Semelhante a Introduccion a Big Data stack

Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014Eduardo Castro
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackEduardo Castro
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeEduardo Castro
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxJavierNavarrete43
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azureEduardo Castro
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesStratebi
 
Data set module 1 - spanish
Data set   module 1 - spanishData set   module 1 - spanish
Data set module 1 - spanishData-Set
 
Big-Data-y-Sistemas-Cognitivos.pdf
Big-Data-y-Sistemas-Cognitivos.pdfBig-Data-y-Sistemas-Cognitivos.pdf
Big-Data-y-Sistemas-Cognitivos.pdfdiazsejas
 

Semelhante a Introduccion a Big Data stack (20)

Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 
Big data
Big dataBig data
Big data
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
La importancia del big data
La importancia del big dataLa importancia del big data
La importancia del big data
 
Big data
Big dataBig data
Big data
 
Data set module 1 - spanish
Data set   module 1 - spanishData set   module 1 - spanish
Data set module 1 - spanish
 
Big data bbva
Big data bbvaBig data bbva
Big data bbva
 
Big-Data-y-Sistemas-Cognitivos.pdf
Big-Data-y-Sistemas-Cognitivos.pdfBig-Data-y-Sistemas-Cognitivos.pdf
Big-Data-y-Sistemas-Cognitivos.pdf
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Rolando Archila
Rolando ArchilaRolando Archila
Rolando Archila
 

Mais de Eduardo Castro

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL ServerEduardo Castro
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerEduardo Castro
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL AzureEduardo Castro
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflowEduardo Castro
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022Eduardo Castro
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022Eduardo Castro
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Eduardo Castro
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceEduardo Castro
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022Eduardo Castro
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Eduardo Castro
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricksEduardo Castro
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql serverEduardo Castro
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsEduardo Castro
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Eduardo Castro
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsEduardo Castro
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en AzureEduardo Castro
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL ServerEduardo Castro
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Eduardo Castro
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesEduardo Castro
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesEduardo Castro
 

Mais de Eduardo Castro (20)

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL Server
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL Azure
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed Instance
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricks
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql server
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analytics
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse Analytics
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en Azure
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL Server
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure Enclaves
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure Enclaves
 

Último

CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptxLINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptxkimontey
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...Marketing BRANDING
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar24roberto21
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerenciacubillannoly
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armadob7fwtwtfxf
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdfsharitcalderon04
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptxHugoGutierrez99
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 

Último (20)

CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptxLINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar
 
El camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVPEl camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVP
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerencia
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armado
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdf
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 

Introduccion a Big Data stack

  • 1. Ing. Eduardo Castro, PhD MVP de Microsoft SQL Server PASS Regional de Mentor PASS Board of Directors ecastro@linchpinpeople.com http://www.youtube.com/eduardocastrom Introducción a Big Data Stack
  • 2. Introducción a los Big Data  ¿Qué es el Big Data?  ¿Qué es Hadoop?  Introducción a Map / Reduce  Soluciones de Big Data de Microsoft
  • 3. Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024 Megabytes. Un Petabyte es una unidad de almacenamiento de información cuyo símbolo es PB, equivale a 1024 Terabytes = 1.125.899.906.842.624 de bytes.
  • 4. Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php  1 Petabyte es suficiente para almacenar 13.3 años de video HD  1.5 Petabytes son necesarios para almacenar 10 Billones de fotos de Facebook  Google procesa alrededor de 24 Petabytes de información por día.  Avatar, la película de James Cameron del 2009, usó 1 Petabyte de información para realizar los efectos especiales.  AT&T, el carrier del iPhone en Estados Unidos, transmite 19 Petabytes de datos por mes.
  • 5. Big data, o los datos sólo complejos? velocidad variedad complejidad volumen Datos interpretarpreparació n
  • 6. Grandes volúmenes de datos de hoy en día, pocos datos del mañana Complejidad vs capacidades actuales FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
  • 7. ¿Qué es el Big Data?  Datos que son demasiado grandes o complejos para el análisis de bases de datos relacionales tradicionales  Caracterizado por las tres” V”  Volumen - Enormes cantidades de datos  Variedad - Una mezcla de datos estructurados y datos no estructurados  Velocidad - Nuevos datos generados extremadamente rápido
  • 8. Dominio Escenarios de grandes volúmenes datos comunes Servicios financieros Modelado riesgo verdadero Análisis de las amenazas y detección de fraude Vigilancia Comercio El puntaje de crédito y análisis Medios y Entretenimiento Los motores de recomendación Focalización Ad Buscar calidad Los abusos y detección de fraude de clics Venta al por menor Punto de análisis de las transacciones de ventas Análisis de la pérdida de clientes El análisis de sentimientos (sentiment analysis) Telecomunicaciones Cliente prevención del churn La optimización del rendimiento de la red Detalles de llamadas (CDR) y su análisis Predicción de fallos de red Gobierno Seguridad Cibernética (botnets, fraudes) La congestión del tráfico y re-enrutamiento Monitoreo Ambiental Monitoreo Antisocial través de medios sociales Salud La investigación del genoma La investigación del cáncer Pandemias detección temprana Monitoreo de la calidad del aire
  • 9. Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  • 10. Qué es Big Data? Megabytes Gigabytes Terabytes Petabytes Purchase detail Purchase record Payment record ERP CRM WEB BIG DATA Offer details Support Contacts Customer Touches Segmentation Web logs Offer history A/B testing Dynamic Pricing Affiliate Networks Search Marketing Behavioral Targeting Dynamic Funnels User Generated Content Mobile Web SMS/MMSSentiment External Demographics HD Video, Audio, Images Speech to Text Product/Service Logs Social Interactions & Feeds Business Data Feeds User Click Stream Sensors / RFID / Devices Spatial & GPS Coordinates Incremento de variedad y cantidad de datos Transacciones + Interacciones + Observaciones = BIG DATA
  • 11. La naturaleza cambiante del Big Data  Big Data tiene importantes cualidades distintivas que lo diferencian de los datos corporativos "tradicionales".  Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes
  • 12. La naturaleza cambiante del Big Data  La web  Dispositivos móviles  Infraestructura de TI  y otras fuentes está creciendo exponencialmente cada año. Volumen - La cantidad de datos que han creado las empresas a través de
  • 13. La naturaleza cambiante del Big Data Tipo - La variedad de tipos de datos es cada vez mayor,  No estructurados de datos basados ​​en texto  Datos semi-estructurados como los datos de los medios sociales  Los datos basados ​​en la localización  Datos de logs, ejemplo servidores Web
  • 14. La naturaleza cambiante del Big Data Velocidad  La velocidad a la que se está creando nuevos datos  La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.
  • 15. Principales fuentes de datos  Redes sociales y medios de comunicación  700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos  Dispositivos móviles  Más de 5 mil millones de teléfonos móviles en uso en todo el mundo  Transacciones en Internet  miles de millones de compras en línea, operaciones de bolsa y otras transacciones ocurren todos los días  Dispositivos de red y sensores
  • 17. Casos en los cuales se utiliza Big Data  Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar.  Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.  Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
  • 18. Casos en los cuales se utiliza Big Data Sentiment Analysis  Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales  Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos.  El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
  • 19. Casos en los cuales se utiliza Big Data Modelado de riesgo  Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros  Para preparar la posible "qué pasaría si" los escenarios basados ​​en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
  • 20. Casos en los cuales se utiliza Big Data Motor de recomendación  Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados ​​en el análisis del perfil de usuario y los datos de comportamiento.  LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
  • 21. Casos en los cuales se utiliza Big Data Detección de Fraude  Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta.  Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
  • 22. Casos en los cuales se utiliza Big Data Análisis de la campaña de marketing  Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing.  Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
  • 23. Casos en los cuales se utiliza Big Data Análisis Social Graph  Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales.  Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
  • 24. Casos en los cuales se utiliza Big Data Customer Experience Analytics  Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes  Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.
  • 25. Nuevos Enfoques para el procesamiento y análisis de datos  Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes  Hadoop  NoSQL  Bases de datos analíticos masivamente paralelo
  • 26. Nuevos Enfoques para el procesamiento y análisis de datos grandes
  • 27. Científico de datos  Ciencia de datos: un término utilizado indistintamente con inteligencia de negocio o análitica empresarial
  • 28. Qué es ciencia de datos?  Descubrir lo que nó sabemos de los datos  Obtener conocimiento de los datos, que permita hacer predicciones y tomar acciones  Crear soluciones basadas en datos que tienen impacto en el negocio  Relacionar los datos con el negocio  Crear confianza en la toma de decisiones que brindan valor para el negocio
  • 29. Científico de datos  Un científico de datos incorpora técnicas y teorías de muchos campos, incluyendo las matemáticas, la estadística, la ingeniería de datos, reconocimiento de patrones, aprendizaje avanzado , visualización, modelado de la incertidumbre, almacenamiento de datos y la computación de alto rendimiento con el objetivo de extraer el significado de datos.
  • 30. Quién es un científico de datos? Alguien mejor en las estadísticas que cualquier ingeniero de software, y alguien mejor en la ingeniería de software que cualquier estadístico
  • 31. Qué es un Data Scientist? Un científico de datos definitivamente tiene un mucho mayor comprensión de la informática y se espera que él desarrolle herramientas o que utilice algunas herramientas no estándar para las necesidades de productos o las necesidades de la empresa.
  • 32. Qué es un Data Scientist? Data Science London. 2013.
  • 33. 10 Cosas que hacen los científicos de datos  Modelar datos, modelar algoritmos  Entender las relaciones de los datos  Decirle a la máquina cómo aprender de los datos  Crear soluciones de datos que entregar conocimiento para tomar decisiones  Expresar los datos con conocimiento que es relevante para el negocio
  • 34. Data Scientist Toolkit  Java, R, Python… (bonus: Clojure, Haskell, Scala)  Hadoop, HDFS MapReduce… (bonus: Spark, Storm)  HBase, Pig Hive… (bonus: Shark, Impala, Cascalog)  ETL, Webscrapers,Flume, Sqoop… (bonus: Hume)  SQL, RDBMS, DW, OLAP…  Knime, Weka, RapidMiner…(bonus: SciPy, NumPy, scikit-learn, pandas)  D3.js, Gephi, ggplot2, Tableu, Flare, Shiny…  SPSS, Matlab, SAS  NoSQL, Mongo DB, Couchbase, Cassandra  MS-Excel: la herramienta más utilizada
  • 35. Almacenamiento adaptadores Corriente tratamient o Gateways Nube (APIs web) Field gateways Aplicaciones Búsqueda y consulta Análisis de datos (Excel) / Cliente pesado Web cuadros de mando Dispositivos Kafka / RabbitMQ / ActiveMQ Web y Social Dispositivos Sensore s
  • 36. Aplicaciones de datos intensivos Activity Queue Azure Storage Google Analytics Logs Azure Storage Email DBs SQL Azure x 16 Username DBs SQL Azure x 16 User Profiles SQL Azure x 400 Activity Table X 50 Partitions Azure Storage IIS Logs Azure Storage Data Analysis: Staging Virtual Machine Data Warehouse Reporting Services Activity Processors Worker Roles x 2 Cache Users and Friends Feed Games and Leader Boards Resources and References Distributed Cache x 32 Cache Tasks Worker Roles x 4 Back Office Web Roles x 2 Background Tasks DB Utility DB, Content DB, Taxonomy DB SQL Azure Web Application Web Roles x 180 Web Service/API Web Roles x 2 Moderation Service/Appliance CRISP/3rd Party
  • 37.
  • 38.
  • 39.
  • 40. Introducción a Big Data y Hadoop  Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos  Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede:  Almacenar petabytes de información  Permite procedamiento distribuido  Principales atributos:  Redundante y confiable (no se pierden datos)  Centrado en el análisis por lotes  Facilidad de crear aplicaciones y procesamiento distribuido  Ejecuta en cualquier hardware
  • 41. Qué es Hadoop?  Hadoop es un proyecto de código abierto, supervisado por la Apache Software Foundation  Originalmente basado en documentos publicados por Google en 2003 y 2004  Hadoop es un ecosistema, no un solo producto  Hadoop trabaja en diversas organizaciones e incluye Facebook, Yahoo!, Twitter, Cloudera, Hortonworks 41
  • 42. Hadoop Timeline • Iniciado por Doug Nutch en Yahoo! a principios del 2006 • Hadoop 2.x, lanzado en el 2012, es la base para todas las distribuciones Hadoop actuales y estables • Apache Hadoop 2.0.xx  CDH4.*  HDP2.* 42
  • 43. ¿Qué es Hadoop? • Clusters de Hadoop • Varios servidores con un sistema de archivos compartido denominado HDFS • Las solicitudes de cliente son atendidos por el “Name Node” • Varios nodos de datos procesan los datos mediante Map/Reduce • Proyectos relacionados • Hive • HCatalog • Pig • Oozie • Mahout
  • 44. Hadoop - Inspiración 44 Google Equivalente de Hadoop GFS HDFS MapReduce Hadoop MapReduce Sawzall Hive, Pig BigTable HBase Chubby ZooKeeper Pregel Giraph Google obtuvo una patente para “map reduce – un sistema de procesamiento de datos de gran escala" en 2010, pero favorece a Apache Hadoop mediante la concesión de una licencia.
  • 45. Estrategia de datos tradicional ETL Tools DW / Marts BI Analytics comercial Informatica Teradata Microstrategy SAS Oracle Data Integrator Oracle OBIEE TIBCO Spotfire IBM Datastage DB2, Netezza Cognos SPSS Microsoft SSIS SQL server Microsoft SSRS EMC Greenplum Open source Talend mySQL Pentaho , Jaspersoft R, RapidMiner
  • 46. Estrategia con Hadoop 46 Hadoop puede complementar el ambiente DW existente así como reemplazar algunos de los componentes de una estrategia de datos tradicionales.
  • 47. Componentes de Hadoop • Almacenamiento • HDFS – Es un Sistema de archivos NO una DBMS • HBase - Almacenamiento columnar que sirve de baja latencia de lectura / escritura a petición • Extraer - Cargar • Fuente / Destino es RDBMS - Sqoop, hiho • Stream processing - Flume, Scribe, Chukwa, S4, Storm • Transformación • Map-reduce (Java u otro lenguaje), Pig, Hive, Oozie etc. • Talend e Informatica han construido productos para abstraer la complejidad de la map-reduce 47
  • 48. Componentes de Hadoop • Analytics • RHadoop, Mahout • BI – Todas las empresas actuales poseen conectores de Hadoop 48
  • 51. Introducción a Big Data y Hadoop  Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos  Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede:  Almacenar petabytes de información  Permite procedamiento distribuido  Principales atributos:  Redundante y confiable (no se pierden datos)  Centrado en el análisis por lotes  Facilidad de crear aplicaciones y procesamiento distribuido  Ejecuta en cualquier hardware
  • 53. MapReduce De bajo nivel, fundamentos de Hadoop
  • 54. Clúster Hadoop Yahoo! Hadoop clúster, 2007. Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
  • 55. Clúster Hadoop Buster Cluster, un proyecto de investigación Miles Osborne, de la Universidad de Edimburgo, Facultad de Informática. Imagen utilizada con permiso. http://homepages.inf.ed.ac.uk/miles/
  • 56. Cluster Hadoop Nube Rent-A-Hadoop-cluster, o bien: "Superordenador de centavos" Windows Azure HD Insight
  • 57. Pig Latin • Lenguaje orientado a flujo de datos • Idioma de alto nivel para el enrutamiento de datos, permite la fácil integración de Java para tareas complejas • Tipos de datos incluyen conjuntos, matrices asociativas, tuplas 57 • Herramientas de cliente • El Pig Interpreter convirte el pig-script a Java map- reduce y los envía mediante el JobTracker • No instala adicional necesario en el Hadoop Cluster • Desempeño de Pig ~ 1.4x Java MapReduce, pero necesitan menos líneas de código ~ 1/10th • Desarrollado por Yahoo!
  • 58. Hive • Aplicación de datawarehouse basado en SQL • Conjunto de características es similar a Pig pero se asimila a TSQL • Soporta SELECT, JOIN, GROUP BY, etc. • Utiliza la filosofía “Schema on Read” • Características para el análisis de grandes conjuntos de datos • Partition columns • Sampling • Buckets • Requiere la instalación de metastore en cluster de Hadoop • Desarrollado por Facebook 58
  • 59. HBase  Distribuido, versionado, orientada a la columnas basado en HDFS  Objetivo: para almacenar las tablas con miles de millones de filas y millones columnas  Proporciona una opción de "baja latencia" (OLTP) Lee y escribe junto con el soporte para el modelo de procesamiento por lotes de map-reduce  Cluster de HBase consiste en un único "maestro HBase" y varios "RegionServers“  Facebook utiliza HBase para impulsar su infraestructura de mensajería  Estadísticas - servicio de Chat soporta más 300 millones los usuarios que envían mensajes más 120 billones por mes  Valores NULL no se almacena por diseño y parece tabla típica del almacenaje 59 Row-key Column-family Column Timestamp Value 1 CF Name Ts1 Vijay 1 CF Address Ts1 Mumbai 1 CF Address Ts2 Goa
  • 60. Sqoop  RDBMS hacia Hadoop  Herramienta de línea de comandos para importar cualquier JDBC de base de datos hacia Hadoop  Y también exportar datos de Hadoop a cualquier base de datos  Genera trabajos de map-reduce para conectar a los registros de base de datos y lectura/escritura  DB conectores específicos aportados por los proveedores –  Oraoop for Oracle by Quest software  Teradata connector from Teradata  Netezza connector from IBM  Desarrollado por Cloudera  Oracle ha llegado con "Oracle Loader para Hadoop" y afirman que está optimizado para "Oracle Database 11g" 60
  • 61. Flume  Flume es un servicio distribuido, fiable y disponible para mover eficientemente grandes cantidades de datos a manera como se produce, casi en línea  Desarrollado en Cloudera 61
  • 62. Machine Learning • Apache Mahout • Biblioteca de aprendizaje máquina escalable la mayoría de los algoritmos implementados sobre Apache Hadoop utilizando map/reduce • Algoritmos soportados – • Recomendación minería - toma el comportamiento de los usuarios y encontrar artículos dijeron le gustaría usuario especificado. • Agrupamiento - toma por ejemplo, documentos de texto y grupos de ellos basados en temas relacionados con documento. • Clasificación- Aprende de los documentos existentes categorizados cómo documentos categoría específica y es capaces de asignar documentos sin etiqueta a la categoría adecuada. • Frequent item set mining - Toma un conjunto de elemento de grupos (e.g. términos en una sesión de consulta, contenido del carrito de compras) e identifica, qué elementos individuales típicamente aparece juntos. • RHadoop (Revolution Analytics) y RHIPE (Purdue University) permiten ejecutar programas R en Apache Hadoop 62
  • 63. Plataforma de Big Data Micrsooft
  • 64. Soluciones Big Data Microsoft  SQL Server Parallel Data Warehouse  Appliance para data warehouse corporativo  Procesamiento paralelo masivo (MPP), arquitectura de Shared- Noting  Windows Azure HDInsight  Implementación de Hadoop basada en la nube  Disponible como un servicio de Microsoft Azure  Polibase  Tecnología de integración de SQL Server Parallel Data Warehouse y HDInsight
  • 65. Integración con herramientas Microsoft Integración con las herramientas de Análisis de Microsoft APPLICATIONSDATASYSTEMS Aplicaciones Microsoft HORTONWORKS DATA PLATFORM For Windows DATASOURCES MOBILE DATA OLTP, POS SYSTEMS Fuentes tradicionales (RDBMS, OLTP, OLAP) Nuevas Fuentes (web logs, email, sensor data, social media)
  • 67. Hadoop y Kafka Centro de datos en directo Centro de datos fuera de línea HadoopHadoopDev Hadoop InterfazInterfazLos consumidoresre s en tiempo real KafkaKafkaKafka KafkaKafkaKafka HadoopHadoopPROD Hadoop
  • 68. ¿Apache Storm? 4 Fácil de programar Una plataforma de procesamiento en tiempo real distribuido Tolerante a fallos Se espera que que falle y esta preparado para recuperarse Rápido Velocidad de 1M + mensajes por segundo por nodo Escalable Miles de workers por grupo Seguro Entrega de mensajes garantizada Exactamente una vez Análisis de Streaming de datos
  • 70. Casos de uso de Storm 7 Entrada Operadores (Ejemplos) Lookup Salida Lenguaje De Programación Automoviles Conectados Event hubs Window based aggregation, Join stream/split stream HBase, ML DocumentDB C# hybrid, Java ETL Event Hubs Partitioning/ organize N/A WASB Java IoT Event Hubs Window based aggregation Hbase, ML DocumentDB, HBase Java Detección Fraude ServiceBus Queue Filter ML Hbase C# hybrid Análisis Sociales Twitter Groupby/trending topics N/A Realtime dashboard (BI) Trident Supervisión de la red Kafka Split (on success/ failure) ML SQL C# hybrid Búsqueda de Log Storage Queue/ Event Hub Parsing & index N/A Elastic Search Java Dispositivos Moviles Eventhub Count HBase SignalR C# hybrid
  • 71. iter. 1 iter. 2 . . . Entrada Intercambio de Datos en Spark Repartido memoria Entrada consulta 1 pregunta 2 consulta 3 . . . una vez tratamiento 10-100× más rápido que la red y el disco
  • 72. Qué es Azure Stream Analytics
  • 73.  La automatización de la automatización  Utilizar computadoras para programar computadoras  Escribir software es el cuello de botella  Deje que los datos hagan el trabajo! Qué es el aprendizaje autómático o Machine Learning
  • 74. Flujo en Azure Machine Learning
  • 75. Flujo en Azure Machine Learning
  • 76. Flujo en Azure Machine Learning
  • 77. Flujo en Azure Machine Learning
  • 78. Alto rendimiento y optimizado en el hardware Autenticación del usuario final con Active Directory Accesible para todo el mundo con las herramientas de Microsoft BI Administrado y monitoreado utilizando System Center 100-por ciento Apache Hadoop SQL Server Parallel Data warehouse Microsoft HDInsight Polibase APS listo para la empresa Hadoop con HDInsight Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
  • 79. (HDFS) Bridge Resultado s Acceso directo y paralelo a HDFS Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación PDW Los datos no relacional Aplicaciones Social Sensor y RFID Móvil aplicaciones Web aplicaciones Hadoop Los datos relacionales Basado esquema tradicional almacén de datos PDWPuente HDFS Enhanced PDW query engine La tabla externa Los datos externos Archivo externo Regular T-SQL
  • 83. SQOOP, HiveODBC, Templeton, CSV, etc Conectividad de BI
  • 84. Big Data Utilice Excel! 2 Servidores, 3 meses 110 GB Archivos Binarios SSIS SSIS SSIS SSIS extraer 1.2GB de texto 120MB gz Hadoop hacia PowerPivot 6MB
  • 85. PowerPivot Hoja de Excel de HoA Audit data
  • 86. Power View de Audit Data

Notas do Editor

  1. Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data tan convincente es que permiten a las empresas a encontrar respuestas a preguntas que ni siquiera saben que preguntar.  Esto puede dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.  Sin embargo, hay una serie de casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional.
  2. http://wikibon.org/wiki/v/Big_Data:_Hadoop,_Business_Analytics_and_Beyond
  3. Give some background on – basically generating business reports Tracking data is crucial to measure user engagement – unique member visits per day, ad metrics CTR to ad publishers Also data analytics – new models for PYMK Collapse multple boxes into one. Show multiple Hadoop clusters If you track some new data, it will automatically reach Hadoop in a few minutes.