SlideShare uma empresa Scribd logo
1 de 45
Big Data HDInsight 
Gustavo Alzate Sandoval 
Microsoft Azure
Big Data HDInsight 
@ElTavoDev 
www.eltavo.net 
@Avanet
Agenda 
 Conociendo Big Data 
 Conceptos Básicos 
 Escenarios 
 Hadoop 
 HDInsight
¿Qué es Big Data? 
"Big data" es un término aplicado a 
conjuntos de datos que superan la 
capacidad del software habitual para 
ser capturados, gestionados y 
procesados en un tiempo razonable. 
Microsoft Azure
¿Qué es Big Data? 
Big data es una colección de conjuntos de 
datos tan grande y complejo que se vuelve 
difícil para trabajar con el uso de 
herramientas de gestión de base de datos 
tradicionales. Las dificultades incluyen la 
captura, almacenamiento, búsqueda, 
intercambio, análisis y visualización. 
Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá 
Microsoft Azure
¿Qué es Big Data? 
Big Data: “ Barreras para que una 
organización o equipo puedan almacenar, 
procesar y acceder todos los datos que 
necesitan para operar con eficiencia, tomar 
decisiones, reducir riesgos, etc.” 
Fuente: SolidQ 
Microsoft Azure
¿Por que Big Data? 
Microsoft Azure
Tendencias Claves 
Microsoft Azure
Big Data – La revolución en los datos 
Los datos digitales crecerán40x próxima década 
En 2015, servicios de nube pública tendrán 46% 
de crecimiento neto en gasto de ti 
Microsoft Azure
¿Qué es Big Data? 
Volumen 
Velocidad 
Variedad 
Variabilidad 
Microsoft Azure
Internet of Things 
¿Qué es Big Data? 
Click Stream Sensors / RFID / Devices Wikis / Blogs 
Audio / Video 
Log Files 
Spatial & GPS Coordinates 
Text/Image 
Social Sentiment 
Data Market Feeds 
eGov Feeds 
Weather 
Mobile Modern Web 
Advertising eCommerce Collaboration 
Digital Marketing 
Search Marketing 
Web Logs 
Recommendations 
ERP / CRM 
Sales Pipeline 
Payables 
Payroll 
Inventory 
Contacts 
Deal Tracking 
Exabytes 
(10e18) 
Petabytes 
(10e15) 
Terabytes 
(10e12) 
Gigabytes 
(10e9) 
Velocidad | Variedad | Variabilidad 
Volumen 
ERP / CRM Modern Web Internet of Things 
Microsoft Azure
Ejemplos de Big Data 
12 Tb 
día 
21 Pb 
Hadoop 
cluster 
7 Pb 
mes 
1 Tb 
tweets/dia 
75 
Million 
scores/day 
14 Tb 
Hadoop 
cluster 
7 Tb 
datos/dia 
4 Billion 
Graph 
edg/day 
Microsoft Azure
Flujo de datos de un tradicional E-Commerce
Nuevo flujo de Big Data de un E-Commerce
Conceptos básicos 
Microsoft Azure
Características de Big Data
¿Qué es Hadoop? 
• Plataforma de almacenamiento de datos y análisis para Big Data 
• Open Source 
• Optimizado para manejar 
• Datos masivos a través de paralelismo 
• Variedad de datos (Estructurados, No-estructurados, Menos 
estructurados) 
• Uso de hardware económico 
• No para OLTP / OLAP
Sistema de archivos distribuidos 
(HDFS) 
• Sistema de archivos distribuidos y escalables escrito en Java 
• Replicación automática 
• Optimizado para operaciones de lectura 
• Distribuye y copia los ficheros en diferentes nodos para garantizar 
backup y disponibilidad de la información
MapReduce 
• Sistema de procesamiento distribuido (consume de datos) 
• Rastreador de trabajo (Job tracker) 
• Rastreador de tareas (Task tracker) 
• Resolución práctica de problemas susceptibles a ser paralelizados 
• Aborda problemas de set de datos de gran tamaño
RDBMS vs. Hadoop
Distributed Storage 
(HDFS) 
Query 
(Hive) 
Distributed Processing 
(MapReduce) 
ODBC 
Legend 
■ Core Hadoop 
■ Data processing 
■ Data Movement 
■ Packages 
Ecosistema Hadoop
Hive 
• Consultas en paralelo usando MapReduce 
• Lenguaje HiveQL (Símil Sql) 
• Permite procesar grandes volúmenes de datos 
• Escalabilidad 
• Tolerancia a fallos 
Microsoft Azure
Ejemplos HiveQL 
• Crear una Tabla Externa 
CREATE EXTERNAL TABLE iislogs( 
sdate string, stime string, ssitename string, csmethod string, csuristem string, 
csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ' ' 
LOCATION 
'wasb://iis-logs@myapp.blob.core.windows.net/' 
• Ejecutar un query para retornar datos 
select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version, 
query_params['search_value'] as search_value 
from (select *, str_to_map(csuriquery, '&', '=') as query_params 
from iislogs 
) version_logs 
where query_params['api-version'] is not null 
Microsoft Azure
Pig 
• Lenguaje script para expresar sentencias MapReduce 
• Usa paralelismo para ejecutar las sentencias 
• Optimizado para grandes volumenes de datos 
• Lenguaje PigLatin (Símil Sql) 
Microsoft Azure
Ejemplos PigLatin 
• Carga y Transformación de Datos 
A = load 'passwd' using PigStorage(':'); -- load the passwd file 
B = foreach A generate $0 as id; -- extract the user IDs 
store B into ‘id.out’; -- write the results to a file name id.out 
• Ejecutar un query para retornar y procesar datos 
LOGS = LOAD 'wasb:///example/data/sample.log'; 
LEVELS = foreach LOGS generate REGEX_EXTRACT($0, '(TRACE|DEBUG|INFO|WARN|ERROR|FATAL)', 1) as 
LOGLEVEL; 
FILTEREDLEVELS = FILTER LEVELS by LOGLEVEL is not null; 
GROUPEDLEVELS = GROUP FILTEREDLEVELS by LOGLEVEL; 
FREQUENCIES = foreach GROUPEDLEVELS generate group as LOGLEVEL, COUNT(FILTEREDLEVELS.LOGLEVEL) 
as COUNT; 
RESULT = order FREQUENCIES by COUNT desc; 
DUMP RESULT; 
Microsoft Azure
¿Qué es HDInsight? 
• Project Isotope 
• HDInsight es la distribución de Microsoft de Apache 
Hadoop que se ejecuta en Windows. 
• On premise: Instalación en Windows Server 
• Cloud: Despliegue en la nube Microsoft Azure
Ventajas 
Escale con total flexibilidad a petición 
• HDInsight se ha diseñado para poder hacer frente a 
cualquier cantidad de datos, con la capacidad de 
escalar de terabytes a petabytes a petición. 
Solamente se cobra por los recursos de proceso y 
almacenamiento que realmente usa.
Ventajas 
Estudie todos los datos: estructurados, 
semiestructurados, no estructurados 
• Dado que es 100% Apache Hadoop, HDInsight 
puede procesar datos no estructurados o 
semiestructurados desde secuencias de clics web, 
medios sociales, registros de servidor, dispositivos, 
sensores, etc.
Ventajas 
Desarrolle en su lenguaje favorito 
• HDInsight tiene extensiones de programación 
eficaces para lenguajes como C#, Java, .NET y más. 
Así, en Hadoop, podrá usar el lenguaje de 
programación de su elección para crear, configurar, 
enviar y supervisar trabajos de Hadoop
Ventajas 
Sin hardware que comprar o mantener 
• Con HDInsight, puede implementar Hadoop en la 
nube sin comprar nuevo hardware ni incurrir en 
otros costos iniciales. Además, la instalación y 
configuración se realizan de forma rápida. Azure se 
encarga de todo. Puede iniciar su primer clúster en 
minutos
Ventajas 
Use Excel para visualizar sus datos de Hadoop 
• Dado que se integra con Excel, HDInsight le permite 
visualizar y analizar los datos de Hadoop de nuevas y 
convincentes formas en una herramienta conocida 
para sus usuarios finales. Desde Excel, los usuarios 
pueden seleccionar Azure HDInsight como origen de 
datos
C#, F#, .NET 
Hadoop Core + 
Hive, Pig, HBase 
Azure Storage (WASB) 
Office 365 Power BI 
(Excel, PowerQuery, 
PowerView, 
BI Sites) 
World's Data (Azure Data 
Marketplace) 
HDInsight y Hadoop 
ODBC 
Sqoop for SQL 
Server 
PowerShell
Demo 
HDInsight en Microsoft Azure
Ofertas detalladas
Recursos
Gracias!! 
@ElTavoDev 
www.eltavo.net 
@Avanet
Big Data analytics 
Importante 
Microsoft Azure
Programando HDInsight 
Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus… 
C#, F# Map/Reduce, Microsoft .NET management clients 
PowerShell, cross-platform CLI tools
Construyendo experiencias de desarrollador 
Empleos de Autor Integración de App 
Creación de frameworks and lenguajes 
Conectividad 
Programabilidad 
Seguridad 
Combinados libremente 
Ligero 
Bajo costo de extender 
Escenario orientado 
Innovación fluye hacia 
arriba 
Nuevos modelos de 
computo 
Mejoras de rendimiento 
Extender la amplitud & 
profundidad 
Habilitar nuevos escenarios 
Integrar con cadenas actuales 
de herramientas
HDInsight y Hadoop 
Mahout Pegasus Flume 
Pig Hive 
Map Reduce 
HDFS 
Hive ODBC 
Sqoop 
JDBC 
Microsoft Azure & Windows Server 
Microsoft 
BI 
Platform

Mais conteúdo relacionado

Mais procurados

Aplicaciones de linea de negocio con silverlight y share point
Aplicaciones de linea de negocio con silverlight y share pointAplicaciones de linea de negocio con silverlight y share point
Aplicaciones de linea de negocio con silverlight y share point
Roberto Carlos
 
060 Mas Valor Mas Conocimiento Y Mas Tecnologia En Gene Xus X Evolution 1
060 Mas Valor Mas Conocimiento Y Mas Tecnologia En Gene Xus X Evolution 1060 Mas Valor Mas Conocimiento Y Mas Tecnologia En Gene Xus X Evolution 1
060 Mas Valor Mas Conocimiento Y Mas Tecnologia En Gene Xus X Evolution 1
GeneXus
 

Mais procurados (19)

Foro de Arquitectos: caché en azure a fondo
Foro de Arquitectos: caché en azure a fondoForo de Arquitectos: caché en azure a fondo
Foro de Arquitectos: caché en azure a fondo
 
Primeros pasos con Azure database for MySQL
Primeros pasos con Azure database for MySQLPrimeros pasos con Azure database for MySQL
Primeros pasos con Azure database for MySQL
 
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data LakeBig Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake
 
Introducción a SSIS
Introducción a SSISIntroducción a SSIS
Introducción a SSIS
 
SGNext Elasticsearch
SGNext ElasticsearchSGNext Elasticsearch
SGNext Elasticsearch
 
Sincronizando Azure Search con SQL Server
Sincronizando Azure Search con SQL ServerSincronizando Azure Search con SQL Server
Sincronizando Azure Search con SQL Server
 
Curso_DataBase_Tarea01
Curso_DataBase_Tarea01Curso_DataBase_Tarea01
Curso_DataBase_Tarea01
 
Fundamentos de Integración de Datos (SSIS)
Fundamentos de Integración de Datos (SSIS)Fundamentos de Integración de Datos (SSIS)
Fundamentos de Integración de Datos (SSIS)
 
Actividad de aprendizaje 4: base de datos
Actividad de aprendizaje 4: base de datosActividad de aprendizaje 4: base de datos
Actividad de aprendizaje 4: base de datos
 
Desarrollo con stack MEAN
Desarrollo con stack MEANDesarrollo con stack MEAN
Desarrollo con stack MEAN
 
HTML5 + Asp.NET
HTML5 + Asp.NETHTML5 + Asp.NET
HTML5 + Asp.NET
 
Seminario web: Simplificando el uso de su base de datos con Atlas
Seminario web: Simplificando el uso de su base de datos con AtlasSeminario web: Simplificando el uso de su base de datos con Atlas
Seminario web: Simplificando el uso de su base de datos con Atlas
 
Automatización del despliegue de aplicaciones multi cloud
Automatización del despliegue de aplicaciones multi cloudAutomatización del despliegue de aplicaciones multi cloud
Automatización del despliegue de aplicaciones multi cloud
 
Almacenamiento en la nube
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nube
 
Aplicaciones de linea de negocio con silverlight y share point
Aplicaciones de linea de negocio con silverlight y share pointAplicaciones de linea de negocio con silverlight y share point
Aplicaciones de linea de negocio con silverlight y share point
 
Paralelismo en sql server
Paralelismo en sql serverParalelismo en sql server
Paralelismo en sql server
 
Html5 avanzado
Html5 avanzadoHtml5 avanzado
Html5 avanzado
 
Orquestación de contenedores con Kubernetes
Orquestación de contenedores con KubernetesOrquestación de contenedores con Kubernetes
Orquestación de contenedores con Kubernetes
 
060 Mas Valor Mas Conocimiento Y Mas Tecnologia En Gene Xus X Evolution 1
060 Mas Valor Mas Conocimiento Y Mas Tecnologia En Gene Xus X Evolution 1060 Mas Valor Mas Conocimiento Y Mas Tecnologia En Gene Xus X Evolution 1
060 Mas Valor Mas Conocimiento Y Mas Tecnologia En Gene Xus X Evolution 1
 

Destaque

Programación orientada a objetos
Programación orientada a objetosProgramación orientada a objetos
Programación orientada a objetos
Nanda Moran
 
Comparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De SocketsComparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De Sockets
mallita
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
Antonio Rodriguez
 

Destaque (20)

Introducción a la Arquitectura de Software
Introducción a la Arquitectura de SoftwareIntroducción a la Arquitectura de Software
Introducción a la Arquitectura de Software
 
DocumentDB la base de datos NoSql de Microsoft Azure
DocumentDB la base de datos NoSql de Microsoft AzureDocumentDB la base de datos NoSql de Microsoft Azure
DocumentDB la base de datos NoSql de Microsoft Azure
 
bussines intelligence
bussines intelligence bussines intelligence
bussines intelligence
 
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOPMONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
 
G te c sesion3b- mapreduce
G te c sesion3b- mapreduceG te c sesion3b- mapreduce
G te c sesion3b- mapreduce
 
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION IITECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
 
Programación orientada a objetos
Programación orientada a objetosProgramación orientada a objetos
Programación orientada a objetos
 
Comparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De SocketsComparacion Entre Rmi Y Api De Sockets
Comparacion Entre Rmi Y Api De Sockets
 
Hadoop
HadoopHadoop
Hadoop
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
 
Hadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadasHadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadas
 
nerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshopnerdear.la 2016 - Docker workshop
nerdear.la 2016 - Docker workshop
 
Herramientas y ejemplos de trabajos MapReduce con Apache Hadoop
Herramientas y ejemplos de trabajos MapReduce con Apache HadoopHerramientas y ejemplos de trabajos MapReduce con Apache Hadoop
Herramientas y ejemplos de trabajos MapReduce con Apache Hadoop
 
Polybase
PolybasePolybase
Polybase
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Introducción a Docker
Introducción a DockerIntroducción a Docker
Introducción a Docker
 

Semelhante a Big data, Hadoop, HDInsight

Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
mateo luquez
 

Semelhante a Big data, Hadoop, HDInsight (20)

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD Insight
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
 
Global Azure Bootcamp - Jorge Muchaypiña G.
Global Azure Bootcamp - Jorge Muchaypiña G.Global Azure Bootcamp - Jorge Muchaypiña G.
Global Azure Bootcamp - Jorge Muchaypiña G.
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
BigData
BigDataBigData
BigData
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Big Data Mining with Mahout
Big Data Mining with MahoutBig Data Mining with Mahout
Big Data Mining with Mahout
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Big data
Big dataBig data
Big data
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Taller 2
Taller 2Taller 2
Taller 2
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Visualización de big data con power view
Visualización de big data con power viewVisualización de big data con power view
Visualización de big data con power view
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
 

Último

Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
AnnimoUno1
 

Último (11)

Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 

Big data, Hadoop, HDInsight

  • 1. Big Data HDInsight Gustavo Alzate Sandoval Microsoft Azure
  • 2. Big Data HDInsight @ElTavoDev www.eltavo.net @Avanet
  • 3. Agenda  Conociendo Big Data  Conceptos Básicos  Escenarios  Hadoop  HDInsight
  • 4. ¿Qué es Big Data? "Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Microsoft Azure
  • 5. ¿Qué es Big Data? Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización. Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá Microsoft Azure
  • 6. ¿Qué es Big Data? Big Data: “ Barreras para que una organización o equipo puedan almacenar, procesar y acceder todos los datos que necesitan para operar con eficiencia, tomar decisiones, reducir riesgos, etc.” Fuente: SolidQ Microsoft Azure
  • 7. ¿Por que Big Data? Microsoft Azure
  • 9. Big Data – La revolución en los datos Los datos digitales crecerán40x próxima década En 2015, servicios de nube pública tendrán 46% de crecimiento neto en gasto de ti Microsoft Azure
  • 10.
  • 11.
  • 12. ¿Qué es Big Data? Volumen Velocidad Variedad Variabilidad Microsoft Azure
  • 13. Internet of Things ¿Qué es Big Data? Click Stream Sensors / RFID / Devices Wikis / Blogs Audio / Video Log Files Spatial & GPS Coordinates Text/Image Social Sentiment Data Market Feeds eGov Feeds Weather Mobile Modern Web Advertising eCommerce Collaboration Digital Marketing Search Marketing Web Logs Recommendations ERP / CRM Sales Pipeline Payables Payroll Inventory Contacts Deal Tracking Exabytes (10e18) Petabytes (10e15) Terabytes (10e12) Gigabytes (10e9) Velocidad | Variedad | Variabilidad Volumen ERP / CRM Modern Web Internet of Things Microsoft Azure
  • 14. Ejemplos de Big Data 12 Tb día 21 Pb Hadoop cluster 7 Pb mes 1 Tb tweets/dia 75 Million scores/day 14 Tb Hadoop cluster 7 Tb datos/dia 4 Billion Graph edg/day Microsoft Azure
  • 15. Flujo de datos de un tradicional E-Commerce
  • 16. Nuevo flujo de Big Data de un E-Commerce
  • 19. ¿Qué es Hadoop? • Plataforma de almacenamiento de datos y análisis para Big Data • Open Source • Optimizado para manejar • Datos masivos a través de paralelismo • Variedad de datos (Estructurados, No-estructurados, Menos estructurados) • Uso de hardware económico • No para OLTP / OLAP
  • 20. Sistema de archivos distribuidos (HDFS) • Sistema de archivos distribuidos y escalables escrito en Java • Replicación automática • Optimizado para operaciones de lectura • Distribuye y copia los ficheros en diferentes nodos para garantizar backup y disponibilidad de la información
  • 21. MapReduce • Sistema de procesamiento distribuido (consume de datos) • Rastreador de trabajo (Job tracker) • Rastreador de tareas (Task tracker) • Resolución práctica de problemas susceptibles a ser paralelizados • Aborda problemas de set de datos de gran tamaño
  • 23.
  • 24. Distributed Storage (HDFS) Query (Hive) Distributed Processing (MapReduce) ODBC Legend ■ Core Hadoop ■ Data processing ■ Data Movement ■ Packages Ecosistema Hadoop
  • 25. Hive • Consultas en paralelo usando MapReduce • Lenguaje HiveQL (Símil Sql) • Permite procesar grandes volúmenes de datos • Escalabilidad • Tolerancia a fallos Microsoft Azure
  • 26. Ejemplos HiveQL • Crear una Tabla Externa CREATE EXTERNAL TABLE iislogs( sdate string, stime string, ssitename string, csmethod string, csuristem string, csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' LOCATION 'wasb://iis-logs@myapp.blob.core.windows.net/' • Ejecutar un query para retornar datos select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version, query_params['search_value'] as search_value from (select *, str_to_map(csuriquery, '&', '=') as query_params from iislogs ) version_logs where query_params['api-version'] is not null Microsoft Azure
  • 27. Pig • Lenguaje script para expresar sentencias MapReduce • Usa paralelismo para ejecutar las sentencias • Optimizado para grandes volumenes de datos • Lenguaje PigLatin (Símil Sql) Microsoft Azure
  • 28. Ejemplos PigLatin • Carga y Transformación de Datos A = load 'passwd' using PigStorage(':'); -- load the passwd file B = foreach A generate $0 as id; -- extract the user IDs store B into ‘id.out’; -- write the results to a file name id.out • Ejecutar un query para retornar y procesar datos LOGS = LOAD 'wasb:///example/data/sample.log'; LEVELS = foreach LOGS generate REGEX_EXTRACT($0, '(TRACE|DEBUG|INFO|WARN|ERROR|FATAL)', 1) as LOGLEVEL; FILTEREDLEVELS = FILTER LEVELS by LOGLEVEL is not null; GROUPEDLEVELS = GROUP FILTEREDLEVELS by LOGLEVEL; FREQUENCIES = foreach GROUPEDLEVELS generate group as LOGLEVEL, COUNT(FILTEREDLEVELS.LOGLEVEL) as COUNT; RESULT = order FREQUENCIES by COUNT desc; DUMP RESULT; Microsoft Azure
  • 29. ¿Qué es HDInsight? • Project Isotope • HDInsight es la distribución de Microsoft de Apache Hadoop que se ejecuta en Windows. • On premise: Instalación en Windows Server • Cloud: Despliegue en la nube Microsoft Azure
  • 30. Ventajas Escale con total flexibilidad a petición • HDInsight se ha diseñado para poder hacer frente a cualquier cantidad de datos, con la capacidad de escalar de terabytes a petabytes a petición. Solamente se cobra por los recursos de proceso y almacenamiento que realmente usa.
  • 31. Ventajas Estudie todos los datos: estructurados, semiestructurados, no estructurados • Dado que es 100% Apache Hadoop, HDInsight puede procesar datos no estructurados o semiestructurados desde secuencias de clics web, medios sociales, registros de servidor, dispositivos, sensores, etc.
  • 32. Ventajas Desarrolle en su lenguaje favorito • HDInsight tiene extensiones de programación eficaces para lenguajes como C#, Java, .NET y más. Así, en Hadoop, podrá usar el lenguaje de programación de su elección para crear, configurar, enviar y supervisar trabajos de Hadoop
  • 33. Ventajas Sin hardware que comprar o mantener • Con HDInsight, puede implementar Hadoop en la nube sin comprar nuevo hardware ni incurrir en otros costos iniciales. Además, la instalación y configuración se realizan de forma rápida. Azure se encarga de todo. Puede iniciar su primer clúster en minutos
  • 34. Ventajas Use Excel para visualizar sus datos de Hadoop • Dado que se integra con Excel, HDInsight le permite visualizar y analizar los datos de Hadoop de nuevas y convincentes formas en una herramienta conocida para sus usuarios finales. Desde Excel, los usuarios pueden seleccionar Azure HDInsight como origen de datos
  • 35. C#, F#, .NET Hadoop Core + Hive, Pig, HBase Azure Storage (WASB) Office 365 Power BI (Excel, PowerQuery, PowerView, BI Sites) World's Data (Azure Data Marketplace) HDInsight y Hadoop ODBC Sqoop for SQL Server PowerShell
  • 36. Demo HDInsight en Microsoft Azure
  • 38.
  • 41.
  • 42. Big Data analytics Importante Microsoft Azure
  • 43. Programando HDInsight Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus… C#, F# Map/Reduce, Microsoft .NET management clients PowerShell, cross-platform CLI tools
  • 44. Construyendo experiencias de desarrollador Empleos de Autor Integración de App Creación de frameworks and lenguajes Conectividad Programabilidad Seguridad Combinados libremente Ligero Bajo costo de extender Escenario orientado Innovación fluye hacia arriba Nuevos modelos de computo Mejoras de rendimiento Extender la amplitud & profundidad Habilitar nuevos escenarios Integrar con cadenas actuales de herramientas
  • 45. HDInsight y Hadoop Mahout Pegasus Flume Pig Hive Map Reduce HDFS Hive ODBC Sqoop JDBC Microsoft Azure & Windows Server Microsoft BI Platform

Notas do Editor

  1. Como nos relacionamos con los clientes, los clientes de explicar las presiones para ofrecer más información en tiempo real a través de aplicaciones ricas al mismo tiempo reducir los costos en esta nueva economía. Las tendencias convergentes de TI de espacio de almacenamiento prácticamente libre, la rápida adopción de la virtualización y el aumento de las capacidades de hardware estándar de la industria, la aparición de la nube como una opción de implementación, y la necesidad de información empresarial en tiempo real para todos los empleados a través de fáciles de usar herramientas están impulsando la explosión de datos que vemos hoy. Los clientes necesitan un enfoque completo para la gestión, acceso y entrega de información a través de su organización para acelerar y mejorar las decisiones de negocios. En los últimos 5 años, hemos estado entregando en una visión de construir una plataforma de datos para nuestros clientes. Ha sido un tiempo de transformación para SQL Server y hemos entregado la innovación para ayudar a nuestros clientes a adaptarse a la explosión de datos en sus organizaciones. Nos acercamos a esto en términos de ofrecer una plataforma que soporta todos los tipos de datos - estructurados y no estructurados - y todos los niveles -. Desde el borde, al centro de datos y luego a la nube Hemos entregado sólidas capacidades que le permiten construir el acceso a estos datos a través de aplicaciones ricas y para manejar estos datos con herramientas de fácil uso e interfaces, así como nuevos servicios para ofrecer inteligencia de negocios. Hemos hecho progresos en cada una de estas áreas, así como continuar fortaleciendo el fundamento para entregar la seguridad, rendimiento y disponibilidad que necesitan las empresas y las aplicaciones de todos los tamaños. Esta visión sigue guiando, pero reconocemos que es necesario que continúe evolucionando. Una evolución importante en nuestra visión está cambiando de hablar acerca de los datos a hablar de la información. Esto refleja el cambio que desea una plataforma que no sólo almacena y gestiona todos los datos, pero le ayuda a ofrecer un mayor valor de sus datos a través de su empresa en las aplicaciones que utiliza todos los días. Las organizaciones están buscando para competir y crecer mediante la reducción de los costes, reduce el tiempo de comercialización y la identificación de las oportunidades de mayor valor para su negocio. Estamos avanzando rápidamente para hacer frente a estos retos con nuevas capacidades en gestión, inteligencia empresarial y almacenamiento de datos y mediante la entrega de la primera oferta de cloud relacional de bases de datos con Microsoft SQL Azure. Otro cambio importante es dar a conocer personas en el centro de esta visión, los usuarios de SQL Server y los que buscamos ofrecer un mayor valor con cada nueva versión - Profesionales de TI y de bases de datos que apoyan la expansión de las necesidades de información de negocio a través de servicios de TI; Los desarrolladores que crean soluciones de forma rápida para capturar las oportunidades de negocio en un mercado cada vez más competitivo; Los profesionales de BI y los usuarios finales que están buscando a los míos rápidamente grandes volúmenes de datos de conocimiento del negocio para aumentar la satisfacción del cliente e impulsar resultados empresariales. Estas son las personas para las que innovamos y buscamos deleitar con SQL Server. Microsoft, junto con nuestros socios en todo el mundo, se compromete a entregar una plataforma de información que permite a su gente y le proporciona un conjunto completo de lista para la empresa de tecnologías y herramientas que le ayudarán a obtener más valor de su información al menor costo total de propiedad. La visión se reúne en cuatro pilares. MISIÓN CRÍTICA Nuestra visión se inicia con la fundación de una plataforma de misión crítica. A manejar su negocio en las soluciones que construir alrededor de SQL Server y Windows Server, que necesita para llevar a cabo con los más altos niveles de asegurar sus aplicaciones y sistemas son confiables, de alta disponibilidad, seguridad y ofrecen un rendimiento predecible superior con mejor coste total de propiedad de la industria. El centro de datos es una de las áreas en las que vamos a seguir invirtiendo en el futuro. (Nota al margen: de misión crítica era un área clave de interés para el año 2008 - en materia de seguridad con el cifrado de datos transparente y Auditoría Avanzada, la disponibilidad con las mejoras de Database Mirroring y la réplica de punto a punto, así como las operaciones en línea y para conducir más rápido , un rendimiento predecible con el regulador de recursos y puntos de referencia líder en la industria para OLTP, ETL y 10 TB DW). Al mirar hacia el futuro, seguir impulsando las inversiones en la plataforma de misión crítica para apoyar la escalabilidad - escala con Windows Server y el apoyo de más de 64 procesadores lógicos con puntos de referencia probados para un rendimiento superior y la escala con la nueva edición de almacenamiento de datos en paralelo (antes conocido como Proyecto Madison). También vamos a ofrecer un mayor valor y capacidad con el nuevo Centro de Datos Edition proporciona virtualización ilimitados y soporte para Hyper-V Live Migration, la gestión a gran escala multi-servidor y de gran escala de procesamiento de eventos complejos a través de SQL Server StreamInsight. Habilitaba Al ayudar a los profesionales de TI y profesionales de bases de datos automatizar las tareas rutinarias que ahora pueden dedicar más tiempo a añadir valor al negocio. Los límites del entorno de TI continúan siendo estirada y los profesionales de TI han aumentado la responsabilidad de gestionar los requisitos de solicitud para el centro de datos, a través de dispositivos móviles y la escritorio, y ahora en la nube. Sabemos que la mayoría de los gastos de TI actuales anual se concentra en sólo el manejo del negocio. Queremos ayudar a los automatizar las tareas rutinarias y dedicar más tiempo a dar más valor en el negocio a través de proyectos de TI. (Nota al margen: Con SS2008, hemos entregado sobre la política de gestión basada en los datos de rendimiento y las inversiones clave colector que ahora estamos aprovechando para el R2 con la entrega de aplicaciones y multi-servidor de administración.) Dar a los profesionales una mayor visibilidad y control de sus entornos de TI y la capacidad de trabajar de manera más eficiente es un área clave que vamos a invertir en la R2 con la aplicación y multi-servidor de administración, y en futuras versiones. DINÁMICA DE DESARROLLO El objetivo de los desarrolladores es para ayudarlos a ser productivos para reducir el tiempo de solución y aumentar la riqueza de esas soluciones. Con Visual Studio,. NET Framework y SQL Server, los desarrolladores tienen una plataforma altamente productiva para entregar los datos a través de sus aplicaciones . Entity Framework y Entity Data Model son las principales inversiones que hemos hecho para salvar la distancia entre el objeto y el mundo relacional, tenemos el compromiso de la evolución de estas inversiones para los desarrolladores (Nota al margen: Con SS2008, entregamos capacidades para soportar tipos de datos adicionales. ofrecer a los desarrolladores incrementar las oportunidades para que el modelo de relación con las nuevas formas de datos con soporte para datos espaciales y las capacidades de FILESTREAM) De cara al futuro, pensamos en la posibilidad de que les permite aprovechar sus habilidades y las inversiones de plataforma para escribir aplicaciones que se aprovechan de las nuevas capacidades con las nubes y traer el modelo relacional de baja latencia de transmisión de datos con SQL Server StreamInsight. LA PERSISTENCIA Insight Inteligencia de negocio sigue siendo la prioridad # 1 para los CIOs. A pesar de que los presupuestos se reducen, se está pidiendo que haga más para entregar la información a la empresa. Obtener la información adecuada a la persona adecuada en el momento adecuado es fundamental para el éxito ahora más que nunca. Nosotros continuamos cumpliendo con nuestra visión de "Insight generalizado" por la re-definición de quién es el usuario promedio es de BI. Nuestra integración con Microsoft Office permite a los usuarios finales crear y consumir soluciones de BI a través de herramientas familiares como SharePoint y Excel. (Nota al margen: Con SS2008, cumplimos con la necesidad de una escala de DW, informes y análisis, así como la entrega de la experiencia del usuario final con la primera versión del Generador de informes). Con R2, estamos entregando logrado autoservicio de BI, la capacidad de compartir y colaborar en los análisis de ricos entre los usuarios finales que utilizan Excel y SharePoint en un entorno administrado de TI, a través de PowerPivot para Excel y PowerPivot para SharePoint, y la capacidad para conducir consistencia de los datos a través de su empresa con Master Data Services. CLOUD Con la aparición de la nube, que buscar la manera de cumplir con los pilares de la visión de la plataforma de información tanto en las instalaciones y fuera del establecimiento - Capacitar mediante la entrega de TI en el negocio, listo SLAs y racionalizar el mantenimiento, la entrega de la dinámica del desarrollo mediante el aprovechamiento de los mismos conocimientos, habilidades y herramientas familiares y ofreciendo un conocimiento más generalizado mediante la conexión de aplicaciones y datos en la nube con las fuentes en las instalaciones - todo ello controlado por una plataforma de misión crítica demostrado. La visión de la plataforma de información se alimenta de SQL Server y SQL Azure por ahora, y con el apoyo de la integración con el ecosistema de Microsoft para ofrecer una plataforma de información de extremo a extremo para empresas y aplicaciones de todos los tamaños
  2. Si nos fijamos en la industria de TI hoy en día, una serie de importantes tendencias están cambiando la forma en que el software se está comprando , instalación y utilización en la organización. datos de la Explosión El volumen de datos en el lugar de trabajo es la explosión . Según IDC , los datos digitales crecerán más de 40 veces en la próxima década . Como se crea cada vez más datos de forma digital, que esperamos ver cada vez mayores demandas suponen para nuestras plataformas de datos para almacenar , proteger y gestionar estos procesos de grandes volúmenes de datos. La consumerización de las TI Hoy vemos una tendencia creciente hacia la " consumerización " de TI a crear la demanda de experiencias Web 2.0 en el entorno empresarial . Como consumidores, estamos acostumbrados a poderosas experiencias fáciles de usar , ya sea buscando en Internet en un dispositivo móvil para encontrar información al instante, o rápidamente acceder a nuestros datos financieros personales . En el lugar de trabajo , sin embargo , a menudo somos incapaces de responder a las preguntas más básicas sobre nuestro negocio. Cada vez más, los usuarios demandan experiencias empresariales que reflejan más de cerca la comodidad y facilidad de uso en la vida de los consumidores. Nube privada y pública La computación en nube está cambiando la forma en que se accede y se procesan los datos , y está creando modelos totalmente nuevos de la manera aplicaciones se entregan . Según IDC , los servicios de la nube representarán el 46 % del crecimiento neto de la nueva en el gasto total en TI . Con la infraestructura de la nube privada y pública , las organizaciones tienen la oportunidad de reducir el TCO dramáticamente a medida que aumenta el volumen de datos . Como vemos una evolución hacia un mayor uso de nubes públicas y privadas , se observa una creciente necesidad de soluciones que soportan escenarios de nubes híbridas.
  3. Grandes datos abarca tres dimensiones: volumen, velocidad, variedad, variabilidad Volumen - Big datos vienen en un solo tamaño: grande. Las empresas están repletas de datos, terabytes fácilmente amasar e incluso petabytes de información. Velocity - A menudo, grandes datos sensibles al tiempo, se deben utilizar ya que se transmite a la empresa con el fin de maximizar su valor para el negocio. Variedad - Big datos se extiende más allá de los datos estructurados, incluyendo datos no estructurados de todas las variedades: texto, audio, video, haga clic en los arroyos, archivos de registro y más. variabilidad   Problemas más grandes en la interpretación de datos grandes también pueden surgir. La variabilidad término cuando se aplica a los grandes datos tiende a referirse específicamente a la amplia posible variación en el significado que puede ser encontrado. Encontrar el contexto semántico más apropiado en el que interpretar los datos no estructurados pueden introducir complejidades significativas en el análisis.
  4. ,
  5. Provision a cluster via Portal Provision a cluster via Powershell