3. Agenda
Conociendo Big Data
Conceptos Básicos
Escenarios
Hadoop
HDInsight
4. ¿Qué es Big Data?
"Big data" es un término aplicado a
conjuntos de datos que superan la
capacidad del software habitual para
ser capturados, gestionados y
procesados en un tiempo razonable.
Microsoft Azure
5. ¿Qué es Big Data?
Big data es una colección de conjuntos de
datos tan grande y complejo que se vuelve
difícil para trabajar con el uso de
herramientas de gestión de base de datos
tradicionales. Las dificultades incluyen la
captura, almacenamiento, búsqueda,
intercambio, análisis y visualización.
Fuente: Eduardo Castro MVP – SQL Saturday #247 Bogotá
Microsoft Azure
6. ¿Qué es Big Data?
Big Data: “ Barreras para que una
organización o equipo puedan almacenar,
procesar y acceder todos los datos que
necesitan para operar con eficiencia, tomar
decisiones, reducir riesgos, etc.”
Fuente: SolidQ
Microsoft Azure
9. Big Data – La revolución en los datos
Los datos digitales crecerán40x próxima década
En 2015, servicios de nube pública tendrán 46%
de crecimiento neto en gasto de ti
Microsoft Azure
10.
11.
12. ¿Qué es Big Data?
Volumen
Velocidad
Variedad
Variabilidad
Microsoft Azure
13. Internet of Things
¿Qué es Big Data?
Click Stream Sensors / RFID / Devices Wikis / Blogs
Audio / Video
Log Files
Spatial & GPS Coordinates
Text/Image
Social Sentiment
Data Market Feeds
eGov Feeds
Weather
Mobile Modern Web
Advertising eCommerce Collaboration
Digital Marketing
Search Marketing
Web Logs
Recommendations
ERP / CRM
Sales Pipeline
Payables
Payroll
Inventory
Contacts
Deal Tracking
Exabytes
(10e18)
Petabytes
(10e15)
Terabytes
(10e12)
Gigabytes
(10e9)
Velocidad | Variedad | Variabilidad
Volumen
ERP / CRM Modern Web Internet of Things
Microsoft Azure
14. Ejemplos de Big Data
12 Tb
día
21 Pb
Hadoop
cluster
7 Pb
mes
1 Tb
tweets/dia
75
Million
scores/day
14 Tb
Hadoop
cluster
7 Tb
datos/dia
4 Billion
Graph
edg/day
Microsoft Azure
19. ¿Qué es Hadoop?
• Plataforma de almacenamiento de datos y análisis para Big Data
• Open Source
• Optimizado para manejar
• Datos masivos a través de paralelismo
• Variedad de datos (Estructurados, No-estructurados, Menos
estructurados)
• Uso de hardware económico
• No para OLTP / OLAP
20. Sistema de archivos distribuidos
(HDFS)
• Sistema de archivos distribuidos y escalables escrito en Java
• Replicación automática
• Optimizado para operaciones de lectura
• Distribuye y copia los ficheros en diferentes nodos para garantizar
backup y disponibilidad de la información
21. MapReduce
• Sistema de procesamiento distribuido (consume de datos)
• Rastreador de trabajo (Job tracker)
• Rastreador de tareas (Task tracker)
• Resolución práctica de problemas susceptibles a ser paralelizados
• Aborda problemas de set de datos de gran tamaño
24. Distributed Storage
(HDFS)
Query
(Hive)
Distributed Processing
(MapReduce)
ODBC
Legend
■ Core Hadoop
■ Data processing
■ Data Movement
■ Packages
Ecosistema Hadoop
25. Hive
• Consultas en paralelo usando MapReduce
• Lenguaje HiveQL (Símil Sql)
• Permite procesar grandes volúmenes de datos
• Escalabilidad
• Tolerancia a fallos
Microsoft Azure
26. Ejemplos HiveQL
• Crear una Tabla Externa
CREATE EXTERNAL TABLE iislogs(
sdate string, stime string, ssitename string, csmethod string, csuristem string,
csuriquery string, sport int, scstatus int, scbytes int, sbytes int, timetaken int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ' '
LOCATION
'wasb://iis-logs@myapp.blob.core.windows.net/'
• Ejecutar un query para retornar datos
select sdate, stime, csmethod, scuristem, query_params['api-version'] as api_version,
query_params['search_value'] as search_value
from (select *, str_to_map(csuriquery, '&', '=') as query_params
from iislogs
) version_logs
where query_params['api-version'] is not null
Microsoft Azure
27. Pig
• Lenguaje script para expresar sentencias MapReduce
• Usa paralelismo para ejecutar las sentencias
• Optimizado para grandes volumenes de datos
• Lenguaje PigLatin (Símil Sql)
Microsoft Azure
28. Ejemplos PigLatin
• Carga y Transformación de Datos
A = load 'passwd' using PigStorage(':'); -- load the passwd file
B = foreach A generate $0 as id; -- extract the user IDs
store B into ‘id.out’; -- write the results to a file name id.out
• Ejecutar un query para retornar y procesar datos
LOGS = LOAD 'wasb:///example/data/sample.log';
LEVELS = foreach LOGS generate REGEX_EXTRACT($0, '(TRACE|DEBUG|INFO|WARN|ERROR|FATAL)', 1) as
LOGLEVEL;
FILTEREDLEVELS = FILTER LEVELS by LOGLEVEL is not null;
GROUPEDLEVELS = GROUP FILTEREDLEVELS by LOGLEVEL;
FREQUENCIES = foreach GROUPEDLEVELS generate group as LOGLEVEL, COUNT(FILTEREDLEVELS.LOGLEVEL)
as COUNT;
RESULT = order FREQUENCIES by COUNT desc;
DUMP RESULT;
Microsoft Azure
29. ¿Qué es HDInsight?
• Project Isotope
• HDInsight es la distribución de Microsoft de Apache
Hadoop que se ejecuta en Windows.
• On premise: Instalación en Windows Server
• Cloud: Despliegue en la nube Microsoft Azure
30. Ventajas
Escale con total flexibilidad a petición
• HDInsight se ha diseñado para poder hacer frente a
cualquier cantidad de datos, con la capacidad de
escalar de terabytes a petabytes a petición.
Solamente se cobra por los recursos de proceso y
almacenamiento que realmente usa.
31. Ventajas
Estudie todos los datos: estructurados,
semiestructurados, no estructurados
• Dado que es 100% Apache Hadoop, HDInsight
puede procesar datos no estructurados o
semiestructurados desde secuencias de clics web,
medios sociales, registros de servidor, dispositivos,
sensores, etc.
32. Ventajas
Desarrolle en su lenguaje favorito
• HDInsight tiene extensiones de programación
eficaces para lenguajes como C#, Java, .NET y más.
Así, en Hadoop, podrá usar el lenguaje de
programación de su elección para crear, configurar,
enviar y supervisar trabajos de Hadoop
33. Ventajas
Sin hardware que comprar o mantener
• Con HDInsight, puede implementar Hadoop en la
nube sin comprar nuevo hardware ni incurrir en
otros costos iniciales. Además, la instalación y
configuración se realizan de forma rápida. Azure se
encarga de todo. Puede iniciar su primer clúster en
minutos
34. Ventajas
Use Excel para visualizar sus datos de Hadoop
• Dado que se integra con Excel, HDInsight le permite
visualizar y analizar los datos de Hadoop de nuevas y
convincentes formas en una herramienta conocida
para sus usuarios finales. Desde Excel, los usuarios
pueden seleccionar Azure HDInsight como origen de
datos
35. C#, F#, .NET
Hadoop Core +
Hive, Pig, HBase
Azure Storage (WASB)
Office 365 Power BI
(Excel, PowerQuery,
PowerView,
BI Sites)
World's Data (Azure Data
Marketplace)
HDInsight y Hadoop
ODBC
Sqoop for SQL
Server
PowerShell
44. Construyendo experiencias de desarrollador
Empleos de Autor Integración de App
Creación de frameworks and lenguajes
Conectividad
Programabilidad
Seguridad
Combinados libremente
Ligero
Bajo costo de extender
Escenario orientado
Innovación fluye hacia
arriba
Nuevos modelos de
computo
Mejoras de rendimiento
Extender la amplitud &
profundidad
Habilitar nuevos escenarios
Integrar con cadenas actuales
de herramientas
45. HDInsight y Hadoop
Mahout Pegasus Flume
Pig Hive
Map Reduce
HDFS
Hive ODBC
Sqoop
JDBC
Microsoft Azure & Windows Server
Microsoft
BI
Platform
Notas do Editor
Como nos relacionamos con los clientes, los clientes de explicar las presiones para ofrecer más información en tiempo real a través de aplicaciones ricas al mismo tiempo reducir los costos en esta nueva economía. Las tendencias convergentes de TI de espacio de almacenamiento prácticamente libre, la rápida adopción de la virtualización y el aumento de las capacidades de hardware estándar de la industria, la aparición de la nube como una opción de implementación, y la necesidad de información empresarial en tiempo real para todos los empleados a través de fáciles de usar herramientas están impulsando la explosión de datos que vemos hoy. Los clientes necesitan un enfoque completo para la gestión, acceso y entrega de información a través de su organización para acelerar y mejorar las decisiones de negocios.En los últimos 5 años, hemos estado entregando en una visión de construir una plataforma de datos para nuestros clientes. Ha sido un tiempo de transformación para SQL Server y hemos entregado la innovación para ayudar a nuestros clientes a adaptarse a la explosión de datos en sus organizaciones. Nos acercamos a esto en términos de ofrecer una plataforma que soporta todos los tipos de datos - estructurados y no estructurados - y todos los niveles -. Desde el borde, al centro de datos y luego a la nube Hemos entregado sólidas capacidades que le permiten construir el acceso a estos datos a través de aplicaciones ricas y para manejar estos datos con herramientas de fácil uso e interfaces, así como nuevos servicios para ofrecer inteligencia de negocios. Hemos hecho progresos en cada una de estas áreas, así como continuar fortaleciendo el fundamento para entregar la seguridad, rendimiento y disponibilidad que necesitan las empresas y las aplicaciones de todos los tamaños.Esta visión sigue guiando, pero reconocemos que es necesario que continúe evolucionando.Una evolución importante en nuestra visión está cambiando de hablar acerca de los datos a hablar de la información. Esto refleja el cambio que desea una plataforma que no sólo almacena y gestiona todos los datos, pero le ayuda a ofrecer un mayor valor de sus datos a través de su empresa en las aplicaciones que utiliza todos los días. Las organizaciones están buscando para competir y crecer mediante la reducción de los costes, reduce el tiempo de comercialización y la identificación de las oportunidades de mayor valor para su negocio. Estamos avanzando rápidamente para hacer frente a estos retos con nuevas capacidades en gestión, inteligencia empresarial y almacenamiento de datos y mediante la entrega de la primera oferta de cloud relacional de bases de datos con Microsoft SQL Azure.Otro cambio importante es dar a conocer personas en el centro de esta visión, los usuarios de SQL Server y los que buscamos ofrecer un mayor valor con cada nueva versión -Profesionales de TI y de bases de datos que apoyan la expansión de las necesidades de información de negocio a través de servicios de TI;Los desarrolladores que crean soluciones de forma rápida para capturar las oportunidades de negocio en un mercado cada vez más competitivo;Los profesionales de BI y los usuarios finales que están buscando a los míos rápidamente grandes volúmenes de datos de conocimiento del negocio para aumentar la satisfacción del cliente e impulsar resultados empresariales.Estas son las personas para las que innovamos y buscamos deleitar con SQL Server.Microsoft, junto con nuestros socios en todo el mundo, se compromete a entregar una plataforma de información que permite a su gente y le proporciona un conjunto completo de lista para la empresa de tecnologías y herramientas que le ayudarán a obtener más valor de su información al menor costo total de propiedad. La visión se reúne en cuatro pilares.MISIÓN CRÍTICANuestra visión se inicia con la fundación de una plataforma de misión crítica. A manejar su negocio en las soluciones que construir alrededor de SQL Server y Windows Server, que necesita para llevar a cabo con los más altos niveles de asegurar sus aplicaciones y sistemas son confiables, de alta disponibilidad, seguridad y ofrecen un rendimiento predecible superior con mejor coste total de propiedad de la industria. El centro de datos es una de las áreas en las que vamos a seguir invirtiendo en el futuro. (Nota al margen: de misión crítica era un área clave de interés para el año 2008 - en materia de seguridad con el cifrado de datos transparente y Auditoría Avanzada, la disponibilidad con las mejoras de Database Mirroring y la réplica de punto a punto, así como las operaciones en línea y para conducir más rápido , un rendimiento predecible con el regulador de recursos y puntos de referencia líder en la industria para OLTP, ETL y 10 TB DW).Al mirar hacia el futuro, seguir impulsando las inversiones en la plataforma de misión crítica para apoyar la escalabilidad - escala con Windows Server y el apoyo de más de 64 procesadores lógicos con puntos de referencia probados para un rendimiento superior y la escala con la nueva edición de almacenamiento de datos en paralelo (antes conocido como Proyecto Madison). También vamos a ofrecer un mayor valor y capacidad con el nuevo Centro de Datos Edition proporciona virtualización ilimitados y soporte para Hyper-V Live Migration, la gestión a gran escala multi-servidor y de gran escala de procesamiento de eventos complejos a través de SQL Server StreamInsight.HabilitabaAl ayudar a los profesionales de TI y profesionales de bases de datos automatizar las tareas rutinarias que ahora pueden dedicar más tiempo a añadir valor al negocio. Los límites del entorno de TI continúan siendo estirada y los profesionales de TI han aumentado la responsabilidad de gestionar los requisitos de solicitud para el centro de datos, a través de dispositivos móviles y la escritorio, y ahora en la nube. Sabemos que la mayoría de los gastos de TI actuales anual se concentra en sólo el manejo del negocio. Queremos ayudar a los automatizar las tareas rutinarias y dedicar más tiempo a dar más valor en el negocio a través de proyectos de TI. (Nota al margen: Con SS2008, hemos entregado sobre la política de gestión basada en los datos de rendimiento y las inversiones clave colector que ahora estamos aprovechando para el R2 con la entrega de aplicaciones y multi-servidor de administración.)Dar a los profesionales una mayor visibilidad y control de sus entornos de TI y la capacidad de trabajar de manera más eficiente es un área clave que vamos a invertir en la R2 con la aplicación y multi-servidor de administración, y en futuras versiones.DINÁMICA DE DESARROLLOEl objetivo de los desarrolladores es para ayudarlos a ser productivos para reducir el tiempo de solución y aumentar la riqueza de esas soluciones. Con Visual Studio,. NET Framework y SQL Server, los desarrolladores tienen una plataforma altamente productiva para entregar los datos a través de sus aplicaciones . Entity Framework y Entity Data Model son las principales inversiones que hemos hecho para salvar la distancia entre el objeto y el mundo relacional, tenemos el compromiso de la evolución de estas inversiones para los desarrolladores (Nota al margen: Con SS2008, entregamos capacidades para soportar tipos de datos adicionales. ofrecer a los desarrolladores incrementar las oportunidades para que el modelo de relación con las nuevas formas de datos con soporte para datos espaciales y las capacidades de FILESTREAM)De cara al futuro, pensamos en la posibilidad de que les permite aprovechar sus habilidades y las inversiones de plataforma para escribir aplicaciones que se aprovechan de las nuevas capacidades con las nubes y traer el modelo relacional de baja latencia de transmisión de datos con SQL Server StreamInsight.LA PERSISTENCIA InsightInteligencia de negocio sigue siendo la prioridad # 1 para los CIOs. A pesar de que los presupuestos se reducen, se está pidiendo que haga más para entregar la información a la empresa. Obtener la información adecuada a la persona adecuada en el momento adecuado es fundamental para el éxito ahora más que nunca. Nosotros continuamos cumpliendo con nuestra visión de "Insight generalizado" por la re-definición de quién es el usuario promedio es de BI. Nuestra integración con Microsoft Office permite a los usuarios finales crear y consumir soluciones de BI a través de herramientas familiares como SharePoint y Excel. (Nota al margen: Con SS2008, cumplimos con la necesidad de una escala de DW, informes y análisis, así como la entrega de la experiencia del usuario final con la primera versión del Generador de informes).Con R2, estamos entregando logrado autoservicio de BI, la capacidad de compartir y colaborar en los análisis de ricos entre los usuarios finales que utilizan Excel y SharePoint en un entorno administrado de TI, a través de PowerPivot para Excel y PowerPivot para SharePoint, y la capacidad para conducir consistencia de los datos a través de su empresa con Master Data Services.CLOUDCon la aparición de la nube, que buscar la manera de cumplir con los pilares de la visión de la plataforma de información tanto en las instalaciones y fuera del establecimiento - Capacitar mediante la entrega de TI en el negocio, listo SLAs y racionalizar el mantenimiento, la entrega de la dinámica del desarrollo mediante el aprovechamiento de los mismos conocimientos, habilidades y herramientas familiares y ofreciendo un conocimiento más generalizado mediante la conexión de aplicaciones y datos en la nube con las fuentes en las instalaciones - todo ello controlado por una plataforma de misión crítica demostrado.La visión de la plataforma de información se alimenta de SQL Server y SQL Azure por ahora, y con el apoyo de la integración con el ecosistema de Microsoft para ofrecer una plataforma de información de extremo a extremo para empresas y aplicaciones de todos los tamaños
Si nos fijamos en la industria de TI hoy en día, una serie de importantes tendencias están cambiando la forma en que el software se está comprando , instalación y utilización en la organización.
datos de la Explosión
El volumen de datos en el lugar de trabajo es la explosión . Según IDC , los datos digitales crecerán más de 40 veces en la próxima década . Como se crea cada vez más datos de forma digital, que esperamos ver cada vez mayores demandas suponen para nuestras plataformas de datos para almacenar , proteger y gestionar estos procesos de grandes volúmenes de datos.
La consumerización de las TI
Hoy vemos una tendencia creciente hacia la " consumerización " de TI a crear la demanda de experiencias Web 2.0 en el entorno empresarial . Como consumidores, estamos acostumbrados a poderosas experiencias fáciles de usar , ya sea buscando en Internet en un dispositivo móvil para encontrar información al instante, o rápidamente acceder a nuestros datos financieros personales . En el lugar de trabajo , sin embargo , a menudo somos incapaces de responder a las preguntas más básicas sobre nuestro negocio. Cada vez más, los usuarios demandan experiencias empresariales que reflejan más de cerca la comodidad y facilidad de uso en la vida de los consumidores.
Nube privada y pública
La computación en nube está cambiando la forma en que se accede y se procesan los datos , y está creando modelos totalmente nuevos de la manera aplicaciones se entregan . Según IDC , los servicios de la nube representarán el 46 % del crecimiento neto de la nueva en el gasto total en TI . Con la infraestructura de la nube privada y pública , las organizaciones tienen la oportunidad de reducir el TCO dramáticamente a medida que aumenta el volumen de datos . Como vemos una evolución hacia un mayor uso de nubes públicas y privadas , se observa una creciente necesidad de soluciones que soportan escenarios de nubes híbridas.
Grandes datos abarca tres dimensiones: volumen, velocidad, variedad, variabilidad
Volumen - Big datos vienen en un solo tamaño: grande. Las empresas están repletas de datos, terabytes fácilmente amasar e incluso petabytes de información.
Velocity - A menudo, grandes datos sensibles al tiempo, se deben utilizar ya que se transmite a la empresa con el fin de maximizar su valor para el negocio.
Variedad - Big datos se extiende más allá de los datos estructurados, incluyendo datos no estructurados de todas las variedades: texto, audio, video, haga clic en los arroyos, archivos de registro y más.
variabilidad
Problemas más grandes en la interpretación de datos grandes también pueden surgir. La variabilidad término cuando se aplica a los grandes datos tiende a referirse específicamente a la amplia posible variación en el significado que puede ser encontrado. Encontrar el contexto semántico más apropiado en el que interpretar los datos no estructurados pueden introducir complejidades significativas en el análisis.
,
Provision a cluster via Portal
Provision a cluster via Powershell