SlideShare uma empresa Scribd logo
1 de 96
Big Data con SQL 
Server 2014 
Dr. Eduardo Castro, MAP 
Microsoft SQL Server MVP 
PASS Regional Mentor
Recursos adicionales 
Introducción para BI & Big Data 
DAX 
MDX 
Minería de Datos 
Excel BI
Canal en YouTube 
http://www.youtube.com/eduardocastrom
Análisis de 
grandes 
cantidades de 
datos 
Big Data
Objetivos
Qué es un Petabyte 
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php 
Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024 
Megabytes. 
Un Petabyte es una unidad de almacenamiento de 
información cuyo símbolo es PB, equivale a 1024 Terabytes 
= 1.125.899.906.842.624 de bytes.
Qué es un Petabyte 
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php 
• 1 Petabyte es suficiente para almacenar 13.3 años de video HD 
• 1.5 Petabytes son necesarios para almacenar 10 Billones de fotos 
de Facebook 
• Google procesa alrededor de 24 Petabytes de información por 
día. 
• Avatar, la película de James Cameron del 2009, usó 1 Petabyte de 
información para realizar los efectos especiales. 
• AT&T, el carrier del iPhone en Estados Unidos, transmite 19 
Petabytes de datos por mes.
Big data, o los datos sólo complejos? 
preparación interpretar 
velocidad 
volumen 
Datos 
variedad complejidad
Grandes volúmenes de datos de hoy en día, pocos 
datos del mañana 
Complejidad vs capacidades actuales 
FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
Dominio Escenarios de grandes volúmenes datos comunes 
Servicios financieros Modelado riesgo verdadero 
Análisis de las amenazas y detección de fraude 
Vigilancia Comercio 
El puntaje de crédito y análisis 
Medios y Entretenimiento Los motores de recomendación 
Focalización Ad 
Buscar calidad 
Los abusos y detección de fraude de clics 
Venta al por menor Punto de análisis de las transacciones de ventas 
Análisis de la pérdida de clientes 
El análisis de sentimientos (sentiment analysis) 
Telecomunicaciones Cliente prevención del churn 
La optimización del rendimiento de la red 
Detalles de llamadas (CDR) y su análisis 
Predicción de fallos de red 
Gobierno Seguridad Cibernética (botnets, fraudes) 
La congestión del tráfico y re-enrutamiento 
Monitoreo Ambiental 
Monitoreo Antisocial través de medios sociales 
Salud La investigación del genoma 
La investigación del cáncer 
Pandemias detección temprana 
Monitoreo de la calidad del aire
¿Qué es BIG Data?
Introducción a Big Data y Hadoop 
Big data es una colección de conjuntos de datos tan grande y 
complejo que se vuelve difícil para trabajar con el uso de 
herramientas de gestión de base de datos tradicionales. Las 
dificultades incluyen la captura, almacenamiento, búsqueda, 
intercambio, análisis y visualización
Qué es Big Data? 
Petabytes 
Terabytes 
Gigabytes 
Megabytes 
BIG DATA 
WEB 
CRM 
ERP 
Web logs 
Purchase detail 
Purchase record 
Payment record 
Customer Touches 
Support Contacts 
Offer details 
Segmentation 
Transacciones + 
Interacciones + 
Observaciones 
Spatial & GPS Coordinates 
Search Marketing 
Offer history 
A/B testing 
Dynamic Pricing 
Affiliate Networks 
Behavioral Targeting 
Dynamic Funnels 
= BIG DATA 
User Generated Content 
Mobile Web 
Sentiment SMS/MMS 
External Demographics 
HD Video, Audio, Images 
Speech to Text 
Product/Service Logs 
Social Interactions & Feeds 
Business Data Feeds 
User Click Stream 
Sensors / RFID / Devices 
Incremento de variedad y cantidad de datos
Procesamiento de datos y análisis: The Old Way
La naturaleza cambiante del Big Data 
• Big Data tiene importantes cualidades distintivas 
que lo diferencian de los datos corporativos 
"tradicionales". 
• Los datos no son centralizadas, muy estructurados 
y de fácil manejo, ahora más que nunca los datos 
están muy dispersos, poco estructurados (o no tiene 
estructura en absoluto), y cada vez más con 
volúmenes más grandes
La naturaleza cambiante del Big Data 
Volumen - La cantidad de datos que han 
creado las empresas a través de 
• La web 
• Dispositivos móviles 
• Infraestructura de TI 
• y otras fuentes está creciendo exponencialmente cada año.
La naturaleza cambiante del Big Data 
Tipo - La variedad de tipos de datos es cada vez 
mayor, 
• No estructurados de datos basados en texto 
• Datos semi-estructurados como los datos de los medios sociales 
• Los datos basados en la localización 
• Datos de logs, ejemplo servidores Web
La naturaleza cambiante del Big Data 
Velocidad 
• La velocidad a la que se está creando nuevos datos 
• La necesidad de análisis en tiempo real para obtener valor de negocio 
de ella - es cada vez mayor gracias a la digitalización de las 
transacciones, la informática móvil y el gran número de usuarios de 
dispositivos de Internet y el móvil.
Principales fuentes de datos 
• Redes sociales y medios de comunicación 
• 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 
millones de blogs públicos 
• Dispositivos móviles 
• Más de 5 mil millones de teléfonos móviles en uso en todo el mundo 
• Transacciones en Internet 
• miles de millones de compras en línea, operaciones de bolsa y otras 
transacciones ocurren todos los días 
• Dispositivos de red y sensores
Big Data
Casos en los cuales se utiliza Big Data 
• Parte de lo que hace Hadoop y otras tecnologías y 
enfoques Big Data es encontrar respuestas a preguntas 
que ni siquiera saben que preguntar. 
• Dar lugar a ideas que conducen a nuevas ideas de 
productos o ayudar a identificar formas de mejorar la 
eficiencia operativa. 
• Casos de uso ya identificadas para Big Data, tanto para 
los gigantes de internet como Google, Facebook y 
LinkedIn, y para la empresa más tradicional
Casos en los cuales se utiliza Big Data 
Sentiment Analysis 
• Utilizado junto con Hadoop, herramientas avanzadas de análisis de 
texto analizan el texto no estructurado de las redes sociales y 
mensajes de redes sociales 
• Incluyendo los Tweets y mensajes de Facebook, para determinar la 
confianza del usuario en relación con determinadas empresas, marcas 
o productos. 
• El análisis puede centrarse en el sentimiento a nivel macro hasta el 
sentimiento usuario individual.
Casos en los cuales se utiliza Big Data 
Modelado de riesgo 
• Las empresas financieras, bancos y otros utilizan Hadoop y Next 
Generation Data Warehouse para analizar grandes volúmenes de 
datos transaccionales para determinar el riesgo y la exposición de los 
activos financieros 
• Para preparar la posible "qué pasaría si" los escenarios basados en el 
comportamiento del mercado simulado, y para puntuación de 
clientes potenciales por el riesgo.
Casos en los cuales se utiliza Big Data 
Motor de recomendación 
• Los minoristas en línea utilizan Hadoop para igualar y recomendar a 
los usuarios entre sí o con los productos y servicios basados en el 
análisis del perfil de usuario y los datos de comportamiento. 
• LinkedIn utiliza este enfoque para potenciar su función de "la gente 
puede saber", mientras que Amazon utiliza para sugerir productos a 
la venta a los consumidores en línea.
Casos en los cuales se utiliza Big Data 
Detección de Fraude 
• Utilizar técnicas de Big Data para combinar el comportamiento 
del cliente, históricos y datos de transacciones para detectar la 
actividad fraudulenta. 
• Las compañías de tarjetas de crédito, por ejemplo, utilizan 
tecnologías de Big Data para identificar el comportamiento 
transaccional que indica una alta probabilidad de una tarjeta 
robada.
Casos en los cuales se utiliza Big Data 
Análisis de la campaña de marketing 
• Los departamentos de marketing a través de industrias han 
utilizado durante mucho tiempo la tecnología para monitorear y 
determinar la efectividad de las campañas de marketing. 
• Big Data permite a los equipos de marketing para incorporar 
mayores volúmenes de datos cada vez más granulares, como los 
datos de click-stream y registros detallados de llamadas, para 
aumentar la precisión de los análisis.
Casos en los cuales se utiliza Big Data 
Análisis Social Graph 
• Junto con Hadoop los datos de redes sociales se extraen 
para determinar qué clientes representan la mayor 
influencia sobre los demás dentro de las redes sociales. 
• Esto ayuda a determinar las empresas que son sus 
clientes "más importantes", que no siempre son los que 
compran la mayoría de los productos o de los que más 
gastan, pero los que tienden a influir en el 
comportamiento de compra de la mayoría de los 
demás.
Casos en los cuales se utiliza Big Data 
Customer Experience Analytics 
• Empresas orientadas al consumidor utilizan Hadoop y 
tecnologías relacionadas con Big Data para integrar los 
datos de antes silos canales de interacción con clientes 
• Tales como centros de llamadas, chat en línea, Twitter, etc, 
para obtener una visión completa de la experiencia del 
cliente.
Nuevos Enfoques para el procesamiento y análisis de datos 
• Hay varios métodos para procesar y analizar grandes 
volúmenes de datos, pero la mayoría tienen algunas 
características comunes 
• Hadoop 
• NoSQL 
• Bases de datos analíticos masivamente paralelo
Nuevos Enfoques para el procesamiento y análisis de datos grandes
Introducción a Big Data y Hadoop 
• Big data se enfrenta a complejidades de alto volumen, la 
velocidad y la variedad de los datos 
• Apache Hadoop, es un conjunto de proyectos de código abierto 
que transforman el hardware tradicional en un servicio que 
puede: 
• Almacenar petabytes de información 
• Permite procedamiento distribuido 
• Principales atributos: 
• Redundante y confiable (no se pierden datos) 
• Centrado en el análisis por lotes 
• Facilidad de crear aplicaciones y procesamiento distribuido 
• Ejecuta en cualquier hardware
Componentes de Hadoop 
• Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto 
en cualquier clúster Hadoop dado; 
• Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información 
del cliente en lugar del grupo de datos en particular se almacenan y si los nodos 
fallan; 
• Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica 
periódicamente y almacena los datos del nombre de nodo debe fallar; 
• Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos 
MapReduce, o el tratamiento de los datos. 
• Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos 
almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
Arquitectura de Hardware
Arquitectura de Software
Hadoop Distributed Architecture
MapReduce: Mover Código a los Datos
Cómo trabaja?
Principios de Hadoop 
Método práctico 
procesamiento 
paralelización de análisis 
masivo de datos
Datos en Hadoop
MapReduce 
De bajo nivel, fundamentos de Hadoop
Clúster Hadoop 
Yahoo! Hadoop clúster, 2007. 
Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
Clúster Hadoop 
Buster Cluster, un proyecto de investigación Miles Osborne, 
de la Universidad de Edimburgo, Facultad de Informática. 
Imagen utilizada con permiso. 
http://homepages.inf.ed.ac.uk/miles/
Cluster Hadoop 
Nube 
Rent-A-Hadoop-cluster, o bien: 
"Superordenador de centavos" 
Windows Azure HD Insight
Procesamiento de la lógica en HDInsight 
1.6, 2.1, 3.0 
Hadoop 1.x: Lote para el procesamiento
Procesamiento de la lógica en HDInsight 3.0 
Hadoop 2.2: interactivo, en línea, stream, o por lotes
JS MapReduce Wordcount 
var mapa = Function (clave, valor, contexto) { 
var palabras = value.split(/ [^ A-zA-Z] /); 
for (var yo = 0; yo < words.length;yo+ +) { 
if (palabras [yo]! == "") { 
context.write(palabras [yo].toLowerCase(), 1); 
} 
} 
}; 
var reducir = Function (clave, valores, contexto) { 
var sum = 0; 
mientras que (values.hasNext()) { 
suma + = parseInt(values.next()); 
} 
context.write(Clave, suma); 
};
Pig Latin Ejemplo - Todo está en paralelo! 
= primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query); 
houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora, 
consulta; 
ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar 
(org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram; 
ngramed2 = DISTINCT ngramed1; 
hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora); 
... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html] 
TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
Ciencia de datos Hadoop 
Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no 
Filtrado colaborativo, 
recomendadores, clustering, 
singular value decomposition 
parallel frequent pattern 
mining, naïve Bayes, árbol de 
decisión
Plataforma de Big Data Micrsooft
Interoperatibilidad 
Integración con 
las herramientas 
de Análisis de 
Microsoft 
DATA SYSTEMS APPLICATIONS 
Aplicaciones Microsoft 
HORTONWORKS 
DATA PLATFORM 
For Windows 
DATA SOURCES 
MOBILE 
DATA 
Fuentes tradicionales 
(RDBMS, OLTP, OLAP) 
OLTP, 
POS 
SYSTEMS 
Nuevas Fuentes 
(web logs, email, sensor data, social media)
Principios PDW 
• Procesamiento paralelo masivo (MPP) para las 
consultas 
• Dentro de la memoria de columnas 
• Múltiples nodos con CPU dedicada, memoria, almacenamiento 
• Incremental extensible 
• Escala de terabytes a múltiples petabytes
Microsoft HDInsight 
Lapache Hadoop distribución 
Desarrollado por Hortonworks Y Microsoft 
Integrado con Microsoft BI
Big data + BI tradicional = poderoso + easy 
Grandes, de 
datos 
rápida, o 
complejo 
Microsoft 
HDInsight 
Tabular 
OLAP 
SQL 
010101010101010101 
1010101010101010 
01010101010101 
101010101010 
La interacción, 
exploración, 
rNFORMES, 
visualización 
PDW + 
Polibase
Windows HADOOP 
• 2 Versiones 
• Cloud 
• Azure Service 
• On Permise 
• Integración con el Hadoop File System with Active Directory 
• Integración con BI 
• Herramientas de integración 
• Sqoop 
• Integración con SQL Server
Introducción a HDInsight 
• HDInsight es una implementación de Microsoft 100% 
compatible con la distribución de Apache Hadoop 
• Disponible tanto para Windows Server y como un servicio 
Windows Azure 
• Permite que las empresas analicen datos no estructurados 
con herramientas bien conocidas tales como Excel
Windows Azure HDInsight Service 
Query & 
Metadata: 
Data 
Movement: 
Workflow: Monitoring:
Windows Azure HDInsight Service
HADOOP PARA WINDOWS
HDP para Windows 
Hortonworks 
Data Platform (HDP) 
For Windows 
100% Open Source Enterprise Hadoop 
Manage & 
Operate at 
PLATFORM SERVICES 
HORTONWORKS 
DATA PLATFORM (HDP) 
For Windows 
HADOOP CORE DATA 
SERVICES 
Store, 
Process and 
Access Data 
OPERATIONAL 
SERVICES 
Manage & 
Operate at 
Scale 
Scale 
Store, 
Process and 
Access Data 
Distributed 
Storage & Processing 
Enterprise Readiness
Modelando “Big Data” con PowerPivot 
• Big data puede ser integrado con otras fuentes de 
datos 
• Potencial de Autoservicio de BI: 
• PowerPivot puede cargar Big Data mediante el Table Import Wizard 
• ODBC para HDInsight 
• OLE DB para SQL Server con enlace a HDInsight 
• PowerPivot puede ser fuente para: 
• Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View 
• Otras herramientas de análisis (una vez publicado en SharePoint)
Consideraciones de modelar “Big Data” con PowerPivot 
• Los resultados de Big Data pueden ser muy grandes 
para almacenamiento en memoria 
• Workaround: minizar la cantidad de datos 
consultados 
• Recuperar un periodo de tiempo más pequeño 
• Reducir las dimensiones o ser más granular 
• Una vez que está cargado el modelo puede ser 
manipulado con rapidez
Formas de carga de datos
Cómo consumir Resultados de HDInsight 
Destino Herramienta / Biblioteca Requiere Active HDInsight 
Cluster 
SQL Server, 
Azure SQL DB 
Sqoop (Hadoop ecosystem project) Yes 
Excel Codename “Data Explorer” No 
Otra Blob Storage 
Azure Blob Storage REST APIs (Copy Blob, etc) No 
Account 
SQL Server Analysis 
Services 
Hive ODBC Driver Yes 
BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC 
connections to data sources) 
Yes
Hadoop Connectors 
• SQL Server versions 
• Azure 
• PDW 
• SQL 2012 
• SQL 2008 R2 
• SQL Server 2014 
http://www.microsoft.com/download/en/details.aspx?id=27584
Resumen 
Siga: @rafaldotnet 
Email: rafal@projectbotticelli.com 
Descubra: rafal.net
"... Almacenamiento de datos ha alcanzado 
el punto de inflexión más importante 
desde su creación. La gestión de datos en 
TI está cambiando. " 
- Gartner, "El estado de almacenamiento de datos en 
2012"
Creciente 
volumenes de 
datos 
1 
En 
tiempo 
real 
datos 
2 
Nuevo datos 
fuentes y tipos 
3 
Nacido en 
la nube 
datos 
4 
El almacén de datos tradicional 
Las fuentes de datos
 
El almacén de datos moderna 
Las fuentes de 
datos 
Los datos no relacional
Técnicas de diseñadores toda tu datos 
Enriquecer y optimizar sus datos con fuentes no tradicional 
6
Obstáculos para un almacén de datos moderna 
Mantener la inversión 
legado 
Comprar nuevo nivel 
uno dispositivo de 
hardware 
Adquirir Big Data 
solución 
Adquirir la 
inteligencia de 
negocios 
Escalabilidad limitada y 
capacidad de gestionar 
nuevos tipos de datos 
Entrenamiento Alta adquisición y 
costos de 
migración 
Complejidad y 
adopción
Introducción al sistema Microsoft Analytics Platform 
Un moderno dispositivo de almacenamiento de datos llave en mano 
• De datos relacionales y no 
relacionales en un único 
dispositivo 
• Hadoop lista para la empresa 
• Consultas integradas a través 
de Hadoop y PDW utilizando 
T-SQL 
• La integración directa con las 
herramientas de BI de 
Microsoft, como Microsoft 
Excel 
• Cerca de rendimiento en 
tiempo real con In-Memory 
Columnstore 
• Capacidad de escalabilidad 
para incluir cada vez mayor de 
datos 
• La eliminación del almacén de 
datos cuellos de botella con 
MPP SQL Server 
• Concurrencia que ayuda 
rápida adopción 
• Precio de appliance de datos 
más bajo por terabyte 
• Valor a través de una única 
solución 
• Valor con opciones de 
hardware flexibles utilizando 
hardware comercial
APS listo para la empresa Hadoop con HDInsight 
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato 
Alto rendimiento y 
sintonizado en el 
hardware 
Autenticación del 
usuario final con 
Active Directory 
Accesible ideas para 
todo el mundo con 
las herramientas de 
Microsoft BI 
Administrado y 
monitoreado 
utilizando System 
Center 
100-por ciento de 
Apache Hadoop 
SQL Server 
Parallel Data 
warehouse 
Polibase 
Microsoft 
HDInsight
Resumen hardware APS 
Carga en paralelo de 
depósito de datos 
HDInsight carga de trabajo 
Fabric 
Hardware 
Aparato 
Una región es un contenedor lógico 
dentro de un appliance 
Cada carga de trabajo contiene los 
siguientes límites: 
• Seguridad 
• Medida 
• Prestación de servicios
Conexión de islas de datos con polibase 
Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI 
Proporciona un único Modelo de consulta T-SQL 
para PDW y Hadoop con ricas 
características de T-SQL, incluyendo joins sin 
ETL 
Utiliza el poder del MPP para mejorar el 
rendimiento de ejecución de consultas 
Compatible con Windows Azure HDInsight para 
permitir escenarios híbrido de la nube 
Ofrece la posibilidad de consultar las 
distribuciones no Microsoft Hadoop, como 
Hortonworks y Cloudera 
SQL Server 
Microsoft Azure PDW 
HDInsight 
Polibase 
Microsoft 
HDInsight 
Hortonworks para 
Windows y Linux 
Cloudera 
Conjunto de 
resultados 
Seleccionar 
...
(HDFS) Bridge 
Resultado 
s 
Acceso directo y paralelo a HDFS 
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación 
PDW 
Los datos no relacional 
Aplicaciones 
Social 
Sensor 
y RFID 
Móvil 
aplicaciones 
Web 
aplicaciones 
Hadoop 
Los datos relacionales 
Basado esquema tradicional 
almacén de datos 
Regular 
T-SQL 
La tabla externa 
Los datos 
externos 
Archivo 
externo 
Enhanced PDW 
query engine 
Puente HDFS PDW
Automatic MapReduce pushdown 
Hadoop / Data Lake 
(Cloudera, Hortonworks, 
HDInsight) 
Fuente sistemas 
Actualizar Día / Hora / Minuto 
SQL Server 
Data Marts 
SQL Server 
Reporting Services 
SQL Server 
Analytics / Ad-hoc / Visualización 
MapReduce T-SQL 
SQL Server 
Parallel Data 
Warehouse 
Polibase 
Microsoft 
HDInsight 
Analysis Services APS
HDFS File / Directory 
//hdfs/social_media/twitter 
//hdfs/social_media/twitter/Daily.log 
1 
0 
Hadoop 
Dynamic binding 
Column filtering 
Row filtering 
User Location Product Sentiment Rtwt Hour Date 
Sean 
Audie 
Suz 
Tom 
Sanjay 
Roger 
Steve 
CA 
CO 
WA 
IL 
MN 
TX 
AL 
xbox 
excel 
xbox 
sqls 
wp8 
ssas 
ssrs 
-1 
0 
1 
1 
1 
1 
5 
0 
8 
0 
0 
0 
8 
8 
2 
2 
1 
23 
23 
5-15-14 
5-15-14 
5-15-14 
5-13-14 
5-14-14 
5-14-14 
5-13-14 
PolyBase – Predicate pushdown 
SELECT User, Product, Sentiment 
FROM Twitter_Table 
WHERE Hour = Current - 1 
AND Date = Today 
AND Sentiment >= 0
Uso de Big Data para cualquier persona 
Integración con Microsoft BI 
Minimiza TI 
intervención para 
el descubrimiento 
de datos con 
herramientas como 
Microsoft Excel 
Permite a los 
usuarios DBA unir 
datos relacionales y 
Hadoop con T-SQL 
Toma ventaja de la 
alta adopción 
de Excel, Power 
View, PowerPivot y 
SQL Server Analysis 
Services 
Ofrece 
herramientas de 
Hadoop como 
MapaReduce, Hive, 
y Pig para los 
científicos de datos 
Todos los demás utilizando 
Herramientas de Microsoft BI 
Los usuarios avanzados 
Científico de datos
Crear tabla externa 
CREATE EXTERNAL TABLE table_name 
({<column_definition>}[,..n ]) 
{WITH ( 
DATA_SOURCE = <data_source>, 
FILE_FORMAT = <file_format>, 
LOCATION =‘<file_path>’, 
[REJECT_VALUE = <value>], 
…)}; 
Hacer referencia a la fuente de datos 
externa 
1 
Hacer referencia a formato de 
archivo externo 
2 
Ruta de acceso del archivo / carpeta 
Hadoop 
3 
4 (Opcional) Rechazar parámetros
Crear origen de datos externo 
CREATE EXTERNAL DATA SOURCE datasource_name 
{WITH ( 
TYPE = <data_source>, 
LOCATION =‘<location>’, 
[JOB_TRACKER_LOCATION = ‘<jb_location>’] 
}; 
1 Tipo de fuente de datos externa 
2 Lugar de origen de datos externos 
La activación o desactivación de la 
generación de trabajo MapReduce 
3
Crear Formato de Archivo Externo 
CREATE EXTERNAL FILE FORMAT fileformat_name 
{WITH ( 
FORMAT_TYPE = <type>, 
[SERDE_METHOD = ‘<sede_method>’,] 
[DATA_COMPRESSION = ‘<compr_method>’, 
[FORMAT_OPTIONS (<format_options>)] 
}; 
1 Tipo de fuente de datos externa 
(De) método de serialización [Hive 
fichero de recursos] 
2 
3 Método de compresión 
(Opcional) Formato Opciones [Texto 
Archivos] 
4
Opciones de formato 
<Format Options> :: = 
[,FIELD_TERMINATOR = ‘value’], 
[,STRING_DELIMITER = ‘value’], 
[,DATE_FORMAT = ‘value’], 
[USE_TYPE_DEFAULT = ‘value’] 
1 Delimitador de columna 
Carácter de separación para los tipos 
de datos de cadena 
2 
Para especificar un formato de fecha 
determinado 
3 
¿Cómo se manejan las entradas que 
faltan 
4
PolyBase utilizando datos de Hadoop 
Traer islas de datos Hadoop juntos 
Ejecución de alta consultas de rendimiento contra los 
datos Hadoop 
De datos de almacenamiento de datos de archivado a 
Hadoop (mover) 
Exportación de datos relacionales para Hadoop (copia) 
Importación de datos de Hadoop en un dato almacén 
(copia)
Escalada fuera sus datos a petabytes 
Escalabilidad de salida tecnologías en Sistema Analytics Platform 
Múltiples nodos con CPU dedicada, memoria y 
almacenamiento 
Posibilidad de añadir de forma incremental 
hardware para la escalabilidad casi lineal a 
múltiples petabytes 
Capacidad para manejar complejidad de la 
consulta y la concurrencia y escalabilidad 
Capacidad para escalar HDInsight y PDW 
PDW / 
HDInsight 
PDW / 
HDInsight 
PDW / 
HDInsight 
PDW 
PDW / 
HDInsight 
PDW / 
HDInsight 
PDW / 
HDInsight 
0 terabytes 6 petabytes
Un rendimiento increíblemente rápido 
MPP y In-Memory Columnstore para la próxima generación rendimiento 
Hasta 100x 
más rápido 
Hasta 15x 
más compression 
• Datawarehouse con Column Store 
• Carga datos hacia o desde la memoria para 
rendimiento de próxima generación con una 
mejora de hasta 60% en la velocidad de carga de 
datos 
Column Store Index 
Ejecución de consultas en paralelo
Clustered columnstore index 
¿Por qué es es importante? 
• Ahorra espacio 
• Proporciona una gestión más fácil, eliminando 
el mantenimiento de índices secundarios 
Space used in GB (table with 101 million rows) 
Espacio utilizado =tabla espacio + índice espacio 
20.0 
15.0 
10.0 
5.0 
0.0 
91% de 
ahorro 
1 2 3 4 5 6 
In-Memory Columnstore ¡se ofrece en el 
motor de almacenamiento en el PDW AU1
Ejecución de consultas en paralelo y distribuidos 
Procesamiento de la ejecución de consultas relacionales 
Consultas SQL enviadas al nodo de 
control 
1 
El nodo de control crea plan de 
ejecución de la consulta 
2 
El plan de consulta crea consultas 
distribuidas para su ejecución en 
cada nodo de cómputo 
3 
Las consultas distribuidas enviados 
nodos en de cálculo (todos 
corriendo en paralelo) 
4 
El nodo de control recoge los 
resultados de la consulta y los 
devuelve al usuario 
5 
Crear una 
consulta plan 
Consulta 
del usuario 
Cliente Control 
Calcular 
Calcular 
Calcular 
Calcular 
Applicance 
Administración 
Resultados de 
la consulta 
Los resultados agregados 
de la consulta 
Operaciones del plan 
de consulta en 
paralelo
SMP SQL Server 
Presentación de informes y cubos 
Herramientas de BI 
Concurrencia de datos 
Gran rendimiento con cargas de trabajo mixtas 
Analytics Platform 
ETL / ELT con SSIS, DQS, MDS System 
ERP CRM LOB APPS 
ETL / ELT con DWLoader 
Hadoop / Big Data 
PDW 
Polibase 
HDInsight 
Consultas ad hoc 
Intra-Day 
Casi en tiempo real 
Fast ad hoc 
Almacén de columnas 
Polibase 
CRTAS 
Linked Table 
Real-Time 
ROLAP / MOLAP 
DirectQuery 
SNAC
Hardware y software de ingeniería junto 
Co-dirigido con 
HP, Dell, Quanta 
y mejores 
prácticas 
Liderando el 
rendimiento con 
hardware 
comercial 
Integrado apoyo 
con un solo 
contacto Microsoft 
Pre-configurado, 
construido, y 
ajustado 
software y 
hardware 
PDW 
Polybase 
HDInsight
Hardware architecture InfiniBand 
InfiniBand 
PDW region 
Ethernet 
Ethernet 
Control node 
Failover node 
Master node 
Failover node 
Compute nodes 
Economical disk storage 
Compute nodes 
Economical disk storage 
Compute nodes 
Economical disk storage 
Networking 
HDInsight region 
PDW region 
Rack #1 
InfiniBand 
InfiniBand 
Ethernet 
Ethernet 
Failover node 
Compute nodes 
Economical disk storage 
Compute nodes 
Economical disk storage 
Compute nodes 
Economical disk storage 
HDI extension base 
unit 
HDI active scale 
unit 
HDI active scale 
unit 
HDI extension base 
unit 
Rack #2 
HST-01 
HST-02 
HSA-01 
HST-02 
Economical 
disk storage 
IB and Ethernet 
Active Unit Dos nodos adicionales 
Passive Unit HDInsight 
Failover Node Alta Disponibilidad
Arquitectura virtualizada PANORAMA 
• Motor PDW 
• DMS Manage 
• SQL Server 2012 Enterprise Edition (build PDW) 
Unidad Base C 
T 
L 
Anfitrión 1 
Anfitrión 2 
Anfitrión 3 
Anfitrión 4 
Almacenami 
ento en 
disco 
IB y 
Ethernet 
Directo SAS adjunto 
Ma 
ssa 
ch 
us 
ett 
s 
D 
A 
D 
V 
M 
M 
Calcule 1 
Calcule 2 
Detalles de software 
• Todos los hosts ejecutan Windows Server 2012 
Standard and Windows Azure Virtual Machines 
• Fabric o carga de trabajo en Hyper-V virtual Máquinas 
• PDW agente que se ejecuta en todos los hosts y es 
toda virtual máquinas 
• DWConfig y consola de administración 
• Ventanas espacios de almacenamiento y Azure 
Storage

Mais conteúdo relacionado

Destaque

Cómo desarrollar aplicaciones súper innovadoras que incorporen videoconferenc...
Cómo desarrollar aplicaciones súper innovadoras que incorporen videoconferenc...Cómo desarrollar aplicaciones súper innovadoras que incorporen videoconferenc...
Cómo desarrollar aplicaciones súper innovadoras que incorporen videoconferenc...Andrés Iturralde
 
Social media analytics using Azure Technologies
Social media analytics using Azure TechnologiesSocial media analytics using Azure Technologies
Social media analytics using Azure TechnologiesKoray Kocabas
 
Cuadros de mando BI con SQL Server
Cuadros de mando BI con SQL ServerCuadros de mando BI con SQL Server
Cuadros de mando BI con SQL ServerEduardo Castro
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesEduardo Castro
 
360 audienceflow motor de recomendacion
360 audienceflow   motor de recomendacion360 audienceflow   motor de recomendacion
360 audienceflow motor de recomendacionAngel Alba Pérez
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeEduardo Castro
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackEduardo Castro
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Eduardo Castro
 
SQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexSQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexEduardo Castro
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integraciónEduardo Castro
 
Modelo de base de datos orientados a objetos
Modelo de base de datos orientados a objetosModelo de base de datos orientados a objetos
Modelo de base de datos orientados a objetosarmin tilano
 
Lo que siempre has querido saber para exprimir sql server
Lo que siempre has querido saber para exprimir sql serverLo que siempre has querido saber para exprimir sql server
Lo que siempre has querido saber para exprimir sql serverEnrique Catala Bañuls
 
EL CURRICULUM POR COMPETENCIAS Y SUS IMPLICACIONES EN LA DOCENCIA ...
EL CURRICULUM POR COMPETENCIAS Y SUS IMPLICACIONES  EN LA DOCENCIA           ...EL CURRICULUM POR COMPETENCIAS Y SUS IMPLICACIONES  EN LA DOCENCIA           ...
EL CURRICULUM POR COMPETENCIAS Y SUS IMPLICACIONES EN LA DOCENCIA ...William Núñez Alarcón
 
MANUAL DE CREACION DE UNA BASE DE DATOS EN POSTGRESQL
MANUAL DE CREACION DE UNA BASE DE DATOS EN POSTGRESQLMANUAL DE CREACION DE UNA BASE DE DATOS EN POSTGRESQL
MANUAL DE CREACION DE UNA BASE DE DATOS EN POSTGRESQLJesus Alberto Casco Agudelo
 

Destaque (18)

Cómo desarrollar aplicaciones súper innovadoras que incorporen videoconferenc...
Cómo desarrollar aplicaciones súper innovadoras que incorporen videoconferenc...Cómo desarrollar aplicaciones súper innovadoras que incorporen videoconferenc...
Cómo desarrollar aplicaciones súper innovadoras que incorporen videoconferenc...
 
Social media analytics using Azure Technologies
Social media analytics using Azure TechnologiesSocial media analytics using Azure Technologies
Social media analytics using Azure Technologies
 
Cuadros de mando BI con SQL Server
Cuadros de mando BI con SQL ServerCuadros de mando BI con SQL Server
Cuadros de mando BI con SQL Server
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch Databases
 
360 audienceflow motor de recomendacion
360 audienceflow   motor de recomendacion360 audienceflow   motor de recomendacion
360 audienceflow motor de recomendacion
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
Polybase
PolybasePolybase
Polybase
 
Minería datos con SQL Server 2012
Minería datos con SQL Server 2012Minería datos con SQL Server 2012
Minería datos con SQL Server 2012
 
SQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store IndexSQL 2016 Mejoras en InMemory OLTP y Column Store Index
SQL 2016 Mejoras en InMemory OLTP y Column Store Index
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integración
 
Base de Datos Orientada a Objetos
Base de Datos Orientada a ObjetosBase de Datos Orientada a Objetos
Base de Datos Orientada a Objetos
 
Modelo de base de datos orientados a objetos
Modelo de base de datos orientados a objetosModelo de base de datos orientados a objetos
Modelo de base de datos orientados a objetos
 
Lo que siempre has querido saber para exprimir sql server
Lo que siempre has querido saber para exprimir sql serverLo que siempre has querido saber para exprimir sql server
Lo que siempre has querido saber para exprimir sql server
 
EL CURRICULUM POR COMPETENCIAS Y SUS IMPLICACIONES EN LA DOCENCIA ...
EL CURRICULUM POR COMPETENCIAS Y SUS IMPLICACIONES  EN LA DOCENCIA           ...EL CURRICULUM POR COMPETENCIAS Y SUS IMPLICACIONES  EN LA DOCENCIA           ...
EL CURRICULUM POR COMPETENCIAS Y SUS IMPLICACIONES EN LA DOCENCIA ...
 
Big Data v Data Mining
Big Data v Data MiningBig Data v Data Mining
Big Data v Data Mining
 
MANUAL DE CREACION DE UNA BASE DE DATOS EN POSTGRESQL
MANUAL DE CREACION DE UNA BASE DE DATOS EN POSTGRESQLMANUAL DE CREACION DE UNA BASE DE DATOS EN POSTGRESQL
MANUAL DE CREACION DE UNA BASE DE DATOS EN POSTGRESQL
 

Semelhante a Big data con SQL Server 2014

Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stackEduardo Castro
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxJavierNavarrete43
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptxJuanCarlosRomanPerez1
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...COIICV
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azureEduardo Castro
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Analytics10
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesStratebi
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
 

Semelhante a Big data con SQL Server 2014 (20)

Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stack
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
BigData.pptx
BigData.pptxBigData.pptx
BigData.pptx
 
BigData.pptx
BigData.pptxBigData.pptx
BigData.pptx
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 
Trabajo de-big-data
Trabajo de-big-dataTrabajo de-big-data
Trabajo de-big-data
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 
Big data
Big dataBig data
Big data
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Big Data
Big DataBig Data
Big Data
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
 
Que es big data
Que es big dataQue es big data
Que es big data
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Big data
Big dataBig data
Big data
 

Mais de Eduardo Castro

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL ServerEduardo Castro
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerEduardo Castro
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL AzureEduardo Castro
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflowEduardo Castro
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022Eduardo Castro
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022Eduardo Castro
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Eduardo Castro
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceEduardo Castro
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022Eduardo Castro
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Eduardo Castro
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricksEduardo Castro
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql serverEduardo Castro
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsEduardo Castro
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Eduardo Castro
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsEduardo Castro
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en AzureEduardo Castro
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL ServerEduardo Castro
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Eduardo Castro
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesEduardo Castro
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesEduardo Castro
 

Mais de Eduardo Castro (20)

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL Server
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL Azure
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed Instance
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricks
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql server
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analytics
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse Analytics
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en Azure
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL Server
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure Enclaves
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure Enclaves
 

Último

Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 

Último (20)

Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 

Big data con SQL Server 2014

  • 1. Big Data con SQL Server 2014 Dr. Eduardo Castro, MAP Microsoft SQL Server MVP PASS Regional Mentor
  • 2. Recursos adicionales Introducción para BI & Big Data DAX MDX Minería de Datos Excel BI
  • 3. Canal en YouTube http://www.youtube.com/eduardocastrom
  • 4.
  • 5. Análisis de grandes cantidades de datos Big Data
  • 7. Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024 Megabytes. Un Petabyte es una unidad de almacenamiento de información cuyo símbolo es PB, equivale a 1024 Terabytes = 1.125.899.906.842.624 de bytes.
  • 8. Qué es un Petabyte Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php • 1 Petabyte es suficiente para almacenar 13.3 años de video HD • 1.5 Petabytes son necesarios para almacenar 10 Billones de fotos de Facebook • Google procesa alrededor de 24 Petabytes de información por día. • Avatar, la película de James Cameron del 2009, usó 1 Petabyte de información para realizar los efectos especiales. • AT&T, el carrier del iPhone en Estados Unidos, transmite 19 Petabytes de datos por mes.
  • 9. Big data, o los datos sólo complejos? preparación interpretar velocidad volumen Datos variedad complejidad
  • 10. Grandes volúmenes de datos de hoy en día, pocos datos del mañana Complejidad vs capacidades actuales FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)
  • 11. Dominio Escenarios de grandes volúmenes datos comunes Servicios financieros Modelado riesgo verdadero Análisis de las amenazas y detección de fraude Vigilancia Comercio El puntaje de crédito y análisis Medios y Entretenimiento Los motores de recomendación Focalización Ad Buscar calidad Los abusos y detección de fraude de clics Venta al por menor Punto de análisis de las transacciones de ventas Análisis de la pérdida de clientes El análisis de sentimientos (sentiment analysis) Telecomunicaciones Cliente prevención del churn La optimización del rendimiento de la red Detalles de llamadas (CDR) y su análisis Predicción de fallos de red Gobierno Seguridad Cibernética (botnets, fraudes) La congestión del tráfico y re-enrutamiento Monitoreo Ambiental Monitoreo Antisocial través de medios sociales Salud La investigación del genoma La investigación del cáncer Pandemias detección temprana Monitoreo de la calidad del aire
  • 12. ¿Qué es BIG Data?
  • 13. Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  • 14. Qué es Big Data? Petabytes Terabytes Gigabytes Megabytes BIG DATA WEB CRM ERP Web logs Purchase detail Purchase record Payment record Customer Touches Support Contacts Offer details Segmentation Transacciones + Interacciones + Observaciones Spatial & GPS Coordinates Search Marketing Offer history A/B testing Dynamic Pricing Affiliate Networks Behavioral Targeting Dynamic Funnels = BIG DATA User Generated Content Mobile Web Sentiment SMS/MMS External Demographics HD Video, Audio, Images Speech to Text Product/Service Logs Social Interactions & Feeds Business Data Feeds User Click Stream Sensors / RFID / Devices Incremento de variedad y cantidad de datos
  • 15. Procesamiento de datos y análisis: The Old Way
  • 16. La naturaleza cambiante del Big Data • Big Data tiene importantes cualidades distintivas que lo diferencian de los datos corporativos "tradicionales". • Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes
  • 17. La naturaleza cambiante del Big Data Volumen - La cantidad de datos que han creado las empresas a través de • La web • Dispositivos móviles • Infraestructura de TI • y otras fuentes está creciendo exponencialmente cada año.
  • 18. La naturaleza cambiante del Big Data Tipo - La variedad de tipos de datos es cada vez mayor, • No estructurados de datos basados en texto • Datos semi-estructurados como los datos de los medios sociales • Los datos basados en la localización • Datos de logs, ejemplo servidores Web
  • 19. La naturaleza cambiante del Big Data Velocidad • La velocidad a la que se está creando nuevos datos • La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.
  • 20. Principales fuentes de datos • Redes sociales y medios de comunicación • 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos • Dispositivos móviles • Más de 5 mil millones de teléfonos móviles en uso en todo el mundo • Transacciones en Internet • miles de millones de compras en línea, operaciones de bolsa y otras transacciones ocurren todos los días • Dispositivos de red y sensores
  • 22. Casos en los cuales se utiliza Big Data • Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar. • Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa. • Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
  • 23. Casos en los cuales se utiliza Big Data Sentiment Analysis • Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales • Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos. • El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
  • 24. Casos en los cuales se utiliza Big Data Modelado de riesgo • Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros • Para preparar la posible "qué pasaría si" los escenarios basados en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
  • 25. Casos en los cuales se utiliza Big Data Motor de recomendación • Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados en el análisis del perfil de usuario y los datos de comportamiento. • LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
  • 26. Casos en los cuales se utiliza Big Data Detección de Fraude • Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta. • Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
  • 27. Casos en los cuales se utiliza Big Data Análisis de la campaña de marketing • Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing. • Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
  • 28. Casos en los cuales se utiliza Big Data Análisis Social Graph • Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales. • Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
  • 29. Casos en los cuales se utiliza Big Data Customer Experience Analytics • Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes • Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.
  • 30. Nuevos Enfoques para el procesamiento y análisis de datos • Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes • Hadoop • NoSQL • Bases de datos analíticos masivamente paralelo
  • 31. Nuevos Enfoques para el procesamiento y análisis de datos grandes
  • 32. Introducción a Big Data y Hadoop • Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos • Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede: • Almacenar petabytes de información • Permite procedamiento distribuido • Principales atributos: • Redundante y confiable (no se pierden datos) • Centrado en el análisis por lotes • Facilidad de crear aplicaciones y procesamiento distribuido • Ejecuta en cualquier hardware
  • 33. Componentes de Hadoop • Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en cualquier clúster Hadoop dado; • Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en lugar del grupo de datos en particular se almacenan y si los nodos fallan; • Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente y almacena los datos del nombre de nodo debe fallar; • Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el tratamiento de los datos. • Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
  • 39. Principios de Hadoop Método práctico procesamiento paralelización de análisis masivo de datos
  • 41. MapReduce De bajo nivel, fundamentos de Hadoop
  • 42. Clúster Hadoop Yahoo! Hadoop clúster, 2007. Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
  • 43. Clúster Hadoop Buster Cluster, un proyecto de investigación Miles Osborne, de la Universidad de Edimburgo, Facultad de Informática. Imagen utilizada con permiso. http://homepages.inf.ed.ac.uk/miles/
  • 44. Cluster Hadoop Nube Rent-A-Hadoop-cluster, o bien: "Superordenador de centavos" Windows Azure HD Insight
  • 45. Procesamiento de la lógica en HDInsight 1.6, 2.1, 3.0 Hadoop 1.x: Lote para el procesamiento
  • 46. Procesamiento de la lógica en HDInsight 3.0 Hadoop 2.2: interactivo, en línea, stream, o por lotes
  • 47. JS MapReduce Wordcount var mapa = Function (clave, valor, contexto) { var palabras = value.split(/ [^ A-zA-Z] /); for (var yo = 0; yo < words.length;yo+ +) { if (palabras [yo]! == "") { context.write(palabras [yo].toLowerCase(), 1); } } }; var reducir = Function (clave, valores, contexto) { var sum = 0; mientras que (values.hasNext()) { suma + = parseInt(values.next()); } context.write(Clave, suma); };
  • 48. Pig Latin Ejemplo - Todo está en paralelo! = primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query); houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora, consulta; ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar (org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram; ngramed2 = DISTINCT ngramed1; hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora); ... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html] TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();
  • 49. Ciencia de datos Hadoop Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no Filtrado colaborativo, recomendadores, clustering, singular value decomposition parallel frequent pattern mining, naïve Bayes, árbol de decisión
  • 50.
  • 51. Plataforma de Big Data Micrsooft
  • 52. Interoperatibilidad Integración con las herramientas de Análisis de Microsoft DATA SYSTEMS APPLICATIONS Aplicaciones Microsoft HORTONWORKS DATA PLATFORM For Windows DATA SOURCES MOBILE DATA Fuentes tradicionales (RDBMS, OLTP, OLAP) OLTP, POS SYSTEMS Nuevas Fuentes (web logs, email, sensor data, social media)
  • 53.
  • 54. Principios PDW • Procesamiento paralelo masivo (MPP) para las consultas • Dentro de la memoria de columnas • Múltiples nodos con CPU dedicada, memoria, almacenamiento • Incremental extensible • Escala de terabytes a múltiples petabytes
  • 55. Microsoft HDInsight Lapache Hadoop distribución Desarrollado por Hortonworks Y Microsoft Integrado con Microsoft BI
  • 56. Big data + BI tradicional = poderoso + easy Grandes, de datos rápida, o complejo Microsoft HDInsight Tabular OLAP SQL 010101010101010101 1010101010101010 01010101010101 101010101010 La interacción, exploración, rNFORMES, visualización PDW + Polibase
  • 57. Windows HADOOP • 2 Versiones • Cloud • Azure Service • On Permise • Integración con el Hadoop File System with Active Directory • Integración con BI • Herramientas de integración • Sqoop • Integración con SQL Server
  • 58. Introducción a HDInsight • HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop • Disponible tanto para Windows Server y como un servicio Windows Azure • Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel
  • 59. Windows Azure HDInsight Service Query & Metadata: Data Movement: Workflow: Monitoring:
  • 62. HDP para Windows Hortonworks Data Platform (HDP) For Windows 100% Open Source Enterprise Hadoop Manage & Operate at PLATFORM SERVICES HORTONWORKS DATA PLATFORM (HDP) For Windows HADOOP CORE DATA SERVICES Store, Process and Access Data OPERATIONAL SERVICES Manage & Operate at Scale Scale Store, Process and Access Data Distributed Storage & Processing Enterprise Readiness
  • 63.
  • 64. Modelando “Big Data” con PowerPivot • Big data puede ser integrado con otras fuentes de datos • Potencial de Autoservicio de BI: • PowerPivot puede cargar Big Data mediante el Table Import Wizard • ODBC para HDInsight • OLE DB para SQL Server con enlace a HDInsight • PowerPivot puede ser fuente para: • Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View • Otras herramientas de análisis (una vez publicado en SharePoint)
  • 65. Consideraciones de modelar “Big Data” con PowerPivot • Los resultados de Big Data pueden ser muy grandes para almacenamiento en memoria • Workaround: minizar la cantidad de datos consultados • Recuperar un periodo de tiempo más pequeño • Reducir las dimensiones o ser más granular • Una vez que está cargado el modelo puede ser manipulado con rapidez
  • 66. Formas de carga de datos
  • 67. Cómo consumir Resultados de HDInsight Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster SQL Server, Azure SQL DB Sqoop (Hadoop ecosystem project) Yes Excel Codename “Data Explorer” No Otra Blob Storage Azure Blob Storage REST APIs (Copy Blob, etc) No Account SQL Server Analysis Services Hive ODBC Driver Yes BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources) Yes
  • 68. Hadoop Connectors • SQL Server versions • Azure • PDW • SQL 2012 • SQL 2008 R2 • SQL Server 2014 http://www.microsoft.com/download/en/details.aspx?id=27584
  • 69. Resumen Siga: @rafaldotnet Email: rafal@projectbotticelli.com Descubra: rafal.net
  • 70.
  • 71. "... Almacenamiento de datos ha alcanzado el punto de inflexión más importante desde su creación. La gestión de datos en TI está cambiando. " - Gartner, "El estado de almacenamiento de datos en 2012"
  • 72. Creciente volumenes de datos 1 En tiempo real datos 2 Nuevo datos fuentes y tipos 3 Nacido en la nube datos 4 El almacén de datos tradicional Las fuentes de datos
  • 73.  El almacén de datos moderna Las fuentes de datos Los datos no relacional
  • 74. Técnicas de diseñadores toda tu datos Enriquecer y optimizar sus datos con fuentes no tradicional 6
  • 75. Obstáculos para un almacén de datos moderna Mantener la inversión legado Comprar nuevo nivel uno dispositivo de hardware Adquirir Big Data solución Adquirir la inteligencia de negocios Escalabilidad limitada y capacidad de gestionar nuevos tipos de datos Entrenamiento Alta adquisición y costos de migración Complejidad y adopción
  • 76. Introducción al sistema Microsoft Analytics Platform Un moderno dispositivo de almacenamiento de datos llave en mano • De datos relacionales y no relacionales en un único dispositivo • Hadoop lista para la empresa • Consultas integradas a través de Hadoop y PDW utilizando T-SQL • La integración directa con las herramientas de BI de Microsoft, como Microsoft Excel • Cerca de rendimiento en tiempo real con In-Memory Columnstore • Capacidad de escalabilidad para incluir cada vez mayor de datos • La eliminación del almacén de datos cuellos de botella con MPP SQL Server • Concurrencia que ayuda rápida adopción • Precio de appliance de datos más bajo por terabyte • Valor a través de una única solución • Valor con opciones de hardware flexibles utilizando hardware comercial
  • 77. APS listo para la empresa Hadoop con HDInsight Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato Alto rendimiento y sintonizado en el hardware Autenticación del usuario final con Active Directory Accesible ideas para todo el mundo con las herramientas de Microsoft BI Administrado y monitoreado utilizando System Center 100-por ciento de Apache Hadoop SQL Server Parallel Data warehouse Polibase Microsoft HDInsight
  • 78. Resumen hardware APS Carga en paralelo de depósito de datos HDInsight carga de trabajo Fabric Hardware Aparato Una región es un contenedor lógico dentro de un appliance Cada carga de trabajo contiene los siguientes límites: • Seguridad • Medida • Prestación de servicios
  • 79. Conexión de islas de datos con polibase Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI Proporciona un único Modelo de consulta T-SQL para PDW y Hadoop con ricas características de T-SQL, incluyendo joins sin ETL Utiliza el poder del MPP para mejorar el rendimiento de ejecución de consultas Compatible con Windows Azure HDInsight para permitir escenarios híbrido de la nube Ofrece la posibilidad de consultar las distribuciones no Microsoft Hadoop, como Hortonworks y Cloudera SQL Server Microsoft Azure PDW HDInsight Polibase Microsoft HDInsight Hortonworks para Windows y Linux Cloudera Conjunto de resultados Seleccionar ...
  • 80. (HDFS) Bridge Resultado s Acceso directo y paralelo a HDFS Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación PDW Los datos no relacional Aplicaciones Social Sensor y RFID Móvil aplicaciones Web aplicaciones Hadoop Los datos relacionales Basado esquema tradicional almacén de datos Regular T-SQL La tabla externa Los datos externos Archivo externo Enhanced PDW query engine Puente HDFS PDW
  • 81. Automatic MapReduce pushdown Hadoop / Data Lake (Cloudera, Hortonworks, HDInsight) Fuente sistemas Actualizar Día / Hora / Minuto SQL Server Data Marts SQL Server Reporting Services SQL Server Analytics / Ad-hoc / Visualización MapReduce T-SQL SQL Server Parallel Data Warehouse Polibase Microsoft HDInsight Analysis Services APS
  • 82. HDFS File / Directory //hdfs/social_media/twitter //hdfs/social_media/twitter/Daily.log 1 0 Hadoop Dynamic binding Column filtering Row filtering User Location Product Sentiment Rtwt Hour Date Sean Audie Suz Tom Sanjay Roger Steve CA CO WA IL MN TX AL xbox excel xbox sqls wp8 ssas ssrs -1 0 1 1 1 1 5 0 8 0 0 0 8 8 2 2 1 23 23 5-15-14 5-15-14 5-15-14 5-13-14 5-14-14 5-14-14 5-13-14 PolyBase – Predicate pushdown SELECT User, Product, Sentiment FROM Twitter_Table WHERE Hour = Current - 1 AND Date = Today AND Sentiment >= 0
  • 83. Uso de Big Data para cualquier persona Integración con Microsoft BI Minimiza TI intervención para el descubrimiento de datos con herramientas como Microsoft Excel Permite a los usuarios DBA unir datos relacionales y Hadoop con T-SQL Toma ventaja de la alta adopción de Excel, Power View, PowerPivot y SQL Server Analysis Services Ofrece herramientas de Hadoop como MapaReduce, Hive, y Pig para los científicos de datos Todos los demás utilizando Herramientas de Microsoft BI Los usuarios avanzados Científico de datos
  • 84. Crear tabla externa CREATE EXTERNAL TABLE table_name ({<column_definition>}[,..n ]) {WITH ( DATA_SOURCE = <data_source>, FILE_FORMAT = <file_format>, LOCATION =‘<file_path>’, [REJECT_VALUE = <value>], …)}; Hacer referencia a la fuente de datos externa 1 Hacer referencia a formato de archivo externo 2 Ruta de acceso del archivo / carpeta Hadoop 3 4 (Opcional) Rechazar parámetros
  • 85. Crear origen de datos externo CREATE EXTERNAL DATA SOURCE datasource_name {WITH ( TYPE = <data_source>, LOCATION =‘<location>’, [JOB_TRACKER_LOCATION = ‘<jb_location>’] }; 1 Tipo de fuente de datos externa 2 Lugar de origen de datos externos La activación o desactivación de la generación de trabajo MapReduce 3
  • 86. Crear Formato de Archivo Externo CREATE EXTERNAL FILE FORMAT fileformat_name {WITH ( FORMAT_TYPE = <type>, [SERDE_METHOD = ‘<sede_method>’,] [DATA_COMPRESSION = ‘<compr_method>’, [FORMAT_OPTIONS (<format_options>)] }; 1 Tipo de fuente de datos externa (De) método de serialización [Hive fichero de recursos] 2 3 Método de compresión (Opcional) Formato Opciones [Texto Archivos] 4
  • 87. Opciones de formato <Format Options> :: = [,FIELD_TERMINATOR = ‘value’], [,STRING_DELIMITER = ‘value’], [,DATE_FORMAT = ‘value’], [USE_TYPE_DEFAULT = ‘value’] 1 Delimitador de columna Carácter de separación para los tipos de datos de cadena 2 Para especificar un formato de fecha determinado 3 ¿Cómo se manejan las entradas que faltan 4
  • 88. PolyBase utilizando datos de Hadoop Traer islas de datos Hadoop juntos Ejecución de alta consultas de rendimiento contra los datos Hadoop De datos de almacenamiento de datos de archivado a Hadoop (mover) Exportación de datos relacionales para Hadoop (copia) Importación de datos de Hadoop en un dato almacén (copia)
  • 89. Escalada fuera sus datos a petabytes Escalabilidad de salida tecnologías en Sistema Analytics Platform Múltiples nodos con CPU dedicada, memoria y almacenamiento Posibilidad de añadir de forma incremental hardware para la escalabilidad casi lineal a múltiples petabytes Capacidad para manejar complejidad de la consulta y la concurrencia y escalabilidad Capacidad para escalar HDInsight y PDW PDW / HDInsight PDW / HDInsight PDW / HDInsight PDW PDW / HDInsight PDW / HDInsight PDW / HDInsight 0 terabytes 6 petabytes
  • 90. Un rendimiento increíblemente rápido MPP y In-Memory Columnstore para la próxima generación rendimiento Hasta 100x más rápido Hasta 15x más compression • Datawarehouse con Column Store • Carga datos hacia o desde la memoria para rendimiento de próxima generación con una mejora de hasta 60% en la velocidad de carga de datos Column Store Index Ejecución de consultas en paralelo
  • 91. Clustered columnstore index ¿Por qué es es importante? • Ahorra espacio • Proporciona una gestión más fácil, eliminando el mantenimiento de índices secundarios Space used in GB (table with 101 million rows) Espacio utilizado =tabla espacio + índice espacio 20.0 15.0 10.0 5.0 0.0 91% de ahorro 1 2 3 4 5 6 In-Memory Columnstore ¡se ofrece en el motor de almacenamiento en el PDW AU1
  • 92. Ejecución de consultas en paralelo y distribuidos Procesamiento de la ejecución de consultas relacionales Consultas SQL enviadas al nodo de control 1 El nodo de control crea plan de ejecución de la consulta 2 El plan de consulta crea consultas distribuidas para su ejecución en cada nodo de cómputo 3 Las consultas distribuidas enviados nodos en de cálculo (todos corriendo en paralelo) 4 El nodo de control recoge los resultados de la consulta y los devuelve al usuario 5 Crear una consulta plan Consulta del usuario Cliente Control Calcular Calcular Calcular Calcular Applicance Administración Resultados de la consulta Los resultados agregados de la consulta Operaciones del plan de consulta en paralelo
  • 93. SMP SQL Server Presentación de informes y cubos Herramientas de BI Concurrencia de datos Gran rendimiento con cargas de trabajo mixtas Analytics Platform ETL / ELT con SSIS, DQS, MDS System ERP CRM LOB APPS ETL / ELT con DWLoader Hadoop / Big Data PDW Polibase HDInsight Consultas ad hoc Intra-Day Casi en tiempo real Fast ad hoc Almacén de columnas Polibase CRTAS Linked Table Real-Time ROLAP / MOLAP DirectQuery SNAC
  • 94. Hardware y software de ingeniería junto Co-dirigido con HP, Dell, Quanta y mejores prácticas Liderando el rendimiento con hardware comercial Integrado apoyo con un solo contacto Microsoft Pre-configurado, construido, y ajustado software y hardware PDW Polybase HDInsight
  • 95. Hardware architecture InfiniBand InfiniBand PDW region Ethernet Ethernet Control node Failover node Master node Failover node Compute nodes Economical disk storage Compute nodes Economical disk storage Compute nodes Economical disk storage Networking HDInsight region PDW region Rack #1 InfiniBand InfiniBand Ethernet Ethernet Failover node Compute nodes Economical disk storage Compute nodes Economical disk storage Compute nodes Economical disk storage HDI extension base unit HDI active scale unit HDI active scale unit HDI extension base unit Rack #2 HST-01 HST-02 HSA-01 HST-02 Economical disk storage IB and Ethernet Active Unit Dos nodos adicionales Passive Unit HDInsight Failover Node Alta Disponibilidad
  • 96. Arquitectura virtualizada PANORAMA • Motor PDW • DMS Manage • SQL Server 2012 Enterprise Edition (build PDW) Unidad Base C T L Anfitrión 1 Anfitrión 2 Anfitrión 3 Anfitrión 4 Almacenami ento en disco IB y Ethernet Directo SAS adjunto Ma ssa ch us ett s D A D V M M Calcule 1 Calcule 2 Detalles de software • Todos los hosts ejecutan Windows Server 2012 Standard and Windows Azure Virtual Machines • Fabric o carga de trabajo en Hyper-V virtual Máquinas • PDW agente que se ejecuta en todos los hosts y es toda virtual máquinas • DWConfig y consola de administración • Ventanas espacios de almacenamiento y Azure Storage