Big data con SQL Server 2014

Big Data con SQL
Server 2014
Dr. Eduardo Castro, MAP
Microsoft SQL Server MVP
PASS Regional Mentor

Recursos adicionales
Introducción para BI & Big Data
DAX
MDX
Minería de Datos
Excel BI

Canal en YouTube
http://www.youtube.com/eduardocastrom

Análisis de
grandes
cantidades de
datos
Big Data

Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
Un Terabyte son 1024 Gigabytes. 1 Gigabyte = 1024
Megabytes.
Un Petabyte es una unidad de almacenamiento de
información cuyo símbolo es PB, equivale a 1024 Terabytes
= 1.125.899.906.842.624 de bytes.

Qué es un Petabyte
Tomado de http://www.informatica-hoy.com.ar/aprender-informatica/Que-es-Petabyte.php
• 1 Petabyte es suficiente para almacenar 13.3 años de video HD
• 1.5 Petabytes son necesarios para almacenar 10 Billones de fotos
de Facebook
• Google procesa alrededor de 24 Petabytes de información por
día.
• Avatar, la película de James Cameron del 2009, usó 1 Petabyte de
información para realizar los efectos especiales.
• AT&T, el carrier del iPhone en Estados Unidos, transmite 19
Petabytes de datos por mes.

Big data, o los datos sólo complejos?
preparación interpretar
velocidad
volumen
Datos
variedad complejidad

Grandes volúmenes de datos de hoy en día, pocos
datos del mañana
Complejidad vs capacidades actuales
FAA estación internacional de Vuelo servicio, Honolulu, Hawaii, 1964 (dominio público)

Dominio Escenarios de grandes volúmenes datos comunes
Servicios financieros Modelado riesgo verdadero
Análisis de las amenazas y detección de fraude
Vigilancia Comercio
El puntaje de crédito y análisis
Medios y Entretenimiento Los motores de recomendación
Focalización Ad
Buscar calidad
Los abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de ventas
Análisis de la pérdida de clientes
El análisis de sentimientos (sentiment analysis)
Telecomunicaciones Cliente prevención del churn
La optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisis
Predicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)
La congestión del tráfico y re-enrutamiento
Monitoreo Ambiental
Monitoreo Antisocial través de medios sociales
Salud La investigación del genoma
La investigación del cáncer
Pandemias detección temprana
Monitoreo de la calidad del aire

Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización

Qué es Big Data?
Petabytes
Terabytes
Gigabytes
Megabytes
BIG DATA
WEB
CRM
ERP
Web logs
Purchase detail
Purchase record
Payment record
Customer Touches
Support Contacts
Offer details
Segmentation
Transacciones +
Interacciones +
Observaciones
Spatial & GPS Coordinates
Search Marketing
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Behavioral Targeting
Dynamic Funnels
= BIG DATA
User Generated Content
Mobile Web
Sentiment SMS/MMS
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Incremento de variedad y cantidad de datos

Procesamiento de datos y análisis: The Old Way

La naturaleza cambiante del Big Data
• Big Data tiene importantes cualidades distintivas
que lo diferencian de los datos corporativos
"tradicionales".
• Los datos no son centralizadas, muy estructurados
y de fácil manejo, ahora más que nunca los datos
están muy dispersos, poco estructurados (o no tiene
estructura en absoluto), y cada vez más con
volúmenes más grandes

Volumen - La cantidad de datos que han
creado las empresas a través de
• La web
• Dispositivos móviles
• Infraestructura de TI
• y otras fuentes está creciendo exponencialmente cada año.

Tipo - La variedad de tipos de datos es cada vez
mayor,
• No estructurados de datos basados en texto
• Datos semi-estructurados como los datos de los medios sociales
• Los datos basados en la localización
• Datos de logs, ejemplo servidores Web

Velocidad
• La velocidad a la que se está creando nuevos datos
• La necesidad de análisis en tiempo real para obtener valor de negocio
de ella - es cada vez mayor gracias a la digitalización de las
transacciones, la informática móvil y el gran número de usuarios de
dispositivos de Internet y el móvil.

Principales fuentes de datos
• Redes sociales y medios de comunicación
• 700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156
millones de blogs públicos
• Dispositivos móviles
• Más de 5 mil millones de teléfonos móviles en uso en todo el mundo
• Transacciones en Internet
• miles de millones de compras en línea, operaciones de bolsa y otras
transacciones ocurren todos los días
• Dispositivos de red y sensores

Casos en los cuales se utiliza Big Data
• Parte de lo que hace Hadoop y otras tecnologías y
enfoques Big Data es encontrar respuestas a preguntas
que ni siquiera saben que preguntar.
• Dar lugar a ideas que conducen a nuevas ideas de
productos o ayudar a identificar formas de mejorar la
eficiencia operativa.
• Casos de uso ya identificadas para Big Data, tanto para
los gigantes de internet como Google, Facebook y
LinkedIn, y para la empresa más tradicional

Sentiment Analysis
• Utilizado junto con Hadoop, herramientas avanzadas de análisis de
texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
• Incluyendo los Tweets y mensajes de Facebook, para determinar la
confianza del usuario en relación con determinadas empresas, marcas
o productos.
• El análisis puede centrarse en el sentimiento a nivel macro hasta el
sentimiento usuario individual.

Modelado de riesgo
• Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de los
activos financieros
• Para preparar la posible "qué pasaría si" los escenarios basados en el
comportamiento del mercado simulado, y para puntuación de
clientes potenciales por el riesgo.

Motor de recomendación
• Los minoristas en línea utilizan Hadoop para igualar y recomendar a
los usuarios entre sí o con los productos y servicios basados en el
análisis del perfil de usuario y los datos de comportamiento.
• LinkedIn utiliza este enfoque para potenciar su función de "la gente
puede saber", mientras que Amazon utiliza para sugerir productos a
la venta a los consumidores en línea.

Detección de Fraude
• Utilizar técnicas de Big Data para combinar el comportamiento
del cliente, históricos y datos de transacciones para detectar la
actividad fraudulenta.
• Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.

Análisis de la campaña de marketing
• Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear y
determinar la efectividad de las campañas de marketing.
• Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares, como los
datos de click-stream y registros detallados de llamadas, para
aumentar la precisión de los análisis.

Análisis Social Graph
• Junto con Hadoop los datos de redes sociales se extraen
para determinar qué clientes representan la mayor
influencia sobre los demás dentro de las redes sociales.
• Esto ayuda a determinar las empresas que son sus
clientes "más importantes", que no siempre son los que
compran la mayoría de los productos o de los que más
gastan, pero los que tienden a influir en el
comportamiento de compra de la mayoría de los
demás.

Customer Experience Analytics
• Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los
datos de antes silos canales de interacción con clientes
• Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.

Nuevos Enfoques para el procesamiento y análisis de datos
• Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
• Hadoop
• NoSQL
• Bases de datos analíticos masivamente paralelo

Nuevos Enfoques para el procesamiento y análisis de datos grandes

Introducción a Big Data y Hadoop
• Big data se enfrenta a complejidades de alto volumen, la
velocidad y la variedad de los datos
• Apache Hadoop, es un conjunto de proyectos de código abierto
que transforman el hardware tradicional en un servicio que
puede:
• Almacenar petabytes de información
• Permite procedamiento distribuido
• Principales atributos:
• Redundante y confiable (no se pierden datos)
• Centrado en el análisis por lotes
• Facilidad de crear aplicaciones y procesamiento distribuido
• Ejecuta en cualquier hardware

Componentes de Hadoop
• Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto
en cualquier clúster Hadoop dado;
• Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información
del cliente en lugar del grupo de datos en particular se almacenan y si los nodos
fallan;
• Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica
periódicamente y almacena los datos del nombre de nodo debe fallar;
• Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos
MapReduce, o el tratamiento de los datos.
• Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos
almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.

Hadoop Distributed Architecture

MapReduce: Mover Código a los Datos

Principios de Hadoop
Método práctico
procesamiento
paralelización de análisis
masivo de datos

MapReduce
De bajo nivel, fundamentos de Hadoop

Clúster Hadoop
Yahoo! Hadoop clúster, 2007.
Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.

Clúster Hadoop
Buster Cluster, un proyecto de investigación Miles Osborne,
de la Universidad de Edimburgo, Facultad de Informática.
Imagen utilizada con permiso.
http://homepages.inf.ed.ac.uk/miles/

Cluster Hadoop
Nube
Rent-A-Hadoop-cluster, o bien:
"Superordenador de centavos"
Windows Azure HD Insight

Procesamiento de la lógica en HDInsight
1.6, 2.1, 3.0
Hadoop 1.x: Lote para el procesamiento

Procesamiento de la lógica en HDInsight 3.0
Hadoop 2.2: interactivo, en línea, stream, o por lotes

JS MapReduce Wordcount
var mapa = Function (clave, valor, contexto) {
var palabras = value.split(/ [^ A-zA-Z] /);
for (var yo = 0; yo < words.length;yo+ +) {
if (palabras [yo]! == "") {
context.write(palabras [yo].toLowerCase(), 1);
}
}
};
var reducir = Function (clave, valores, contexto) {
var sum = 0;
mientras que (values.hasNext()) {
suma + = parseInt(values.next());
}
context.write(Clave, suma);
};

Pig Latin Ejemplo - Todo está en paralelo!
= primas CARGA 'Search.log'USO PigStorage(' T') AS (usuario, hora, query);
houred = FOREACH crudo GENERAR usuario, org.apache.pig.tutorial.ExtractHour(Tiempo) como hora,
consulta;
ngramed1 = FOREACH houred GENERAR usuario, hora, aplanar
(org.apache.pig.tutorial.NGramGenerator(Consulta)) como ngram;
ngramed2 = DISTINCT ngramed1;
hour_frequency1 = GRUPO ngramed2 BY (ngram, Hora);
... [Ver http://pig.apache.org/ Docs/r0.7.0 /tutorial.html]
TIENDA ordered_uniq_frequency EN '/tmp/ Tutorial-results 'USO PigStorage();

Ciencia de datos Hadoop
Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no
Filtrado colaborativo,
recomendadores, clustering,
singular value decomposition
parallel frequent pattern
mining, naïve Bayes, árbol de
decisión

Plataforma de Big Data Micrsooft

Interoperatibilidad
Integración con
las herramientas
de Análisis de
Microsoft
DATA SYSTEMS APPLICATIONS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATA SOURCES
MOBILE
DATA
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
OLTP,
POS
SYSTEMS
Nuevas Fuentes
(web logs, email, sensor data, social media)

Principios PDW
• Procesamiento paralelo masivo (MPP) para las
consultas
• Dentro de la memoria de columnas
• Múltiples nodos con CPU dedicada, memoria, almacenamiento
• Incremental extensible
• Escala de terabytes a múltiples petabytes

Microsoft HDInsight
Lapache Hadoop distribución
Desarrollado por Hortonworks Y Microsoft
Integrado con Microsoft BI

Big data + BI tradicional = poderoso + easy
Grandes, de
datos
rápida, o
complejo
Microsoft
HDInsight
Tabular
OLAP
SQL
010101010101010101
1010101010101010
01010101010101
101010101010
La interacción,
exploración,
rNFORMES,
visualización
PDW +
Polibase

Windows HADOOP
• 2 Versiones
• Cloud
• Azure Service
• On Permise
• Integración con el Hadoop File System with Active Directory
• Integración con BI
• Herramientas de integración
• Sqoop
• Integración con SQL Server

Introducción a HDInsight
• HDInsight es una implementación de Microsoft 100%
compatible con la distribución de Apache Hadoop
• Disponible tanto para Windows Server y como un servicio
Windows Azure
• Permite que las empresas analicen datos no estructurados
con herramientas bien conocidas tales como Excel

Windows Azure HDInsight Service
Query &
Metadata:
Data
Movement:
Workflow: Monitoring:

Windows Azure HDInsight Service

HDP para Windows
Hortonworks
Data Platform (HDP)
For Windows
100% Open Source Enterprise Hadoop
Manage &
Operate at
PLATFORM SERVICES
HORTONWORKS
DATA PLATFORM (HDP)
For Windows
HADOOP CORE DATA
SERVICES
Store,
Process and
Access Data
OPERATIONAL
SERVICES
Manage &
Operate at
Scale
Scale
Store,
Process and
Access Data
Distributed
Storage & Processing
Enterprise Readiness

Modelando “Big Data” con PowerPivot
• Big data puede ser integrado con otras fuentes de
datos
• Potencial de Autoservicio de BI:
• PowerPivot puede cargar Big Data mediante el Table Import Wizard
• ODBC para HDInsight
• OLE DB para SQL Server con enlace a HDInsight
• PowerPivot puede ser fuente para:
• Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View
• Otras herramientas de análisis (una vez publicado en SharePoint)

Consideraciones de modelar “Big Data” con PowerPivot
• Los resultados de Big Data pueden ser muy grandes
para almacenamiento en memoria
• Workaround: minizar la cantidad de datos
consultados
• Recuperar un periodo de tiempo más pequeño
• Reducir las dimensiones o ser más granular
• Una vez que está cargado el modelo puede ser
manipulado con rapidez

Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Yes
Excel Codename “Data Explorer” No
Otra Blob Storage
Azure Blob Storage REST APIs (Copy Blob, etc) No
Account
SQL Server Analysis
Services
Hive ODBC Driver Yes
BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC
connections to data sources)
Yes

Hadoop Connectors
• SQL Server versions
• Azure
• PDW
• SQL 2012
• SQL 2008 R2
• SQL Server 2014
http://www.microsoft.com/download/en/details.aspx?id=27584

Resumen
Siga: @rafaldotnet
Email: rafal@projectbotticelli.com
Descubra: rafal.net

"... Almacenamiento de datos ha alcanzado
el punto de inflexión más importante
desde su creación. La gestión de datos en
TI está cambiando. "
- Gartner, "El estado de almacenamiento de datos en
2012"

Creciente
volumenes de
datos
1
En
tiempo
real
datos
2
Nuevo datos
fuentes y tipos
3
Nacido en
la nube
datos
4
El almacén de datos tradicional
Las fuentes de datos


El almacén de datos moderna
Las fuentes de
datos
Los datos no relacional

Técnicas de diseñadores toda tu datos
Enriquecer y optimizar sus datos con fuentes no tradicional
6

Obstáculos para un almacén de datos moderna
Mantener la inversión
legado
Comprar nuevo nivel
uno dispositivo de
hardware
Adquirir Big Data
solución
Adquirir la
inteligencia de
negocios
Escalabilidad limitada y
capacidad de gestionar
nuevos tipos de datos
Entrenamiento Alta adquisición y
costos de
migración
Complejidad y
adopción

Introducción al sistema Microsoft Analytics Platform
Un moderno dispositivo de almacenamiento de datos llave en mano
• De datos relacionales y no
relacionales en un único
dispositivo
• Hadoop lista para la empresa
• Consultas integradas a través
de Hadoop y PDW utilizando
T-SQL
• La integración directa con las
herramientas de BI de
Microsoft, como Microsoft
Excel
• Cerca de rendimiento en
tiempo real con In-Memory
Columnstore
• Capacidad de escalabilidad
para incluir cada vez mayor de
datos
• La eliminación del almacén de
datos cuellos de botella con
MPP SQL Server
• Concurrencia que ayuda
rápida adopción
• Precio de appliance de datos
más bajo por terabyte
• Valor a través de una única
solución
• Valor con opciones de
hardware flexibles utilizando
hardware comercial

APS listo para la empresa Hadoop con HDInsight
Manejable, asegurado, y de alta disponibilidad Hadoop integrado dentro del aparato
Alto rendimiento y
sintonizado en el
hardware
Autenticación del
usuario final con
Active Directory
Accesible ideas para
todo el mundo con
las herramientas de
Microsoft BI
Administrado y
monitoreado
utilizando System
Center
100-por ciento de
Apache Hadoop
SQL Server
Parallel Data
warehouse
Polibase
Microsoft
HDInsight

Resumen hardware APS
Carga en paralelo de
depósito de datos
HDInsight carga de trabajo
Fabric
Hardware
Aparato
Una región es un contenedor lógico
dentro de un appliance
Cada carga de trabajo contiene los
siguientes límites:
• Seguridad
• Medida
• Prestación de servicios

Conexión de islas de datos con polibase
Trayendo soluciones de punto de Hadoop y el almacén de datos junto a los usuarios y TI
Proporciona un único Modelo de consulta T-SQL
para PDW y Hadoop con ricas
características de T-SQL, incluyendo joins sin
ETL
Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
Compatible con Windows Azure HDInsight para
permitir escenarios híbrido de la nube
Ofrece la posibilidad de consultar las
distribuciones no Microsoft Hadoop, como
Hortonworks y Cloudera
SQL Server
Microsoft Azure PDW
HDInsight
Polibase
Microsoft
HDInsight
Hortonworks para
Windows y Linux
Cloudera
Conjunto de
resultados
Seleccionar
...

(HDFS) Bridge
Resultado
s
Acceso directo y paralelo a HDFS
Data Movement Service (DMS) of APS APS para permitir la comunicación directa entre HDFS datos nodos y nodos de computación
PDW
Los datos no relacional
Aplicaciones
Social
Sensor
y RFID
Móvil
aplicaciones
Web
aplicaciones
Hadoop
Los datos relacionales
Basado esquema tradicional
almacén de datos
Regular
T-SQL
La tabla externa
Los datos
externos
Archivo
externo
Enhanced PDW
query engine
Puente HDFS PDW

Automatic MapReduce pushdown
Hadoop / Data Lake
(Cloudera, Hortonworks,
HDInsight)
Fuente sistemas
Actualizar Día / Hora / Minuto
SQL Server
Data Marts
SQL Server
Reporting Services
SQL Server
Analytics / Ad-hoc / Visualización
MapReduce T-SQL
SQL Server
Parallel Data
Warehouse
Polibase
Microsoft
HDInsight
Analysis Services APS

HDFS File / Directory
//hdfs/social_media/twitter
//hdfs/social_media/twitter/Daily.log
1
0
Hadoop
Dynamic binding
Column filtering
Row filtering
User Location Product Sentiment Rtwt Hour Date
Sean
Audie
Suz
Tom
Sanjay
Roger
Steve
CA
CO
WA
IL
MN
TX
AL
xbox
excel
xbox
sqls
wp8
ssas
ssrs
-1
0
1
1
1
1
5
0
8
0
0
0
8
8
2
2
1
23
23
5-15-14
5-15-14
5-15-14
5-13-14
5-14-14
5-14-14
5-13-14
PolyBase – Predicate pushdown
SELECT User, Product, Sentiment
FROM Twitter_Table
WHERE Hour = Current - 1
AND Date = Today
AND Sentiment >= 0

Uso de Big Data para cualquier persona
Integración con Microsoft BI
Minimiza TI
intervención para
el descubrimiento
de datos con
herramientas como
Microsoft Excel
Permite a los
usuarios DBA unir
datos relacionales y
Hadoop con T-SQL
Toma ventaja de la
alta adopción
de Excel, Power
View, PowerPivot y
SQL Server Analysis
Services
Ofrece
herramientas de
Hadoop como
MapaReduce, Hive,
y Pig para los
científicos de datos
Todos los demás utilizando
Herramientas de Microsoft BI
Los usuarios avanzados
Científico de datos

Crear tabla externa
CREATE EXTERNAL TABLE table_name
({<column_definition>}[,..n ])
{WITH (
DATA_SOURCE = <data_source>,
FILE_FORMAT = <file_format>,
LOCATION =‘<file_path>’,
[REJECT_VALUE = <value>],
…)};
Hacer referencia a la fuente de datos
externa
1
Hacer referencia a formato de
archivo externo
2
Ruta de acceso del archivo / carpeta
Hadoop
3
4 (Opcional) Rechazar parámetros

Crear origen de datos externo
CREATE EXTERNAL DATA SOURCE datasource_name
{WITH (
TYPE = <data_source>,
LOCATION =‘<location>’,
[JOB_TRACKER_LOCATION = ‘<jb_location>’]
};
1 Tipo de fuente de datos externa
2 Lugar de origen de datos externos
La activación o desactivación de la
generación de trabajo MapReduce
3

Crear Formato de Archivo Externo
CREATE EXTERNAL FILE FORMAT fileformat_name
{WITH (
FORMAT_TYPE = <type>,
[SERDE_METHOD = ‘<sede_method>’,]
[DATA_COMPRESSION = ‘<compr_method>’,
[FORMAT_OPTIONS (<format_options>)]
};
1 Tipo de fuente de datos externa
(De) método de serialización [Hive
fichero de recursos]
2
3 Método de compresión
(Opcional) Formato Opciones [Texto
Archivos]
4

Opciones de formato
<Format Options> :: =
[,FIELD_TERMINATOR = ‘value’],
[,STRING_DELIMITER = ‘value’],
[,DATE_FORMAT = ‘value’],
[USE_TYPE_DEFAULT = ‘value’]
1 Delimitador de columna
Carácter de separación para los tipos
de datos de cadena
2
Para especificar un formato de fecha
determinado
3
¿Cómo se manejan las entradas que
faltan
4

PolyBase utilizando datos de Hadoop
Traer islas de datos Hadoop juntos
Ejecución de alta consultas de rendimiento contra los
datos Hadoop
De datos de almacenamiento de datos de archivado a
Hadoop (mover)
Exportación de datos relacionales para Hadoop (copia)
Importación de datos de Hadoop en un dato almacén
(copia)

Escalada fuera sus datos a petabytes
Escalabilidad de salida tecnologías en Sistema Analytics Platform
Múltiples nodos con CPU dedicada, memoria y
almacenamiento
Posibilidad de añadir de forma incremental
hardware para la escalabilidad casi lineal a
múltiples petabytes
Capacidad para manejar complejidad de la
consulta y la concurrencia y escalabilidad
Capacidad para escalar HDInsight y PDW
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
PDW
PDW /
HDInsight
PDW /
HDInsight
PDW /
HDInsight
0 terabytes 6 petabytes

Un rendimiento increíblemente rápido
MPP y In-Memory Columnstore para la próxima generación rendimiento
Hasta 100x
más rápido
Hasta 15x
más compression
• Datawarehouse con Column Store
• Carga datos hacia o desde la memoria para
rendimiento de próxima generación con una
mejora de hasta 60% en la velocidad de carga de
datos
Column Store Index
Ejecución de consultas en paralelo

Clustered columnstore index
¿Por qué es es importante?
• Ahorra espacio
• Proporciona una gestión más fácil, eliminando
el mantenimiento de índices secundarios
Space used in GB (table with 101 million rows)
Espacio utilizado =tabla espacio + índice espacio
20.0
15.0
10.0
5.0
0.0
91% de
ahorro
1 2 3 4 5 6
In-Memory Columnstore ¡se ofrece en el
motor de almacenamiento en el PDW AU1

Ejecución de consultas en paralelo y distribuidos
Procesamiento de la ejecución de consultas relacionales
Consultas SQL enviadas al nodo de
control
1
El nodo de control crea plan de
ejecución de la consulta
2
El plan de consulta crea consultas
distribuidas para su ejecución en
cada nodo de cómputo
3
Las consultas distribuidas enviados
nodos en de cálculo (todos
corriendo en paralelo)
4
El nodo de control recoge los
resultados de la consulta y los
devuelve al usuario
5
Crear una
consulta plan
Consulta
del usuario
Cliente Control
Calcular
Calcular
Calcular
Calcular
Applicance
Administración
Resultados de
la consulta
Los resultados agregados
de la consulta
Operaciones del plan
de consulta en
paralelo

SMP SQL Server
Presentación de informes y cubos
Herramientas de BI
Concurrencia de datos
Gran rendimiento con cargas de trabajo mixtas
Analytics Platform
ETL / ELT con SSIS, DQS, MDS System
ERP CRM LOB APPS
ETL / ELT con DWLoader
Hadoop / Big Data
PDW
Polibase
HDInsight
Consultas ad hoc
Intra-Day
Casi en tiempo real
Fast ad hoc
Almacén de columnas
Polibase
CRTAS
Linked Table
Real-Time
ROLAP / MOLAP
DirectQuery
SNAC

Hardware y software de ingeniería junto
Co-dirigido con
HP, Dell, Quanta
y mejores
prácticas
Liderando el
rendimiento con
hardware
comercial
Integrado apoyo
con un solo
contacto Microsoft
Pre-configurado,
construido, y
ajustado
software y
hardware
PDW
Polybase
HDInsight

Hardware architecture InfiniBand
InfiniBand
PDW region
Ethernet
Ethernet
Control node
Failover node
Master node
Failover node
Compute nodes
Economical disk storage
Compute nodes
Compute nodes
Networking
HDInsight region
PDW region
Rack #1
InfiniBand
InfiniBand
Ethernet
Ethernet
Failover node
Compute nodes
Compute nodes
Compute nodes
HDI extension base
unit
HDI active scale
unit
HDI active scale
unit
HDI extension base
unit
Rack #2
HST-01
HST-02
HSA-01
HST-02
Economical
disk storage
IB and Ethernet
Active Unit Dos nodos adicionales
Passive Unit HDInsight
Failover Node Alta Disponibilidad

Arquitectura virtualizada PANORAMA
• Motor PDW
• DMS Manage
• SQL Server 2012 Enterprise Edition (build PDW)
Unidad Base C
T
L
Anfitrión 1
Anfitrión 2
Anfitrión 3
Anfitrión 4
Almacenami
ento en
disco
IB y
Ethernet
Directo SAS adjunto
Ma
ssa
ch
us
ett
s
D
A
D
V
M
M
Calcule 1
Calcule 2
Detalles de software
• Todos los hosts ejecutan Windows Server 2012
Standard and Windows Azure Virtual Machines
• Fabric o carga de trabajo en Hyper-V virtual Máquinas
• PDW agente que se ejecuta en todos los hosts y es
toda virtual máquinas
• DWConfig y consola de administración
• Ventanas espacios de almacenamiento y Azure
Storage

Big data con SQL Server 2014

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (18)

Semelhante a Big data con SQL Server 2014

Semelhante a Big data con SQL Server 2014 (20)

Mais de Eduardo Castro

Mais de Eduardo Castro (20)

Último

Último (20)

Big data con SQL Server 2014