BrunoSQLSaturday424

Hadoop!? HDInsight!? Hive??
Uma introdução ao mundo
Big Data para DBA’s
Bruno Feldman da Costa | White Cube
@feldmanB | facebook.com/bfcosta
bfcosta@gmail.com

Planning on attending PASS Summit 2015? Start
saving today!
• The world’s largest gathering of SQL Server & BI professionals
• Take your SQL Server skills to the next level by learning from the world’s
top SQL Server experts, in over 190 technical sessions
• Over 5000 registrations, representing 2000 companies, from 52
countries, ready to network & learn
Save $150 right now using discount code
LCCOMPRX86 or LCCOMPMD54

About Me!
 Bruno Feldman da Costa
 Tech Leader DB/BI at White Cube
 Twitter: @feldmanB
 E-mail: bfcosta@gmail.com
 Facebook: https://facebook.com/bfcosta
 Blog: http://brunofeldman.wordpress.com

Agenda
 Big Data?
 Hadoop
 HDInsight
 MapReduce
 MapReduce com HIVE e PIG
 Transferindo dados com SQOOP
 Workflows com OOZIE
 Ferramentas: Powershell e SSIS

Big Data
 “Big data are a collection of data sets so large and
complex that it becomes difficult to process using on-
hand database management tools or traditional data
processing applications.” Tom White, Hadoop Definitive Guide
 “In pioneer days they used oxen for heavy pulling, and
when one ox couldn't budge a log, they didn't try to grow
a larger ox. We shouldn't be trying for bigger computers,
but for more systems of computers.” Grace Hooper

Big Data
 Typified by the “3 V’s”:
 Volume – Huge amounts of data to process
 Variety – A mixture of structured and unstructured
data
 Velocity – New data generated extremely
frequently

Big Data
 Em 1990 um HD típico armazenava 1,4GB com uma
taxa de transferência de 4,4MB/s, ou seja, podia ler todo
o disco em uns 5 minutos.
 Uns 20 anos depois, os discos armazenam 1TB mas
lêem a 100MB/s, fazendo a leitura de todo o disco em
2h30min.
 E se dividíssemos os dados entre vários discos,
armazenando uma porção do dado em cada?

Hadoop
 Plataforma que
fornece:
 Um sistema de arquivos
distribuído (HDFS) que
armazena os dados
entre vários servidores.
 Um meio para
armazenar/consultar
(MapReduce/ YARN)
esses dados distribuídos.
HDFS
Name Node Data Nodes
Hadoop Cluster

Hadoop Ecosystem
 Distribuições Hadoop
 Cloudera CDH
 Hortonworks Data Platform (HDP)
 MapR
 Microsoft Azure HDInsight

Microsoft Azure HDInsight
 Implementação do HDP no ambiente do
Azure
 VM’s com Windows Server (ou Linux) com HDP
 WebHDFS (Azure Blob Storage)
 Suporte a Powershell e SSIS
 Escalabilidade
 Rápida implementação

DEMO
 Criando um cluster HDInsight

MapReduce
 Dado dividido entre os
data nodes
 Cada nó faz o “MAP”
gerando o par
“KEY/Value”
 O REDUCE faz a
agregação.

DEMO
 Executando um Job Map Reduce

HIVE
 Muito legal esse Map Reduce!
 Mas…
 Não sei programar em Java
 Não sei programar em Python
 Não sei programar em C#
 Não sei programar!!!!

HIVE
 Sou DBA, só entendo de TSQL, quero criar
meus jobs apenas utilizando queries, como já
faço no SQL Server.
 O HIVE faz isso!!!

HIVE
 Sou DBA, só entendo de TSQL, quero criar
meus jobs apenas utilizando queries, como já
faço no SQL Server.
 O HIVE faz isso!!!
 A query em HiveQL é “traduzida” para um
JOB MapReduce

PIG
 O PIG realiza uma série de transformações
no dado através de statements Pig Latin.
 Cada comando Pig Latin vai transformando o
dado até chegar no resultado esperado.
 Ao rodar os comandos DUMP ou STORE o
Job MapReduce é executado.

SQOOP
 O SQOOP (SQL-HADOOP) permite a
transferência bi-direcional de dados entre
banco de dados (compatíveis com jdbc) e
clusters Hadoop.

OOZIE
 Engine de Workflow para as
ações realizadas no cluster
Haddop:
 Hive
 Pig
 Sqoop
 E outras…

OOZIE / SQOOP
 O OOZIE e o SQOOP até que são legais…
Mas o SSIS é
MUITO melhor!!

Quer aprender mais?
 Books:
 Hadoop: The Definitive Guide - Tom White
 Microsoft Big Data Solutions - Adam Jorgensen
and James Rowland-Jones
 Pro Microsoft HDInsight: Hadoop on Windows -
Debarchan Sarkar
 Cursos:
 EDX: DAT202.1x Processing Big Data with
Hadoop in Azure HDInsight

Dúvidas?
Twitter: @feldmanB
E-mail: bfcosta@gmail.com
Facebook: https://facebook.com/bfcosta
Blog: http://brunofeldman.wordpress.com
OBRIGADO!

BrunoSQLSaturday424

Mais conteúdo relacionado

Destaque

Semelhante a BrunoSQLSaturday424

BrunoSQLSaturday424

Notas do Editor