Hadoop!? HDInsight!? Hive??
Uma introdução ao mundo
Big Data para DBA’s
Bruno Feldman da Costa | White Cube
@feldmanB | facebook.com/bfcosta
bfcosta@gmail.com
PATROCINADORES
Planning on attending PASS Summit 2015? Start
saving today!
• The world’s largest gathering of SQL Server & BI professionals
• Take your SQL Server skills to the next level by learning from the world’s
top SQL Server experts, in over 190 technical sessions
• Over 5000 registrations, representing 2000 companies, from 52
countries, ready to network & learn
Save $150 right now using discount code
LCCOMPRX86 or LCCOMPMD54
About Me!
 Bruno Feldman da Costa
 Tech Leader DB/BI at White Cube
 Twitter: @feldmanB
 E-mail: bfcosta@gmail.com
 Facebook: https://facebook.com/bfcosta
 Blog: http://brunofeldman.wordpress.com
Agenda
 Big Data?
 Hadoop
 HDInsight
 MapReduce
 MapReduce com HIVE e PIG
 Transferindo dados com SQOOP
 Workflows com OOZIE
 Ferramentas: Powershell e SSIS
Big Data
 “Big data are a collection of data sets so large and
complex that it becomes difficult to process using on-
hand database management tools or traditional data
processing applications.” Tom White, Hadoop Definitive Guide
 “In pioneer days they used oxen for heavy pulling, and
when one ox couldn't budge a log, they didn't try to grow
a larger ox. We shouldn't be trying for bigger computers,
but for more systems of computers.” Grace Hooper
Big Data
 Typified by the “3 V’s”:
 Volume – Huge amounts of data to process
 Variety – A mixture of structured and unstructured
data
 Velocity – New data generated extremely
frequently
Big Data
 Em 1990 um HD típico armazenava 1,4GB com uma
taxa de transferência de 4,4MB/s, ou seja, podia ler todo
o disco em uns 5 minutos.
 Uns 20 anos depois, os discos armazenam 1TB mas
lêem a 100MB/s, fazendo a leitura de todo o disco em
2h30min.
 E se dividíssemos os dados entre vários discos,
armazenando uma porção do dado em cada?
Hadoop
 Plataforma que
fornece:
 Um sistema de arquivos
distribuído (HDFS) que
armazena os dados
entre vários servidores.
 Um meio para
armazenar/consultar
(MapReduce/ YARN)
esses dados distribuídos.
HDFS
Name Node Data Nodes
Hadoop Cluster
Hadoop Ecosystem
 Distribuições Hadoop
 Cloudera CDH
 Hortonworks Data Platform (HDP)
 MapR
 Microsoft Azure HDInsight
Microsoft Azure HDInsight
 Implementação do HDP no ambiente do
Azure
 VM’s com Windows Server (ou Linux) com HDP
 WebHDFS (Azure Blob Storage)
 Suporte a Powershell e SSIS
 Escalabilidade
 Rápida implementação
DEMO
 Criando um cluster HDInsight
MapReduce
 Dado dividido entre os
data nodes
 Cada nó faz o “MAP”
gerando o par
“KEY/Value”
 O REDUCE faz a
agregação.
MapReduce
M
A
P
REDUCE
DEMO
 Executando um Job Map Reduce
HIVE
 Muito legal esse Map Reduce!
 Mas…
 Não sei programar em Java
 Não sei programar em Python
 Não sei programar em C#
 Não sei programar!!!!
HIVE
 Sou DBA, só entendo de TSQL, quero criar
meus jobs apenas utilizando queries, como já
faço no SQL Server.
 O HIVE faz isso!!!
HIVE
 Sou DBA, só entendo de TSQL, quero criar
meus jobs apenas utilizando queries, como já
faço no SQL Server.
 O HIVE faz isso!!!
 A query em HiveQL é “traduzida” para um
JOB MapReduce
DEMO
 Usando o Hive
PIG
 O PIG realiza uma série de transformações
no dado através de statements Pig Latin.
 Cada comando Pig Latin vai transformando o
dado até chegar no resultado esperado.
 Ao rodar os comandos DUMP ou STORE o
Job MapReduce é executado.
DEMO
 Usando o PIG
SQOOP
 O SQOOP (SQL-HADOOP) permite a
transferência bi-direcional de dados entre
banco de dados (compatíveis com jdbc) e
clusters Hadoop.
DEMO
 Usando o SQOOP
OOZIE
 Engine de Workflow para as
ações realizadas no cluster
Haddop:
 Hive
 Pig
 Sqoop
 E outras…
DEMO
 Usando o OOZIE
OOZIE / SQOOP
 O OOZIE e o SQOOP até que são legais…
Mas o SSIS é
MUITO melhor!!
Quer aprender mais?
 Books:
 Hadoop: The Definitive Guide - Tom White
 Microsoft Big Data Solutions - Adam Jorgensen
and James Rowland-Jones
 Pro Microsoft HDInsight: Hadoop on Windows -
Debarchan Sarkar
 Cursos:
 EDX: DAT202.1x Processing Big Data with
Hadoop in Azure HDInsight
Dúvidas?
Twitter: @feldmanB
E-mail: bfcosta@gmail.com
Facebook: https://facebook.com/bfcosta
Blog: http://brunofeldman.wordpress.com
OBRIGADO!

BrunoSQLSaturday424

  • 1.
    Hadoop!? HDInsight!? Hive?? Umaintrodução ao mundo Big Data para DBA’s Bruno Feldman da Costa | White Cube @feldmanB | facebook.com/bfcosta bfcosta@gmail.com
  • 2.
  • 3.
    Planning on attendingPASS Summit 2015? Start saving today! • The world’s largest gathering of SQL Server & BI professionals • Take your SQL Server skills to the next level by learning from the world’s top SQL Server experts, in over 190 technical sessions • Over 5000 registrations, representing 2000 companies, from 52 countries, ready to network & learn Save $150 right now using discount code LCCOMPRX86 or LCCOMPMD54
  • 4.
    About Me!  BrunoFeldman da Costa  Tech Leader DB/BI at White Cube  Twitter: @feldmanB  E-mail: bfcosta@gmail.com  Facebook: https://facebook.com/bfcosta  Blog: http://brunofeldman.wordpress.com
  • 5.
    Agenda  Big Data? Hadoop  HDInsight  MapReduce  MapReduce com HIVE e PIG  Transferindo dados com SQOOP  Workflows com OOZIE  Ferramentas: Powershell e SSIS
  • 6.
    Big Data  “Bigdata are a collection of data sets so large and complex that it becomes difficult to process using on- hand database management tools or traditional data processing applications.” Tom White, Hadoop Definitive Guide  “In pioneer days they used oxen for heavy pulling, and when one ox couldn't budge a log, they didn't try to grow a larger ox. We shouldn't be trying for bigger computers, but for more systems of computers.” Grace Hooper
  • 7.
    Big Data  Typifiedby the “3 V’s”:  Volume – Huge amounts of data to process  Variety – A mixture of structured and unstructured data  Velocity – New data generated extremely frequently
  • 8.
    Big Data  Em1990 um HD típico armazenava 1,4GB com uma taxa de transferência de 4,4MB/s, ou seja, podia ler todo o disco em uns 5 minutos.  Uns 20 anos depois, os discos armazenam 1TB mas lêem a 100MB/s, fazendo a leitura de todo o disco em 2h30min.  E se dividíssemos os dados entre vários discos, armazenando uma porção do dado em cada?
  • 9.
    Hadoop  Plataforma que fornece: Um sistema de arquivos distribuído (HDFS) que armazena os dados entre vários servidores.  Um meio para armazenar/consultar (MapReduce/ YARN) esses dados distribuídos. HDFS Name Node Data Nodes Hadoop Cluster
  • 10.
    Hadoop Ecosystem  DistribuiçõesHadoop  Cloudera CDH  Hortonworks Data Platform (HDP)  MapR  Microsoft Azure HDInsight
  • 11.
    Microsoft Azure HDInsight Implementação do HDP no ambiente do Azure  VM’s com Windows Server (ou Linux) com HDP  WebHDFS (Azure Blob Storage)  Suporte a Powershell e SSIS  Escalabilidade  Rápida implementação
  • 12.
    DEMO  Criando umcluster HDInsight
  • 13.
    MapReduce  Dado divididoentre os data nodes  Cada nó faz o “MAP” gerando o par “KEY/Value”  O REDUCE faz a agregação.
  • 14.
  • 15.
    DEMO  Executando umJob Map Reduce
  • 16.
    HIVE  Muito legalesse Map Reduce!  Mas…  Não sei programar em Java  Não sei programar em Python  Não sei programar em C#  Não sei programar!!!!
  • 17.
    HIVE  Sou DBA,só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server.  O HIVE faz isso!!!
  • 18.
    HIVE  Sou DBA,só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server.  O HIVE faz isso!!!  A query em HiveQL é “traduzida” para um JOB MapReduce
  • 19.
  • 20.
    PIG  O PIGrealiza uma série de transformações no dado através de statements Pig Latin.  Cada comando Pig Latin vai transformando o dado até chegar no resultado esperado.  Ao rodar os comandos DUMP ou STORE o Job MapReduce é executado.
  • 21.
  • 22.
    SQOOP  O SQOOP(SQL-HADOOP) permite a transferência bi-direcional de dados entre banco de dados (compatíveis com jdbc) e clusters Hadoop.
  • 23.
  • 24.
    OOZIE  Engine deWorkflow para as ações realizadas no cluster Haddop:  Hive  Pig  Sqoop  E outras…
  • 25.
  • 26.
    OOZIE / SQOOP O OOZIE e o SQOOP até que são legais… Mas o SSIS é MUITO melhor!!
  • 27.
    Quer aprender mais? Books:  Hadoop: The Definitive Guide - Tom White  Microsoft Big Data Solutions - Adam Jorgensen and James Rowland-Jones  Pro Microsoft HDInsight: Hadoop on Windows - Debarchan Sarkar  Cursos:  EDX: DAT202.1x Processing Big Data with Hadoop in Azure HDInsight
  • 28.
    Dúvidas? Twitter: @feldmanB E-mail: bfcosta@gmail.com Facebook:https://facebook.com/bfcosta Blog: http://brunofeldman.wordpress.com OBRIGADO!

Notas do Editor

  • #3 Falem que o evento é gratuito pra todos, e que os patrocinadores são os responsáveis por garantir o coffee e a infra-estrutura basica pro evento acontecer. Em contra partida, eles querem mostrar seus produtos e serviços, é legal aos participantes conhecerem o que eles tem a oferecer e aceitar receber contatos deles via email.
  • #4 Neste slide é pra convidar os participantes pro PASS Summit, em Seattle no próximo mês. Os códigos de promoção que dão 150USD de desconto é do SQLManiacs (Código da esquerda) e SQLServerDF (Código da direita). Ambos dão o mesmo desconto, o cara fica a vontade pra usar qualquer um.