SlideShare uma empresa Scribd logo
Hadoop!? HDInsight!? Hive??
Uma introdução ao mundo
Big Data para DBA’s
Bruno Feldman da Costa
@feldmanB | facebook.com/bfcosta
bfcosta@gmail.com
About Me!
Bruno Feldman da Costa
• Tech Leader DB/BI at White Cube
• Twitter: @feldmanB
• E-mail: bfcosta@gmail.com
• Facebook: https://facebook.com/bfcosta
• Blog: http://brunofeldman.wordpress.com
Agenda
Big Data?
Hadoop
HDInsight
MapReduce
MapReduce com HIVE e PIG
Transferindo dados com SQOOP
Workflows com OOZIE
Ferramentas: Powershell e SSIS
Big Data
“Big data are a collection of data sets so large and complex
that it becomes difficult to process using on-hand database
management tools or traditional data processing
applications.” Tom White, Hadoop Definitive Guide
“In pioneer days they used oxen for heavy pulling, and
when one ox couldn't budge a log, they didn't try to grow a
larger ox. We shouldn't be trying for bigger computers, but
for more systems of computers.” Grace Hooper
Big Data
Typified by the “3 V’s”:
• Volume – Huge amounts of data to process
• Variety – A mixture of structured and unstructured data
• Velocity – New data generated extremely frequently
Big Data
Em 1990 um HD típico armazenava 1,4GB com uma taxa de
transferência de 4,4MB/s, ou seja, podia ler todo o disco
em uns 5 minutos.
Uns 20 anos depois, os discos armazenam 1TB mas lêem a
100MB/s, fazendo a leitura de todo o disco em 2h30min.
E se dividíssemos os dados entre vários discos,
armazenando uma porção do dado em cada?
Hadoop
Plataforma que fornece:
• Um sistema de arquivos
distribuído (HDFS) que
armazena os dados entre
vários servidores.
• Um meio para
armazenar/consultar
(MapReduce/ YARN) esses
dados distribuídos.
HDFS
Name Node Data Nodes
Hadoop Cluster
Blocos de dados redundantes, distribuídos entre os nós do cluster.
Falhas nos nós são esperadas!
HDFS – Hadoop Distributed File System
8 |
Hadoop Ecosystem
Distribuições Hadoop
• Cloudera CDH
• Hortonworks Data Platform (HDP)
• MapR
Microsoft Azure HDInsight
Microsoft Azure HDInsight
Implementação do HDP no ambiente do Azure
• VM’s com Windows Server (ou Linux) com HDP
• WebHDFS (Azure Blob Storage)
• Suporte a Powershell e SSIS
• Escalabilidade
• Rápida implementação
DEMO
Criando um cluster HDInsight
MapReduce
Dado dividido entre os
data nodes
Cada nó faz o “MAP”
gerando o par “KEY/Value”
O REDUCE faz a
agregação.
MapReduce
M
A
P
REDUCE
DEMO
Executando um Job Map Reduce
HIVE
Muito legal esse Map Reduce!
Mas…
• Não sei programar em Java
• Não sei programar em Python
• Não sei programar em C#
• Não sei programar!!!!
HIVE
Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando
queries, como já faço no SQL Server.
O HIVE faz isso!!!
HIVE
Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando
queries, como já faço no SQL Server.
O HIVE faz isso!!!
A query em HiveQL é “traduzida” para um JOB MapReduce
DEMO
Usando o Hive
PIG
O PIG realiza uma série de transformações no dado através de
statements Pig Latin.
Cada comando Pig Latin vai transformando o dado até chegar no
resultado esperado.
Ao rodar os comandos DUMP ou STORE o Job MapReduce é
executado.
DEMO
Usando o PIG
SQOOP
O SQOOP (SQL-HADOOP) permite a transferência bi-direcional de
dados entre banco de dados (compatíveis com jdbc) e clusters Hadoop.
DEMO
Usando o SQOOP
OOZIE
Engine de Workflow para as ações realizadas no
cluster Haddop:
• Hive
• Pig
• Sqoop
• E outras…
DEMO
Usando o OOZIE
OOZIE / SQOOP
O OOZIE e o SQOOP até que são legais…
Mas o SSIS é MUITO
melhor!!
Quer aprender mais?
Books:
• Hadoop: The Definitive Guide - Tom White
• Microsoft Big Data Solutions - Adam Jorgensen and James Rowland-Jones
• Pro Microsoft HDInsight: Hadoop on Windows - Debarchan Sarkar
Cursos:
• EDX: DAT202.1x Processing Big Data with Hadoop in Azure HDInsight
DÚVIDAS?
OBRIGADO!

Mais conteúdo relacionado

Destaque

Freelance Musician Promoter
Freelance Musician PromoterFreelance Musician Promoter
Freelance Musician Promoter
Christopher Baker
 
Une vision plus humaniste de la SWOT
Une vision plus humaniste de la SWOTUne vision plus humaniste de la SWOT
Une vision plus humaniste de la SWOT
Social Business Models
 
Statistical software
Statistical softwareStatistical software
Statistical software
Subramani Parasuraman
 
13.tracheostomy (50) Dr Rahul Tiwari OMFS SIBAR Institute of Dental Sciences,...
13.tracheostomy (50) Dr Rahul Tiwari OMFS SIBAR Institute of Dental Sciences,...13.tracheostomy (50) Dr Rahul Tiwari OMFS SIBAR Institute of Dental Sciences,...
13.tracheostomy (50) Dr Rahul Tiwari OMFS SIBAR Institute of Dental Sciences,...
CLOVE Dental OMNI Hospitals Andhra Hospital
 
Dr. RAHUL VC TIWARI, SIBAR INSTITUTE OF DENTAL SCIENCES, GUNTUR, ANDHRA PRADE...
Dr. RAHUL VC TIWARI, SIBAR INSTITUTE OF DENTAL SCIENCES, GUNTUR, ANDHRA PRADE...Dr. RAHUL VC TIWARI, SIBAR INSTITUTE OF DENTAL SCIENCES, GUNTUR, ANDHRA PRADE...
Dr. RAHUL VC TIWARI, SIBAR INSTITUTE OF DENTAL SCIENCES, GUNTUR, ANDHRA PRADE...
CLOVE Dental OMNI Hospitals Andhra Hospital
 
Marketing mix (7p's)
Marketing mix (7p's)Marketing mix (7p's)
Marketing mix (7p's)
thiwanka96
 
Brand Management
Brand ManagementBrand Management
Brand Management
Yodhia Antariksa
 

Destaque (8)

Bernard Rose
Bernard RoseBernard Rose
Bernard Rose
 
Freelance Musician Promoter
Freelance Musician PromoterFreelance Musician Promoter
Freelance Musician Promoter
 
Une vision plus humaniste de la SWOT
Une vision plus humaniste de la SWOTUne vision plus humaniste de la SWOT
Une vision plus humaniste de la SWOT
 
Statistical software
Statistical softwareStatistical software
Statistical software
 
13.tracheostomy (50) Dr Rahul Tiwari OMFS SIBAR Institute of Dental Sciences,...
13.tracheostomy (50) Dr Rahul Tiwari OMFS SIBAR Institute of Dental Sciences,...13.tracheostomy (50) Dr Rahul Tiwari OMFS SIBAR Institute of Dental Sciences,...
13.tracheostomy (50) Dr Rahul Tiwari OMFS SIBAR Institute of Dental Sciences,...
 
Dr. RAHUL VC TIWARI, SIBAR INSTITUTE OF DENTAL SCIENCES, GUNTUR, ANDHRA PRADE...
Dr. RAHUL VC TIWARI, SIBAR INSTITUTE OF DENTAL SCIENCES, GUNTUR, ANDHRA PRADE...Dr. RAHUL VC TIWARI, SIBAR INSTITUTE OF DENTAL SCIENCES, GUNTUR, ANDHRA PRADE...
Dr. RAHUL VC TIWARI, SIBAR INSTITUTE OF DENTAL SCIENCES, GUNTUR, ANDHRA PRADE...
 
Marketing mix (7p's)
Marketing mix (7p's)Marketing mix (7p's)
Marketing mix (7p's)
 
Brand Management
Brand ManagementBrand Management
Brand Management
 

Semelhante a Virtual Chapter

iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
Valêncio Garcia
 
Hadoop
HadoopHadoop
SQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data ClustersSQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data Clusters
Luiz Henrique Garetti Rosário
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
Luiz Henrique Garetti Rosário
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
Alessandro Binhara
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Alessandro Binhara
 
Bancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft AzureBancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft Azure
Joel Rodrigues
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
tdc-globalcode
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
Leonardo Dias
 
Desenvolvendo uma aplicacao Full Javascript
Desenvolvendo uma aplicacao Full JavascriptDesenvolvendo uma aplicacao Full Javascript
Desenvolvendo uma aplicacao Full Javascript
Denis Vieira
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
Vinícius Barros
 
SQL Saturday SP - SQL Server 2019 Big Data Clusters
SQL Saturday SP - SQL Server 2019 Big Data ClustersSQL Saturday SP - SQL Server 2019 Big Data Clusters
SQL Saturday SP - SQL Server 2019 Big Data Clusters
Luiz Henrique Garetti Rosário
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
Alexandre Uehara
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
José Renato Pequeno
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Ambiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Marcio Junior Vieira
 
Big Data
Big DataBig Data
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
Thiago Santiago
 
Drupal gerenciando centenas de sites com wf tools
Drupal gerenciando centenas de sites com wf toolsDrupal gerenciando centenas de sites com wf tools
Drupal gerenciando centenas de sites com wf tools
Jean Kemparski Ribeiro
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
Ambiente Livre
 

Semelhante a Virtual Chapter (20)

iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
Hadoop
HadoopHadoop
Hadoop
 
SQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data ClustersSQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data Clusters
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
Bancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft AzureBancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft Azure
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Desenvolvendo uma aplicacao Full Javascript
Desenvolvendo uma aplicacao Full JavascriptDesenvolvendo uma aplicacao Full Javascript
Desenvolvendo uma aplicacao Full Javascript
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
SQL Saturday SP - SQL Server 2019 Big Data Clusters
SQL Saturday SP - SQL Server 2019 Big Data ClustersSQL Saturday SP - SQL Server 2019 Big Data Clusters
SQL Saturday SP - SQL Server 2019 Big Data Clusters
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Big Data
Big DataBig Data
Big Data
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Drupal gerenciando centenas de sites com wf tools
Drupal gerenciando centenas de sites com wf toolsDrupal gerenciando centenas de sites com wf tools
Drupal gerenciando centenas de sites com wf tools
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 

Virtual Chapter

  • 1. Hadoop!? HDInsight!? Hive?? Uma introdução ao mundo Big Data para DBA’s Bruno Feldman da Costa @feldmanB | facebook.com/bfcosta bfcosta@gmail.com
  • 2. About Me! Bruno Feldman da Costa • Tech Leader DB/BI at White Cube • Twitter: @feldmanB • E-mail: bfcosta@gmail.com • Facebook: https://facebook.com/bfcosta • Blog: http://brunofeldman.wordpress.com
  • 3. Agenda Big Data? Hadoop HDInsight MapReduce MapReduce com HIVE e PIG Transferindo dados com SQOOP Workflows com OOZIE Ferramentas: Powershell e SSIS
  • 4. Big Data “Big data are a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.” Tom White, Hadoop Definitive Guide “In pioneer days they used oxen for heavy pulling, and when one ox couldn't budge a log, they didn't try to grow a larger ox. We shouldn't be trying for bigger computers, but for more systems of computers.” Grace Hooper
  • 5. Big Data Typified by the “3 V’s”: • Volume – Huge amounts of data to process • Variety – A mixture of structured and unstructured data • Velocity – New data generated extremely frequently
  • 6. Big Data Em 1990 um HD típico armazenava 1,4GB com uma taxa de transferência de 4,4MB/s, ou seja, podia ler todo o disco em uns 5 minutos. Uns 20 anos depois, os discos armazenam 1TB mas lêem a 100MB/s, fazendo a leitura de todo o disco em 2h30min. E se dividíssemos os dados entre vários discos, armazenando uma porção do dado em cada?
  • 7. Hadoop Plataforma que fornece: • Um sistema de arquivos distribuído (HDFS) que armazena os dados entre vários servidores. • Um meio para armazenar/consultar (MapReduce/ YARN) esses dados distribuídos. HDFS Name Node Data Nodes Hadoop Cluster
  • 8. Blocos de dados redundantes, distribuídos entre os nós do cluster. Falhas nos nós são esperadas! HDFS – Hadoop Distributed File System 8 |
  • 9. Hadoop Ecosystem Distribuições Hadoop • Cloudera CDH • Hortonworks Data Platform (HDP) • MapR Microsoft Azure HDInsight
  • 10. Microsoft Azure HDInsight Implementação do HDP no ambiente do Azure • VM’s com Windows Server (ou Linux) com HDP • WebHDFS (Azure Blob Storage) • Suporte a Powershell e SSIS • Escalabilidade • Rápida implementação
  • 12. MapReduce Dado dividido entre os data nodes Cada nó faz o “MAP” gerando o par “KEY/Value” O REDUCE faz a agregação.
  • 15. HIVE Muito legal esse Map Reduce! Mas… • Não sei programar em Java • Não sei programar em Python • Não sei programar em C# • Não sei programar!!!!
  • 16. HIVE Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server. O HIVE faz isso!!!
  • 17. HIVE Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server. O HIVE faz isso!!! A query em HiveQL é “traduzida” para um JOB MapReduce
  • 19. PIG O PIG realiza uma série de transformações no dado através de statements Pig Latin. Cada comando Pig Latin vai transformando o dado até chegar no resultado esperado. Ao rodar os comandos DUMP ou STORE o Job MapReduce é executado.
  • 21. SQOOP O SQOOP (SQL-HADOOP) permite a transferência bi-direcional de dados entre banco de dados (compatíveis com jdbc) e clusters Hadoop.
  • 23. OOZIE Engine de Workflow para as ações realizadas no cluster Haddop: • Hive • Pig • Sqoop • E outras…
  • 25. OOZIE / SQOOP O OOZIE e o SQOOP até que são legais… Mas o SSIS é MUITO melhor!!
  • 26. Quer aprender mais? Books: • Hadoop: The Definitive Guide - Tom White • Microsoft Big Data Solutions - Adam Jorgensen and James Rowland-Jones • Pro Microsoft HDInsight: Hadoop on Windows - Debarchan Sarkar Cursos: • EDX: DAT202.1x Processing Big Data with Hadoop in Azure HDInsight