SlideShare uma empresa Scribd logo
1 de 28
Hadoop!? HDInsight!? Hive??
Uma introdução ao mundo
Big Data para DBA’s
Bruno Feldman da Costa | White Cube
@feldmanB | facebook.com/bfcosta
bfcosta@gmail.com
PATROCINADORES
Planning on attending PASS Summit 2015? Start
saving today!
• The world’s largest gathering of SQL Server & BI professionals
• Take your SQL Server skills to the next level by learning from the world’s
top SQL Server experts, in over 190 technical sessions
• Over 5000 registrations, representing 2000 companies, from 52
countries, ready to network & learn
Save $150 right now using discount code
LCCOMPRX86 or LCCOMPMD54
About Me!
 Bruno Feldman da Costa
 Tech Leader DB/BI at White Cube
 Twitter: @feldmanB
 E-mail: bfcosta@gmail.com
 Facebook: https://facebook.com/bfcosta
 Blog: http://brunofeldman.wordpress.com
Agenda
 Big Data?
 Hadoop
 HDInsight
 MapReduce
 MapReduce com HIVE e PIG
 Transferindo dados com SQOOP
 Workflows com OOZIE
 Ferramentas: Powershell e SSIS
Big Data
 “Big data are a collection of data sets so large and
complex that it becomes difficult to process using on-
hand database management tools or traditional data
processing applications.” Tom White, Hadoop Definitive Guide
 “In pioneer days they used oxen for heavy pulling, and
when one ox couldn't budge a log, they didn't try to grow
a larger ox. We shouldn't be trying for bigger computers,
but for more systems of computers.” Grace Hooper
Big Data
 Typified by the “3 V’s”:
 Volume – Huge amounts of data to process
 Variety – A mixture of structured and unstructured
data
 Velocity – New data generated extremely
frequently
Big Data
 Em 1990 um HD típico armazenava 1,4GB com uma
taxa de transferência de 4,4MB/s, ou seja, podia ler todo
o disco em uns 5 minutos.
 Uns 20 anos depois, os discos armazenam 1TB mas
lêem a 100MB/s, fazendo a leitura de todo o disco em
2h30min.
 E se dividíssemos os dados entre vários discos,
armazenando uma porção do dado em cada?
Hadoop
 Plataforma que
fornece:
 Um sistema de arquivos
distribuído (HDFS) que
armazena os dados
entre vários servidores.
 Um meio para
armazenar/consultar
(MapReduce/ YARN)
esses dados distribuídos.
HDFS
Name Node Data Nodes
Hadoop Cluster
Hadoop Ecosystem
 Distribuições Hadoop
 Cloudera CDH
 Hortonworks Data Platform (HDP)
 MapR
 Microsoft Azure HDInsight
Microsoft Azure HDInsight
 Implementação do HDP no ambiente do
Azure
 VM’s com Windows Server (ou Linux) com HDP
 WebHDFS (Azure Blob Storage)
 Suporte a Powershell e SSIS
 Escalabilidade
 Rápida implementação
DEMO
 Criando um cluster HDInsight
MapReduce
 Dado dividido entre os
data nodes
 Cada nó faz o “MAP”
gerando o par
“KEY/Value”
 O REDUCE faz a
agregação.
MapReduce
M
A
P
REDUCE
DEMO
 Executando um Job Map Reduce
HIVE
 Muito legal esse Map Reduce!
 Mas…
 Não sei programar em Java
 Não sei programar em Python
 Não sei programar em C#
 Não sei programar!!!!
HIVE
 Sou DBA, só entendo de TSQL, quero criar
meus jobs apenas utilizando queries, como já
faço no SQL Server.
 O HIVE faz isso!!!
HIVE
 Sou DBA, só entendo de TSQL, quero criar
meus jobs apenas utilizando queries, como já
faço no SQL Server.
 O HIVE faz isso!!!
 A query em HiveQL é “traduzida” para um
JOB MapReduce
DEMO
 Usando o Hive
PIG
 O PIG realiza uma série de transformações
no dado através de statements Pig Latin.
 Cada comando Pig Latin vai transformando o
dado até chegar no resultado esperado.
 Ao rodar os comandos DUMP ou STORE o
Job MapReduce é executado.
DEMO
 Usando o PIG
SQOOP
 O SQOOP (SQL-HADOOP) permite a
transferência bi-direcional de dados entre
banco de dados (compatíveis com jdbc) e
clusters Hadoop.
DEMO
 Usando o SQOOP
OOZIE
 Engine de Workflow para as
ações realizadas no cluster
Haddop:
 Hive
 Pig
 Sqoop
 E outras…
DEMO
 Usando o OOZIE
OOZIE / SQOOP
 O OOZIE e o SQOOP até que são legais…
Mas o SSIS é
MUITO melhor!!
Quer aprender mais?
 Books:
 Hadoop: The Definitive Guide - Tom White
 Microsoft Big Data Solutions - Adam Jorgensen
and James Rowland-Jones
 Pro Microsoft HDInsight: Hadoop on Windows -
Debarchan Sarkar
 Cursos:
 EDX: DAT202.1x Processing Big Data with
Hadoop in Azure HDInsight
Dúvidas?
Twitter: @feldmanB
E-mail: bfcosta@gmail.com
Facebook: https://facebook.com/bfcosta
Blog: http://brunofeldman.wordpress.com
OBRIGADO!

Mais conteúdo relacionado

Destaque

Digital Game-Based Learning in Businesses: 8 (+2) Case Studies
Digital Game-Based Learning in Businesses: 8 (+2) Case StudiesDigital Game-Based Learning in Businesses: 8 (+2) Case Studies
Digital Game-Based Learning in Businesses: 8 (+2) Case StudiesLisa Eldred
 
Resume - Utkarsh Kumar Saxena
Resume - Utkarsh Kumar SaxenaResume - Utkarsh Kumar Saxena
Resume - Utkarsh Kumar SaxenaUtkarsh Saxena
 
Ishan Chopra Resume
Ishan Chopra ResumeIshan Chopra Resume
Ishan Chopra ResumeIshan Chopra
 
jurisdiccion contencioso administrativo
jurisdiccion contencioso administrativojurisdiccion contencioso administrativo
jurisdiccion contencioso administrativomariabalbas94
 
Case Study: Larsen & Toubro
Case Study: Larsen & ToubroCase Study: Larsen & Toubro
Case Study: Larsen & ToubroMatrix COSEC
 
Hindustan construction company
Hindustan construction companyHindustan construction company
Hindustan construction companyRaushan Pandey
 
oda-x6-2sm-DATA SHEET
oda-x6-2sm-DATA SHEEToda-x6-2sm-DATA SHEET
oda-x6-2sm-DATA SHEETDaryll Whyte
 
Fachexkursion Marokko_Nawal
Fachexkursion Marokko_NawalFachexkursion Marokko_Nawal
Fachexkursion Marokko_NawalNawal Echouhani
 

Destaque (9)

Digital Game-Based Learning in Businesses: 8 (+2) Case Studies
Digital Game-Based Learning in Businesses: 8 (+2) Case StudiesDigital Game-Based Learning in Businesses: 8 (+2) Case Studies
Digital Game-Based Learning in Businesses: 8 (+2) Case Studies
 
Resume - Utkarsh Kumar Saxena
Resume - Utkarsh Kumar SaxenaResume - Utkarsh Kumar Saxena
Resume - Utkarsh Kumar Saxena
 
Yunis01
Yunis01Yunis01
Yunis01
 
Ishan Chopra Resume
Ishan Chopra ResumeIshan Chopra Resume
Ishan Chopra Resume
 
jurisdiccion contencioso administrativo
jurisdiccion contencioso administrativojurisdiccion contencioso administrativo
jurisdiccion contencioso administrativo
 
Case Study: Larsen & Toubro
Case Study: Larsen & ToubroCase Study: Larsen & Toubro
Case Study: Larsen & Toubro
 
Hindustan construction company
Hindustan construction companyHindustan construction company
Hindustan construction company
 
oda-x6-2sm-DATA SHEET
oda-x6-2sm-DATA SHEEToda-x6-2sm-DATA SHEET
oda-x6-2sm-DATA SHEET
 
Fachexkursion Marokko_Nawal
Fachexkursion Marokko_NawalFachexkursion Marokko_Nawal
Fachexkursion Marokko_Nawal
 

Semelhante a BrunoSQLSaturday424

Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveFlavio Fonte, PMP, ITIL
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataValêncio Garcia
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
Mongo Db - PHP Day Workshop
Mongo Db - PHP Day WorkshopMongo Db - PHP Day Workshop
Mongo Db - PHP Day WorkshopDiego Sana
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...Flavio Fonte, PMP, ITIL
 

Semelhante a BrunoSQLSaturday424 (20)

Virtual Chapter
Virtual ChapterVirtual Chapter
Virtual Chapter
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
SQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data ClustersSQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data Clusters
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Hadoop
HadoopHadoop
Hadoop
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
Meetup Tivir - Big Data Clusters
Meetup Tivir - Big Data ClustersMeetup Tivir - Big Data Clusters
Meetup Tivir - Big Data Clusters
 
Qcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes WorkshopQcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes Workshop
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Mongo Db - PHP Day Workshop
Mongo Db - PHP Day WorkshopMongo Db - PHP Day Workshop
Mongo Db - PHP Day Workshop
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
 

BrunoSQLSaturday424

  • 1. Hadoop!? HDInsight!? Hive?? Uma introdução ao mundo Big Data para DBA’s Bruno Feldman da Costa | White Cube @feldmanB | facebook.com/bfcosta bfcosta@gmail.com
  • 3. Planning on attending PASS Summit 2015? Start saving today! • The world’s largest gathering of SQL Server & BI professionals • Take your SQL Server skills to the next level by learning from the world’s top SQL Server experts, in over 190 technical sessions • Over 5000 registrations, representing 2000 companies, from 52 countries, ready to network & learn Save $150 right now using discount code LCCOMPRX86 or LCCOMPMD54
  • 4. About Me!  Bruno Feldman da Costa  Tech Leader DB/BI at White Cube  Twitter: @feldmanB  E-mail: bfcosta@gmail.com  Facebook: https://facebook.com/bfcosta  Blog: http://brunofeldman.wordpress.com
  • 5. Agenda  Big Data?  Hadoop  HDInsight  MapReduce  MapReduce com HIVE e PIG  Transferindo dados com SQOOP  Workflows com OOZIE  Ferramentas: Powershell e SSIS
  • 6. Big Data  “Big data are a collection of data sets so large and complex that it becomes difficult to process using on- hand database management tools or traditional data processing applications.” Tom White, Hadoop Definitive Guide  “In pioneer days they used oxen for heavy pulling, and when one ox couldn't budge a log, they didn't try to grow a larger ox. We shouldn't be trying for bigger computers, but for more systems of computers.” Grace Hooper
  • 7. Big Data  Typified by the “3 V’s”:  Volume – Huge amounts of data to process  Variety – A mixture of structured and unstructured data  Velocity – New data generated extremely frequently
  • 8. Big Data  Em 1990 um HD típico armazenava 1,4GB com uma taxa de transferência de 4,4MB/s, ou seja, podia ler todo o disco em uns 5 minutos.  Uns 20 anos depois, os discos armazenam 1TB mas lêem a 100MB/s, fazendo a leitura de todo o disco em 2h30min.  E se dividíssemos os dados entre vários discos, armazenando uma porção do dado em cada?
  • 9. Hadoop  Plataforma que fornece:  Um sistema de arquivos distribuído (HDFS) que armazena os dados entre vários servidores.  Um meio para armazenar/consultar (MapReduce/ YARN) esses dados distribuídos. HDFS Name Node Data Nodes Hadoop Cluster
  • 10. Hadoop Ecosystem  Distribuições Hadoop  Cloudera CDH  Hortonworks Data Platform (HDP)  MapR  Microsoft Azure HDInsight
  • 11. Microsoft Azure HDInsight  Implementação do HDP no ambiente do Azure  VM’s com Windows Server (ou Linux) com HDP  WebHDFS (Azure Blob Storage)  Suporte a Powershell e SSIS  Escalabilidade  Rápida implementação
  • 12. DEMO  Criando um cluster HDInsight
  • 13. MapReduce  Dado dividido entre os data nodes  Cada nó faz o “MAP” gerando o par “KEY/Value”  O REDUCE faz a agregação.
  • 15. DEMO  Executando um Job Map Reduce
  • 16. HIVE  Muito legal esse Map Reduce!  Mas…  Não sei programar em Java  Não sei programar em Python  Não sei programar em C#  Não sei programar!!!!
  • 17. HIVE  Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server.  O HIVE faz isso!!!
  • 18. HIVE  Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server.  O HIVE faz isso!!!  A query em HiveQL é “traduzida” para um JOB MapReduce
  • 20. PIG  O PIG realiza uma série de transformações no dado através de statements Pig Latin.  Cada comando Pig Latin vai transformando o dado até chegar no resultado esperado.  Ao rodar os comandos DUMP ou STORE o Job MapReduce é executado.
  • 22. SQOOP  O SQOOP (SQL-HADOOP) permite a transferência bi-direcional de dados entre banco de dados (compatíveis com jdbc) e clusters Hadoop.
  • 24. OOZIE  Engine de Workflow para as ações realizadas no cluster Haddop:  Hive  Pig  Sqoop  E outras…
  • 26. OOZIE / SQOOP  O OOZIE e o SQOOP até que são legais… Mas o SSIS é MUITO melhor!!
  • 27. Quer aprender mais?  Books:  Hadoop: The Definitive Guide - Tom White  Microsoft Big Data Solutions - Adam Jorgensen and James Rowland-Jones  Pro Microsoft HDInsight: Hadoop on Windows - Debarchan Sarkar  Cursos:  EDX: DAT202.1x Processing Big Data with Hadoop in Azure HDInsight
  • 28. Dúvidas? Twitter: @feldmanB E-mail: bfcosta@gmail.com Facebook: https://facebook.com/bfcosta Blog: http://brunofeldman.wordpress.com OBRIGADO!

Notas do Editor

  1. Falem que o evento é gratuito pra todos, e que os patrocinadores são os responsáveis por garantir o coffee e a infra-estrutura basica pro evento acontecer. Em contra partida, eles querem mostrar seus produtos e serviços, é legal aos participantes conhecerem o que eles tem a oferecer e aceitar receber contatos deles via email.
  2. Neste slide é pra convidar os participantes pro PASS Summit, em Seattle no próximo mês. Os códigos de promoção que dão 150USD de desconto é do SQLManiacs (Código da esquerda) e SQLServerDF (Código da direita). Ambos dão o mesmo desconto, o cara fica a vontade pra usar qualquer um.