Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
BrunoSQLSaturday424
1. Hadoop!? HDInsight!? Hive??
Uma introdução ao mundo
Big Data para DBA’s
Bruno Feldman da Costa | White Cube
@feldmanB | facebook.com/bfcosta
bfcosta@gmail.com
3. Planning on attending PASS Summit 2015? Start
saving today!
• The world’s largest gathering of SQL Server & BI professionals
• Take your SQL Server skills to the next level by learning from the world’s
top SQL Server experts, in over 190 technical sessions
• Over 5000 registrations, representing 2000 companies, from 52
countries, ready to network & learn
Save $150 right now using discount code
LCCOMPRX86 or LCCOMPMD54
4. About Me!
Bruno Feldman da Costa
Tech Leader DB/BI at White Cube
Twitter: @feldmanB
E-mail: bfcosta@gmail.com
Facebook: https://facebook.com/bfcosta
Blog: http://brunofeldman.wordpress.com
5. Agenda
Big Data?
Hadoop
HDInsight
MapReduce
MapReduce com HIVE e PIG
Transferindo dados com SQOOP
Workflows com OOZIE
Ferramentas: Powershell e SSIS
6. Big Data
“Big data are a collection of data sets so large and
complex that it becomes difficult to process using on-
hand database management tools or traditional data
processing applications.” Tom White, Hadoop Definitive Guide
“In pioneer days they used oxen for heavy pulling, and
when one ox couldn't budge a log, they didn't try to grow
a larger ox. We shouldn't be trying for bigger computers,
but for more systems of computers.” Grace Hooper
7. Big Data
Typified by the “3 V’s”:
Volume – Huge amounts of data to process
Variety – A mixture of structured and unstructured
data
Velocity – New data generated extremely
frequently
8. Big Data
Em 1990 um HD típico armazenava 1,4GB com uma
taxa de transferência de 4,4MB/s, ou seja, podia ler todo
o disco em uns 5 minutos.
Uns 20 anos depois, os discos armazenam 1TB mas
lêem a 100MB/s, fazendo a leitura de todo o disco em
2h30min.
E se dividíssemos os dados entre vários discos,
armazenando uma porção do dado em cada?
9. Hadoop
Plataforma que
fornece:
Um sistema de arquivos
distribuído (HDFS) que
armazena os dados
entre vários servidores.
Um meio para
armazenar/consultar
(MapReduce/ YARN)
esses dados distribuídos.
HDFS
Name Node Data Nodes
Hadoop Cluster
11. Microsoft Azure HDInsight
Implementação do HDP no ambiente do
Azure
VM’s com Windows Server (ou Linux) com HDP
WebHDFS (Azure Blob Storage)
Suporte a Powershell e SSIS
Escalabilidade
Rápida implementação
16. HIVE
Muito legal esse Map Reduce!
Mas…
Não sei programar em Java
Não sei programar em Python
Não sei programar em C#
Não sei programar!!!!
17. HIVE
Sou DBA, só entendo de TSQL, quero criar
meus jobs apenas utilizando queries, como já
faço no SQL Server.
O HIVE faz isso!!!
18. HIVE
Sou DBA, só entendo de TSQL, quero criar
meus jobs apenas utilizando queries, como já
faço no SQL Server.
O HIVE faz isso!!!
A query em HiveQL é “traduzida” para um
JOB MapReduce
20. PIG
O PIG realiza uma série de transformações
no dado através de statements Pig Latin.
Cada comando Pig Latin vai transformando o
dado até chegar no resultado esperado.
Ao rodar os comandos DUMP ou STORE o
Job MapReduce é executado.
26. OOZIE / SQOOP
O OOZIE e o SQOOP até que são legais…
Mas o SSIS é
MUITO melhor!!
27. Quer aprender mais?
Books:
Hadoop: The Definitive Guide - Tom White
Microsoft Big Data Solutions - Adam Jorgensen
and James Rowland-Jones
Pro Microsoft HDInsight: Hadoop on Windows -
Debarchan Sarkar
Cursos:
EDX: DAT202.1x Processing Big Data with
Hadoop in Azure HDInsight
Falem que o evento é gratuito pra todos, e que os patrocinadores são os responsáveis por garantir o coffee e a infra-estrutura basica pro evento acontecer. Em contra partida, eles querem mostrar seus produtos e serviços, é legal aos participantes conhecerem o que eles tem a oferecer e aceitar receber contatos deles via email.
Neste slide é pra convidar os participantes pro PASS Summit, em Seattle no próximo mês. Os códigos de promoção que dão 150USD de desconto é do SQLManiacs (Código da esquerda) e SQLServerDF (Código da direita). Ambos dão o mesmo desconto, o cara fica a vontade pra usar qualquer um.