Este documento apresenta uma introdução aos conceitos e ferramentas de Big Data para DBAs, incluindo Hadoop, HDInsight, MapReduce, Hive, Pig, Sqoop e Oozie. O autor discute como esses frameworks podem armazenar e processar grandes volumes de dados de forma distribuída através de clusters de computação. Exemplos práticos demonstram como executar jobs MapReduce, consultas Hive e Pig, e transferir dados entre bancos de dados e o Hadoop usando Sqoop.
La V-SWOT est une intégration des valeurs organisationnelles au cœur de la SWOT traditionnelle, lui permettant de devenir l'instrument idéal pour une stratégie plus cohérente avec la culture de l'entreprise.
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
O que é BigData e BI ?
O que é um Cientista de Dados ?
O que é Hadoop ?
O que é a HortonWoks Haddoop ?
Criando um Cluster Hadoop no Windows Azure?
Integrando com Power BI
Apresentação de Case de uso.
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
Nem sempre é de interesse das empresas prender suas soluções de bigdata em serviços de cloud. Algumas empresa preferem ter autonomia tecnológica e construir sua solução própria solução de data Lake de forma agnóstica as clouds que utilizam. O objetivo dessa palestra é presentar por que algumas empresas fazem isso, quais os benefícios e desafios a serem enfrentados quando optamos por construir nosso data Lake usando Apache Hadoop. E nada mais interessante do que ter todas essas informações com base em um case real.
Material da palestra realizada em parceria com o Renato Groffe no MS Weekend 3.0, na qual falamos sobre soluções de bancos de dados NoSQL no Microsoft Azure.
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
O Apache Hadoop tem se tornado o framework padrão para processamento de Big Data. Com ele, podemos processar grandes volumes de dados utilizando hardware de baixo custo de forma paralela e distribuída. Essas características podem ser úteis no cotidiano do desenvolvedor, otimizando a execução de rotinas batch e geração de relatórios, por exemplo. Nesta palestra serão mostrados os passos para desenvolver uma solução utilizando algumas ferramentas que fazem parte do ecossistema do Hadoop: MapReduce, HDFS e HBase.
Desenvolvendo uma aplicacao Full JavascriptDenis Vieira
Palestra ministrada na Semana de Formação Geral em Informática do curso de Sistemas de Informação do IFAL (Instituto Federal de Alagoas) abordando o famoso MEAN - MongoDB, Express, AngularJs, Node.js e outras tecnologias úteis que estão nos proporcionando desenvolver sistemas inteiros usando apenas JavaScript. Aprenda o que cada tecnologia faz e como integrá-las a um ambiente automatizado de desenvolvimento .
Palestra feita por mim (Denis Vieira) , Djanilson Alves e João Victor Berta, relatando uma experiência de desenvolvimento que tivemos e passando um pouco do conhecimento de algumas tecnologias que utilizamos .
La V-SWOT est une intégration des valeurs organisationnelles au cœur de la SWOT traditionnelle, lui permettant de devenir l'instrument idéal pour une stratégie plus cohérente avec la culture de l'entreprise.
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
O que é BigData e BI ?
O que é um Cientista de Dados ?
O que é Hadoop ?
O que é a HortonWoks Haddoop ?
Criando um Cluster Hadoop no Windows Azure?
Integrando com Power BI
Apresentação de Case de uso.
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
Nem sempre é de interesse das empresas prender suas soluções de bigdata em serviços de cloud. Algumas empresa preferem ter autonomia tecnológica e construir sua solução própria solução de data Lake de forma agnóstica as clouds que utilizam. O objetivo dessa palestra é presentar por que algumas empresas fazem isso, quais os benefícios e desafios a serem enfrentados quando optamos por construir nosso data Lake usando Apache Hadoop. E nada mais interessante do que ter todas essas informações com base em um case real.
Material da palestra realizada em parceria com o Renato Groffe no MS Weekend 3.0, na qual falamos sobre soluções de bancos de dados NoSQL no Microsoft Azure.
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
O Apache Hadoop tem se tornado o framework padrão para processamento de Big Data. Com ele, podemos processar grandes volumes de dados utilizando hardware de baixo custo de forma paralela e distribuída. Essas características podem ser úteis no cotidiano do desenvolvedor, otimizando a execução de rotinas batch e geração de relatórios, por exemplo. Nesta palestra serão mostrados os passos para desenvolver uma solução utilizando algumas ferramentas que fazem parte do ecossistema do Hadoop: MapReduce, HDFS e HBase.
Desenvolvendo uma aplicacao Full JavascriptDenis Vieira
Palestra ministrada na Semana de Formação Geral em Informática do curso de Sistemas de Informação do IFAL (Instituto Federal de Alagoas) abordando o famoso MEAN - MongoDB, Express, AngularJs, Node.js e outras tecnologias úteis que estão nos proporcionando desenvolver sistemas inteiros usando apenas JavaScript. Aprenda o que cada tecnologia faz e como integrá-las a um ambiente automatizado de desenvolvimento .
Palestra feita por mim (Denis Vieira) , Djanilson Alves e João Victor Berta, relatando uma experiência de desenvolvimento que tivemos e passando um pouco do conhecimento de algumas tecnologias que utilizamos .
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
1. Hadoop!? HDInsight!? Hive??
Uma introdução ao mundo
Big Data para DBA’s
Bruno Feldman da Costa
@feldmanB | facebook.com/bfcosta
bfcosta@gmail.com
2. About Me!
Bruno Feldman da Costa
• Tech Leader DB/BI at White Cube
• Twitter: @feldmanB
• E-mail: bfcosta@gmail.com
• Facebook: https://facebook.com/bfcosta
• Blog: http://brunofeldman.wordpress.com
4. Big Data
“Big data are a collection of data sets so large and complex
that it becomes difficult to process using on-hand database
management tools or traditional data processing
applications.” Tom White, Hadoop Definitive Guide
“In pioneer days they used oxen for heavy pulling, and
when one ox couldn't budge a log, they didn't try to grow a
larger ox. We shouldn't be trying for bigger computers, but
for more systems of computers.” Grace Hooper
5. Big Data
Typified by the “3 V’s”:
• Volume – Huge amounts of data to process
• Variety – A mixture of structured and unstructured data
• Velocity – New data generated extremely frequently
6. Big Data
Em 1990 um HD típico armazenava 1,4GB com uma taxa de
transferência de 4,4MB/s, ou seja, podia ler todo o disco
em uns 5 minutos.
Uns 20 anos depois, os discos armazenam 1TB mas lêem a
100MB/s, fazendo a leitura de todo o disco em 2h30min.
E se dividíssemos os dados entre vários discos,
armazenando uma porção do dado em cada?
7. Hadoop
Plataforma que fornece:
• Um sistema de arquivos
distribuído (HDFS) que
armazena os dados entre
vários servidores.
• Um meio para
armazenar/consultar
(MapReduce/ YARN) esses
dados distribuídos.
HDFS
Name Node Data Nodes
Hadoop Cluster
8. Blocos de dados redundantes, distribuídos entre os nós do cluster.
Falhas nos nós são esperadas!
HDFS – Hadoop Distributed File System
8 |
10. Microsoft Azure HDInsight
Implementação do HDP no ambiente do Azure
• VM’s com Windows Server (ou Linux) com HDP
• WebHDFS (Azure Blob Storage)
• Suporte a Powershell e SSIS
• Escalabilidade
• Rápida implementação
15. HIVE
Muito legal esse Map Reduce!
Mas…
• Não sei programar em Java
• Não sei programar em Python
• Não sei programar em C#
• Não sei programar!!!!
16. HIVE
Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando
queries, como já faço no SQL Server.
O HIVE faz isso!!!
17. HIVE
Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando
queries, como já faço no SQL Server.
O HIVE faz isso!!!
A query em HiveQL é “traduzida” para um JOB MapReduce
19. PIG
O PIG realiza uma série de transformações no dado através de
statements Pig Latin.
Cada comando Pig Latin vai transformando o dado até chegar no
resultado esperado.
Ao rodar os comandos DUMP ou STORE o Job MapReduce é
executado.
25. OOZIE / SQOOP
O OOZIE e o SQOOP até que são legais…
Mas o SSIS é MUITO
melhor!!
26. Quer aprender mais?
Books:
• Hadoop: The Definitive Guide - Tom White
• Microsoft Big Data Solutions - Adam Jorgensen and James Rowland-Jones
• Pro Microsoft HDInsight: Hadoop on Windows - Debarchan Sarkar
Cursos:
• EDX: DAT202.1x Processing Big Data with Hadoop in Azure HDInsight