SlideShare uma empresa Scribd logo
1 de 27
Baixar para ler offline
Big Data na Prática
como construir um Data Lake
para análise de dados
SECITEC
CAMPUS GOIÂNIA
2
Engenheiro de Dados;
Pós-graduado em Big Data e
Machine Learning, Bacharel em
Sistemas de Informação.
Palestrante em IoT e Big Data.
Cícero Moura
3
www.datatrain.com.br
Áreas de Data
Science
Agenda
Big Data e IA1 4 Projeto Prático
5 Ferramentas2
3 6Ecossistema de
Big Data Hands-on
4
Big Data e IA
5
Big Data
6https://researchleap.com/vision-a-missing-key-dimension-in-the-5v-big-data-framework/
Big Data e IA
7
Data Science
8https://www.ambientelivre.com.br/consultoria/bigdata.html
Ecossistema de Big Data
9
Algumas das principais
10
Armazenamento
e Streaming
Pipeline de Dados Visualização de
Dados
Criação de
Modelos de ML
Data Lake
11https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781787281349/5/ch05lvl1sec42/context-in-data-lake-data-acquisition
Na Prática
12
Ferramentas
13
● Apache NiFi;
● ElasticSearch;
● Kibana;
● AWS S3;
● Docker e Docker Compose.
Apache NiFi
14
● Open Source;
● Criação de pipeline de dados;
● Orquestração, monitoramento e linhagem dos dados;
● Interface Web e Drag and drop;
NiFi - Conceitos
15
● FlowFiles;
● Processor;
● Group Processors;
● Queues;
● Connections;
NiFi - Interface Web
16
ElasticSearch
17
● Open-Source.
● Ferramenta voltado para pesquisa textual;
● Escalável e Tolerante a falhas.
● Baseado em API RESTful.
● Suporta diversos formatos de arquivos.
ElasticSearch - Conceitos
18
Kibana
19
● Open-Source.
● Ferramenta para visualização de dados;
● Integração nativa com ElasticSearch;
● Dashboards e painéis em tempo real;
Kibana - Interface Web
20
Amazon S3
21
● Ferramenta Proprietária da AWS;
● Armazenamento de arquivos;
● Suporta diversos formatos;
● Ideal para datalakes;
● Possui integração com muitas ferramentas;
Amazon S3 - Conceitos
22
● Bucket;
● Folder;
● Region Server;
Docker e Docker Compose
23
● Docker:
○ Como se fossem “máquinas virtuais”;
○ Containers de aplicações.
● Docker Compose:
○ Orquestador de Containers do Docker;
○ Stack de containers do Docker.
Arquitetura do Projeto
24
API Rest
Yahoo
Finances
Hands-on
25
Link do repositório
26
https://github.com/cicerojmm/palestraBigDataNaPratica
Obrigado!
/in/cicero-moura
@cicerojmm
linktr.ee/cicerojmm

Mais conteúdo relacionado

Mais procurados

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comTDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comtdc-globalcode
 
24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigDataDiego Nogare
 
Vtex - SplunkLive! São Paulo 2015
Vtex - SplunkLive! São Paulo 2015Vtex - SplunkLive! São Paulo 2015
Vtex - SplunkLive! São Paulo 2015Splunk
 
DevCommerce Conference 2016: Big data com Elastic Search
DevCommerce Conference 2016: Big data com Elastic SearchDevCommerce Conference 2016: Big data com Elastic Search
DevCommerce Conference 2016: Big data com Elastic SearchiMasters
 
Business Intelligence: PowerBI
Business Intelligence: PowerBIBusiness Intelligence: PowerBI
Business Intelligence: PowerBIeurosigdoc acm
 
99 Taxi - SplunkLive! São Paulo 2015
99 Taxi - SplunkLive! São Paulo 201599 Taxi - SplunkLive! São Paulo 2015
99 Taxi - SplunkLive! São Paulo 2015Splunk
 
VTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloVTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloFábio Caldas
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 

Mais procurados (20)

TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comTDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
 
24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData
 
Google BigQuery
Google BigQueryGoogle BigQuery
Google BigQuery
 
Vtex - SplunkLive! São Paulo 2015
Vtex - SplunkLive! São Paulo 2015Vtex - SplunkLive! São Paulo 2015
Vtex - SplunkLive! São Paulo 2015
 
Big Data na globo.com
Big Data na globo.comBig Data na globo.com
Big Data na globo.com
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
SQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake MulticloudSQL SAT Salvador - Arquitetando Data Lake Multicloud
SQL SAT Salvador - Arquitetando Data Lake Multicloud
 
TDC - Planejando data Lake com big data clusters
TDC - Planejando data Lake com big data clustersTDC - Planejando data Lake com big data clusters
TDC - Planejando data Lake com big data clusters
 
DevCommerce Conference 2016: Big data com Elastic Search
DevCommerce Conference 2016: Big data com Elastic SearchDevCommerce Conference 2016: Big data com Elastic Search
DevCommerce Conference 2016: Big data com Elastic Search
 
Big Data
Big DataBig Data
Big Data
 
Business Intelligence: PowerBI
Business Intelligence: PowerBIBusiness Intelligence: PowerBI
Business Intelligence: PowerBI
 
Cassandra Trip Brasil
Cassandra Trip BrasilCassandra Trip Brasil
Cassandra Trip Brasil
 
99 Taxi - SplunkLive! São Paulo 2015
99 Taxi - SplunkLive! São Paulo 201599 Taxi - SplunkLive! São Paulo 2015
99 Taxi - SplunkLive! São Paulo 2015
 
VTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloVTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São Paulo
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Big data
Big dataBig data
Big data
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 

Semelhante a Big Data Lake Análise Dados

Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Denodo
 
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Cicero Joasyo Mateus de Moura
 
TDC2018SP | Trilha Arquitetura Corporativa - EA + IA: como dar maturidade às ...
TDC2018SP | Trilha Arquitetura Corporativa - EA + IA: como dar maturidade às ...TDC2018SP | Trilha Arquitetura Corporativa - EA + IA: como dar maturidade às ...
TDC2018SP | Trilha Arquitetura Corporativa - EA + IA: como dar maturidade às ...tdc-globalcode
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopIntrodução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopUniversidade de São Paulo
 
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Cicero Joasyo Mateus de Moura
 
Implementação de uma aplicação em Power Apps – Low Code
Implementação de uma aplicação em Power Apps – Low CodeImplementação de uma aplicação em Power Apps – Low Code
Implementação de uma aplicação em Power Apps – Low Codeeurosigdoc acm
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteJuly A. M. Rizzo
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingUm novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingJosé Carlos Cavalcanti
 
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 131º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13cictec
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Os Desafios e as Oportunidades para TI no Mundo Pós-Pandemia
Os Desafios e as Oportunidades para TI no Mundo Pós-PandemiaOs Desafios e as Oportunidades para TI no Mundo Pós-Pandemia
Os Desafios e as Oportunidades para TI no Mundo Pós-PandemiaEliézer Zarpelão
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 

Semelhante a Big Data Lake Análise Dados (20)

BIG DATA
BIG DATABIG DATA
BIG DATA
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
 
TDC2018SP | Trilha Arquitetura Corporativa - EA + IA: como dar maturidade às ...
TDC2018SP | Trilha Arquitetura Corporativa - EA + IA: como dar maturidade às ...TDC2018SP | Trilha Arquitetura Corporativa - EA + IA: como dar maturidade às ...
TDC2018SP | Trilha Arquitetura Corporativa - EA + IA: como dar maturidade às ...
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopIntrodução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
 
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
Big Data e Machine Learning: vida real, cases práticos e possível futuro da á...
 
Implementação de uma aplicação em Power Apps – Low Code
Implementação de uma aplicação em Power Apps – Low CodeImplementação de uma aplicação em Power Apps – Low Code
Implementação de uma aplicação em Power Apps – Low Code
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingUm novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
 
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 131º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
 
Workshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big DataWorkshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big Data
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Big data, e eu com isso?
Big data, e eu com isso?Big data, e eu com isso?
Big data, e eu com isso?
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Os Desafios e as Oportunidades para TI no Mundo Pós-Pandemia
Os Desafios e as Oportunidades para TI no Mundo Pós-PandemiaOs Desafios e as Oportunidades para TI no Mundo Pós-Pandemia
Os Desafios e as Oportunidades para TI no Mundo Pós-Pandemia
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Aula 5
Aula 5 Aula 5
Aula 5
 

Mais de Cicero Joasyo Mateus de Moura

Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Cicero Joasyo Mateus de Moura
 
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsRe:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsCicero Joasyo Mateus de Moura
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...Cicero Joasyo Mateus de Moura
 
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss... CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...Cicero Joasyo Mateus de Moura
 
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Cicero Joasyo Mateus de Moura
 
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...Cicero Joasyo Mateus de Moura
 

Mais de Cicero Joasyo Mateus de Moura (9)

Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data ...
 
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsRe:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
 
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...JoinCommunity 2022 -  Modern Data Stack - As tecnologias e práticas mais mode...
JoinCommunity 2022 - Modern Data Stack - As tecnologias e práticas mais mode...
 
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss... CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
CPGOIAS2 2022: Big Data e Machine Learning: vida real, cases práticos e poss...
 
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
Modern Data Stack - As tecnologias e práticas mais modernas atualmente em Big...
 
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...Construindo sua  Assistente Virtual  Integrada a Dispositivos IoT com Python ...
Construindo sua Assistente Virtual Integrada a Dispositivos IoT com Python ...
 
Joincommunity - Goiânia 2018
Joincommunity - Goiânia 2018Joincommunity - Goiânia 2018
Joincommunity - Goiânia 2018
 
IoT: construindo ideias com nodeMCU e MQTT
IoT: construindo ideias com nodeMCU e MQTTIoT: construindo ideias com nodeMCU e MQTT
IoT: construindo ideias com nodeMCU e MQTT
 
PHP: Como não programar em POG
PHP: Como não programar em POGPHP: Como não programar em POG
PHP: Como não programar em POG
 

Big Data Lake Análise Dados