SlideShare uma empresa Scribd logo
1 de 34
Baixar para ler offline
A importância do
ecossistema Java em
aplicações baseadas
em Big Data
2
Quem sou eu?
Vinícius Aires Barros
Ciência da Computação 2016 - UFT
Mestrando em Ciência da Computação - ICMC USP
Laboratório de Sistemas Distribuídos e Programação
Concorrente - LaSDPC
Áreas de Interesse: IoT, Distributed Systems, Big Data (...)
Github: @v4ires
Website: http://viniciusaires.me
1. O que é Big Data?
2. Importância do Java
3. Ferramentas
a. Apache Hadoop
b. Apache Spark
3
Agenda
Big Data
4
“
5
Big Data é definido como um
conjunto de dados estruturados ou
não estruturados que não puderam
ser percebidos, adquiridos,
gerenciados e processados pelos
modelos tradicionais de hardware e
software.
6
Contexto
● Big Data (5V’s)
○ Volume
○ Variedade
○ Velocidade
○ Veracidade
○ Valor
● Internet das Coisas (IoT)
● Grandes Volumes de
Dados
● Programação Distribuída
e Paralela
● Dados Estruturados, Não
Estruturados e
Semiestruturados
● Bancos de Dados SQL e
NoSQL
● MapReduce
● Apache Hadoop
7
Exemplos:
● Redes Sociais
● Veículos não tripulados
● Dispositivos móveis
Contexto:
● Rede mundial de dispositivos
● Análise de Dados
● Aprendizagem de Máquina
Social, Media & Mobile
Importância do Java e JVM no
Ecossistema de Big Data
8
❏ Hadoop
❏ Spark
❏ Drill
❏ Storm
❏ Kafka
❏ Akka
❏ ...
9
Ranking das Linguagens de
Programação
TIOBE Ranking (Fevereiro de 2018).
MapReduce
10
11
O que é Hadoop?
“
12
O Apache Hadoop é um software de
código aberto mantido pela Apache
Foundation que tem como propósito
fornecer uma implementação livre
do modelo de programação
MapReduce.
“
13
Nutch Hadoop
(Nutch sub-project)
Hadoop
3.0.0
2002
MapReduce
2003
Google File
System (GFS)
2004 2006 2017
Hadoop 2.2
2010
Hadoop Timeline
14
Características
❏ Implementação em Java
❏ Arquitetura Mestre Escravo (Master/Slave)
❏ Modelo de Programação MapReduce
❏ Hadoop Distributed File System (HDFS)
❏ Memória Secundária (Disco)
❏ Processamento Distribuído
❏ Escalável
❏ Tolerante a Falhas
15
O que não é?
❏ Linguagem de Programação
❏ Biblioteca de Aprendizagem de Máquina
❏ Processamento em Tempo Real
❏ Solução Definitiva
❏ Hadoop ≠ Spark
16
Quem utiliza?
17
Ecossistema Hadoop
18
Literatura Básica
19
Hadoop Distributed File System
(HDFS)
20
Configuração Hadoop
Single Node Multi Node
Documentação Oficial: http://hadoop.apache.org/
CMD’s Básicos
21
Hadoop Streaming
● Suporte a outras Linguagens de
Programação;
● Ex: Python, Ruby, JavaScript, C#, outras;
● Qualquer Linguagem de Programação com
stdin e stdout.
22
O que é Spark?
“
23
O Apache Spark é um software de
código aberto mantido pela Apache
Foundation que tem como propósito
fornecer uma implementação livre e
melhorada do modelo de
programação MapReduce.
“
24
UC Berkeley
Lab
Spark se torna um
projeto Top Level da
Apache
2009
Open Source
2010
Projeto da
Fundação
Apache
2013 2014
Spark 2.2.1
2017
Spark Timeline
25
Características
❏ Implementação em Scala
❏ Arquitetura Mestre Escravo (Master/Slave)
❏ Modelo de Programação MapReduce
❏ Resilient Distributed Dataset (RDD)
❏ Memória Principal (RAM)
❏ Processamento Distribuído
❏ Processamento em Tempo Real
❏ Escalável
❏ Tolerante a Falhas
❏ Integração com Hadoop e HDFS
26
O que não é?
❏ Linguagem de Programação
❏ Solução Definitiva
❏ Substituto do Hadoop
27
Arquitetura Apache Spark
28
Resilient Distributed Dataset (RDD)
29
Exemplo de Aplicações Spark
30
Literatura Básica
31
Quem utiliza?
32
Configuração Spark
Documentação Oficial
33
34
Obrigado!
Dúvidas?
Contatos:
❖ Twitter: @v4ires
❖ E-mail: v4ires@gmail.com

Mais conteúdo relacionado

Mais procurados

Machine learning com Apache Spark
Machine learning com Apache SparkMachine learning com Apache Spark
Machine learning com Apache SparkSandys Nunes
 
NOSQL uma breve introdução
NOSQL uma breve introduçãoNOSQL uma breve introdução
NOSQL uma breve introduçãoWise Systems
 
João Marcos Araújo do Valle - Big Data
João Marcos Araújo do Valle - Big DataJoão Marcos Araújo do Valle - Big Data
João Marcos Araújo do Valle - Big DataPotiLivre Sobrenome
 
Alinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQLAlinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQLpichiliani
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na WebMeritt - Cada Aluno é Único
 
Python x R: mas e o Weka?
Python x R: mas e o Weka? Python x R: mas e o Weka?
Python x R: mas e o Weka? pichiliani
 

Mais procurados (9)

Big Data
Big DataBig Data
Big Data
 
Machine learning com Apache Spark
Machine learning com Apache SparkMachine learning com Apache Spark
Machine learning com Apache Spark
 
NoSQL & SQL
NoSQL & SQLNoSQL & SQL
NoSQL & SQL
 
NOSQL uma breve introdução
NOSQL uma breve introduçãoNOSQL uma breve introdução
NOSQL uma breve introdução
 
João Marcos Araújo do Valle - Big Data
João Marcos Araújo do Valle - Big DataJoão Marcos Araújo do Valle - Big Data
João Marcos Araújo do Valle - Big Data
 
Alinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQLAlinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQL
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
2º Meritt CC - NoSQL - E o Futuro dos Bancos de Dados na Web
 
Python x R: mas e o Weka?
Python x R: mas e o Weka? Python x R: mas e o Weka?
Python x R: mas e o Weka?
 

Semelhante a A importância do ecossistema Java em aplicações baseadas em Big Data

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesAlessandro Binhara
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 

Semelhante a A importância do ecossistema Java em aplicações baseadas em Big Data (20)

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Hadoop
HadoopHadoop
Hadoop
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Big data
Big dataBig data
Big data
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  Aplicações
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 

Mais de Vinícius Barros

Uma Abordagem para a Integração de Diferentes Fontes de Dados Provenientes de...
Uma Abordagem para a Integração de Diferentes Fontes de Dados Provenientes de...Uma Abordagem para a Integração de Diferentes Fontes de Dados Provenientes de...
Uma Abordagem para a Integração de Diferentes Fontes de Dados Provenientes de...Vinícius Barros
 
Desenvolvendo Aplicações baseadas em Big Data com PySpark
Desenvolvendo Aplicações baseadas em Big Data com PySparkDesenvolvendo Aplicações baseadas em Big Data com PySpark
Desenvolvendo Aplicações baseadas em Big Data com PySparkVinícius Barros
 
Apresentação Programação Concorrente USP
Apresentação Programação Concorrente USPApresentação Programação Concorrente USP
Apresentação Programação Concorrente USPVinícius Barros
 
Implantação da ferramenta para manutenção de serviços "UFT Serviços" baseado ...
Implantação da ferramenta para manutenção de serviços "UFT Serviços" baseado ...Implantação da ferramenta para manutenção de serviços "UFT Serviços" baseado ...
Implantação da ferramenta para manutenção de serviços "UFT Serviços" baseado ...Vinícius Barros
 
Apresentação Coding Dojo em 10 minutos
Apresentação Coding Dojo em 10 minutosApresentação Coding Dojo em 10 minutos
Apresentação Coding Dojo em 10 minutosVinícius Barros
 

Mais de Vinícius Barros (6)

Uma Abordagem para a Integração de Diferentes Fontes de Dados Provenientes de...
Uma Abordagem para a Integração de Diferentes Fontes de Dados Provenientes de...Uma Abordagem para a Integração de Diferentes Fontes de Dados Provenientes de...
Uma Abordagem para a Integração de Diferentes Fontes de Dados Provenientes de...
 
Desenvolvendo Aplicações baseadas em Big Data com PySpark
Desenvolvendo Aplicações baseadas em Big Data com PySparkDesenvolvendo Aplicações baseadas em Big Data com PySpark
Desenvolvendo Aplicações baseadas em Big Data com PySpark
 
Apresentação LaSDPC
Apresentação LaSDPCApresentação LaSDPC
Apresentação LaSDPC
 
Apresentação Programação Concorrente USP
Apresentação Programação Concorrente USPApresentação Programação Concorrente USP
Apresentação Programação Concorrente USP
 
Implantação da ferramenta para manutenção de serviços "UFT Serviços" baseado ...
Implantação da ferramenta para manutenção de serviços "UFT Serviços" baseado ...Implantação da ferramenta para manutenção de serviços "UFT Serviços" baseado ...
Implantação da ferramenta para manutenção de serviços "UFT Serviços" baseado ...
 
Apresentação Coding Dojo em 10 minutos
Apresentação Coding Dojo em 10 minutosApresentação Coding Dojo em 10 minutos
Apresentação Coding Dojo em 10 minutos
 

A importância do ecossistema Java em aplicações baseadas em Big Data