SlideShare uma empresa Scribd logo
1 de 47
Baixar para ler offline
Apache Spark
is a unified analytics engine for large-scale data processing.
Diogo Munaro Vieira
https://spark.apache.org/
Apache Spark
Hadoop?
Sabores do Spark
Spark DataFrames
Arquitetura
Arquitetura com Hadoop
Execução de código (Python)
Execução de código
Spark Context
UI do Spark
Spark DataFrames
Vendo Schema de dados
Vendo 2 primeiras linhas
Selecionando colunas
Filtrando colunas
ou
Agrupando dados
Criando View e usando SQL puro
UDF (User Defined Function)
UDAF (User Defined Aggregate Function)
UDAF (User Defined Aggregate Function)
Operações de Join
Operações de Join
Spark Structured Streaming
Programando em Streaming
Word Count no Socket
Spark Structured Streaming
Spark Structured Streaming
Spark Structured Streaming
Checkpoint
Exemplo Checkpoint com Kafka
Usando Janela de Tempo
Usando Janela de Tempo
Janela Slide
Dados atrasados (Watermark)
Dados atrasados (Watermark)
Janela Slide
Spark MLib
Processamento de Texto
TF-IDF nos termos extraídos
Aplicando modelo
Avaliação de resultados do modelo
Spark GraphX
Carregando grafo
Agregando informação no grafo
Pagerank em subgrafo
Vai brincar lá: http://ampcamp.berkeley.edu/big-data-mini-course/graph-analytics-with-graphx.html
Submetendo Jobs
Monitorar Jobs
Ferramentas para Bioinformática
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6113509/table/tbl1/?report=objectonly

Mais conteúdo relacionado

Semelhante a Apache Spark Overview and Applications

Da Exploração à Produção - Inteligência Artificial com a plataforma Marvin
Da Exploração à Produção - Inteligência Artificial com a plataforma MarvinDa Exploração à Produção - Inteligência Artificial com a plataforma Marvin
Da Exploração à Produção - Inteligência Artificial com a plataforma MarvinDaniel Takabayashi, MSc
 
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...Eiti Kimura
 
Python e Django
Python e DjangoPython e Django
Python e Djangopugpe
 
Surpreenda-se com o Silverlight 3
Surpreenda-se com o Silverlight 3Surpreenda-se com o Silverlight 3
Surpreenda-se com o Silverlight 3Rodrigo Kono
 
JavaFX 8, Collections e Lambdas
JavaFX 8, Collections e LambdasJavaFX 8, Collections e Lambdas
JavaFX 8, Collections e LambdasjesuinoPower
 
Pegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark StreamingPegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark StreamingRicardo de Avila Amaral
 
Introdução ao Kafka
Introdução ao KafkaIntrodução ao Kafka
Introdução ao KafkaDavi Alves
 
Apresentação palestra ireport
Apresentação palestra ireportApresentação palestra ireport
Apresentação palestra ireportfpsgyn
 
Curso Enterprise Architect
Curso Enterprise ArchitectCurso Enterprise Architect
Curso Enterprise Architectrandearievilo
 
AnaliseDeDados_SQLSat906
AnaliseDeDados_SQLSat906AnaliseDeDados_SQLSat906
AnaliseDeDados_SQLSat906Orlando Mariano
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH
 
Treinamento ASP.NET 2014
Treinamento ASP.NET 2014Treinamento ASP.NET 2014
Treinamento ASP.NET 2014Eric Gallardo
 
pgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQLpgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQLRaphael Silva
 
JavaEE 7, na era do cloud computing
JavaEE 7, na era do cloud computingJavaEE 7, na era do cloud computing
JavaEE 7, na era do cloud computingEder Magalhães
 

Semelhante a Apache Spark Overview and Applications (20)

Introdução Play framework
Introdução Play frameworkIntrodução Play framework
Introdução Play framework
 
Da Exploração à Produção - Inteligência Artificial com a plataforma Marvin
Da Exploração à Produção - Inteligência Artificial com a plataforma MarvinDa Exploração à Produção - Inteligência Artificial com a plataforma Marvin
Da Exploração à Produção - Inteligência Artificial com a plataforma Marvin
 
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
 
Python e Django
Python e DjangoPython e Django
Python e Django
 
Java Seminar
Java SeminarJava Seminar
Java Seminar
 
Surpreenda-se com o Silverlight 3
Surpreenda-se com o Silverlight 3Surpreenda-se com o Silverlight 3
Surpreenda-se com o Silverlight 3
 
JavaFX 8, Collections e Lambdas
JavaFX 8, Collections e LambdasJavaFX 8, Collections e Lambdas
JavaFX 8, Collections e Lambdas
 
JavaServer Faces
JavaServer FacesJavaServer Faces
JavaServer Faces
 
Pegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark StreamingPegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark Streaming
 
Introdução ao Kafka
Introdução ao KafkaIntrodução ao Kafka
Introdução ao Kafka
 
Apresentação palestra ireport
Apresentação palestra ireportApresentação palestra ireport
Apresentação palestra ireport
 
Curso Enterprise Architect
Curso Enterprise ArchitectCurso Enterprise Architect
Curso Enterprise Architect
 
AnaliseDeDados_SQLSat906
AnaliseDeDados_SQLSat906AnaliseDeDados_SQLSat906
AnaliseDeDados_SQLSat906
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
 
Processamento em Big Data
Processamento em Big DataProcessamento em Big Data
Processamento em Big Data
 
Treinamento ASP.NET 2014
Treinamento ASP.NET 2014Treinamento ASP.NET 2014
Treinamento ASP.NET 2014
 
pgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQLpgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQL
 
Pos-QCon-BigData
Pos-QCon-BigDataPos-QCon-BigData
Pos-QCon-BigData
 
JavaEE 7, na era do cloud computing
JavaEE 7, na era do cloud computingJavaEE 7, na era do cloud computing
JavaEE 7, na era do cloud computing
 
Framework web 01 - Aula UTFPR 2018
Framework web 01 - Aula UTFPR 2018Framework web 01 - Aula UTFPR 2018
Framework web 01 - Aula UTFPR 2018
 

Mais de Diogo Munaro Vieira

Testes metamórficos em problemas complexos
Testes metamórficos em problemas complexosTestes metamórficos em problemas complexos
Testes metamórficos em problemas complexosDiogo Munaro Vieira
 
Paralelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicaçõesParalelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicaçõesDiogo Munaro Vieira
 
MLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtosMLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtosDiogo Munaro Vieira
 
Desenvolvedor de software para Big Data
Desenvolvedor de software para Big DataDesenvolvedor de software para Big Data
Desenvolvedor de software para Big DataDiogo Munaro Vieira
 
Machine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGHMachine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGHDiogo Munaro Vieira
 
Conhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaConhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaDiogo Munaro Vieira
 
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)Diogo Munaro Vieira
 

Mais de Diogo Munaro Vieira (9)

Testes metamórficos em problemas complexos
Testes metamórficos em problemas complexosTestes metamórficos em problemas complexos
Testes metamórficos em problemas complexos
 
Paralelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicaçõesParalelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicações
 
MLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtosMLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtos
 
Desenvolvedor de software para Big Data
Desenvolvedor de software para Big DataDesenvolvedor de software para Big Data
Desenvolvedor de software para Big Data
 
Machine learning em Produção
Machine learning em ProduçãoMachine learning em Produção
Machine learning em Produção
 
Machine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGHMachine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGH
 
Big Data na Globo.com
Big Data na Globo.comBig Data na Globo.com
Big Data na Globo.com
 
Conhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaConhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por dia
 
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
 

Apache Spark Overview and Applications