SlideShare uma empresa Scribd logo
Apache Spark
is a unified analytics engine for large-scale data processing.
Diogo Munaro Vieira
https://spark.apache.org/
Apache Spark
Hadoop?
Sabores do Spark
Spark DataFrames
Arquitetura
Arquitetura com Hadoop
Execução de código (Python)
Execução de código
Spark Context
UI do Spark
Spark DataFrames
Vendo Schema de dados
Vendo 2 primeiras linhas
Selecionando colunas
Filtrando colunas
ou
Agrupando dados
Criando View e usando SQL puro
UDF (User Defined Function)
UDAF (User Defined Aggregate Function)
UDAF (User Defined Aggregate Function)
Operações de Join
Operações de Join
Spark Structured Streaming
Programando em Streaming
Word Count no Socket
Spark Structured Streaming
Spark Structured Streaming
Spark Structured Streaming
Checkpoint
Exemplo Checkpoint com Kafka
Usando Janela de Tempo
Usando Janela de Tempo
Janela Slide
Dados atrasados (Watermark)
Dados atrasados (Watermark)
Janela Slide
Spark MLib
Processamento de Texto
TF-IDF nos termos extraídos
Aplicando modelo
Avaliação de resultados do modelo
Spark GraphX
Carregando grafo
Agregando informação no grafo
Pagerank em subgrafo
Vai brincar lá: http://ampcamp.berkeley.edu/big-data-mini-course/graph-analytics-with-graphx.html
Submetendo Jobs
Monitorar Jobs
Ferramentas para Bioinformática
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6113509/table/tbl1/?report=objectonly

Mais conteúdo relacionado

Semelhante a Apache Spark Overview and Applications

Introdução Play framework
Introdução Play frameworkIntrodução Play framework
Introdução Play framework
Keuller Magalhães
 
Da Exploração à Produção - Inteligência Artificial com a plataforma Marvin
Da Exploração à Produção - Inteligência Artificial com a plataforma MarvinDa Exploração à Produção - Inteligência Artificial com a plataforma Marvin
Da Exploração à Produção - Inteligência Artificial com a plataforma Marvin
Daniel Takabayashi, MSc
 
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
Eiti Kimura
 
Python e Django
Python e DjangoPython e Django
Python e Django
pugpe
 
Java Seminar
Java SeminarJava Seminar
Java Seminar
armeniocardoso
 
Surpreenda-se com o Silverlight 3
Surpreenda-se com o Silverlight 3Surpreenda-se com o Silverlight 3
Surpreenda-se com o Silverlight 3
Rodrigo Kono
 
JavaFX 8, Collections e Lambdas
JavaFX 8, Collections e LambdasJavaFX 8, Collections e Lambdas
JavaFX 8, Collections e Lambdas
jesuinoPower
 
JavaServer Faces
JavaServer FacesJavaServer Faces
JavaServer Faces
armeniocardoso
 
Pegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark StreamingPegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark Streaming
Ricardo de Avila Amaral
 
Introdução ao Kafka
Introdução ao KafkaIntrodução ao Kafka
Introdução ao Kafka
Davi Alves
 
Apresentação palestra ireport
Apresentação palestra ireportApresentação palestra ireport
Apresentação palestra ireport
fpsgyn
 
Curso Enterprise Architect
Curso Enterprise ArchitectCurso Enterprise Architect
Curso Enterprise Architect
randearievilo
 
AnaliseDeDados_SQLSat906
AnaliseDeDados_SQLSat906AnaliseDeDados_SQLSat906
AnaliseDeDados_SQLSat906
Orlando Mariano
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Affinitas GmbH
 
Processamento em Big Data
Processamento em Big DataProcessamento em Big Data
Processamento em Big Data
Luiz Henrique Zambom Santana
 
Treinamento ASP.NET 2014
Treinamento ASP.NET 2014Treinamento ASP.NET 2014
Treinamento ASP.NET 2014
Eric Gallardo
 
pgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQLpgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQL
Raphael Silva
 
Pos-QCon-BigData
Pos-QCon-BigDataPos-QCon-BigData
Pos-QCon-BigData
Fernando Cicconeto
 
JavaEE 7, na era do cloud computing
JavaEE 7, na era do cloud computingJavaEE 7, na era do cloud computing
JavaEE 7, na era do cloud computing
Eder Magalhães
 
Framework web 01 - Aula UTFPR 2018
Framework web 01 - Aula UTFPR 2018Framework web 01 - Aula UTFPR 2018
Framework web 01 - Aula UTFPR 2018
André Luiz Forchesatto
 

Semelhante a Apache Spark Overview and Applications (20)

Introdução Play framework
Introdução Play frameworkIntrodução Play framework
Introdução Play framework
 
Da Exploração à Produção - Inteligência Artificial com a plataforma Marvin
Da Exploração à Produção - Inteligência Artificial com a plataforma MarvinDa Exploração à Produção - Inteligência Artificial com a plataforma Marvin
Da Exploração à Produção - Inteligência Artificial com a plataforma Marvin
 
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...
 
Python e Django
Python e DjangoPython e Django
Python e Django
 
Java Seminar
Java SeminarJava Seminar
Java Seminar
 
Surpreenda-se com o Silverlight 3
Surpreenda-se com o Silverlight 3Surpreenda-se com o Silverlight 3
Surpreenda-se com o Silverlight 3
 
JavaFX 8, Collections e Lambdas
JavaFX 8, Collections e LambdasJavaFX 8, Collections e Lambdas
JavaFX 8, Collections e Lambdas
 
JavaServer Faces
JavaServer FacesJavaServer Faces
JavaServer Faces
 
Pegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark StreamingPegue tweets com Python e Spark Streaming
Pegue tweets com Python e Spark Streaming
 
Introdução ao Kafka
Introdução ao KafkaIntrodução ao Kafka
Introdução ao Kafka
 
Apresentação palestra ireport
Apresentação palestra ireportApresentação palestra ireport
Apresentação palestra ireport
 
Curso Enterprise Architect
Curso Enterprise ArchitectCurso Enterprise Architect
Curso Enterprise Architect
 
AnaliseDeDados_SQLSat906
AnaliseDeDados_SQLSat906AnaliseDeDados_SQLSat906
AnaliseDeDados_SQLSat906
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
 
Processamento em Big Data
Processamento em Big DataProcessamento em Big Data
Processamento em Big Data
 
Treinamento ASP.NET 2014
Treinamento ASP.NET 2014Treinamento ASP.NET 2014
Treinamento ASP.NET 2014
 
pgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQLpgModeler: muito mais que um modelador de bancos de dados PostgreSQL
pgModeler: muito mais que um modelador de bancos de dados PostgreSQL
 
Pos-QCon-BigData
Pos-QCon-BigDataPos-QCon-BigData
Pos-QCon-BigData
 
JavaEE 7, na era do cloud computing
JavaEE 7, na era do cloud computingJavaEE 7, na era do cloud computing
JavaEE 7, na era do cloud computing
 
Framework web 01 - Aula UTFPR 2018
Framework web 01 - Aula UTFPR 2018Framework web 01 - Aula UTFPR 2018
Framework web 01 - Aula UTFPR 2018
 

Mais de Diogo Munaro Vieira

Testes metamórficos em problemas complexos
Testes metamórficos em problemas complexosTestes metamórficos em problemas complexos
Testes metamórficos em problemas complexos
Diogo Munaro Vieira
 
Paralelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicaçõesParalelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicações
Diogo Munaro Vieira
 
MLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtosMLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtos
Diogo Munaro Vieira
 
Desenvolvedor de software para Big Data
Desenvolvedor de software para Big DataDesenvolvedor de software para Big Data
Desenvolvedor de software para Big Data
Diogo Munaro Vieira
 
Machine learning em Produção
Machine learning em ProduçãoMachine learning em Produção
Machine learning em Produção
Diogo Munaro Vieira
 
Machine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGHMachine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGH
Diogo Munaro Vieira
 
Big Data na Globo.com
Big Data na Globo.comBig Data na Globo.com
Big Data na Globo.com
Diogo Munaro Vieira
 
Conhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaConhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por dia
Diogo Munaro Vieira
 
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
Diogo Munaro Vieira
 

Mais de Diogo Munaro Vieira (9)

Testes metamórficos em problemas complexos
Testes metamórficos em problemas complexosTestes metamórficos em problemas complexos
Testes metamórficos em problemas complexos
 
Paralelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicaçõesParalelismo em machine learning e suas aplicações
Paralelismo em machine learning e suas aplicações
 
MLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtosMLOps: Transformando seus modelos de ml em produtos
MLOps: Transformando seus modelos de ml em produtos
 
Desenvolvedor de software para Big Data
Desenvolvedor de software para Big DataDesenvolvedor de software para Big Data
Desenvolvedor de software para Big Data
 
Machine learning em Produção
Machine learning em ProduçãoMachine learning em Produção
Machine learning em Produção
 
Machine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGHMachine Learning integrado ao produto de software: No more XGH
Machine Learning integrado ao produto de software: No more XGH
 
Big Data na Globo.com
Big Data na Globo.comBig Data na Globo.com
Big Data na Globo.com
 
Conhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaConhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por dia
 
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)
 

Último

Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
WELITONNOGUEIRA3
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
Momento da Informática
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
Momento da Informática
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
TomasSousa7
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
Faga1939
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
Momento da Informática
 
Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
Danilo Pinotti
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
joaovmp3
 

Último (8)

Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
 
Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
 

Apache Spark Overview and Applications