Carregado porDiogo Munaro Vieira

96 visualizações

Apache Spark Overview and Applications

O documento discute as principais funcionalidades do Apache Spark, incluindo processamento de dados em larga escala, DataFrames, streaming de dados, machine learning e análise de grafos.

Tópicos relacionados:

Apache Spark•

Apache Spark
is a uniﬁed analytics engine for large-scale data processing.
Diogo Munaro Vieira
https://spark.apache.org/

Apache Spark

Hadoop?

Sabores do Spark

Spark DataFrames

Arquitetura

Arquitetura com Hadoop

Execução de código (Python)

Execução de código

Spark Context

UI do Spark

Spark DataFrames

Vendo Schema de dados

Vendo 2 primeiras linhas

Selecionando colunas

Filtrando colunas
ou

Agrupando dados

Criando View e usando SQL puro

UDF (User Deﬁned Function)

UDAF (User Deﬁned Aggregate Function)

UDAF (User Deﬁned Aggregate Function)

Operações de Join

Operações de Join

Spark Structured Streaming

Programando em Streaming

Word Count no Socket

Spark Structured Streaming

Spark Structured Streaming

Spark Structured Streaming

Checkpoint

Exemplo Checkpoint com Kafka

Usando Janela de Tempo

Usando Janela de Tempo
Janela Slide

Dados atrasados (Watermark)

Dados atrasados (Watermark)
Janela Slide

Spark MLib

Processamento de Texto

TF-IDF nos termos extraídos

Aplicando modelo

Avaliação de resultados do modelo

Spark GraphX

Carregando grafo

Agregando informação no grafo

Pagerank em subgrafo
Vai brincar lá: http://ampcamp.berkeley.edu/big-data-mini-course/graph-analytics-with-graphx.html

Submetendo Jobs

Monitorar Jobs

Ferramentas para Bioinformática
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6113509/table/tbl1/?report=objectonly

Recomendados

PPTX

Apache spark intro

porJoão Paulo Leonidas Fernandes Dias da Silva

PDF

Pré processamento de grandes dados com Apache Spark

PDF

Apache Spark: Casos de uso e escalabilidade

porFlavio Clesio

PDF

Desenvolvendo Aplicações baseadas em Big Data com PySpark

porVinícius Barros

PPTX

Spark .net

PDF

Aula9-Spark-Básico sematix com dataframes

porronaldorclamaster21

PDF

Hadoop MapReduce and Apache Spark on EMR: comparing performance for distribut...

PDF

[DEVFEST] Apache Spark Casos de Uso e Escalabilidade

PDF

CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...

porCicero Joasyo Mateus de Moura

PDF

Exemplos de uso de apache spark usando aws elastic map reduce

PDF

Processamento em Big Data

porLuiz Henrique Zambom Santana

PPTX

Encontro Virtual de InfraEstrutura de BigData

poralessandropizzoleto1

PPTX

Fundamentos de Big Data com Python: Tecnologia e Aplicações Praticas

porVagner Oliveira

PPTX

Machine learning com Apache Spark

porSandys Nunes

PDF

Federal University of Santa Catarina (UFSC) - PySpark Tutorial

porLuiz Henrique Zambom Santana

PDF

Pipeline da Engenharia de Dados

porEderson Corbari

PDF

AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration

porAmbiente Livre

PDF

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...

porMauricio Cesar Santos da Purificação

PDF

[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...

PDF

Big Data e seu fiel companheiro Spark

porRenan Moreira de Oliveira

PDF

Modelos de computação distribuída no Hadoop

porBig Data Week São Paulo

PDF

Stream Processing - ThoughtWorks Architecture Group - 2017

porOtávio Carvalho

PDF

Desenvolvedor de software para Big Data

porDiogo Munaro Vieira

PDF

[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data

porDeep Tech Brasil

PDF

TDC2018SP | Trilha BigData - Processando dados de acidentes de transito em st...

portdc-globalcode

PDF

Ferramentas e Aplicações em Big Data

porAlvaro Viebrantz

PDF

Qcon Rio 2015 - Data Lakes Workshop

porJoão Paulo Leonidas Fernandes Dias da Silva

PDF

Data Lakes com Hadoop e Spark: Agile Analytics na prática

porRicardo Wendell Rodrigues da Silveira

PDF

Machine learning em Produção

porDiogo Munaro Vieira

PDF

Paralelismo em machine learning e suas aplicações

porDiogo Munaro Vieira

Mais conteúdo relacionado

PPTX

Apache spark intro

porJoão Paulo Leonidas Fernandes Dias da Silva

PDF

Pré processamento de grandes dados com Apache Spark

PDF

Apache Spark: Casos de uso e escalabilidade

porFlavio Clesio

PDF

Desenvolvendo Aplicações baseadas em Big Data com PySpark

porVinícius Barros

PPTX

Spark .net

PDF

Aula9-Spark-Básico sematix com dataframes

porronaldorclamaster21

PDF

Hadoop MapReduce and Apache Spark on EMR: comparing performance for distribut...

PDF

[DEVFEST] Apache Spark Casos de Uso e Escalabilidade

Apache spark intro

porJoão Paulo Leonidas Fernandes Dias da Silva

Pré processamento de grandes dados com Apache Spark

Apache Spark: Casos de uso e escalabilidade

porFlavio Clesio

Desenvolvendo Aplicações baseadas em Big Data com PySpark

porVinícius Barros

Spark .net

Aula9-Spark-Básico sematix com dataframes

porronaldorclamaster21

Hadoop MapReduce and Apache Spark on EMR: comparing performance for distribut...

[DEVFEST] Apache Spark Casos de Uso e Escalabilidade

Semelhante a Apache Spark Overview and Applications

PDF

CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...

porCicero Joasyo Mateus de Moura

PDF

Exemplos de uso de apache spark usando aws elastic map reduce

PDF

Processamento em Big Data

porLuiz Henrique Zambom Santana

PPTX

Encontro Virtual de InfraEstrutura de BigData

poralessandropizzoleto1

PPTX

Fundamentos de Big Data com Python: Tecnologia e Aplicações Praticas

porVagner Oliveira

PPTX

Machine learning com Apache Spark

porSandys Nunes

PDF

Federal University of Santa Catarina (UFSC) - PySpark Tutorial

porLuiz Henrique Zambom Santana

PDF

Pipeline da Engenharia de Dados

porEderson Corbari

PDF

AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration

porAmbiente Livre

PDF

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...

porMauricio Cesar Santos da Purificação

PDF

[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...

PDF

Big Data e seu fiel companheiro Spark

porRenan Moreira de Oliveira

PDF

Modelos de computação distribuída no Hadoop

porBig Data Week São Paulo

PDF

Stream Processing - ThoughtWorks Architecture Group - 2017

porOtávio Carvalho

PDF

Desenvolvedor de software para Big Data

porDiogo Munaro Vieira

PDF

[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data

porDeep Tech Brasil

PDF

TDC2018SP | Trilha BigData - Processando dados de acidentes de transito em st...

portdc-globalcode

PDF

Ferramentas e Aplicações em Big Data

porAlvaro Viebrantz

PDF

Qcon Rio 2015 - Data Lakes Workshop

porJoão Paulo Leonidas Fernandes Dias da Silva

PDF

Data Lakes com Hadoop e Spark: Agile Analytics na prática

porRicardo Wendell Rodrigues da Silveira

CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...

porCicero Joasyo Mateus de Moura

Exemplos de uso de apache spark usando aws elastic map reduce

Processamento em Big Data

porLuiz Henrique Zambom Santana

Encontro Virtual de InfraEstrutura de BigData

poralessandropizzoleto1

Fundamentos de Big Data com Python: Tecnologia e Aplicações Praticas

porVagner Oliveira

Machine learning com Apache Spark

porSandys Nunes

Federal University of Santa Catarina (UFSC) - PySpark Tutorial

porLuiz Henrique Zambom Santana

Pipeline da Engenharia de Dados

porEderson Corbari

AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration

porAmbiente Livre

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...

porMauricio Cesar Santos da Purificação

[Datafest 2018] Apache Spark Structured Stream - Moedor de dados em tempo qua...

Big Data e seu fiel companheiro Spark

porRenan Moreira de Oliveira

Modelos de computação distribuída no Hadoop

porBig Data Week São Paulo

Stream Processing - ThoughtWorks Architecture Group - 2017

porOtávio Carvalho

Desenvolvedor de software para Big Data

porDiogo Munaro Vieira

[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data

porDeep Tech Brasil

TDC2018SP | Trilha BigData - Processando dados de acidentes de transito em st...

portdc-globalcode

Ferramentas e Aplicações em Big Data

porAlvaro Viebrantz

Qcon Rio 2015 - Data Lakes Workshop

porJoão Paulo Leonidas Fernandes Dias da Silva

Data Lakes com Hadoop e Spark: Agile Analytics na prática

porRicardo Wendell Rodrigues da Silveira

Mais de Diogo Munaro Vieira

PDF

Machine learning em Produção

porDiogo Munaro Vieira

PDF

Paralelismo em machine learning e suas aplicações

porDiogo Munaro Vieira

PDF

Testes metamórficos em problemas complexos

porDiogo Munaro Vieira

PDF

MLOps: Transformando seus modelos de ml em produtos

porDiogo Munaro Vieira

PDF

Machine Learning integrado ao produto de software: No more XGH

porDiogo Munaro Vieira

PDF

Conhecendo o desejo de mais de 10 milhões de usuários por dia

porDiogo Munaro Vieira

PDF

Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)

porDiogo Munaro Vieira

PDF

Big Data na Globo.com

porDiogo Munaro Vieira

Machine learning em Produção

porDiogo Munaro Vieira

Paralelismo em machine learning e suas aplicações

porDiogo Munaro Vieira

Testes metamórficos em problemas complexos

porDiogo Munaro Vieira

MLOps: Transformando seus modelos de ml em produtos

porDiogo Munaro Vieira

Machine Learning integrado ao produto de software: No more XGH

porDiogo Munaro Vieira

Conhecendo o desejo de mais de 10 milhões de usuários por dia

porDiogo Munaro Vieira

Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)

porDiogo Munaro Vieira

Big Data na Globo.com

porDiogo Munaro Vieira

Apache Spark Overview and Applications

1.
Apache Spark is auniﬁed analytics engine for large-scale data processing. Diogo Munaro Vieira https://spark.apache.org/
2.
Apache Spark
3.
Hadoop?
4.
Sabores do Spark
5.
Spark DataFrames
6.
Arquitetura
7.
Arquitetura com Hadoop
8.
Execução de código(Python)
9.
Execução de código
10.
Spark Context
11.
UI do Spark
12.
Spark DataFrames
13.
Vendo Schema dedados
14.
Vendo 2 primeiraslinhas
15.
Selecionando colunas
16.
Filtrando colunas ou
17.
Agrupando dados
18.
Criando View eusando SQL puro
19.
UDF (User DeﬁnedFunction)
20.
UDAF (User DeﬁnedAggregate Function)
21.
UDAF (User DeﬁnedAggregate Function)
22.
Operações de Join
23.
Operações de Join
24.
Spark Structured Streaming
25.
Programando em Streaming
26.
Word Count noSocket
27.
Spark Structured Streaming
28.
Spark Structured Streaming
29.
Spark Structured Streaming
30.
Checkpoint
31.
Exemplo Checkpoint comKafka
32.
Usando Janela deTempo
33.
Usando Janela deTempo Janela Slide
34.
Dados atrasados (Watermark)
35.
Dados atrasados (Watermark) JanelaSlide
36.
Spark MLib
37.
Processamento de Texto
38.
TF-IDF nos termosextraídos
39.
Aplicando modelo
40.
Avaliação de resultadosdo modelo
41.
Spark GraphX
42.
Carregando grafo
43.
Agregando informação nografo
44.
Pagerank em subgrafo Vaibrincar lá: http://ampcamp.berkeley.edu/big-data-mini-course/graph-analytics-with-graphx.html
45.
Submetendo Jobs
46.
Monitorar Jobs
47.
Ferramentas para Bioinformática https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6113509/table/tbl1/?report=objectonly