Apache Spark
is a unified analytics engine for large-scale data processing.
Diogo Munaro Vieira
https://spark.apache.org/
Apache Spark
Hadoop?
Sabores do Spark
Spark DataFrames
Arquitetura
Arquitetura com Hadoop
Execução de código (Python)
Execução de código
Spark Context
UI do Spark
Spark DataFrames
Vendo Schema de dados
Vendo 2 primeiras linhas
Selecionando colunas
Filtrando colunas
ou
Agrupando dados
Criando View e usando SQL puro
UDF (User Defined Function)
UDAF (User Defined Aggregate Function)
UDAF (User Defined Aggregate Function)
Operações de Join
Operações de Join
Spark Structured Streaming
Programando em Streaming
Word Count no Socket
Spark Structured Streaming
Spark Structured Streaming
Spark Structured Streaming
Checkpoint
Exemplo Checkpoint com Kafka
Usando Janela de Tempo
Usando Janela de Tempo
Janela Slide
Dados atrasados (Watermark)
Dados atrasados (Watermark)
Janela Slide
Spark MLib
Processamento de Texto
TF-IDF nos termos extraídos
Aplicando modelo
Avaliação de resultados do modelo
Spark GraphX
Carregando grafo
Agregando informação no grafo
Pagerank em subgrafo
Vai brincar lá: http://ampcamp.berkeley.edu/big-data-mini-course/graph-analytics-with-graphx.html
Submetendo Jobs
Monitorar Jobs
Ferramentas para Bioinformática
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6113509/table/tbl1/?report=objectonly

Apache Spark Overview and Applications