O documento apresenta uma introdução ao Apache Spark, incluindo sua visão geral como engine para processamento de dados em larga escala. Apresenta alguns conceitos-chave como RDDs, operações básicas e clusters Spark. Demonstra exemplos práticos de geração de regras de associação, clustering com K-Means e classificação com árvore de decisão usando Spark.
2. Quem sou eu?
- Campo-grandense
- Estudante de Ciência da Computação
- Desenvolvedor na Tecsinapse
Twitter: @SandysNunes
3. Agenda
- Visão Geral sobre o Apache Spark
- Algumas ferramentas
- Geração de regras de associação
- Clustering com K-Means
- Classificação com Árvore de Decisão
4. O que é o Apache Spark?
Engine para processamento de dados em larga escala.
5. Fácil de usar
● Suporte a várias
linguagens
● Shell interativo
● API rica
Python
Scala
Java
8. RDD - Resilient Distributed Datasets
Uma abstração para que os programadores possam executar
cálculos/operações em memória em um cluster tolerante à
falhas.
Coleções imutáveis
Particionadas e Distribuídas
Armazenadas em memória
Partições são “recomputadas” em caso de falha