3. AGENDA
1. O que é o Apache Spark?
2. História e Motivadores
3. Casos de uso do Spark
4. Arquitetura
5. .NET for Apache Spark
6. Demo – Batch
7. Demo – Streaming
4. É um motor de análise para processamento
distribuído de dados em larga escala.
O QUE É O APACHE SPARK?
7. HADOOP VS. SPARK
• Spark processa até 100 vezes mais rápido
que o Hadoop
• Spark possui processamento em tempo
real e batch, enquanto Hadoop processa
apenas em batch
• API do Spark é mais concisa
15. .NET FOR APACHE SPARK
Motivação: Fornecer aos desenvolvedores .NET uma opção de primeira
classe para trabalhar com Apache Spark e Big Data
Não é objetivo converter programadores Scala, Python, Java ou R para
usarem .NET
.NET for Apache® Spark™ - projeto Open Source lançado em 2019 (Spark +
AI Summit 2019)
Suporte para C# e F# para .NET Framework 4.6.1 e .NET Core 2.1 e 3.x
Abstração em cima da API do Spark SQL (DataFrame)
16. Spark Core
Spark Interop Layer
SparkR PySpark
Spark SQL
.NET FOR APACHE SPARK
.NET for
Apache Spark
Java / Scala API
2009
- UC Berkeley escalar Machine Learning
Conviva interactive querying para analytics de vídeos
http://blog.madhukaraphatak.com/history-of-spark/
https://medium.com/@markobonaci/the-history-of-hadoop-68984a11704
http://www.balasubramanyamlanka.com/history-of-hadoop/
BBVA – classificação das transações dos clientes
JP Morgan – análise de fraudes
Netflix – recomendação de filmes para os usuários
Airbnb - modelo de previsão de demanda