SlideShare uma empresa Scribd logo
1 de 24
PPrroocceessaammiieennttoo ddee ddaattooss 
rroobbuussttoo yy eessccaallaabbllee ccoonn 
AAppaacchhee SSppaarrkk 
Ing. Adrián Fernando Fiore 
Ingeniero en Sistemas UTN FRBA 
Docente de Algoritmos y Estructura de Datos 
Desarrollador Backend en Socialmetrix 
@AdrianFiore 
Ing. Pablo Romanelli 
Ingeniero en Sistemas UTN FRBA 
Docente de Técnicas Avanzadas de Programación 
Desarrollador Scala en Socialmetrix 
@PabloRomanelli2
Agenda 
• Qué hacemos? 
• Problema a resolver 
• Evolución de la solución 
• Spark 
• Resolución del problema 
• Ventajas obtenidas
Medimos la actividad de las compañías y 
personalidades en las redes sociales para 
generar valor a profesionales de Marketing, 
Investigación de Mercado y Producto. 
Software As A Service
Problema 
Econtrar cuantas veces una cuenta 
de Twitter es mencionada junto 
con un hashtag 
Restricciones: 
•En un intervalo de tiempo 
•Para un conjunto finito de cuentas 
y tweets
Necesitamos una herramienta de 
procesamiento distribuido para grandes 
volúmenes de datos!!!
Evolución de la solución 
HHaaddoooopp MMaapp RReedduuccee 
Ventajas 
• Escalable (voy creciendo a demanda) 
• Se puede usar Amazon EMR (fácil de administrar) 
• No hay costo de licencias, solo levantar los servers 
Desventajas 
• Hay que implementar la lógica en términos de map 
y reduce 
• Se necesita mucho código para implementar 
acciones simples como join, group, etc. 
• Es batch, lento (baja a disco por cada etapa de 
procesamiento)
Evolución de la solución 
AAppaacchhee HHiivvee 
Ventajas 
• Capa de abstracción sobre Hadoop Map Reduce 
(tenemos todas sus ventajas) 
• La lógica se implementa en SQL (algo ya conocido 
que me abstrae del código complejo de map y 
reduce) 
Desventajas 
• Lenguaje SQL no está orientado a flujo de datos 
sino a consultas 
• No hay un IDE de desarrollo 
• Difícil de testear, difícil de encontrar bugs 
• Tiempos de ejecución prolongados y variables
Evolución de la solución 
AAppaacchhee SSppaarrkk 
• Motor de procesamiento distribuido para Big Data 
• Puede utilizarse sobre Java, Scala o Python 
• Por qué lo elegimos? 
• Qué ventajas nos trae? 
• Cómo resulvo el problema usando Spark?
Ejemplos para entender el problema 
{ 
"text": "@adrian vamos a la #javaconf", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "javaconf", 
... 
} 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
} 
], 
... 
}, 
... 
} 
List( 
(adrian, javaconf) 
) 
RReessuultltaaddoo
Ejemplos para entender el problema 
{ 
"text": "Hola @adrian", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
} 
], 
... 
}, 
... 
} RReessuultltaaddoo List()
Ejemplos para entender el problema 
{ 
"text": "Codeando en #spark", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "spark", 
... 
} 
], 
"user_mentions": [ 
], 
... 
}, 
... 
} RReessuultltaaddoo List()
Ejemplos para entender el problema 
{ 
"text": "@adrian aca en #javaconf usando #spark", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "javaconf", 
... 
}, 
{ 
"text": "spark", 
... 
} 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
} 
], 
... 
}, 
... 
} 
List( 
(adrian, javaconf), 
(adrian, spark) 
) 
RReessuultltaaddoo
Ejemplos para entender el problema 
"text": "@adrian aca en #javaconf usando #spark", 
"user": { 
"screen_name": "pablo", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "javaconf", 
... 
}, 
{ 
"text": "spark", 
... 
} 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
} 
], 
... 
{ 
"text": "RT @pablo: @adrian aca en #javaconf usando ...", 
"user": { 
"screen_name": "pedro", 
... 
}, 
"entities": { 
"hashtags": [ 
{ 
"text": "javaconf", 
... 
} 
], 
"user_mentions": [ 
{ 
"screen_name": "adrian", 
... 
}, 
{ 
"screen_name": "pablo", 
... 
} 
], 
... 
}, 
"retweeted_status": {…}, 
... 
} 
List( 
(adrian, javaconf), 
(adrian, spark), 
(pablo, javaconf), 
(pablo, spark) 
) 
Resultado
Ejemplos para entender el problema 
List( 
List( 
(adrian, javaconf) 
), List(), 
List(), 
List( 
(adrian, javaconf), (adrian, spark) 
), List( 
(adrian, javaconf), (adrian, spark), 
(pablo, javaconf), (pablo, spark) 
) 
) 
List( 
( 
(adrian, javaconf), 
3 
), 
( 
(adrian,spark), 
2 
), 
( 
(pablo,javaconf), 
1 
), 
( 
(pablo,spark), 
1 
) 
)
Algunos ejemplos en Spark Shell
Ejemplos para entender el problema 
List( 
List( 
(adrian, javaconf) 
), List(), 
List(), 
List( 
(adrian, javaconf), (adrian, spark) 
), List( 
(adrian, javaconf), (adrian, spark), 
(pablo, javaconf), (pablo, spark) 
) 
) 
Tweets en Json
Ejemplos para entender el problema 
List( 
(adrian, javaconf), 
(adrian, javaconf), 
(adrian, spark), 
(adrian, javaconf), 
(adrian, spark), 
(pablo, javaconf), 
(pablo, spark) 
) 
List( 
List( 
(adrian, javaconf) 
), List(), 
List(), 
List( 
(adrian, javaconf), (adrian, spark) 
), List( 
(adrian, javaconf), (adrian, spark), 
(pablo, javaconf), (pablo, spark) 
) 
) 
fflalattMMaapp
Ejemplos para entender el problema 
List( 
( (adrian, javaconf), 1 ), 
( (adrian, javaconf), 1 ), 
( (adrian, spark), 1 ), 
( (adrian, javaconf), 1 ), 
( (adrian, spark), 1 ), 
( (pablo, javaconf), 1 ), 
( (pablo, spark), 1) 
) 
List( 
(adrian, javaconf), 
(adrian, javaconf), 
(adrian, spark), 
(adrian, javaconf), 
(adrian, spark), 
(pablo, javaconf), 
(pablo, spark) 
) 
mmaapp
Ejemplos para entender el problema 
List( 
( (adrian, javaconf), 3 ), 
( (adrian, spark), 2 ), 
( (pablo, javaconf), 1 ), 
( (pablo, spark), 1 ) 
) 
List( 
( (adrian, javaconf), 1 ), 
( (adrian, javaconf), 1 ), 
( (adrian, spark), 1 ), 
( (adrian, javaconf), 1 ), 
( (adrian, spark), 1 ), 
( (pablo, javaconf), 1 ), 
( (pablo, spark), 1) 
) 
rreedduucceeBByyKKeeyy
Código Fuente 
Con la resolución paso a paso 
https://github.com/socialmetrix/spark-javaconf
Ventajas que nos da Spark 
•Es open source, comunidad activa, suben material online 
•Consola interactiva para hacer pruebas 
•Lenguaje de programación (Scala, Java, Python): 
• Programo en un lenguaje que conozco 
• Puedo usar mis abstracciones (mis tipos de datos) 
• Tengo un IDE que me ayuda a codear, a hacer refactors, etc. 
• Las funciones del RDD se comportan igual que las de las listas (me abstrae que 
luego corre distribuido) 
•Testeable y Mantenible: 
• Código corto y claro 
• Me genera confianza en mi proceso 
• Si hay un bug, puedo hacer un nuevo test y reproducirlo 
•Consola de monitoreo simple y útil
MUCHAS GRACIAS! 
jobs@socialmetrix.com 
Pablo y Adrián
Consultas

Mais conteúdo relacionado

Mais procurados

Introduction to NoSQL Databases
Introduction to NoSQL DatabasesIntroduction to NoSQL Databases
Introduction to NoSQL DatabasesDerek Stainer
 
Apache Spark Introduction
Apache Spark IntroductionApache Spark Introduction
Apache Spark Introductionsudhakara st
 
Introduction to Apache Hive
Introduction to Apache HiveIntroduction to Apache Hive
Introduction to Apache HiveAvkash Chauhan
 
Spark SQL Tutorial | Spark SQL Using Scala | Apache Spark Tutorial For Beginn...
Spark SQL Tutorial | Spark SQL Using Scala | Apache Spark Tutorial For Beginn...Spark SQL Tutorial | Spark SQL Using Scala | Apache Spark Tutorial For Beginn...
Spark SQL Tutorial | Spark SQL Using Scala | Apache Spark Tutorial For Beginn...Simplilearn
 
NoSQL databases - An introduction
NoSQL databases - An introductionNoSQL databases - An introduction
NoSQL databases - An introductionPooyan Mehrparvar
 
Introduction to spark
Introduction to sparkIntroduction to spark
Introduction to sparkDuyhai Doan
 
Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...
Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...
Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...Edureka!
 
Introduction to elasticsearch
Introduction to elasticsearchIntroduction to elasticsearch
Introduction to elasticsearchpmanvi
 
Elasticsearch development case
Elasticsearch development caseElasticsearch development case
Elasticsearch development case일규 최
 
SRV405 Deep Dive Amazon Redshift & Redshift Spectrum at Cardinal Health
SRV405 Deep Dive Amazon Redshift & Redshift Spectrum at Cardinal HealthSRV405 Deep Dive Amazon Redshift & Redshift Spectrum at Cardinal Health
SRV405 Deep Dive Amazon Redshift & Redshift Spectrum at Cardinal HealthAmazon Web Services
 
Big data processing with Apache Spark and Oracle Database
Big data processing with Apache Spark and Oracle DatabaseBig data processing with Apache Spark and Oracle Database
Big data processing with Apache Spark and Oracle DatabaseMartin Toshev
 
Introduction to Kafka Streams
Introduction to Kafka StreamsIntroduction to Kafka Streams
Introduction to Kafka StreamsGuozhang Wang
 
Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014
Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014
Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014Julien Le Dem
 
Introduction to Apache Spark
Introduction to Apache SparkIntroduction to Apache Spark
Introduction to Apache SparkRahul Jain
 
Programming in Spark using PySpark
Programming in Spark using PySpark      Programming in Spark using PySpark
Programming in Spark using PySpark Mostafa
 
NoSQL and MapReduce
NoSQL and MapReduceNoSQL and MapReduce
NoSQL and MapReduceJ Singh
 
Spark overview
Spark overviewSpark overview
Spark overviewLisa Hua
 

Mais procurados (20)

Introduction to NoSQL Databases
Introduction to NoSQL DatabasesIntroduction to NoSQL Databases
Introduction to NoSQL Databases
 
Introduction to NoSQL
Introduction to NoSQLIntroduction to NoSQL
Introduction to NoSQL
 
Apache Spark Introduction
Apache Spark IntroductionApache Spark Introduction
Apache Spark Introduction
 
Introduction to Apache Hive
Introduction to Apache HiveIntroduction to Apache Hive
Introduction to Apache Hive
 
Spark SQL Tutorial | Spark SQL Using Scala | Apache Spark Tutorial For Beginn...
Spark SQL Tutorial | Spark SQL Using Scala | Apache Spark Tutorial For Beginn...Spark SQL Tutorial | Spark SQL Using Scala | Apache Spark Tutorial For Beginn...
Spark SQL Tutorial | Spark SQL Using Scala | Apache Spark Tutorial For Beginn...
 
NoSQL databases - An introduction
NoSQL databases - An introductionNoSQL databases - An introduction
NoSQL databases - An introduction
 
Introduction to spark
Introduction to sparkIntroduction to spark
Introduction to spark
 
NoSQL databases
NoSQL databasesNoSQL databases
NoSQL databases
 
Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...
Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...
Elasticsearch Tutorial | Getting Started with Elasticsearch | ELK Stack Train...
 
Introduction to elasticsearch
Introduction to elasticsearchIntroduction to elasticsearch
Introduction to elasticsearch
 
Elasticsearch development case
Elasticsearch development caseElasticsearch development case
Elasticsearch development case
 
SRV405 Deep Dive Amazon Redshift & Redshift Spectrum at Cardinal Health
SRV405 Deep Dive Amazon Redshift & Redshift Spectrum at Cardinal HealthSRV405 Deep Dive Amazon Redshift & Redshift Spectrum at Cardinal Health
SRV405 Deep Dive Amazon Redshift & Redshift Spectrum at Cardinal Health
 
Key-Value NoSQL Database
Key-Value NoSQL DatabaseKey-Value NoSQL Database
Key-Value NoSQL Database
 
Big data processing with Apache Spark and Oracle Database
Big data processing with Apache Spark and Oracle DatabaseBig data processing with Apache Spark and Oracle Database
Big data processing with Apache Spark and Oracle Database
 
Introduction to Kafka Streams
Introduction to Kafka StreamsIntroduction to Kafka Streams
Introduction to Kafka Streams
 
Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014
Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014
Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014
 
Introduction to Apache Spark
Introduction to Apache SparkIntroduction to Apache Spark
Introduction to Apache Spark
 
Programming in Spark using PySpark
Programming in Spark using PySpark      Programming in Spark using PySpark
Programming in Spark using PySpark
 
NoSQL and MapReduce
NoSQL and MapReduceNoSQL and MapReduce
NoSQL and MapReduce
 
Spark overview
Spark overviewSpark overview
Spark overview
 

Semelhante a Introducción a Apache Spark a través de un caso de uso cotidiano

"Meta datos & Google Rich Snippets" por @iplarodriguez
"Meta datos & Google Rich Snippets" por @iplarodriguez"Meta datos & Google Rich Snippets" por @iplarodriguez
"Meta datos & Google Rich Snippets" por @iplarodriguezwebcat
 
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...Aragón Open Data
 
Novedades de Java 8 por PERU JUG
Novedades de Java 8 por PERU JUGNovedades de Java 8 por PERU JUG
Novedades de Java 8 por PERU JUGjose diaz
 
Gestión y Análisis de Datos para las Ciencias Económicas con Python y R
Gestión y Análisis de Datos para las Ciencias Económicas con Python y RGestión y Análisis de Datos para las Ciencias Económicas con Python y R
Gestión y Análisis de Datos para las Ciencias Económicas con Python y RFrancisco Palm
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 
Intro. Lenguaje de Programación Java - Algoritmia
Intro. Lenguaje de Programación Java - AlgoritmiaIntro. Lenguaje de Programación Java - Algoritmia
Intro. Lenguaje de Programación Java - AlgoritmiaDaniel Gómez
 
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...Eudris Cabrera
 
Introducción a RubyOnRails
Introducción a RubyOnRailsIntroducción a RubyOnRails
Introducción a RubyOnRailsPablo Marrero
 
Computación evolutiva no tradicional
Computación evolutiva no tradicionalComputación evolutiva no tradicional
Computación evolutiva no tradicionalJuan J. Merelo
 
09b jsf (1)
09b jsf (1)09b jsf (1)
09b jsf (1)UTN
 
Java fundamentos 15 consejos prácticos - ITLA Tech Day 2018
Java fundamentos   15 consejos prácticos - ITLA Tech Day 2018Java fundamentos   15 consejos prácticos - ITLA Tech Day 2018
Java fundamentos 15 consejos prácticos - ITLA Tech Day 2018Eudris Cabrera
 
Programacion web
Programacion webProgramacion web
Programacion webIACSA
 
Fundamentos-de-programacion-c-ricardo-villalobos.pdf
Fundamentos-de-programacion-c-ricardo-villalobos.pdfFundamentos-de-programacion-c-ricardo-villalobos.pdf
Fundamentos-de-programacion-c-ricardo-villalobos.pdfssuserf46a26
 
Java fundamentos -15 consejos practicos open saturday 2018
Java fundamentos -15 consejos practicos open saturday 2018Java fundamentos -15 consejos practicos open saturday 2018
Java fundamentos -15 consejos practicos open saturday 2018Eudris Cabrera
 
Programacion orientada a objetos en javascript
Programacion orientada a objetos en javascriptProgramacion orientada a objetos en javascript
Programacion orientada a objetos en javascriptRobert Moreira
 
Compilador Usando Jflex y Cup
Compilador Usando Jflex y CupCompilador Usando Jflex y Cup
Compilador Usando Jflex y Cupditopo
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Carlos Lorenzetti
 
RAD Portlet Development using XMLPortletFactory
RAD Portlet Development using XMLPortletFactoryRAD Portlet Development using XMLPortletFactory
RAD Portlet Development using XMLPortletFactoryJack A. Rider
 

Semelhante a Introducción a Apache Spark a través de un caso de uso cotidiano (20)

"Meta datos & Google Rich Snippets" por @iplarodriguez
"Meta datos & Google Rich Snippets" por @iplarodriguez"Meta datos & Google Rich Snippets" por @iplarodriguez
"Meta datos & Google Rich Snippets" por @iplarodriguez
 
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...
 
Novedades de Java 8 por PERU JUG
Novedades de Java 8 por PERU JUGNovedades de Java 8 por PERU JUG
Novedades de Java 8 por PERU JUG
 
Gestión y Análisis de Datos para las Ciencias Económicas con Python y R
Gestión y Análisis de Datos para las Ciencias Económicas con Python y RGestión y Análisis de Datos para las Ciencias Económicas con Python y R
Gestión y Análisis de Datos para las Ciencias Económicas con Python y R
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Intro. Lenguaje de Programación Java - Algoritmia
Intro. Lenguaje de Programación Java - AlgoritmiaIntro. Lenguaje de Programación Java - Algoritmia
Intro. Lenguaje de Programación Java - Algoritmia
 
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
Java fundamentos -15 consejos prácticos - Encuentro Universitario Comunidad J...
 
Introducción a RubyOnRails
Introducción a RubyOnRailsIntroducción a RubyOnRails
Introducción a RubyOnRails
 
Computación evolutiva no tradicional
Computación evolutiva no tradicionalComputación evolutiva no tradicional
Computación evolutiva no tradicional
 
09b jsf (1)
09b jsf (1)09b jsf (1)
09b jsf (1)
 
Java fundamentos 15 consejos prácticos - ITLA Tech Day 2018
Java fundamentos   15 consejos prácticos - ITLA Tech Day 2018Java fundamentos   15 consejos prácticos - ITLA Tech Day 2018
Java fundamentos 15 consejos prácticos - ITLA Tech Day 2018
 
Programacion web
Programacion webProgramacion web
Programacion web
 
Visualfoxpro
VisualfoxproVisualfoxpro
Visualfoxpro
 
Fundamentos-de-programacion-c-ricardo-villalobos.pdf
Fundamentos-de-programacion-c-ricardo-villalobos.pdfFundamentos-de-programacion-c-ricardo-villalobos.pdf
Fundamentos-de-programacion-c-ricardo-villalobos.pdf
 
Empezando con Angular 2
Empezando con Angular 2Empezando con Angular 2
Empezando con Angular 2
 
Java fundamentos -15 consejos practicos open saturday 2018
Java fundamentos -15 consejos practicos open saturday 2018Java fundamentos -15 consejos practicos open saturday 2018
Java fundamentos -15 consejos practicos open saturday 2018
 
Programacion orientada a objetos en javascript
Programacion orientada a objetos en javascriptProgramacion orientada a objetos en javascript
Programacion orientada a objetos en javascript
 
Compilador Usando Jflex y Cup
Compilador Usando Jflex y CupCompilador Usando Jflex y Cup
Compilador Usando Jflex y Cup
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
 
RAD Portlet Development using XMLPortletFactory
RAD Portlet Development using XMLPortletFactoryRAD Portlet Development using XMLPortletFactory
RAD Portlet Development using XMLPortletFactory
 

Mais de Socialmetrix

7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivo7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivoSocialmetrix
 
The Ultimate Guide to using Social Media Media Analytics
The Ultimate Guide to using Social Media Media AnalyticsThe Ultimate Guide to using Social Media Media Analytics
The Ultimate Guide to using Social Media Media AnalyticsSocialmetrix
 
Social Media is no longer something relevant just for the area of Marketing. ...
Social Media is no longer something relevant just for the area of Marketing. ...Social Media is no longer something relevant just for the area of Marketing. ...
Social Media is no longer something relevant just for the area of Marketing. ...Socialmetrix
 
How to Create a Successful Social Media Campaign
How to Create a Successful Social Media CampaignHow to Create a Successful Social Media Campaign
How to Create a Successful Social Media CampaignSocialmetrix
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
AWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
AWS re:Invent 2014 | (ARC202) Real-World Real-Time AnalyticsAWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
AWS re:Invent 2014 | (ARC202) Real-World Real-Time AnalyticsSocialmetrix
 
Tutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeTutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache SparkSocialmetrix
 
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...Socialmetrix
 
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
14º Encontro Locaweb - Evolução das Plataformas para Métricas SociaisSocialmetrix
 
Jugar Introduccion a Scala
Jugar Introduccion a ScalaJugar Introduccion a Scala
Jugar Introduccion a ScalaSocialmetrix
 
Endeavor – métricas em mídias sociais
Endeavor – métricas em mídias sociaisEndeavor – métricas em mídias sociais
Endeavor – métricas em mídias sociaisSocialmetrix
 
MongoDB, RabbitMQ y Applicaciones en Nube
MongoDB, RabbitMQ y Applicaciones en NubeMongoDB, RabbitMQ y Applicaciones en Nube
MongoDB, RabbitMQ y Applicaciones en NubeSocialmetrix
 

Mais de Socialmetrix (17)

7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivo7 Disparadores de Engagement para o mercado de consumo massivo
7 Disparadores de Engagement para o mercado de consumo massivo
 
The Ultimate Guide to using Social Media Media Analytics
The Ultimate Guide to using Social Media Media AnalyticsThe Ultimate Guide to using Social Media Media Analytics
The Ultimate Guide to using Social Media Media Analytics
 
Social Media is no longer something relevant just for the area of Marketing. ...
Social Media is no longer something relevant just for the area of Marketing. ...Social Media is no longer something relevant just for the area of Marketing. ...
Social Media is no longer something relevant just for the area of Marketing. ...
 
How to Create a Successful Social Media Campaign
How to Create a Successful Social Media CampaignHow to Create a Successful Social Media Campaign
How to Create a Successful Social Media Campaign
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
AWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
AWS re:Invent 2014 | (ARC202) Real-World Real-Time AnalyticsAWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
AWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
 
Tutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeTutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtime
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache Spark
 
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
 
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
 
Call2Social
Call2SocialCall2Social
Call2Social
 
Redis
RedisRedis
Redis
 
Jugar Introduccion a Scala
Jugar Introduccion a ScalaJugar Introduccion a Scala
Jugar Introduccion a Scala
 
Endeavor – métricas em mídias sociais
Endeavor – métricas em mídias sociaisEndeavor – métricas em mídias sociais
Endeavor – métricas em mídias sociais
 
MongoDB, RabbitMQ y Applicaciones en Nube
MongoDB, RabbitMQ y Applicaciones en NubeMongoDB, RabbitMQ y Applicaciones en Nube
MongoDB, RabbitMQ y Applicaciones en Nube
 

Último

Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfAnnimoUno1
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxlosdiosesmanzaneros
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfvladimiroflores1
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxMiguelAtencio10
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilJuanGallardo438714
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 

Último (15)

Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptx
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmeril
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 

Introducción a Apache Spark a través de un caso de uso cotidiano

  • 1. PPrroocceessaammiieennttoo ddee ddaattooss rroobbuussttoo yy eessccaallaabbllee ccoonn AAppaacchhee SSppaarrkk Ing. Adrián Fernando Fiore Ingeniero en Sistemas UTN FRBA Docente de Algoritmos y Estructura de Datos Desarrollador Backend en Socialmetrix @AdrianFiore Ing. Pablo Romanelli Ingeniero en Sistemas UTN FRBA Docente de Técnicas Avanzadas de Programación Desarrollador Scala en Socialmetrix @PabloRomanelli2
  • 2. Agenda • Qué hacemos? • Problema a resolver • Evolución de la solución • Spark • Resolución del problema • Ventajas obtenidas
  • 3. Medimos la actividad de las compañías y personalidades en las redes sociales para generar valor a profesionales de Marketing, Investigación de Mercado y Producto. Software As A Service
  • 4.
  • 5. Problema Econtrar cuantas veces una cuenta de Twitter es mencionada junto con un hashtag Restricciones: •En un intervalo de tiempo •Para un conjunto finito de cuentas y tweets
  • 6. Necesitamos una herramienta de procesamiento distribuido para grandes volúmenes de datos!!!
  • 7. Evolución de la solución HHaaddoooopp MMaapp RReedduuccee Ventajas • Escalable (voy creciendo a demanda) • Se puede usar Amazon EMR (fácil de administrar) • No hay costo de licencias, solo levantar los servers Desventajas • Hay que implementar la lógica en términos de map y reduce • Se necesita mucho código para implementar acciones simples como join, group, etc. • Es batch, lento (baja a disco por cada etapa de procesamiento)
  • 8. Evolución de la solución AAppaacchhee HHiivvee Ventajas • Capa de abstracción sobre Hadoop Map Reduce (tenemos todas sus ventajas) • La lógica se implementa en SQL (algo ya conocido que me abstrae del código complejo de map y reduce) Desventajas • Lenguaje SQL no está orientado a flujo de datos sino a consultas • No hay un IDE de desarrollo • Difícil de testear, difícil de encontrar bugs • Tiempos de ejecución prolongados y variables
  • 9. Evolución de la solución AAppaacchhee SSppaarrkk • Motor de procesamiento distribuido para Big Data • Puede utilizarse sobre Java, Scala o Python • Por qué lo elegimos? • Qué ventajas nos trae? • Cómo resulvo el problema usando Spark?
  • 10. Ejemplos para entender el problema { "text": "@adrian vamos a la #javaconf", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ { "text": "javaconf", ... } ], "user_mentions": [ { "screen_name": "adrian", ... } ], ... }, ... } List( (adrian, javaconf) ) RReessuultltaaddoo
  • 11. Ejemplos para entender el problema { "text": "Hola @adrian", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ ], "user_mentions": [ { "screen_name": "adrian", ... } ], ... }, ... } RReessuultltaaddoo List()
  • 12. Ejemplos para entender el problema { "text": "Codeando en #spark", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ { "text": "spark", ... } ], "user_mentions": [ ], ... }, ... } RReessuultltaaddoo List()
  • 13. Ejemplos para entender el problema { "text": "@adrian aca en #javaconf usando #spark", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ { "text": "javaconf", ... }, { "text": "spark", ... } ], "user_mentions": [ { "screen_name": "adrian", ... } ], ... }, ... } List( (adrian, javaconf), (adrian, spark) ) RReessuultltaaddoo
  • 14. Ejemplos para entender el problema "text": "@adrian aca en #javaconf usando #spark", "user": { "screen_name": "pablo", ... }, "entities": { "hashtags": [ { "text": "javaconf", ... }, { "text": "spark", ... } ], "user_mentions": [ { "screen_name": "adrian", ... } ], ... { "text": "RT @pablo: @adrian aca en #javaconf usando ...", "user": { "screen_name": "pedro", ... }, "entities": { "hashtags": [ { "text": "javaconf", ... } ], "user_mentions": [ { "screen_name": "adrian", ... }, { "screen_name": "pablo", ... } ], ... }, "retweeted_status": {…}, ... } List( (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) Resultado
  • 15. Ejemplos para entender el problema List( List( (adrian, javaconf) ), List(), List(), List( (adrian, javaconf), (adrian, spark) ), List( (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) ) List( ( (adrian, javaconf), 3 ), ( (adrian,spark), 2 ), ( (pablo,javaconf), 1 ), ( (pablo,spark), 1 ) )
  • 16. Algunos ejemplos en Spark Shell
  • 17. Ejemplos para entender el problema List( List( (adrian, javaconf) ), List(), List(), List( (adrian, javaconf), (adrian, spark) ), List( (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) ) Tweets en Json
  • 18. Ejemplos para entender el problema List( (adrian, javaconf), (adrian, javaconf), (adrian, spark), (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) List( List( (adrian, javaconf) ), List(), List(), List( (adrian, javaconf), (adrian, spark) ), List( (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) ) fflalattMMaapp
  • 19. Ejemplos para entender el problema List( ( (adrian, javaconf), 1 ), ( (adrian, javaconf), 1 ), ( (adrian, spark), 1 ), ( (adrian, javaconf), 1 ), ( (adrian, spark), 1 ), ( (pablo, javaconf), 1 ), ( (pablo, spark), 1) ) List( (adrian, javaconf), (adrian, javaconf), (adrian, spark), (adrian, javaconf), (adrian, spark), (pablo, javaconf), (pablo, spark) ) mmaapp
  • 20. Ejemplos para entender el problema List( ( (adrian, javaconf), 3 ), ( (adrian, spark), 2 ), ( (pablo, javaconf), 1 ), ( (pablo, spark), 1 ) ) List( ( (adrian, javaconf), 1 ), ( (adrian, javaconf), 1 ), ( (adrian, spark), 1 ), ( (adrian, javaconf), 1 ), ( (adrian, spark), 1 ), ( (pablo, javaconf), 1 ), ( (pablo, spark), 1) ) rreedduucceeBByyKKeeyy
  • 21. Código Fuente Con la resolución paso a paso https://github.com/socialmetrix/spark-javaconf
  • 22. Ventajas que nos da Spark •Es open source, comunidad activa, suben material online •Consola interactiva para hacer pruebas •Lenguaje de programación (Scala, Java, Python): • Programo en un lenguaje que conozco • Puedo usar mis abstracciones (mis tipos de datos) • Tengo un IDE que me ayuda a codear, a hacer refactors, etc. • Las funciones del RDD se comportan igual que las de las listas (me abstrae que luego corre distribuido) •Testeable y Mantenible: • Código corto y claro • Me genera confianza en mi proceso • Si hay un bug, puedo hacer un nuevo test y reproducirlo •Consola de monitoreo simple y útil