Introducción a Apache Spark a través de un caso de uso cotidiano

PPrroocceessaammiieennttoo ddee ddaattooss
rroobbuussttoo yy eessccaallaabbllee ccoonn
AAppaacchhee SSppaarrkk
Ing. Adrián Fernando Fiore
Ingeniero en Sistemas UTN FRBA
Docente de Algoritmos y Estructura de Datos
Desarrollador Backend en Socialmetrix
@AdrianFiore
Ing. Pablo Romanelli
Ingeniero en Sistemas UTN FRBA
Docente de Técnicas Avanzadas de Programación
Desarrollador Scala en Socialmetrix
@PabloRomanelli2

Agenda
• Qué hacemos?
• Problema a resolver
• Evolución de la solución
• Spark
• Resolución del problema
• Ventajas obtenidas

Medimos la actividad de las compañías y
personalidades en las redes sociales para
generar valor a profesionales de Marketing,
Investigación de Mercado y Producto.
Software As A Service

Problema
Econtrar cuantas veces una cuenta
de Twitter es mencionada junto
con un hashtag
Restricciones:
•En un intervalo de tiempo
•Para un conjunto finito de cuentas
y tweets

Necesitamos una herramienta de
procesamiento distribuido para grandes
volúmenes de datos!!!

Evolución de la solución
HHaaddoooopp MMaapp RReedduuccee
Ventajas
• Escalable (voy creciendo a demanda)
• Se puede usar Amazon EMR (fácil de administrar)
• No hay costo de licencias, solo levantar los servers
Desventajas
• Hay que implementar la lógica en términos de map
y reduce
• Se necesita mucho código para implementar
acciones simples como join, group, etc.
• Es batch, lento (baja a disco por cada etapa de
procesamiento)

AAppaacchhee HHiivvee
Ventajas
• Capa de abstracción sobre Hadoop Map Reduce
(tenemos todas sus ventajas)
• La lógica se implementa en SQL (algo ya conocido
que me abstrae del código complejo de map y
reduce)
Desventajas
• Lenguaje SQL no está orientado a flujo de datos
sino a consultas
• No hay un IDE de desarrollo
• Difícil de testear, difícil de encontrar bugs
• Tiempos de ejecución prolongados y variables

AAppaacchhee SSppaarrkk
• Motor de procesamiento distribuido para Big Data
• Puede utilizarse sobre Java, Scala o Python
• Por qué lo elegimos?
• Qué ventajas nos trae?
• Cómo resulvo el problema usando Spark?

Ejemplos para entender el problema
{
"text": "@adrian vamos a la #javaconf",
"user": {
"screen_name": "pablo",
...
},
"entities": {
"hashtags": [
{
"text": "javaconf",
...
}
],
"user_mentions": [
{
"screen_name": "adrian",
...
}
],
...
},
...
}
List(
(adrian, javaconf)
)
RReessuultltaaddoo

{
"text": "Hola @adrian",
"user": {
...
},
"entities": {
"hashtags": [
],
"user_mentions": [
{
...
}
],
...
},
...
} RReessuultltaaddoo List()

{
"text": "Codeando en #spark",
"user": {
...
},
"entities": {
"hashtags": [
{
"text": "spark",
...
}
],
"user_mentions": [
],
...
},
...
} RReessuultltaaddoo List()

{
"text": "@adrian aca en #javaconf usando #spark",
"user": {
...
},
"entities": {
"hashtags": [
{
"text": "javaconf",
...
},
{
"text": "spark",
...
}
],
"user_mentions": [
{
...
}
],
...
},
...
}
List(
(adrian, javaconf),
(adrian, spark)
)
RReessuultltaaddoo

"text": "@adrian aca en #javaconf usando #spark",
"user": {
...
},
"entities": {
"hashtags": [
{
"text": "javaconf",
...
},
{
"text": "spark",
...
}
],
"user_mentions": [
{
...
}
],
...
{
"text": "RT @pablo: @adrian aca en #javaconf usando ...",
"user": {
"screen_name": "pedro",
...
},
"entities": {
"hashtags": [
{
"text": "javaconf",
...
}
],
"user_mentions": [
{
...
},
{
...
}
],
...
},
"retweeted_status": {…},
...
}
List(
(adrian, javaconf),
(adrian, spark),
(pablo, javaconf),
(pablo, spark)
)
Resultado

List(
List(
(adrian, javaconf)
), List(),
List(),
List(
(adrian, javaconf), (adrian, spark)
), List(
(adrian, javaconf), (adrian, spark),
(pablo, javaconf), (pablo, spark)
)
)
List(
(
(adrian, javaconf),
3
),
(
(adrian,spark),
2
),
(
(pablo,javaconf),
1
),
(
(pablo,spark),
1
)
)

Algunos ejemplos en Spark Shell

List(
List(
(adrian, javaconf)
), List(),
List(),
List(
), List(
)
)
Tweets en Json

List(
(adrian, javaconf),
(adrian, javaconf),
(adrian, spark),
(adrian, javaconf),
(adrian, spark),
(pablo, javaconf),
(pablo, spark)
)
List(
List(
(adrian, javaconf)
), List(),
List(),
List(
), List(
)
)
fflalattMMaapp

List(
( (adrian, javaconf), 1 ),
( (adrian, spark), 1 ),
( (pablo, javaconf), 1 ),
( (pablo, spark), 1)
)
List(
(adrian, javaconf),
(adrian, javaconf),
(adrian, spark),
(adrian, javaconf),
(adrian, spark),
(pablo, javaconf),
(pablo, spark)
)
mmaapp

List(
( (pablo, spark), 1 )
)
List(
( (pablo, spark), 1)
)
rreedduucceeBByyKKeeyy

Código Fuente
Con la resolución paso a paso
https://github.com/socialmetrix/spark-javaconf

Ventajas que nos da Spark
•Es open source, comunidad activa, suben material online
•Consola interactiva para hacer pruebas
•Lenguaje de programación (Scala, Java, Python):
• Programo en un lenguaje que conozco
• Puedo usar mis abstracciones (mis tipos de datos)
• Tengo un IDE que me ayuda a codear, a hacer refactors, etc.
• Las funciones del RDD se comportan igual que las de las listas (me abstrae que
luego corre distribuido)
•Testeable y Mantenible:
• Código corto y claro
• Me genera confianza en mi proceso
• Si hay un bug, puedo hacer un nuevo test y reproducirlo
•Consola de monitoreo simple y útil

MUCHAS GRACIAS!
jobs@socialmetrix.com
Pablo y Adrián

Introducción a Apache Spark a través de un caso de uso cotidiano

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Introducción a Apache Spark a través de un caso de uso cotidiano

Semelhante a Introducción a Apache Spark a través de un caso de uso cotidiano (20)

Mais de Socialmetrix

Mais de Socialmetrix (17)

Último

Último (15)

Introducción a Apache Spark a través de un caso de uso cotidiano