Material de la sesión técnica “BIG DATA: Qué significa realmente y ejemplos de utilización”, realizada el jueves 27 de febrero, y que fue conducida por Oscar Marín, fundador de Outliers y consultor experto en Big Data especializado en el análisis y visualización de datos, redes sociales, datos urbanos y aportación del valor a los datos.
SeminBIG DATA: Qué significa realmente y ejemplos de utilizaciónario big data
1. Big Data
Valor y Mercado
Óscar Marín Miró
@outliers_es
www.outliers.es
1
2. Contenidos
¿Qué es Big Data?
‣Historia
‣Las 3 V’s
‣Problema, Solución y Fenómeno
Valor del Big Data
‣Los Gigantes de la Generación de Datos
‣Nadamos en un mar de datos
‣Sectores de Aplicación
Pitfalls
‣Data vs Big Data
‣Data Science vs Big Data
‣Costes ocultos
Herramientas
+Escenarios
‣Ecosistema Hadoop
‣NoSQL
‣Real-time
Bibliografía
2
3. ¿Qué es el Big Data?
“Data will help us” - Jonathan Harris
3
5. ¿Qué es el Big Data?
“Big Data is a collection of data sets so large
and complex that it becomes difficult to
process using on-hand database management
tools or traditional data processing
applications”
http://en.wikipedia.org/wiki/Big_data
5
6. ¿Qué es el Big Data?
-
Big Data y las 3 ‘V’
-
Velocidad
Volumen
Variedad
http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-DataVolume-Velocity-and-Variety.pdf
6
7. ¿Qué es el Big Data? (de verdad)
- Twitter: 340 millones de
tweets diarios (~= 1TB/día)
- Facebook: 800 millones de
status diarios
- Google: 1000 millones de
consultas diarias
http:/
/www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocityand-volume-from-structuredata-2012
7
8. ¿Qué es el Big Data? (de verdad)
Explosión de Uso
Explosión Social
Explosión Móvil
8
10. El Valor de Big Data
http://labratrevenge.com/pdx
10
11. El Valor de Big Data
http://7.mshcdn.com/wp-content/uploads/2012/06/DataNeverSleeps.jpg
11
12. El Valor de Big Data:
Big Data Analysis
‣Estadístico
‣Texto
‣Análisis de Redes Sociales
‣Análisis GeoEspacial
12
13. El Valor de Big Data:
Ámbitos de Aplicación
‣Marketing/Publicidad/Comunicación
‣Customer Insights
‣Growth Hacking
‣Salud
‣Escalabilidad
13
14. El Valor de Big Data:
Publicidad
https://de5w14y12gh72.cloudfront.net/website/bluefin_mit-tech-review.pdf
14
15. El Valor de Big Data:
Customer Insights
http://innovabbva.outliers.es/mapas.html
15
16. El Valor de Big Data:
Growth Hacking
‣Impactos de tests A/B
‣Incrementar el Retention Rate
‣Incrementar los leads
‣Incremental el engagement
16
17. El Valor de Big Data:
Growth Hacking
https://www.youtube.com/watch?v=eqeS8US10_k
17
18. El Valor de Big Data:
Salud
https://www.23andme.com/ancestry/
18
19. El Valor de Big Data
Ciencias Sociales
http://www.pewinternet.org/2014/02/20/part-2-conversational-archetypes-six-conversation-and-group-network-structures-in-twitter/
#network-type-6-support-network
19
20. El Valor de Big Data:
Publicidad
http://blog.marketo.com/2013/09/get-more-email-opens-and-clicks-using-behavioral-targeting.html
20
21. El Valor de Big Data
Escalabilidad
http://www.slideshare.net/davidpoblador/spotify-bcn2013slideshare
21
22. El Valor de Big Data
Antropología
http://www.ted.com/talks/what_we_learned_from_5_million_books.html
http://www.brainpickings.org/index.php/2014/01/17/uncharted-big-data/
22
23. El Valor de Big Data
Urbanismo
http://bcnbeats.outliers.es/
23
25. Big Data vs Data
‣Big Data ~= MB/s o volúmenes de TB
‣El 90% de los trabajos hablan de Big Data y
quieren decir Data
‣No es lo mismo coger datos de Twitter
que ser Twitter
‣Se confunde el fenómeno con el problema
25
26. Data Science vs Big Data
‣Técnicamente:
‣Data Science crea modelos
‣Big Data provee de infraestructura
‣En la práctica:
‣Si creas un modelo a partir de una
muestra de Big Data haces Big Data
‣Los perfiles son COMPLETAMENTE
diferentes!!
‣Big Data sin Data Science no es NADA
26
27. Big Data: Costes Ocultos
‣Computer Science First, Big Data Second!!
‣Probar en muestras significativas, SIEMPRE
‣Llegar hasta la presentación de los datos
con la muestra, lo más rápido posible
‣Funcionar con hipótesis
27
29. El ecosistema Hadoop
¿Qué es un Cluster Hadoop?
Un conjunto de servidores (nodos), sobre el que se
ejecutan procesos MapReduce y que comparten
datos mediante HDFS (Hadoop Distributed File
System
29
30. Ecosistema Hadoop
MAPREDUCE: Divide y vencerás
MAP:
Función de procesado.
Los datos se particionan y se pasa cada ‘trozo’ a una función ‘map’
La función ‘map’ es sin estado
REDUCE
Función de reducción
La salida del map es la entrada del reduce
Se usa para consolidar y eliminar redundancias
30
33. Ecosistema Hadoop
HDFS
‣ Implementa un único sistema de ficheros
‘juntando las capacidades’ de todos los
nodos
‣ Es transparente para el programador
‣ Se implementa tolerancia a fallos con nodos
de ‘backup’
33
38. Problemas de las BBDD
relacionales
‣ Leer datos completos es costoso (‘joins’)
‣ Transacciones (‘integridad’)
‣ Escalabilidad
‣ Cambio del modelo de datos (migraciones)
38
39. Soluciones NoSQL
‣ Almacenes clave-valor (Redis, BerkeleyDB,
Tokyo Cabinet)
‣ Orientadas a documento (MongoDB,
CouchDB, ElasticSearch, Solr)
‣ Orientadas a columnas (Cassandra, HBase,
BigTable)
39
40. Real-time processing
‣ Batch vs Real-time
‣ Hadoop anclado en Java
‣ Spark (Scala)
‣ Storm (Clojure)
http://www.ibm.com/developerworks/library/os-spark/#resources
40