Big data se refiere a datos de alto volumen, velocidad y variedad que requieren formas innovadoras y rentables de procesamiento de información para obtener conocimientos y apoyar la toma de decisiones. El documento describe cómo las oficinas nacionales de estadística están explorando el uso de big data a través de proyectos piloto, y la necesidad de nuevas habilidades como el procesamiento de grandes cantidades de datos y el análisis visual para aprovechar completamente big data.
7. Según Gartner:
Big data is high-volume, high-velocity
and high-variety information assets
that demand cost-effective,
innovative forms of information
processing for enhanced insight and
decision making.
http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf @abxda
8. ¿Qué es Big Data?
Diciembre 2004
Octubre 2003
@abxda
9. ¿Qué es Big Data?
2006
> 100,000 Artículos
2007
@abxda
15. Big Data en las Oficinas Nacionales de
Estadística
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
Comisión Económica de las Naciones Unidas para Europa
@abxda
16. • It is clear that during the next two years there is
a need to identify a few pilot projects that will
serve as proof of concept.
• Statistical organisations are, therefore,
encouraged to address formally Big data issues
in their annual and multi-annual work
programmes by undertaking research and pilot
projects in selected areas and by allocating
appropriate resources for that purpose.
Big Data en las Oficinas Nacionales de
Estadística
@abxda
17. • 'new' exploration and analysis methods are
required: Visualization methods, Text mining, and
High Performance Computing.
• To use Big data, statisticians are needed with a
different mind-set and new skills. The
processing of more and more data for official
statistics requires statistically aware people with an
analytical mind-set, an affinity for IT (e.g.
programming skills)
Big Data en las Oficinas Nacionales de
Estadística
@abxda
19. Experto en
computación y
desarrollo
avanzados
(Big Data)
Experto en
Modelado
Estadístico
Experto en
el dominio de
datos
Unicornio
Zona
peligrosa!
Investigación
tradicional
Machine
learning
CIENCIA
DE
DATOS
http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html
@abxda
20. Equipo Big Data
• Expertos en el Dominio de los Datos, Especialistas en el área de
interés.(Economistas, Expertos en percepción remota, Psiquiatras,
etc…)
• Científicos de Datos, expertos en integracion de soluciones Big
Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística).
• Estadisticos, expertos en modelado estadistico, enfoque en
aprendizaje estadístico (R).
• Desarrolladores de Software, expertos en desarrollo de software
(JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s
REST).
• Diseñadores Gráficos, expertos en presentación de información
(HTML5, CSS3, JavaScript, Twitter Bootstrap).
• Administradores de Sistemas, expertos en arquitecturas de
computo, infraestructura. Desde redes a clusters de computadoras
(Linux).
#sgvirtual
@abxda
21. Internet de las cosas
Internet de las personas
Internet de las ideas
Internet del todo
Datos
Crudos
hdfs://
Información
(Significado)
Tomar
Decisiones
Actuar
¿quién?
¿cuántos?
¿por qué?
¿qué?¿Dónde?
Análisis de Datos
Estadística Machine Learning
Estratificaciones
Análisis de Regresión
Muestreo
Mucho más…
Análisis de Redes (Grafos)
Minería de Datos
Volumen
Ciencia de Datos
(Transforma/Modela)
Cómputo Distribuido y Paralelo
Arquitectura
Big Data/Ciencia de Datos
@abxda
22. %Acceso a Internet, %Pc, %Telefono Celular, %Automovil
En la misma Pc de 4 Procesadores:
(2013)
Software Tiempo Manzanas
Big Data
(Spark)
8 Seg. 1’221,18
0
Tradicional
(R)
8 Seg. 2,666
https://spark.apache.org/
2013
@abxda
23. Twitter como fuente de Big Data (Primer
Proyecto Piloto)
Para medir el pulso emotivo de México
…y mucho más …
@abxda
40. Siguientes Pasos
• Colaboraciones Internacionales con ONU, para
explorar el uso de Big Data en el calculo de los
Indicadores de Desarrollo Sostenible.
• Ampliar los trabajos a mas Fuentes de Big Data:
Datos de Telefonía Móvil, Imágenes de Satélite, etc.
• Salud Mental en Adolescentes con Data2x y
Instituto Nacional de Psiquiatría
• Producto del Ánimo Tuitero en Tiempo Real
@abxda
Academia, Supercomputadoras, Ciencias Naturales, Aquí se proponen 2 ideas fundamentales de Big Data: que los algoritmos de procesamiento sean los que viajen (Computo Distribuido) y dividir los consuntos masivos en pedazos mas pequeños (Sistemas de Archivos Distribuidos). Que las maquinas que tienen los datos los procesen en lugar de transferir los datos para procesarlos en otro lugar, data locality.