El documento presenta una introducción al análisis de grandes datos (Big Data) y ciencia de datos. Detalla los pasos del proceso de innovación con datos, incluyendo el análisis exploratorio de datos, formulación de hipótesis, limpieza y preparación de datos, creación de productos de datos, establecimiento de un pipeline de datos, medición y aprendizaje. También analiza cómo cuatro compañías líderes han incorporado equipos de ciencia de datos para impulsar la innovación.
6. Source: Matt Turck, Jim Hao & First Mark Capital
Data Science
Machine Learning
SVM
Cross validation
Random forest
R Studio
Linear regression
Logistic regression
Hadoop
Python
Neural networks
Deep learning
K-means
Statistical significance
Boosting
7. Source: Matt Turck, Jim Hao & First Mark Capital
1)Sentimiento de
estar abrumados
52. 1. Data Dive
2. Pregunta
3. Hipótesis
4. Data
5. Data Wrangling
6. Data Products
Tengo datos,
¿ahora?
53. Fuente: E. de Jonge & M. van der Loo, 2013. An introduction to data cleaning with R. Technical report, Statistics Netherlands.
1. Data Dive
2. Pregunta
3. Hipótesis
4. Data
5. Data Wrangling
6. Data Products
Data Cleaning
Data Cleansing
Data Scrubbing
Tidy Data
Interpretación
Comunicación
Tengo datos,
¿ahora?
54. Fuente: E. de Jonge & M. van der Loo, 2013. An introduction to data cleaning with R. Technical report, Statistics Netherlands.
1. Data Dive
2. Pregunta
3. Hipótesis
4. Data
5. Data Wrangling
6. Data Products
Data Cleaning
Data Cleansing
Data Scrubbing
Tidy Data
Interpretación
Comunicación
Tengo datos,
¿ahora?
55. Visualizaciones
1. Data Dive
2. Pregunta
3. Hipótesis
4. Data
5. Data Wrangling
6. Data Products
Datos
Reportes
Modelos
[
{
"Nombre": "Frans",
"Apellido": "van Dunné",
"score": 0.68
},
{
"Nombre": "Diego",
"Apellido": "May",
"score": 0.68
}
]
Tengo datos,
¿ahora?
56. Data Pipeline
1. Data Dive
2. Pregunta
3. Hipótesis
4. Data
5. Data Wrangling
6. Data Products
7. Data Pipeline
7
Tengo datos,
¿ahora?
57. Analizar y
Modelar
Ingerir y
Almacenar
Organizar
y Limpiar
Data Pipeline
Integrar y
Validar
Incremento de valor de datos
1. Data Dive
2. Pregunta
3. Hipótesis
4. Data
5. Data Wrangling
6. Data Products
7. Data Pipeline
7
Call
Center
Online behaviors
Twitter
Past sales
Industry
Data
Facebook
Client
profiles
Employee
profiles
Data
Model
Visualization
Report
Tengo datos,
¿ahora?
58. Medir y aprender
1. Data Dive
2. Pregunta
3. Hipótesis
4. Data
5. Data Wrangling
6. Data Products
7. Data Pipeline
8. Medición
Tengo datos,
¿ahora?
Buenos dias! Esperamos hayan pasado ayer un buen día y que haya sido muy productivo
El objetivo del día de ayer era que
De la mano de Oldemar tuvieran una visión general a la industria y conceptos principles
De la mano del prof Diday pudieran sumergirse en algo técnico para que vean la profundidad existente en distintos nichos del Big Data
Luego en los talleres vieron los 2 lenguajes principales de la ciencia de datos
Durante el día de hoy → Aplicaciones e implementación
Veremos mas la aplicación de Big Data y Ciencia de datos
Por la mañana Florian y yo les contaremos cosas acerca de como implementar ciencia de datos
Por la tarde verán web mining y seteo de infraetructura para crear productos de datos
Para comenzar el ecosistema es GIGANTE. Hay:
muchas empresas con tecnología (MSFT, AWS, Google, IBM),
muchos proveedores de servicios (consultoras varias, individuos),
muchas soluciones open source (R, Python, Airflow, Luigi, Pachyderm)
con distintos tipos de comunidades
y distintos grados de madurez
A nivel técnico y de Infraestructura, hay bastantes áreas a considerar:
Tipo de Datos que manejo (estructurados, no estructurados, semi-estructurados)
Tipo de bases de datos a utilizar (SQL, NoSQL, Hadoop)
Tipos de análisis que deberé realizar
Velocidad a la que debo operar (milisegundos? días?)
Luego llegan otras decisiones sobre Lenguajes:
R
Python
Julia
E incluso decisiones sobre tipos de aplicaciones:
Queremos clasificar?
Queremos agrupar?
Queremos asociar?
Queremos predecir?
El ecosistema es complejo y en plena evolución…
Hay muchos que saben y otros que dicen saber…
Existe el sentimiento de ´tengo que hacer algo con Big Data´!!! …
→ Síndrome del mecánico
Sabemos que el carro tiene un problema…
Lo único que podemos hacer (si no tenemos el mecánico de confianza) es ir a que nos maten...
Diego - introduccion
Estos procesos son de incertidumbre…
Es claro que tenemos datos, y se ve el potencial de lo que se podría hacer…
Hay que invertir… y los resultados no son necesariamente inmediatos…
A veces hay que poner dinero en infraestructura para ordenar la casa antes de generar nada…
Esto requiere un empuje político en todas las organizaciones.
He visto esto llegando desde:
El CEO o la junta directiva (y en gobiernos desde el ´city council´)
Desde alguna gerencia
O incluso desde IT con alguien con mucho conocimiento (en estos casos requiriendo ´quick wins´ como estrategia para poder evangelizar)
Y hay incertidumbre:
aunque exista un plan
Aunque se asignen recursos
… no está claro que habrá al final del proyecto inicial
En muchos casos vimos bastante resistencia…
El status quo siempre es cómodo…
Hay gente que no gana demasiado con buena exposición de datos…
Hay gente que simplemente no quiere innovar!
Hay personal que cree que va a perder poder
Finalmente: Data Science requiere ´inversión´ y ´experimentación´… hay que dar ese salto para invertir y estar dispuestos a experimentar.
No todo lo que se genere va a ser de valor… pero es cosa de ir construyendo una cultura en la empresa que ve la oportunidad de sacar valor de los datos
...
En muchos casos vimos bastante resistencia…
El status quo siempre es cómodo…
Hay gente que no gana demasiado con buena exposición de datos…
Hay gente que simplemente no quiere innovar!
Hay personal que cree que va a perder poder
Finalmente: Data Science requiere ´inversión´ y ´experimentación´… hay que dar ese salto para invertir y estar dispuestos a experimentar.
No todo lo que se genere va a ser de valor… pero es cosa de ir construyendo una cultura en la empresa que ve la oportunidad de sacar valor de los datos
...
Para comenzar es preciso hacerse estas 2 preguntas…
Incluso cuando ya hay un grupo para hacer ciencia de datos...
Y luego comenzar a desarrollar esos ´productos´ de datos
Explicar que es Stitch Fix
→ ¿Por que tienen mas de 65 personas colaborando con las distintas áreas del negocio para innovar constantemente respecto a datos?
Las recomendaciones generan:
35 % de ventas en Amazon
50 % de conexiones en LinkedIn
75 % de películas vistas en Netflix
100% de ventas en Stitch Fix
Mucho de lo que me tocó ver en Latam busca:
Entender lo que se hace con Big Data en Estados Unidos
Buscar formas simples de bajarlo a tierra
Generar quick wins para mostrar el valor
Perfilado de usuarios y agentes
Análisis y Predicción
Data Products
JSON & API may need to be explained
JSON & API may need to be explained
JSON & API may need to be explained
JSON & API may need to be explained
Mencionar que es framework propietario de ixpantia.
Data Persona →
+
Data Perspective →
+
Data Process →
MAS SOBRE DATA WRANGLING
EJEMPLOS
COSAS QUE HAY QUE HACER
ALGUN ESQUEMA RELEVANTE PARA Data Wrangling
(gustan los esquemas o ´Marcos Conceptuales´
PUEDE SER CON R STUDIO (pero tiene que ser breve)
MAS SOBRE DATA WRANGLING
EJEMPLOS
COSAS QUE HAY QUE HACER
ALGUN ESQUEMA RELEVANTE PARA Data Wrangling
(gustan los esquemas o ´Marcos Conceptuales´
PUEDE SER CON R STUDIO (pero tiene que ser breve)
MAS SOBRE DATA WRANGLING
EJEMPLOS
COSAS QUE HAY QUE HACER
ALGUN ESQUEMA RELEVANTE PARA Data Wrangling
(gustan los esquemas o ´Marcos Conceptuales´
PUEDE SER CON R STUDIO (pero tiene que ser breve)
Hablar de los distintos tipos de productos de datos.
Mostrar para el caso de AM la interfaz web y la API
Hasta se podría hacer un llamado a la API
Model boundaries: K nearest neighbour classifier with fancy plot as explained on : http://stackoverflow.com/questions/31234621/variation-on-how-to-plot-decision-boundary-of-a-k-nearest-neighbor-classifier-f/31236327
Lo que no se mide
no existe en el contexto de
innovación con base en datos
Ideas:
El objetivo es tener impacto. Pero no hay impacto que no mides ….
Base Line measurement
KPI Monitoring
Report in terms of KPI changes
Find bottlenecks, optimize, check if questions are answered.
What you cannot measure does not exist in a data driven world
Gut feeling and intuition → Evidence based decision and actions
Ideas:
Saliendo al mundo pronto…
Si o si se van a cruzar con datos…
No hay un modelo que aplique a todas las organizaciones
Different organizations have to take different approaches
Cultura de innovación
Estructura organizacional
Data Access
Data literacy
Data privacy
Existen algunos modelos
Centralizado
Distribuído
Híbrido
Ideas:
Saliendo al mundo pronto…
Si o si se van a cruzar con datos…
No hay un modelo que aplique a todas las organizaciones
Different organizations have to take different approaches
Cultura de innovación
Estructura organizacional
Data Access
Data literacy
Data privacy
Existen algunos modelos
Centralizado
Distribuído
Híbrido