SlideShare uma empresa Scribd logo
1 de 44
Baixar para ler offline
Machine Learning en el mundo real
De los Datos a las Predicciones
Un caso práctico del sector turístico
Andrés González
Responsable Área Big Data
andresg@clevertask.com
Twitter: @data_lytics
CleverTask Solutions SL - Big Data Business Unit 2
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 3
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 4
Sector hotelero
• % ocupación de
hoteles.
• Riesgo de
cancelación de
reservas.
• Ingresos.
CleverTask Solutions SL - Big Data Business Unit 5
Necesidad de negocio
Predecir la
NACIONALIDAD
de los clientes
ANTES de
llegar al hotel
CleverTask Solutions SL - Big Data Business Unit 6
Organizar el personal
Idiomas
CleverTask Solutions SL - Big Data Business Unit 7
Preparar actividades
CleverTask Solutions SL - Big Data Business Unit 8
Organizar las cocinas
CleverTask Solutions SL - Big Data Business Unit 9
Personalizar la estancia
CleverTask Solutions SL - Big Data Business Unit 10
… los detalles marcan
la diferencia
En definitiva, porque…
CleverTask Solutions SL - Big Data Business Unit 11
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 12
Machine Learning básico
CleverTask Solutions SL - Big Data Business Unit 13
Machine Learning básico
¿Puedes encontrar patrones en estos datos?
CleverTask Solutions SL - Big Data Business Unit
14
Machine Learning básico
Datos históricos Entrenamiento Predicción
Nuevos datos Re-entrenamiento
CleverTask Solutions SL - Big Data Business Unit 15
“Cocinar” la predicción2
Ir al mercado a por los ingredientes
Limpiarlos
Transformarlos
Cocinar
Probar el plato
CleverTask Solutions SL - Big Data Business Unit 16
“Cocinar” la predicción2
Ir al mercado a por los ingredientes
Limpiarlos
Transformarlos
Cocinar
Probar el plato
Recogida de Datos en “crudo”
Limpieza de Datos
Transformación y Feature Engineering
Aprendizaje y Entrenamiento del Modelo
Evaluación de calidad de las predicciones
CleverTask Solutions SL - Big Data Business Unit 17
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 18
De dónde vienen los datos
Web propia
Webs de Partners
Datos en crudo
RAW
CleverTask Solutions SL - Big Data Business Unit 19
Datos RAW
Fichero .xlsx con
histórico de
1 año de reservas
Un registro por cada reserva
Características
•260.000 reservas
•80 campos
•57 categóricos
•9 numéricos
•10 tipo fecha
•3 tipo texto
•1 campo erróneo
•Tamaño: 150 MB
CleverTask Solutions SL - Big Data Business Unit 20
Datos RAW
CleverTask Solutions SL - Big Data Business Unit 21
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 22
Proceso
Datos en crudo
Nuevos campos
1 3 4
Datos RAW
Transforma
y Feature
Engineering
Datos limpios
Campos calculados
2
Limpieza Modelo
CleverTask Solutions SL - Big Data Business Unit 23
Limpieza de datos
CleverTask Solutions SL - Big Data Business Unit 24
Limpieza de datos
Borrado de filas
• Reservas sin check-in
• Reservas canceladas
• Registros con errores
Borrado de
columnas
• Identificadores vs
nombres
• Columnas con pocos
datos
Otras acciones
• Dar formato a las fechas
• Eliminar acentos
• Transformar de .xlsx
a .csv
CleverTask Solutions SL - Big Data Business Unit 25
Dataset limpio
Limpio
•150.000 reservas
•46 campos
•26 categóricos
•9 numéricos
•10 tipo fecha
•1 tipo texto
•Tamaño: 75MB
Sucio
•260.000 reservas
•80 campos
•57 categóricos
•9 numéricos
•10 tipo fecha
•3 tipo texto
•1 campo erróneo
•Tamaño: 150 MB
CleverTask Solutions SL - Big Data Business Unit 26
Proceso
Datos en crudo
Nuevos campos
1 3 4
Datos RAW
Transformaciones
y Feature
Engineering
Datos limpios
Campos calculados
2
Limpieza Modelo
CleverTask Solutions SL - Big Data Business Unit 27
Transformaciones
Agrupación de países
•Muchos países a predecir (210)
•Algunos países tienen muy
pocas instancias
•Objetivo de cada agrupación:
mín. 1% del total de instancias
•Total grupos: 20
Nuevos campos
• ANTELACIÓN_RESERVA (calculado):
fecha reserva-fecha entrada
• PAIS_HOTEL (nombre de país)
• ESTRELLAS_HOTEL (1-5)
CleverTask Solutions SL - Big Data Business Unit 28
Dataset limpio
Limpio
•150.000 reservas
•46 campos
•Tamaño: 75MB
Sucio
•260.000 reservas
•80 campos
•Tamaño: 150 MB
Transformado
•150.000 registros
•49 campos
•Tamaño: 80MB
CleverTask Solutions SL - Big Data Business Unit 29
Qué es Feature Engineering
Extraer la señal del ruido
CleverTask Solutions SL - Big Data Business Unit 30
Técnicas de Feature
Engineering
• Detectar los campos (features) que son predictores
(señal) y eliminar los que no (ruido)
• Campos dependientes (pax, días, pax*días)
• Campos supérfluos (número de reserva)
• Campos con pocos datos
• Campos aleatorios (minuto y segundo de la reserva)
• Conocimiento del sector
• Experiencia
• Ciclo recursivo
CleverTask Solutions SL - Big Data Business Unit 31
Recursive Feature
Engineering
CleverTask Solutions SL - Big Data Business Unit 32
Dataset limpio
Limpio
•150.000 reservas
•46 campos
•Tamaño: 75MB
Sucio
•260.000 reservas
•80 campos
•Tamaño: 150 MB
Transformado
•150.000 registros
•49 campos
•Tamaño: 80MB
Dataset Final
•150.000 registros
•10 campos
•7 categóricos
•2 numéricos
•1 fecha
•Tamaño: 55MB
CleverTask Solutions SL - Big Data Business Unit 33
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 34
Proceso
Datos en crudo
Nuevos campos
1 3 4
Datos RAW
Transformaciones
y Feature
Engineering
Datos limpios
Campos calculados
2
Limpieza Modelo
CleverTask Solutions SL - Big Data Business Unit 35
Modelo
Entrenamiento
Aprendizaje
CleverTask Solutions SL - Big Data Business Unit 36
Modelo
CleverTask Solutions SL - Big Data Business Unit 37
Agenda
Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
CleverTask Solutions SL - Big Data Business Unit 38
Calidad del modelo
CleverTask Solutions SL - Big Data Business Unit 39
Calidad del modelo
80%
20% Evaluación
Training
Test
Dataset
100%
Modelo
CleverTask Solutions SL - Big Data Business Unit 40
Calidad del modelo
Tasa de acierto Matriz de confusión
CleverTask Solutions SL - Big Data Business Unit 41
Calidad del modelo
54% 75%
CleverTask Solutions SL - Big Data Business Unit 42
Ir al mercado a por los ingredientes
Limpiarlos
Transformarlos
Cocinar
Probar el plato
Recogida de Datos en “crudo” (RAW)
Limpieza de Datos
Transformación y Feature Engineering
Aprendizaje y Entrenamiento del Modelo
Evaluación de calidad de las predicciones
Cocinar una predicción
80%
20%
CleverTask Solutions SL - Big Data Business Unit 43
Otras técnicas
Ensembles Clústers
Análisis de pesos Detección de anomalías
CleverTask Solutions SL - Big Data Business Unit 44
FIN
email: andresg@clevertask.com
Twitter: @data_lytics
www.clevertask.com
10 suscripciones PRO gratuitas
de 3 meses ($900)
Código: BBVADATAWEEK

Mais conteúdo relacionado

Destaque

Web TV: Estudio de usabilidad y funcionalidad de video players para web TV 2010
Web TV: Estudio de usabilidad y funcionalidad de video players para web TV  2010Web TV: Estudio de usabilidad y funcionalidad de video players para web TV  2010
Web TV: Estudio de usabilidad y funcionalidad de video players para web TV 2010Javier Lasa
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data ScienceSpanishPASSVC
 
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...GeneXus
 
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...Arcangel Campos
 
La búsqueda de información bibliográfica en el contexto de la información cie...
La búsqueda de información bibliográfica en el contexto de la información cie...La búsqueda de información bibliográfica en el contexto de la información cie...
La búsqueda de información bibliográfica en el contexto de la información cie...Education in the Knowledge Society PhD
 
Presentacion historia de la I A
Presentacion historia de la I APresentacion historia de la I A
Presentacion historia de la I AJose Lopez
 
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...Education in the Knowledge Society PhD
 
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del softwarePteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del softwaresara272016
 
Comparación Internacional del Sistema Universitario Español
Comparación Internacional del Sistema Universitario EspañolComparación Internacional del Sistema Universitario Español
Comparación Internacional del Sistema Universitario Españoleraser Juan José Calderón
 
Inteligencia Artificial Instituto Grilli Monte Grande
Inteligencia Artificial Instituto Grilli Monte GrandeInteligencia Artificial Instituto Grilli Monte Grande
Inteligencia Artificial Instituto Grilli Monte Grandevito mercogliano
 
Actas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
Actas Innovagogia 2014. II Congreso Virtual Innovación PedagógicaActas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
Actas Innovagogia 2014. II Congreso Virtual Innovación Pedagógicaeraser Juan José Calderón
 
Examen de transparencia Informe de transparencia voluntaria en la web de las ...
Examen de transparencia Informe de transparencia voluntaria en la web de las ...Examen de transparencia Informe de transparencia voluntaria en la web de las ...
Examen de transparencia Informe de transparencia voluntaria en la web de las ...eraser Juan José Calderón
 
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...eraser Juan José Calderón
 
Evolución de la Inteligencia Artificial
Evolución de la Inteligencia ArtificialEvolución de la Inteligencia Artificial
Evolución de la Inteligencia ArtificialFanny Ortega Luna
 
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...eraser Juan José Calderón
 
Identidad digital para investigadores. H-index y otros indices. Scival Strata
Identidad digital para investigadores. H-index y otros indices. Scival StrataIdentidad digital para investigadores. H-index y otros indices. Scival Strata
Identidad digital para investigadores. H-index y otros indices. Scival StrataInfobiblio_es Información Bibliográfica
 

Destaque (20)

Web TV: Estudio de usabilidad y funcionalidad de video players para web TV 2010
Web TV: Estudio de usabilidad y funcionalidad de video players para web TV  2010Web TV: Estudio de usabilidad y funcionalidad de video players para web TV  2010
Web TV: Estudio de usabilidad y funcionalidad de video players para web TV 2010
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data Science
 
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferenc...
 
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
Análisis interpretativo de la voluntad de poder de Nietzsche frente a la inte...
 
Proceso de propuesta y proyecto
Proceso de propuesta y proyectoProceso de propuesta y proyecto
Proceso de propuesta y proyecto
 
La búsqueda de información bibliográfica en el contexto de la información cie...
La búsqueda de información bibliográfica en el contexto de la información cie...La búsqueda de información bibliográfica en el contexto de la información cie...
La búsqueda de información bibliográfica en el contexto de la información cie...
 
Presentacion historia de la I A
Presentacion historia de la I APresentacion historia de la I A
Presentacion historia de la I A
 
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
Práctica del Seminario "Diseño y negociación de proyectos europeos sobre tecn...
 
Research line: Information society and education
Research line: Information society and educationResearch line: Information society and education
Research line: Information society and education
 
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del softwarePteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
Pteg g-grupox-lista8-9-13-20- 49-visita3-expo cap 7 tema ingenieria del software
 
Research line: Interaction and e learning
Research line: Interaction and e learningResearch line: Interaction and e learning
Research line: Interaction and e learning
 
Comparación Internacional del Sistema Universitario Español
Comparación Internacional del Sistema Universitario EspañolComparación Internacional del Sistema Universitario Español
Comparación Internacional del Sistema Universitario Español
 
Inteligencia Artificial Instituto Grilli Monte Grande
Inteligencia Artificial Instituto Grilli Monte GrandeInteligencia Artificial Instituto Grilli Monte Grande
Inteligencia Artificial Instituto Grilli Monte Grande
 
Actas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
Actas Innovagogia 2014. II Congreso Virtual Innovación PedagógicaActas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
Actas Innovagogia 2014. II Congreso Virtual Innovación Pedagógica
 
Examen de transparencia Informe de transparencia voluntaria en la web de las ...
Examen de transparencia Informe de transparencia voluntaria en la web de las ...Examen de transparencia Informe de transparencia voluntaria en la web de las ...
Examen de transparencia Informe de transparencia voluntaria en la web de las ...
 
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Recurs...
 
Evolución de la Inteligencia Artificial
Evolución de la Inteligencia ArtificialEvolución de la Inteligencia Artificial
Evolución de la Inteligencia Artificial
 
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...#AnticipaUS  Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
#AnticipaUS Plan Estratégico de la Universidad de Sevilla (2016-2025) Invest...
 
Identidad digital para investigadores. Introduccion
Identidad digital para investigadores. IntroduccionIdentidad digital para investigadores. Introduccion
Identidad digital para investigadores. Introduccion
 
Identidad digital para investigadores. H-index y otros indices. Scival Strata
Identidad digital para investigadores. H-index y otros indices. Scival StrataIdentidad digital para investigadores. H-index y otros indices. Scival Strata
Identidad digital para investigadores. H-index y otros indices. Scival Strata
 

Semelhante a De los datos a las predicciones

Operations & Data Graph
Operations & Data GraphOperations & Data Graph
Operations & Data GraphNeo4j
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenSoftware Guru
 
I Jornada Sistemas de Información para la Logística - Jordi Pairó.
 I Jornada Sistemas de Información para la Logística - Jordi Pairó. I Jornada Sistemas de Información para la Logística - Jordi Pairó.
I Jornada Sistemas de Información para la Logística - Jordi Pairó.Instituto Logístico Tajamar
 
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...Albert Obiols
 
Prodware Microsoft Dynamics 365 for Field Service
Prodware Microsoft Dynamics 365 for Field ServiceProdware Microsoft Dynamics 365 for Field Service
Prodware Microsoft Dynamics 365 for Field ServiceDepartamento de Marketing
 
Técnicas avanzadas para resolver tus problemas de sql server
Técnicas avanzadas para resolver tus problemas de sql serverTécnicas avanzadas para resolver tus problemas de sql server
Técnicas avanzadas para resolver tus problemas de sql serverEnrique Catala Bañuls
 
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...SolidQ
 
Microsoft Azure Data Environment
Microsoft Azure Data EnvironmentMicrosoft Azure Data Environment
Microsoft Azure Data EnvironmentJoseph Lopez
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big DataICEMD
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data PipelinesCarlos Fuentes
 
DexonBPM-Casos de uso.pdf
DexonBPM-Casos de uso.pdfDexonBPM-Casos de uso.pdf
DexonBPM-Casos de uso.pdfssuserfd1b561
 
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J SousaAdministraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J SousaLisa Muthukumar
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...COIICV
 
Sistemas de Soporte a las Decisiones.pptx
Sistemas de Soporte a las Decisiones.pptxSistemas de Soporte a las Decisiones.pptx
Sistemas de Soporte a las Decisiones.pptxJosAlumno
 
Observabilidad Global en Entel Perú con Elastic
Observabilidad Global en Entel Perú con ElasticObservabilidad Global en Entel Perú con Elastic
Observabilidad Global en Entel Perú con ElasticElasticsearch
 
sistemasdeinformacin-090908160107-phpapp01.pdf
sistemasdeinformacin-090908160107-phpapp01.pdfsistemasdeinformacin-090908160107-phpapp01.pdf
sistemasdeinformacin-090908160107-phpapp01.pdfandresvargasbeato
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataBEEVA_es
 
2016 ULL Cabildo KEEDIO - Como se empieza
2016 ULL Cabildo KEEDIO - Como se empieza2016 ULL Cabildo KEEDIO - Como se empieza
2016 ULL Cabildo KEEDIO - Como se empiezaKEEDIO
 

Semelhante a De los datos a las predicciones (20)

Plataformas tecnologicas
Plataformas tecnologicas Plataformas tecnologicas
Plataformas tecnologicas
 
Operations & Data Graph
Operations & Data GraphOperations & Data Graph
Operations & Data Graph
 
Data Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesenData Mining: Torturando los datos hasta que confiesen
Data Mining: Torturando los datos hasta que confiesen
 
I Jornada Sistemas de Información para la Logística - Jordi Pairó.
 I Jornada Sistemas de Información para la Logística - Jordi Pairó. I Jornada Sistemas de Información para la Logística - Jordi Pairó.
I Jornada Sistemas de Información para la Logística - Jordi Pairó.
 
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
BrokerTrade Aplicación para la recomendación de compra de Acciones en tiempo ...
 
Prodware Microsoft Dynamics 365 for Field Service
Prodware Microsoft Dynamics 365 for Field ServiceProdware Microsoft Dynamics 365 for Field Service
Prodware Microsoft Dynamics 365 for Field Service
 
Técnicas avanzadas para resolver tus problemas de sql server
Técnicas avanzadas para resolver tus problemas de sql serverTécnicas avanzadas para resolver tus problemas de sql server
Técnicas avanzadas para resolver tus problemas de sql server
 
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
 
Microsoft Azure Data Environment
Microsoft Azure Data EnvironmentMicrosoft Azure Data Environment
Microsoft Azure Data Environment
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data Pipelines
 
DexonBPM-Casos de uso.pdf
DexonBPM-Casos de uso.pdfDexonBPM-Casos de uso.pdf
DexonBPM-Casos de uso.pdf
 
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J SousaAdministraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
Administraci N De Los Sistemas De Informaci N 7Ma Edici N Kenneth J Sousa
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 
Sistemas de Soporte a las Decisiones.pptx
Sistemas de Soporte a las Decisiones.pptxSistemas de Soporte a las Decisiones.pptx
Sistemas de Soporte a las Decisiones.pptx
 
Observabilidad Global en Entel Perú con Elastic
Observabilidad Global en Entel Perú con ElasticObservabilidad Global en Entel Perú con Elastic
Observabilidad Global en Entel Perú con Elastic
 
sistemasdeinformacin-090908160107-phpapp01.pdf
sistemasdeinformacin-090908160107-phpapp01.pdfsistemasdeinformacin-090908160107-phpapp01.pdf
sistemasdeinformacin-090908160107-phpapp01.pdf
 
Desmitificando un proyecto de Big Data
Desmitificando un proyecto de Big DataDesmitificando un proyecto de Big Data
Desmitificando un proyecto de Big Data
 
Caso - Caixa Galicia
Caso - Caixa GaliciaCaso - Caixa Galicia
Caso - Caixa Galicia
 
2016 ULL Cabildo KEEDIO - Como se empieza
2016 ULL Cabildo KEEDIO - Como se empieza2016 ULL Cabildo KEEDIO - Como se empieza
2016 ULL Cabildo KEEDIO - Como se empieza
 

Último

Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdfINFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdfMiguelGomez900779
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalMarcosAlvarezSalinas
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfPOULANDERSONDELGADOA2
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfalexanderleonyonange
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdfJC Díaz Herrera
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfDodiAcuaArstica
 

Último (20)

Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdfINFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajal
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdf
 

De los datos a las predicciones

  • 1. Machine Learning en el mundo real De los Datos a las Predicciones Un caso práctico del sector turístico Andrés González Responsable Área Big Data andresg@clevertask.com Twitter: @data_lytics
  • 2. CleverTask Solutions SL - Big Data Business Unit 2 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 3. CleverTask Solutions SL - Big Data Business Unit 3 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 4. CleverTask Solutions SL - Big Data Business Unit 4 Sector hotelero • % ocupación de hoteles. • Riesgo de cancelación de reservas. • Ingresos.
  • 5. CleverTask Solutions SL - Big Data Business Unit 5 Necesidad de negocio Predecir la NACIONALIDAD de los clientes ANTES de llegar al hotel
  • 6. CleverTask Solutions SL - Big Data Business Unit 6 Organizar el personal Idiomas
  • 7. CleverTask Solutions SL - Big Data Business Unit 7 Preparar actividades
  • 8. CleverTask Solutions SL - Big Data Business Unit 8 Organizar las cocinas
  • 9. CleverTask Solutions SL - Big Data Business Unit 9 Personalizar la estancia
  • 10. CleverTask Solutions SL - Big Data Business Unit 10 … los detalles marcan la diferencia En definitiva, porque…
  • 11. CleverTask Solutions SL - Big Data Business Unit 11 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 12. CleverTask Solutions SL - Big Data Business Unit 12 Machine Learning básico
  • 13. CleverTask Solutions SL - Big Data Business Unit 13 Machine Learning básico ¿Puedes encontrar patrones en estos datos?
  • 14. CleverTask Solutions SL - Big Data Business Unit 14 Machine Learning básico Datos históricos Entrenamiento Predicción Nuevos datos Re-entrenamiento
  • 15. CleverTask Solutions SL - Big Data Business Unit 15 “Cocinar” la predicción2 Ir al mercado a por los ingredientes Limpiarlos Transformarlos Cocinar Probar el plato
  • 16. CleverTask Solutions SL - Big Data Business Unit 16 “Cocinar” la predicción2 Ir al mercado a por los ingredientes Limpiarlos Transformarlos Cocinar Probar el plato Recogida de Datos en “crudo” Limpieza de Datos Transformación y Feature Engineering Aprendizaje y Entrenamiento del Modelo Evaluación de calidad de las predicciones
  • 17. CleverTask Solutions SL - Big Data Business Unit 17 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 18. CleverTask Solutions SL - Big Data Business Unit 18 De dónde vienen los datos Web propia Webs de Partners Datos en crudo RAW
  • 19. CleverTask Solutions SL - Big Data Business Unit 19 Datos RAW Fichero .xlsx con histórico de 1 año de reservas Un registro por cada reserva Características •260.000 reservas •80 campos •57 categóricos •9 numéricos •10 tipo fecha •3 tipo texto •1 campo erróneo •Tamaño: 150 MB
  • 20. CleverTask Solutions SL - Big Data Business Unit 20 Datos RAW
  • 21. CleverTask Solutions SL - Big Data Business Unit 21 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 22. CleverTask Solutions SL - Big Data Business Unit 22 Proceso Datos en crudo Nuevos campos 1 3 4 Datos RAW Transforma y Feature Engineering Datos limpios Campos calculados 2 Limpieza Modelo
  • 23. CleverTask Solutions SL - Big Data Business Unit 23 Limpieza de datos
  • 24. CleverTask Solutions SL - Big Data Business Unit 24 Limpieza de datos Borrado de filas • Reservas sin check-in • Reservas canceladas • Registros con errores Borrado de columnas • Identificadores vs nombres • Columnas con pocos datos Otras acciones • Dar formato a las fechas • Eliminar acentos • Transformar de .xlsx a .csv
  • 25. CleverTask Solutions SL - Big Data Business Unit 25 Dataset limpio Limpio •150.000 reservas •46 campos •26 categóricos •9 numéricos •10 tipo fecha •1 tipo texto •Tamaño: 75MB Sucio •260.000 reservas •80 campos •57 categóricos •9 numéricos •10 tipo fecha •3 tipo texto •1 campo erróneo •Tamaño: 150 MB
  • 26. CleverTask Solutions SL - Big Data Business Unit 26 Proceso Datos en crudo Nuevos campos 1 3 4 Datos RAW Transformaciones y Feature Engineering Datos limpios Campos calculados 2 Limpieza Modelo
  • 27. CleverTask Solutions SL - Big Data Business Unit 27 Transformaciones Agrupación de países •Muchos países a predecir (210) •Algunos países tienen muy pocas instancias •Objetivo de cada agrupación: mín. 1% del total de instancias •Total grupos: 20 Nuevos campos • ANTELACIÓN_RESERVA (calculado): fecha reserva-fecha entrada • PAIS_HOTEL (nombre de país) • ESTRELLAS_HOTEL (1-5)
  • 28. CleverTask Solutions SL - Big Data Business Unit 28 Dataset limpio Limpio •150.000 reservas •46 campos •Tamaño: 75MB Sucio •260.000 reservas •80 campos •Tamaño: 150 MB Transformado •150.000 registros •49 campos •Tamaño: 80MB
  • 29. CleverTask Solutions SL - Big Data Business Unit 29 Qué es Feature Engineering Extraer la señal del ruido
  • 30. CleverTask Solutions SL - Big Data Business Unit 30 Técnicas de Feature Engineering • Detectar los campos (features) que son predictores (señal) y eliminar los que no (ruido) • Campos dependientes (pax, días, pax*días) • Campos supérfluos (número de reserva) • Campos con pocos datos • Campos aleatorios (minuto y segundo de la reserva) • Conocimiento del sector • Experiencia • Ciclo recursivo
  • 31. CleverTask Solutions SL - Big Data Business Unit 31 Recursive Feature Engineering
  • 32. CleverTask Solutions SL - Big Data Business Unit 32 Dataset limpio Limpio •150.000 reservas •46 campos •Tamaño: 75MB Sucio •260.000 reservas •80 campos •Tamaño: 150 MB Transformado •150.000 registros •49 campos •Tamaño: 80MB Dataset Final •150.000 registros •10 campos •7 categóricos •2 numéricos •1 fecha •Tamaño: 55MB
  • 33. CleverTask Solutions SL - Big Data Business Unit 33 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 34. CleverTask Solutions SL - Big Data Business Unit 34 Proceso Datos en crudo Nuevos campos 1 3 4 Datos RAW Transformaciones y Feature Engineering Datos limpios Campos calculados 2 Limpieza Modelo
  • 35. CleverTask Solutions SL - Big Data Business Unit 35 Modelo Entrenamiento Aprendizaje
  • 36. CleverTask Solutions SL - Big Data Business Unit 36 Modelo
  • 37. CleverTask Solutions SL - Big Data Business Unit 37 Agenda Necesidad de negocio1 “Cocinar” la predicción2 Recogida de ingredientes3 Limpieza y Transformaciones4 La receta (el modelo)5 Probar el plato6
  • 38. CleverTask Solutions SL - Big Data Business Unit 38 Calidad del modelo
  • 39. CleverTask Solutions SL - Big Data Business Unit 39 Calidad del modelo 80% 20% Evaluación Training Test Dataset 100% Modelo
  • 40. CleverTask Solutions SL - Big Data Business Unit 40 Calidad del modelo Tasa de acierto Matriz de confusión
  • 41. CleverTask Solutions SL - Big Data Business Unit 41 Calidad del modelo 54% 75%
  • 42. CleverTask Solutions SL - Big Data Business Unit 42 Ir al mercado a por los ingredientes Limpiarlos Transformarlos Cocinar Probar el plato Recogida de Datos en “crudo” (RAW) Limpieza de Datos Transformación y Feature Engineering Aprendizaje y Entrenamiento del Modelo Evaluación de calidad de las predicciones Cocinar una predicción 80% 20%
  • 43. CleverTask Solutions SL - Big Data Business Unit 43 Otras técnicas Ensembles Clústers Análisis de pesos Detección de anomalías
  • 44. CleverTask Solutions SL - Big Data Business Unit 44 FIN email: andresg@clevertask.com Twitter: @data_lytics www.clevertask.com 10 suscripciones PRO gratuitas de 3 meses ($900) Código: BBVADATAWEEK