Taller práctico de Analítica Predictiva con Rapid Miner
1. Limitless Power of Information (LPI)
AddKw S.r.L.
TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER
CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
1
FORMACION PRÁCTICA EN ANALITICA PREDICTIVA
24 DE FULL PRÁCTICA
2. Limitless Power of Information (LPI)
AddKw S.r.L.
TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER
CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
2
1. SUMILLA
El análisis predictivo relaciona los datos con las acciones efectuadas por las organizaciones
tal que permitan llegar a conclusiones fiables sobre eventos actuales y futuros, permite
mejorar el conocimiento del negocio tal como el comportamiento de los clientes,
empleados, pacientes, estudiantes y ciudadanos. Los dominios de aplicación pueden estar
en empresas comercializadoras, de producción, finanzas, energía, gobierno, etc.
La minería de datos es el proceso de descubrir conocimiento desde bases de datos,
mediante un proceso de extracción no trivial de información implícita, previamente
desconocida y potencialmente útil. Descubrir conocimiento implica buscar patrones de
comportamiento aún no conocidos en los datos. El conocimiento se puede manifestar
como: patrones, reglas de conocimiento, asociaciones, grupos, restricciones, tendencias,
etc.
La minería de textos es el proceso para descubrir conocimiento almacenado en documentos
(datos no estructurados). Comprende las siguientes actividades fundamentales:
Clasificación de documentos para la asignación automática a clases pre-definidas;
Agrupamiento de documentos para la identificación de documentos similares; Recuperación
de información (similar a un buscador); Extracción de la información incluida en esos
textos (hechos); y Extracción de asociaciones entre los hechos extraídos.
2. OBJETIVOS
Al final del curso los alumnos estarán en capacidad de:
Comprender y usar las técnicas para el muestreo, descripción, limpieza y
transformación de datos mediante la identificación y eliminación de datos extremos,
valores nulos y datos mal clasificados, la selección de características y el balanceo de
datos.
Comprender el proceso de la minería de datos para extraer patrones de
comportamiento haciendo uso de la metodología CRISP-DM.
Diseñar, desarrollar, evaluar y comprender los modelo descriptivos – reglas de
asociación y agrupamiento y los modelos predictivos – clasificación y regresión, con la
finalidad de identificar patrones de comportamiento (conocimiento oculto).
Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los
modelos basado en su efectividad haciendo uso de la matriz de clasificación y del MAPE
Comprender, usar y entender los resultados entregados por los programas de software.
Entender y aplicar los algoritmos de redes neuronales, árboles de decisión, modelo
naive bayes, regresión logística, k-means, maximización de expectativas y algoritmo a
priori.
3. Limitless Power of Information (LPI)
AddKw S.r.L.
TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER
CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
3
3. LA METODOLOGIA DE ENSEÑANZA
El curso se desarrolla a través de procesos de e-learning de transferencia de conocimiento,
basados en la plataforma TeamViewer (TeamViewer es un plataforma altamente eficiente
en el proceso de intercambio de conocimiento).
Se presentarán diapositivas y transparencias para las sesiones del curso.
En cada sesión se desarrolla un grupo de conceptos que luego son reforzados mediante
el desarrollo de un caso de aplicación práctica.
Tareas domiciliarias para desarrollar casos que integran los conceptos previamente
aprendidos.
4. DOMINIOS DE APLICACIÓN
Riesgos Financieros
Riesgos de Fraudes
Riesgos de Accidentes de Trabajo
Deserción de clientes
Detección de fraudes
Segmentación de Clientes
Ventas Cruzadas
Patrones Secuenciales
Análisis de opiniones subjetivas
Similaridad de documentos
Búsqueda e indexación de documentos
Análisis de mensajes en redes sociales
Análisis de encuestas abiertas.
Análisis de post en blogs.
Análisis de correos electrónicos (spam).
Estructuración de base de datos.
5. REQUISITOS
Cada estudiante debe disponer de una computadora personal.
1. Una Línea de Internet mínimo de 2 MB.
2. Un equipo I5 con mínimo 4 GB de RAM, Tercera Generación, ya que se les entregará
una máquina virtual con el Software Base Instalado.
3. Debe tener el Audio y el video correcto.
Es deseable que los alumnos tengan experiencia en (no indispensable) en:
4. Base de datos relacionales (MS SQL, mySQL, Oracle, Sybase, etc.)
5. Estadística y probabilidades
6. Hoja de cálculo.
4. Limitless Power of Information (LPI)
AddKw S.r.L.
TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER
CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
4
6. QUIENES PUEDEN ASISTIR
Analistas de riesgos.
Analistas de marketing en la web.
Analistas de marketing, mercadeo o de pronóstico.
Investigadores de mercado que desean analizar encuestas abiertas.
Personal involucrado en proyectos de Business Intelligence.
Personal involucrado en proyectos de pronóstico y predicción.
Profesionales de estadísticos y economía.
Profesionales en estadística interesados en analizar el contenido de textos no
estructurados (formularios, encuestas, etc.).
Administradores de Bases de Datos.
7. EVALUACIONES
Se plantea el desarrollo de casos de aplicación que deben ser entregado durante el
desarrollo del curso.
El enunciado de los casos de aplicación se entregá al finalizar cada sesión.
8. CERTIFICADO
Para recibir el certificado de aprobación del curso, los alumnos deben asistir al 100% de
las sesiones y desarrollar un conjunto de ejercicios que demuestran su aprendizaje.
Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una
constancia de asistencia por 16 horas.
9. DURACION
24 horas
10.SOFTWARE PARA EL DESARROLLO DEL CURSO
Para el desarrollo del curso se hace uso del software libre Rapidminer.
5. Limitless Power of Information (LPI)
AddKw S.r.L.
TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER
CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
5
11.BIBLIOGRAFIA
1. Introducción a la minería de datos. 2004. José Hernández, M.José Ramírez, Cèsar
Ferri. Editorial Pearson, ISBN: 84 205 4091 9
2. Data Mining with Microsoft SQL Server 2008. 2009 Jamie MacLennan, ZhaoHui Tang,
Bogdan Crivat. Wiley Publishing Inc. ISBN 908-0-470-27774-4
3. Data Mining: Practical Machine Learning Tools and Techniques. 2005 Ian H.
Witten, Eibe Frank. Morgan Kaufmann; 2st edition. 560 pp. ISBN: 0120884070
4. Data Mining: Concepts and Techniques, 2000 Jiawei Han, Micheline Kamber.
Morgan Kaufmann; 1st edition, 500 pp. ISBN: 1558604898
6. Limitless Power of Information (LPI)
AddKw S.r.L.
TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER
CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
6
12.UNIDADES Y CONTENIDOS TEMÁTICOS POR SESIÓN 24 Horas
Sesión HRS. TEMA
1 4
INTRODUCCIÓN A LOS FUNDAMENTOS DE MINERÍA DE DATOS
Fundamentos de análisis de datos. Conceptos y conocimientos previos.
Datos, información conocimiento, patrón de comportamiento,
reconocimiento de patrones Definición de la Minería de Datos.
Herramientas de software disponibles. Modelo de minería de datos.
Evaluación del desempeño. Matriz de confusión. Lift charts. Curva ROC. El
proceso de la minería de datos. Metodologías para la minería de datos.
CRISP-DM. SEMMA. El proceso de la minería de datos (CRISP).
Caso de Aplicación (Uso del RapidMiner)
Administración y gestión del Rapidminer, conexión a DBMS, consultas y
actualizaciones de datos. Desarrollo de ejemplos de aplicación con
datasets de prueba, ejemplos de modelos de clasificación, consultas al
modelo.
2 4
ENTENDIMIENTO Y PREPARACIÓN DE
Entendimiento de los datos. Recolección de datos iníciales. Descripción de
los datos. Estadísticas descriptiva univariada y multivariada. Relaciones
entre series de datos. Exploración de los datos. Verificación de la calidad
de los datos. Preparación de datos. Limpieza de datos. Datos perdidos.
Valores extremos. Datos con ruido. Datos mal clasificados. Datos
inconsistentes. Integración de datos. Transformación de datos. Reducción
de datos. Reducción de datos. Reducción de instancias.
Caso de Aplicación (Construcción del Dataset)
Preparación del DataSet de un modelo de crediscoring, desde el historial
crediticio de clientes en una entidad financiera.
3 4
MODELOS DE CLASIFICACIÓN – ARBOLES DE DECISION (
Métodos de Clasificación. Inducción. Atributos y clase. Evaluación de
modelos de clasificación. Probabilidad de una clasificación. Clasificador
Naive Bayes. Probabilidades. Clasificador Naive Bayes. Arboles de
Decisión. Árbol de decisión. Información y entropía. Generación del árbol
de decisión. Poda del árbol. Regresión Logística. Discretización y
numerización.
Caso de Aplicación (Propensión de compras)
Modelo para el cálculo de la propensión de compras de productos,
identificación de la conducta de los clientes, identificación de los factores
de compra.
7. Limitless Power of Information (LPI)
AddKw S.r.L.
TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER
CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES
7
4 4
MODELOS DE REGRESIÓN – REDES NEURONALES
Modelos de Regresión. Evaluación de modelos de regresión. MAPE.
Neuronas naturales y artificiales. Épocas, función de transferencia.
Aprendizaje de la red neuronal. Preparación de datos. Red Perceptrón.
Red de retro propagación. Análisis de las Redes Neuronales. Sub-ajuste y
sobre-ajuste. Normalización de datos. Neuronas de la capa intermedia.
Caso de Aplicación (Pronóstico de la Demanda)
Modelo para pronosticar la demanda de efectivo en cajeros electrónicos,
desde datos históricos. Cálculo de la efectividad del pronóstico.
5 2
MODELOS DE AGRUPAMIENTO – K-MEANS Y ALGORITMO EM
Modelos de agrupamiento. Conceptos de agrupamiento. Conceptos de
agrupamiento. Medidas de distancias. Tipos de agrupamiento.
Componentes Principales. Modelos de Agrupamiento. K-means. Jerárquico.
Modelos de agrupamiento y modelos de clasificación.
Caso de Aplicación (Segmentación de Clientes)
Segmentación de clientes, desde su comportamiento de compra.
Generación del modelo de clasificación.
6 2
MODELOS DE ASOCIACIÓN – ALGORITMO A PRIORI
Conceptos acerca de modelos de asociación, entendiendo conceptos
como: soporte, confianza, itemset. Buscando itemsets frecuentes.
Graficando las reglas de asociación. Generando reglas de asociación.
Predicción. Ventas cruzadas, Canasta de mercado.
Caso de Aplicación (Canasta de Mercado) Construcción del Dataset
Identificación de reglas en el comportamiento de compras de clientes
desde datos de facturación, cálculo del soporte y cálculo de la confianza.
7 4
MODELADO DE PRECIO Y PROMOCIÓN
Análisis de la demanda. Factores de compra, sustitutos. Curva de
demanda, elasticidad de la demanda, análisis de la elasticidad de la
demanda. Variaciones en los precios. Factores de compra, análisis de la
mezcla, programación de las promociones.
Caso de Aplicación
Ejemplo de modelado de precios.
Ejemplo del modelado de promociones.