SlideShare uma empresa Scribd logo
1 de 27
Baixar para ler offline
Minería de Datos para
Principiantes
Webimar
Software Guru
23 de octubre de 2013
Por Rafael Gregorio Gamboa Hirales
ITAM
Agenda
• La Minería de Datos. Objetivo.
• Modelos, fundamentos y técnicas.
• Herramientas Comerciales para MD.
– Software libre
– Software propietario

• Caso de ejemplo de un modelo de
clasificación con aplicación comercial.
• Conclusiones
Minería de Datos para Principiantes.

2
La Minería de Datos. Objetivo.
El objetivo de la MD es el desarrollo y aplicación de
procesos de estimación de valores objetivo. Se
tienen dos situaciones:
1. Obtener la estimación del “grado de
pertenencia” de un elemento a una clase.
2. Obtener la estimación del valor de una variable
que representa una cantidad directa y
objetivamente medible.
Muy importante: La MD se basa en casos (datos) de
experiencias pasadas en los que ya sabemos el
valor de la “variable objetivo”.
Minería de Datos para Principiantes.

3
Modelos
Con estas dos situaciones en mente podemos desarrollar
modelos para:
i.
Clasificar clientes como los que están en el grupo que
responde a una promoción con cierta “probabilidad” (o que
la densidad de casos “exitosos” está arriba de cierta
densidad).
ii. Pronosticar o estimar el valor esperado de una variable del
“negocio” estando esta variable en un rango continuo de
valores.
iii. Obtener grupos de clientes de acuerdo a sus características
y/o comportamiento.
Minería de Datos para Principiantes.

4
Modelos, fundamentos y técnicas.
El fundamento teórico ad-hoc es la Estadística.
Ello nos permite elaborar pruebas de hipótesis y
validar nuestros modelos.
Sin embargo en ocasiones los negocios nos
demandan desarrollo mas rápidos de los modelos.
Por ello, en MD procedemos “partiendo” nuestro
conjunto de datos en al menos dos subconjuntos y
los utilizamos para desarrollar y “verificar”,
“probar” o “validar” nuestro modelo.
Minería de Datos para Principiantes.

5
Pre - requisitos
Los pasos que seguiremos suponen que:
1. Conocemos a la perfección las variables que
definen nuestro conjunto de datos.
2. Los datos son de “buena calidad”.
3. Se han eliminado variables “redundantes”.
4. Los dos conjuntos elegidos tienen características
similares al del conjunto original y estas
características se conservan en el conjunto al
cual se ha de aplicar el modelo.
Minería de Datos para Principiantes.

6
Proceso de elaboración del modelo
Paso 0: Partir los datos en los dos subconjuntos
mencionados. Diremos que los subconjuntos
son conjunto de entrenamiento y conjunto de
prueba.
Paso 1: “Entrenar”, - i.e. obtener los parámetros
del modelo que hacen que la V.O. se “calcule” en
términos de las variables de soporte,- uno o más
modelos con el conjunto de entrenamiento.
Minería de Datos para Principiantes.

7
Paso 2) “Validar” o probar el modelo
aplicándolo al conjunto de (datos de) prueba.
Paso 3) Si el resultado es “aceptable” ya
acabamos, en caso contrario debemos iterar
eligiendo otros “Modeladores” y/o
transformando las variables de soporte o
modificando el enfoque mismo del problema.

Minería de Datos para Principiantes.

8
¿Cómo saber si el modelo es “aceptable”?
La bondad (de ajuste) del modelo tiene que ver con el
objetivo de “negocio” a obtener. Por ejemplo, maximizar
utilidad, minimizar costo, o bien se define una función de
utilidad ad-hoc (no necesariamente monetaria).
Otra situación se plantea en el desarrollo de un modelo para
recomendar el tratamiento ( de entre cinco posibles
tratamientos) para un padecimiento. Es posible que para
ciertos casos no sea muy relevante el “entrecruzamiento” de
la decisión, i.e. si a un paciente en lugar de recomendarle el
mejor tratamiento según sus características se le recomienda
un sub-óptimo. Pero si el paciente es diabético si que puede
ser muy importante. Por ello conviene penalizar estos casos
para que el modelo se “equivoque” lo menos posible en ellos.
Minería de Datos para Principiantes.

9
Campaña de promoción de la venta de
un producto o servicio.
Se desea realizar una campaña promoviendo un
producto/servicio. Consideraremos el caso más simple:
El costo de promoción es c unidades monetarias, c > 0.
El ingreso es f unidades monetarias. Supondremos f > c.
Esto implica que en caso de “hacer hit” se tendrá una
utilidad u = f – c unidades monetarias.
En caso de “no hacer hit” se pierden c unidades
monetarias.
Digamos VO e {0,1}, 1 = “hit”, si el cliente compra.

Minería de Datos para Principiantes.

10
Densidad de umbral
Ahora consideremos el concepto de “densidad
de umbral”, que es la densidad de casos exitosos
que se requiere para que la campaña salga
“tablas”. i.e. si d* es la densidad de umbral:
d* x u – ( 1 – d* ) x c = 0; d* e [0,1].
Despejando d*:
d* = c/(u+c)

Minería de Datos para Principiantes.

11
Campaña intrínsecamente ganadora.
Modelo de Clasificación.
Bajo estas características y conceptos una campaña
será intrínsecamente ganadora si la densidad
original de casos exitosos en la muestra es mayor
que d*. (Aún en esos casos la MD puede hacer que
la utilidad sea mejor…)
Si la densidad original de casos exitosos es menor
que d* utilizamos la MD para tratar de obtener las
características de subconjuntos de casos que tienen
densidades mayores a la de umbral y poder calificar
nuevos casos con este modelo.
Minería de Datos para Principiantes.

12
Modeladores
Técnicas más populares
•
•
•
•
•
•
•

CART (Árboles de decisión)
Regresión Logística
Análisis Discriminante
Redes Neuronales
Vecinos Cercanos
Bayes Naive
Redes Bayesianas
Minería de Datos para Principiantes.

13
Resultado del modelado
El resultado del modelado es:
1. El modelo en sí, en ocasiones el código o parámetros que lo
implementan para ser ejecutado por procesos autónomos o
dependientes de la herramienta.
2. Las estadísticas del modelo y métricas de la “bondad de ajuste”,
como ROC, elevaciones o mejoras y matriz de confusión.
3. Los conjuntos de entrenamiento y prueba con sus “scores” o
“Probabilidades de etiqueta”, “P(VO=1)”. A cada caso se le asigna
su valor de P(VO=1) y el complemento es P(VO=0).

Post procesamos estos registros y obtenemos la “Curva de Utilidad” la
cual indica la utilidad obtenida al ir procesando secuencialmente los
casos habiendo ordenado los casos de mayor a menor según el score o
“P(VO=1)”.

Minería de Datos para Principiantes.

14
Curva de utilidad
a) Ordenar descendentemente los casos del subconjunto
en cuestión (entrenamiento o prueba) de acuerdo a
“P(VO=1)”.
b) Para cada caso, si VO=1 ganamos la cantidad u, si
VO=0 perdemos la cantidad c.
c) Vamos acumulando la utilidad y pérdida desde el
“primer” caso hasta el caso del registro actual.
d) Graficamos el numero de caso en el eje horizontal y la
utilidad o pérdida acumulada en el eje vertical.
(Gráfica de dispersión para el caso general).

Minería de Datos para Principiantes.

15
Curva de Utilidad
CART
post procesado propio
Utilidad_Acum

Tree Train: Utilidades

Util_Real_acum

4000

Utilidad (Pérdida)

2000
0
-2000 0

2,000

4,000

6,000

-4000
-6000
-8000
-10000
-12000
-14000
Casos Promovidos

Minería de Datos para Principiantes.

16
Curva de utilidad
Con esta gráfica podemos determinar hasta
dónde debemos de llevar a cabo la promoción.
Debemos considerar que el corte debe hacerse
en un lugar donde podamos diferenciar el valor
del score. Esta consideración es muy importante
en el caso de los árboles donde todos los casos
que caen en el mismo nodo tienen el mismo
valor de “score” o “P(VO=1)”.
Minería de Datos para Principiantes.

17
Caso de ejemplo
Modelo de clasificación con aplicación comercial.
Consideremos el popular caso “Insurance”. Se desea realizar una
campaña de venta de un seguro y se tiene una campaña realizada con
anterioridad que se supone con las mismas características a la que se
desea llevar a cabo actualmente. Los parámetros son:
Densidad de la muestra: 2%.
Costo individual de promoción: $4
Utilidad por caso exitoso: $96
La densidad de umbral es 4%
Si se ejecuta la campaña sin realizar la preselección de los clientes se
obtiene un resultado de 2% $96 – 98% $4 = $1.92-$3.92 = -$2.

¡¡¡La casa pierde!!!!
¿Se puede hacer algo al respecto?
Minería de Datos para Principiantes.

18
Demo con SAS Enterprise Miner
SAS define su metodología con las siglas
“SEMMA”: Sample, Exploration, Modificaction, Modeling,
Assesment.
En castellano: Muestrear, Explorar, Modificar, Modelar y
Evaluar. “MEMEE”.
Esta herramienta permite definirle entre otras, la matriz
de costos - utilidades y decirle si la muestra está
“sobrecargada” para que “compense” la salida del
modelo, entregando la situación como será en la realidad.
La herramienta se maneja gráficamente, de una manera
muy ad-hoc para el trabajo con los modelos de MD.
Entrega los modelos en SAS, C, java y DB2.
Minería de Datos para Principiantes.

19
Flujo de proceso en SAS EM ™

Minería de Datos para Principiantes.

20
ROC

Minería de Datos para Principiantes.

21
Demo con Weka
Weka es una de las herramientas libres para MD
más populares. Está programada en java y
ofrece procesos y procedimientos para poner en
producción los modelos obtenidos.
Ofrece cuatro ambientes para trabajar con los
modelos y los datos:
Explorer, Experimenter, Knowledge Flow y
comandos “a pié” (texto).
Minería de Datos para Principiantes.

22
Flujo en Weka

Minería de Datos para Principiantes.

23
Herramientas Comerciales para MD.
• Software libre y/o gratuito:
– Weka, R, Rapid Miner, Orange, etc…

• Software propietario:
– SAS Enterprise Miner
– Modeler de SPSS
– Addendums a herramientas de BI.

Ahora se les llama “Analytics” e incorporan algunos
elementos para llevar a cabo Minería de Textos y
Herramientas para el análisis de características y
relaciones sobre redes sociales.
Minería de Datos para Principiantes.

24
Analytics
Se incorporan datos no estructurados en el
sentido de un esquema de base de datos
relacional.
Google es el pionero en la explotación de estos
elementos, aunque los grandes jugadores ya se
pusieron las pilas y ofrecen productos “llave en
mano” para algunas de las necesidades donde
hay más recursos económicos.
Minería de Datos para Principiantes.

25
Conclusiones y Tendencias
• La MD es una técnica auxiliar en muchos campos de la investigación y los
negocios.
• Requiere la conjunción de conocimientos de Computación, Estadística,
Matemáticas y del área propia de aplicación.
• Actualmente debido a varios factores (reducción de precio del bit
procesado, de los medios de almacenamiento y las telecomunicaciones)
está en “ebullición” al tener datos explotables y manera de explotarlos.
• Los desarrollos actuales se encaminan a tener los resultados de manera
temprana y oportuna, dándole ventajas a las organizaciones que se
puedan apropiar de esta forma de trabajo dentro de su estrategia de
negocio. Ej. High Performance Analytics de SAS.
• El recurso humano (capital intelectual) es de los más requeridos.
• Se destacan la formación en “Machine Learning” , “Data Science” en la
parte de avanzada, trabajando con volúmenes grandes de datos, en
ocasiones no estructurados, dispersos y con gran diversidad. A ello se le
conoce como “Big Data”.
Minería de Datos para Principiantes.

26
Muchas gracias
imagen de fondo tomada del Artículo sobre Minería de Wikipedia

Minería de Datos para Principiantes.

27

Mais conteúdo relacionado

Mais procurados

Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Diagrama de actividades inscripcion, evaluacion, Asistencia
Diagrama de actividades inscripcion, evaluacion, AsistenciaDiagrama de actividades inscripcion, evaluacion, Asistencia
Diagrama de actividades inscripcion, evaluacion, AsistenciaRobert Rodriguez
 
Presentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA MéxicoPresentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA MéxicoRamón Hernández
 
Métricas de Proceso y proyecto de software
Métricas de Proceso y proyecto de softwareMétricas de Proceso y proyecto de software
Métricas de Proceso y proyecto de softwareLorena Quiñónez
 
Caso de éxito BPM_Cap. 9
Caso de éxito BPM_Cap. 9Caso de éxito BPM_Cap. 9
Caso de éxito BPM_Cap. 9Coatzozon20
 
Documentos de analisis de requerimientos
Documentos de analisis de requerimientosDocumentos de analisis de requerimientos
Documentos de analisis de requerimientosMilton Garzon
 
Diagramas UML: Componentes y despliegue
Diagramas UML: Componentes y despliegueDiagramas UML: Componentes y despliegue
Diagramas UML: Componentes y desplieguejoshell
 
Taller de tesis en informática por Ecler MV
Taller de tesis en informática por Ecler MVTaller de tesis en informática por Ecler MV
Taller de tesis en informática por Ecler MVEcler Mamani Vilca
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Implementing the Data Maturity Model (DMM)
Implementing the Data Maturity Model (DMM)Implementing the Data Maturity Model (DMM)
Implementing the Data Maturity Model (DMM)DATAVERSITY
 
Métricas de procesos y proyectos
Métricas de procesos y proyectosMétricas de procesos y proyectos
Métricas de procesos y proyectosjose_macias
 

Mais procurados (20)

Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Diagrama de actividades inscripcion, evaluacion, Asistencia
Diagrama de actividades inscripcion, evaluacion, AsistenciaDiagrama de actividades inscripcion, evaluacion, Asistencia
Diagrama de actividades inscripcion, evaluacion, Asistencia
 
Presentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA MéxicoPresentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA México
 
Cierre del proyecto - pmi
Cierre del proyecto - pmiCierre del proyecto - pmi
Cierre del proyecto - pmi
 
Métricas de Proceso y proyecto de software
Métricas de Proceso y proyecto de softwareMétricas de Proceso y proyecto de software
Métricas de Proceso y proyecto de software
 
ELOGIM: Administración de servicios e indicadores de bibliotecas como apoyo a...
ELOGIM: Administración de servicios e indicadores de bibliotecas como apoyo a...ELOGIM: Administración de servicios e indicadores de bibliotecas como apoyo a...
ELOGIM: Administración de servicios e indicadores de bibliotecas como apoyo a...
 
Gobierno de TI
Gobierno de TIGobierno de TI
Gobierno de TI
 
Estilos arquitectónicos
Estilos arquitectónicosEstilos arquitectónicos
Estilos arquitectónicos
 
Caso de éxito BPM_Cap. 9
Caso de éxito BPM_Cap. 9Caso de éxito BPM_Cap. 9
Caso de éxito BPM_Cap. 9
 
Documentos de analisis de requerimientos
Documentos de analisis de requerimientosDocumentos de analisis de requerimientos
Documentos de analisis de requerimientos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Diagramas UML: Componentes y despliegue
Diagramas UML: Componentes y despliegueDiagramas UML: Componentes y despliegue
Diagramas UML: Componentes y despliegue
 
Taller de tesis en informática por Ecler MV
Taller de tesis en informática por Ecler MVTaller de tesis en informática por Ecler MV
Taller de tesis en informática por Ecler MV
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Implementing the Data Maturity Model (DMM)
Implementing the Data Maturity Model (DMM)Implementing the Data Maturity Model (DMM)
Implementing the Data Maturity Model (DMM)
 
Guia iso 9126
Guia iso 9126Guia iso 9126
Guia iso 9126
 
Metodologia omt
Metodologia omtMetodologia omt
Metodologia omt
 
Scrum en un gráfico
Scrum en un gráficoScrum en un gráfico
Scrum en un gráfico
 
Métricas de procesos y proyectos
Métricas de procesos y proyectosMétricas de procesos y proyectos
Métricas de procesos y proyectos
 

Destaque (16)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
 

Semelhante a Minería de datos

Machine learning for business
Machine learning for businessMachine learning for business
Machine learning for businessFran Castillo
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerEduardo Castro
 
Data Mining
Data MiningData Mining
Data Miningbrobelo
 
Machine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoMachine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoSoftware Guru
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...JCarlos Gonzalez Joyé
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid MinerLPI ONG
 
Unidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOUnidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOSergio Sanchez
 
Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414Gerard Alba
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big DataICEMD
 

Semelhante a Minería de datos (20)

Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
 
Machine learning for business
Machine learning for businessMachine learning for business
Machine learning for business
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
Data Mining
Data MiningData Mining
Data Mining
 
Data Mining
Data MiningData Mining
Data Mining
 
Diapositiva d
Diapositiva dDiapositiva d
Diapositiva d
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Diapositiva 1
Diapositiva 1Diapositiva 1
Diapositiva 1
 
Machine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoMachine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuido
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
4.data mining
4.data mining4.data mining
4.data mining
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid Miner
 
Unidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñOUnidad 9 Patrones De DiseñO
Unidad 9 Patrones De DiseñO
 
Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414Machine Learning en Inversiones 20210414
Machine Learning en Inversiones 20210414
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
EMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine LearningEMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine Learning
 

Mais de Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasSoftware Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environmentsSoftware Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorSoftware Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealSoftware Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowSoftware Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learningSoftware Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDiSoftware Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsSoftware Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosSoftware Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressSoftware Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
 

Mais de Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Último

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 

Último (13)

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 

Minería de datos

  • 1. Minería de Datos para Principiantes Webimar Software Guru 23 de octubre de 2013 Por Rafael Gregorio Gamboa Hirales ITAM
  • 2. Agenda • La Minería de Datos. Objetivo. • Modelos, fundamentos y técnicas. • Herramientas Comerciales para MD. – Software libre – Software propietario • Caso de ejemplo de un modelo de clasificación con aplicación comercial. • Conclusiones Minería de Datos para Principiantes. 2
  • 3. La Minería de Datos. Objetivo. El objetivo de la MD es el desarrollo y aplicación de procesos de estimación de valores objetivo. Se tienen dos situaciones: 1. Obtener la estimación del “grado de pertenencia” de un elemento a una clase. 2. Obtener la estimación del valor de una variable que representa una cantidad directa y objetivamente medible. Muy importante: La MD se basa en casos (datos) de experiencias pasadas en los que ya sabemos el valor de la “variable objetivo”. Minería de Datos para Principiantes. 3
  • 4. Modelos Con estas dos situaciones en mente podemos desarrollar modelos para: i. Clasificar clientes como los que están en el grupo que responde a una promoción con cierta “probabilidad” (o que la densidad de casos “exitosos” está arriba de cierta densidad). ii. Pronosticar o estimar el valor esperado de una variable del “negocio” estando esta variable en un rango continuo de valores. iii. Obtener grupos de clientes de acuerdo a sus características y/o comportamiento. Minería de Datos para Principiantes. 4
  • 5. Modelos, fundamentos y técnicas. El fundamento teórico ad-hoc es la Estadística. Ello nos permite elaborar pruebas de hipótesis y validar nuestros modelos. Sin embargo en ocasiones los negocios nos demandan desarrollo mas rápidos de los modelos. Por ello, en MD procedemos “partiendo” nuestro conjunto de datos en al menos dos subconjuntos y los utilizamos para desarrollar y “verificar”, “probar” o “validar” nuestro modelo. Minería de Datos para Principiantes. 5
  • 6. Pre - requisitos Los pasos que seguiremos suponen que: 1. Conocemos a la perfección las variables que definen nuestro conjunto de datos. 2. Los datos son de “buena calidad”. 3. Se han eliminado variables “redundantes”. 4. Los dos conjuntos elegidos tienen características similares al del conjunto original y estas características se conservan en el conjunto al cual se ha de aplicar el modelo. Minería de Datos para Principiantes. 6
  • 7. Proceso de elaboración del modelo Paso 0: Partir los datos en los dos subconjuntos mencionados. Diremos que los subconjuntos son conjunto de entrenamiento y conjunto de prueba. Paso 1: “Entrenar”, - i.e. obtener los parámetros del modelo que hacen que la V.O. se “calcule” en términos de las variables de soporte,- uno o más modelos con el conjunto de entrenamiento. Minería de Datos para Principiantes. 7
  • 8. Paso 2) “Validar” o probar el modelo aplicándolo al conjunto de (datos de) prueba. Paso 3) Si el resultado es “aceptable” ya acabamos, en caso contrario debemos iterar eligiendo otros “Modeladores” y/o transformando las variables de soporte o modificando el enfoque mismo del problema. Minería de Datos para Principiantes. 8
  • 9. ¿Cómo saber si el modelo es “aceptable”? La bondad (de ajuste) del modelo tiene que ver con el objetivo de “negocio” a obtener. Por ejemplo, maximizar utilidad, minimizar costo, o bien se define una función de utilidad ad-hoc (no necesariamente monetaria). Otra situación se plantea en el desarrollo de un modelo para recomendar el tratamiento ( de entre cinco posibles tratamientos) para un padecimiento. Es posible que para ciertos casos no sea muy relevante el “entrecruzamiento” de la decisión, i.e. si a un paciente en lugar de recomendarle el mejor tratamiento según sus características se le recomienda un sub-óptimo. Pero si el paciente es diabético si que puede ser muy importante. Por ello conviene penalizar estos casos para que el modelo se “equivoque” lo menos posible en ellos. Minería de Datos para Principiantes. 9
  • 10. Campaña de promoción de la venta de un producto o servicio. Se desea realizar una campaña promoviendo un producto/servicio. Consideraremos el caso más simple: El costo de promoción es c unidades monetarias, c > 0. El ingreso es f unidades monetarias. Supondremos f > c. Esto implica que en caso de “hacer hit” se tendrá una utilidad u = f – c unidades monetarias. En caso de “no hacer hit” se pierden c unidades monetarias. Digamos VO e {0,1}, 1 = “hit”, si el cliente compra. Minería de Datos para Principiantes. 10
  • 11. Densidad de umbral Ahora consideremos el concepto de “densidad de umbral”, que es la densidad de casos exitosos que se requiere para que la campaña salga “tablas”. i.e. si d* es la densidad de umbral: d* x u – ( 1 – d* ) x c = 0; d* e [0,1]. Despejando d*: d* = c/(u+c) Minería de Datos para Principiantes. 11
  • 12. Campaña intrínsecamente ganadora. Modelo de Clasificación. Bajo estas características y conceptos una campaña será intrínsecamente ganadora si la densidad original de casos exitosos en la muestra es mayor que d*. (Aún en esos casos la MD puede hacer que la utilidad sea mejor…) Si la densidad original de casos exitosos es menor que d* utilizamos la MD para tratar de obtener las características de subconjuntos de casos que tienen densidades mayores a la de umbral y poder calificar nuevos casos con este modelo. Minería de Datos para Principiantes. 12
  • 13. Modeladores Técnicas más populares • • • • • • • CART (Árboles de decisión) Regresión Logística Análisis Discriminante Redes Neuronales Vecinos Cercanos Bayes Naive Redes Bayesianas Minería de Datos para Principiantes. 13
  • 14. Resultado del modelado El resultado del modelado es: 1. El modelo en sí, en ocasiones el código o parámetros que lo implementan para ser ejecutado por procesos autónomos o dependientes de la herramienta. 2. Las estadísticas del modelo y métricas de la “bondad de ajuste”, como ROC, elevaciones o mejoras y matriz de confusión. 3. Los conjuntos de entrenamiento y prueba con sus “scores” o “Probabilidades de etiqueta”, “P(VO=1)”. A cada caso se le asigna su valor de P(VO=1) y el complemento es P(VO=0). Post procesamos estos registros y obtenemos la “Curva de Utilidad” la cual indica la utilidad obtenida al ir procesando secuencialmente los casos habiendo ordenado los casos de mayor a menor según el score o “P(VO=1)”. Minería de Datos para Principiantes. 14
  • 15. Curva de utilidad a) Ordenar descendentemente los casos del subconjunto en cuestión (entrenamiento o prueba) de acuerdo a “P(VO=1)”. b) Para cada caso, si VO=1 ganamos la cantidad u, si VO=0 perdemos la cantidad c. c) Vamos acumulando la utilidad y pérdida desde el “primer” caso hasta el caso del registro actual. d) Graficamos el numero de caso en el eje horizontal y la utilidad o pérdida acumulada en el eje vertical. (Gráfica de dispersión para el caso general). Minería de Datos para Principiantes. 15
  • 16. Curva de Utilidad CART post procesado propio Utilidad_Acum Tree Train: Utilidades Util_Real_acum 4000 Utilidad (Pérdida) 2000 0 -2000 0 2,000 4,000 6,000 -4000 -6000 -8000 -10000 -12000 -14000 Casos Promovidos Minería de Datos para Principiantes. 16
  • 17. Curva de utilidad Con esta gráfica podemos determinar hasta dónde debemos de llevar a cabo la promoción. Debemos considerar que el corte debe hacerse en un lugar donde podamos diferenciar el valor del score. Esta consideración es muy importante en el caso de los árboles donde todos los casos que caen en el mismo nodo tienen el mismo valor de “score” o “P(VO=1)”. Minería de Datos para Principiantes. 17
  • 18. Caso de ejemplo Modelo de clasificación con aplicación comercial. Consideremos el popular caso “Insurance”. Se desea realizar una campaña de venta de un seguro y se tiene una campaña realizada con anterioridad que se supone con las mismas características a la que se desea llevar a cabo actualmente. Los parámetros son: Densidad de la muestra: 2%. Costo individual de promoción: $4 Utilidad por caso exitoso: $96 La densidad de umbral es 4% Si se ejecuta la campaña sin realizar la preselección de los clientes se obtiene un resultado de 2% $96 – 98% $4 = $1.92-$3.92 = -$2. ¡¡¡La casa pierde!!!! ¿Se puede hacer algo al respecto? Minería de Datos para Principiantes. 18
  • 19. Demo con SAS Enterprise Miner SAS define su metodología con las siglas “SEMMA”: Sample, Exploration, Modificaction, Modeling, Assesment. En castellano: Muestrear, Explorar, Modificar, Modelar y Evaluar. “MEMEE”. Esta herramienta permite definirle entre otras, la matriz de costos - utilidades y decirle si la muestra está “sobrecargada” para que “compense” la salida del modelo, entregando la situación como será en la realidad. La herramienta se maneja gráficamente, de una manera muy ad-hoc para el trabajo con los modelos de MD. Entrega los modelos en SAS, C, java y DB2. Minería de Datos para Principiantes. 19
  • 20. Flujo de proceso en SAS EM ™ Minería de Datos para Principiantes. 20
  • 21. ROC Minería de Datos para Principiantes. 21
  • 22. Demo con Weka Weka es una de las herramientas libres para MD más populares. Está programada en java y ofrece procesos y procedimientos para poner en producción los modelos obtenidos. Ofrece cuatro ambientes para trabajar con los modelos y los datos: Explorer, Experimenter, Knowledge Flow y comandos “a pié” (texto). Minería de Datos para Principiantes. 22
  • 23. Flujo en Weka Minería de Datos para Principiantes. 23
  • 24. Herramientas Comerciales para MD. • Software libre y/o gratuito: – Weka, R, Rapid Miner, Orange, etc… • Software propietario: – SAS Enterprise Miner – Modeler de SPSS – Addendums a herramientas de BI. Ahora se les llama “Analytics” e incorporan algunos elementos para llevar a cabo Minería de Textos y Herramientas para el análisis de características y relaciones sobre redes sociales. Minería de Datos para Principiantes. 24
  • 25. Analytics Se incorporan datos no estructurados en el sentido de un esquema de base de datos relacional. Google es el pionero en la explotación de estos elementos, aunque los grandes jugadores ya se pusieron las pilas y ofrecen productos “llave en mano” para algunas de las necesidades donde hay más recursos económicos. Minería de Datos para Principiantes. 25
  • 26. Conclusiones y Tendencias • La MD es una técnica auxiliar en muchos campos de la investigación y los negocios. • Requiere la conjunción de conocimientos de Computación, Estadística, Matemáticas y del área propia de aplicación. • Actualmente debido a varios factores (reducción de precio del bit procesado, de los medios de almacenamiento y las telecomunicaciones) está en “ebullición” al tener datos explotables y manera de explotarlos. • Los desarrollos actuales se encaminan a tener los resultados de manera temprana y oportuna, dándole ventajas a las organizaciones que se puedan apropiar de esta forma de trabajo dentro de su estrategia de negocio. Ej. High Performance Analytics de SAS. • El recurso humano (capital intelectual) es de los más requeridos. • Se destacan la formación en “Machine Learning” , “Data Science” en la parte de avanzada, trabajando con volúmenes grandes de datos, en ocasiones no estructurados, dispersos y con gran diversidad. A ello se le conoce como “Big Data”. Minería de Datos para Principiantes. 26
  • 27. Muchas gracias imagen de fondo tomada del Artículo sobre Minería de Wikipedia Minería de Datos para Principiantes. 27