1. Elaborado por: Pedro Chávez F. Limitless Power of Information
Business Analytics Society
https://addkw.com/
La Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica Predictiva
La Minería de Datos es el proceso de descubrimiento de patrones, tendencias y comportamientos de los datos en
grandes volúmenes con la ayuda de las computadoras y aplicaciones de Inteligencia Artificial, Aprendizaje de
Máquina, Estadística y Sistemas de Administración de Datos.
El propósito de la Minería de Datos también conocida como KDD (Knowledge Discovery in Database) es convertir
grandes volúmenes de datos desorganizadas en información estructurada para análisis posteriores. El proceso de
Minería de Datos es un proceso de análisis multidisciplinario que debe ser realizadopor matemáticos, estadísticos
y programadores de computadoras.
La profesión del analista de datos es una de las más buscadas en los portales de empleo y no en vano, fue definida
en 2012 por «HarvardBusiness Review» como «la más sexi del siglo XXI». Grandes compañías como Google, IBM,
Facebook, HP, Oracle, Amazon o LinkedIn utilizan a diario las ventajas que ofrece el «Big Data»y en consecuencia,
destacan la importancia de este nuevo perfil profesional.
2. Elaborado por: Pedro Chávez F. Limitless Power of Information
Business Analytics Society
https://addkw.com/
La Minería de Datos en la Analítica Predictiva
La minería de datos también se conoce con el nombre de Data Discovery, y engloba diversos procesos entre los
cuales están: recolección, extracción, almacenamiento o datawarehousing, limpieza y estandarización,
transformación, análisis, estadística, inteligencia artificial, aprendizaje de maquina y business intelligence. Antes
que los datos sean explorados es decir sometidos al proceso de análisis estadistico requieren ser limpiados y
transformados, para eliminar los errores e inconsistencias.
La estadística proporciona herramientas para el análisis y establece patrones y tendencias en los datos y el
aprendizaje de maquina administra las diferentes metodologías de aprendizaje.
3. Elaborado por: Pedro Chávez F. Limitless Power of Information
Business Analytics Society
https://addkw.com/
La Minería de Datos en la Analítica Predictiva
Las técnicas de análisis estadístico son procedimientos matemáticos que buscan establecer patrones, tendencias
o relaciones individuales o grupales en los datos de una población o muestra. Diversos son los métodos o técnicas
estadísticas de análisis de minería de datos; entre los mas importantes se encuentran: generalización,
caracterización, clasificación, clustering, asociación, evolución, secuencia de patrones, arboles de decisión,
visualización de datos y minería guiada por reglas.
Los proyectos de minería de datos comprenden un esfuerzo enorme de análisis que es apoyado por diversos
estándares metodológicos.
Una de las metodologías mas usadas para proyectos de minería de datos es CRISP-DM (Cross Industry Standard
Process for Data Mining) que es un modelo de procesos estándares que describe métodos generales usados por
expertos en minería de datos.
CRISP-DM fue concebido en 1996 y se convirtió en un proyecto de la Unión Europea bajo la iniciativa de
financiamiento ESPRIT en 1997. El proyecto estaba liderado por 5 empresas: Integral Solutions Ltd
(ISL), Teradata, Daimler AG, NCR Corporation y OHRA, una compañía de seguros.
CRISP-DM divide el proceso de minería de datos en 6 grandes etapas: Entendimiento del negocio, entendimiento
de los datos, preparación de los datos, modelamiento, evaluación e implementación.
4. Elaborado por: Pedro Chávez F. Limitless Power of Information
Business Analytics Society
https://addkw.com/
La Minería de Datos en la Analítica Predictiva
Estas etapas se desarrollan de una manera no necesariamente secuencial y que se implementan según las
condiciones y necesidades del modelo en particular. Las flechas en el diagrama muestran las más importantes
dependencias entre las fases del modelo y el circulo exterior muestra el ciclo natural de desarrollo del proceso de
minería de datos. El proceso de minería de datos no se detiene y continua después de que se ha obtenido una
solución. La lección aprendida durante el proceso puede disparar un nuevo proceso de minería de datos
frecuentemente con preguntas más enfocadas en el negocio y consiguientemente una nueva solución de minería
que ha aprovechado las experiencias anteriores.
5. Elaborado por: Pedro Chávez F. Limitless Power of Information
Business Analytics Society
https://addkw.com/
La Minería de Datos en la Analítica Predictiva
Técnicas de análisis en minería dedatos
Las tareas de análisis de grandes volúmenes en minería de datos pueden ser realizadas en forma automática o
semiautomática y buscan encontrar patrones interesantes en los datos anteriormente desconocidos. Estas
técnicas de análisis en forma general pueden describirse como: análisis de cluster, detección de anomalías y
registros no usuales y análisis de dependencias utilizando reglas de asociación. Los patrones detectados pueden
ser entonces utilizados en análisis mas avanzados empleando aplicaciones de inteligencia artificial, aprendizaje de
máquina y analítica predictiva. Las técnicas de minería de datos se emplean en diferentes tipos de bases de datos
que incluyen bases de datos relacionales, transaccionales, espaciales, orientadas a objetos, etc.
La minería de datos en forma general involucra 6 tipos de técnicas de análisis:
1. Detección de anomalías: es la detección de desviaciones o valores atípicos, que requieren ser
identificados y verificados.
2. Aprendizaje basado en reglas de asociación: También denominado modelamiento dependiente debido a
que busca relaciones entre las variables. También se le conoce como Análisis de la Canasta de Mercado.
3. Clustering: Es el proceso de descubrimiento de grupos y estructuras en los datos que son de alguna
manera similares sin usar estructuras conocidas en los datos.
4. Clasificaciones: Es la tarea de generalizaruna estructura de datos conocida para aplicarla a nuevos datos.
5. Regresiones: Es la búsqueda de una función de representación que modelo los datos con el mínimo de
error.
6. Resúmenes y visualizaciones: Proporciona una representación consolidada de los datos a través de
graficas y reportes.
6. Elaborado por: Pedro Chávez F. Limitless Power of Information
Business Analytics Society
https://addkw.com/
La Minería de Datos en la Analítica Predictiva