1. LAS TÉCNICAS EN LA MINERÍA
DE DATOS
Editor: Lic. Marco Antonio Cubillo Murray
SET. 2019 EDICIÓN 1
Se pretendemos resolver cualquier problema debemos tener muy
claro que no existe una única técnica y que deben ser abordados
utilizando la técnica que mejor se adapte para hacerle frente.
La cantidad de técnicas con la aplicación del enfoque de la Minería
de Datos es grande y se espera que en un futuro las mismas
crezcan.
Es aquí donde debemos tener bien claro la naturaleza del problema
que vamos a analizar, así podremos seleccionar de una forma más
precisa cuál técnica se adapta mejor en la búsqueda de una
solución más eficiente y exacta.
Vamos entonces a repasar algunas de las técnicas que en la
actualidad podemos usar y que están incorporadas en la mayoría de
los programas que nos permiten llevar a cabo una Minería de Datos
de forma óptima.
LAS TÉCNICAS
Lic. Marco A. Cubillo M. Análisis Factoriales
Descriptivos
Market Basket Analysis
(Análisis de la Cesta de la
Compra)
Técnicas de Clustering
Series Temporales
Redes Bayesianas
Modelos Lineales
Generalizados
Previsión Local
Redes Neuronales
Árboles de Decisión
Algoritmos Genéticos
Poder de Generalización
Escalabilidad
CONTENIDO DE LA EDICIÓN
2. “Los datos son el activo
estratégico de las
compañías por
excelencia».
Christian Gardiner.
«Los datos son el petróleo
del siglo XXI. El despliegue
de sensores y el
incremento de la capacidad
del procesamiento, son
claves en la transformación
de muchos sectores y en la
creación de un mundo más
medible y programable”.
Cesar Alierta.
Este tipo de análisis nos permite
crear visualizaciones de realidades
multivariantes complejas de
manera que podremos revelar las
regularidades estadísticas y las
ANÁLISIS FACTORIALES DESCRIPTIVOS
Lic. Marco A. Cubillo M.
eventuales discrepancias con
respecto de aquella y por supuesto
podremos sugerir hipótesis de
explicación.
Análisis de la canasta de la
compra, como se le conoce en
español, nos permite detectar que
productos se compran de forma
conjunta, agregando información
técnicas para poder interpretar los
datos como: día, semana,
MARKET BASKET ANALYSIS
Lic. Marco A. Cubillo M.
localización y la forma de pago
entre otros, sobre el
comportamiento de la compra.
También nos ayuda aplicarse en
contextos variados como el e-
comercio e incorporarle el factor
temporal.
Son las técnicas que inician con
una medida de aproximidad entre
individuos para buscar los grupos
TÉCNICAS DE CLUSTERING
Lic. Marco A. Cubillo M.
de individuos más semejantes entre
sí, claro según una serie de
variables medibles.
A partir de la serie de
comportamiento histórico podemos
modelizar las componentes básicas
de la serie, tendencia, ciclo y
estacionalidad, con el fin de
SERIES TEMPORALES
Lic. Marco A. Cubillo M.
predecir el futuro, tales como cifre
de ventas, previsión de consumo de
un producto o un servicio.
3. Tradicionalmente el
objetivo de la minería era la
obtención de carbón. No
obstante, una nueva
generación de mineros ha
aparecido en el inicio de
esta cuarta revolución
industrial. Son los mineros
o exploradores de datos,
que cuales en lugar de
buscar carbón intentan
descubrir patrones en
enormes volúmenes de
datos. Los métodos
utilizados de estos nuevos
profesionales son
la inteligencia artificial, el
aprendizaje automático, la
estadística y sistemas de
base de datos.
Sirven para representar todos los
posibles sucesos en que estamos
interesados mediante un grafo de
probabilidades condicionales de
transición entre los posibles
REDES BAYESIANAS
Lic. Marco A. Cubillo M.
sucesos. Se puede codificar a partir
del conocimiento de un experto o se
puede inferir a partir de los datos.
También nos permite poder
establecer relaciones causales.
Son modelos que permiten el
manejo de distintos tipos de
variables de respuesta, por
ejemplo la preferencia entre ciertos
productos concurrentes en el
mercado.
MODELOS LINEALES GENERALIZADOS
Lic. Marco A. Cubillo M.
Además los modelos estadísticos
se enriquecen cada vez más y se
hacen más flexibles y adaptativos,
lo que permite abordar los
problemas cada vez más complejos
de una forma más eficiente.
Se trata de que individuos
parecidos tendrán
comportamientos similares
respecto de una cierta variable de
respuesta.
PREVISIÓN LOCAL
Lic. Marco A. Cubillo M.
La técnica es situar los individuos
en un espacio euclídeo y hacer las
predicciones de su comportamiento
a partir del comportamiento
observado en sus vecinos.
Se inspiran en un modelo
biológico, consisten en modelos
estadísticos clásicos. Si diferencia
radica en el aprendizaje
secuencial, en el hecho de utilizar
transformaciones de las variables
originales para la predicción y la no
REDES NEURONALES
Lic. Marco A. Cubillo M.
linealidad del modelo.Nos permite
aprender en contextos difíciles, sin
necesidad de precisar la
formulación de un modelo en
concreto. Su principal
inconveniente es que para el
usuario son una caja negra.
4. Tradicionalmente el
objetivo de la minería era la
obtención de carbón. No
obstante, una nueva
generación de mineros ha
aparecido en el inicio de
esta cuarta revolución
industrial. Son los mineros
o exploradores de datos,
que cuales en lugar de
buscar carbón intentan
descubrir patrones en
enormes volúmenes de
datos. Los métodos
utilizados de estos nuevos
profesionales son
la inteligencia artificial, el
aprendizaje automático, la
estadística y sistemas de
base de datos.
Obtenemos las reglas de decisión
bajo las cuales operan los
consumidores,
ARBÓLES DE DECISIÓN
Lic. Marco A. Cubillo M.
comparado con datos históricos,
brindando una facilidad de
interpretacion.
Simulamos el modelo biológico de
la evolución de las especies, claro
a velocidades muy grandes.
Su principio es que cualquier
problema que se nos presente,
como la optimización de una
combinación entre distintas
componentes, estando claro
sujetas a restricciones, puede
ALGORÍTMOS GENÉTICOS
Lic. Marco A. Cubillo M.
resolverse mediante algorítmos
genéticos. Una opción es mezclar
los análisis en sistemas híbridos, o
sea combinando la eficiencia en la
resolución de un problema, por
ejemplo usar un algorítmo genético
para iniciar una red neuronal o usar
un árbol de decisión como variable
de entrada en una regresión
logística.
Implica implementar técnicas
eficientes de validación de
resultados, a partir del
conocimiento de la distribución
muestral de los estadísticos del
PODER DE GENERALIZACIÓN
Lic. Marco A. Cubillo M.
modelo o por métodos
computacionales como la validación
cruzada.
Dado el volumen de datos a tratar,
el costo de los algorítmos ha de
ser todo líneal que sea posible
ESCALABILIDAD
Lic. Marco A. Cubillo M.
respecto de los parámetros que
definen el costo, en particular
respecto del número de individuos.