La minería de datos en el proceso de KDD

Minería de Datos I
Dr. Ricardo Rico Molina
rricom@uaemex.mx
Centro Universitario UAEM Nezahualcóyotl

Directorio
Titulo de la presentación

Directorio
Nezahualcóyotl
Dra. en C. Magally Martínez Reyes
Encargada del Despacho de la Dirección del Centro Universitario UAEM Nezahualcóyotl
M. en GyA. P. Ma.
Teresa Cruz Patiño Subdirector Académico
CP.
Martha Osorio González Subdirector Administrativo
D. en C.A.
Oliverio Cruz Mejía Coordinadora de Investigación y Estudios Avanzados
M. en A.
Victor Manuel Durán López Coordinador de Planeación y Desarrollo Institucional
M. en C. E.
Cesar Lucio Gutiérrez Ruiz Coordinador de la Licenciatura en Comercio Internacional
M S.S.
Carlos Anaya Hernández. Coordinadora de la Licenciatura en Educación para la Salud
Dra. en Ing. de Sist.
Doricela Gutiérrez Cruz Coordinador de la Licenciatura en Ingeniería en Sistemas
Inteligentes
M. en I.
Javier Romero Torres Coordinador de la Licenciatura en Ingeniería en Transporte
Dr. en E.J.
Rodolfo Téllez Cuevas Coordinador de la Licenciatura en Seguridad Ciudadana

Mapa curricular

Contenido
Minería de Datos
Unidad 2. La minería de datos en el proceso de KDD
Contenidos:
2.1 Etapas de proceso de KDD
2.1.1 Integración y recopilación
2.1.2 Selección, limpieza y transformación
2.1.3 Minería de Datos
2.1.4 Evaluación e Interpretación
2.1.5 Difusión y uso

Secuencia
Didáctica
Unidad 2. La minería de datos en el proceso de KDD

Presentación
El presente Material Visual de la Unidad de Aprendizaje Mineria de
datos de la licenciatura en Ingeniería en Sistemas Inteligentes reúne
los contenidos de la unidad 2. La minería de datos en el proceso de
KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las
cuales impartirán en cuatro horas semanales.

¿Que es KDD?
De acuerdo a Fallad et al., 1996 el KDD es el Proceso no trivial de
identificar patrones válidos, novedosos, potencialmente útiles y, en
última instancia, comprensibles a partir de los datos .
El cual se encarga de la preparación de los datos y la interpretación de
los resultados obtenidos, los cuales dan un significado a estos patrones
encontrados.

¿Que es KDD?
Los conceptos con los que podemos definir el KDD son Lenguaje de
alto nivel, precisión, Interés y Eficiencia. Los cuales se definen:
Lenguaje de alto nivel: El conocimiento descubierto se representa en
un lenguaje de alto nivel, inteligible desde el punto de vista humano.

¿Que es KDD?
Precisión: Los descubrimientos representan el contenido de la base de
datos que, como reflejo de la realidad, puede contener imperfecciones
y ruido. Por tanto, será raro que algún conocimiento se cumpla con
todos los datos. El grado de certidumbre medirá el crédito o confianza
que el sistema o usuario puede asignar a cierto descubrimiento; si la
certeza no es lo suficientemente alta, los patrones descubiertos no
llegarán a ser conocimiento.

¿Que es KDD?
Interés: Aunque es posible extraer numerosos patrones de cualquier
base de datos, sólo se consideran como conocimiento aquéllos que
resulten interesantes según ciertos criterios del usuario. En particular,
un patrón interesante debe ser nuevo, potencialmente útil y no trivial.

¿Que es KDD?
Eficiencia: Son deseables procesos de descubrimiento que puedan ser
eficientemente implementados en una computadora. Se considera que
un algoritmo es eficiente cuando su tiempo de ejecución y el espacio
de memoria requerido crecen de forma polinomial con el tamaño de
los datos de entrada

¿Que es KDD?
Es la convergencia del Aprendizaje Automático, la Estadística, el
“reconocimiento de patrones”, “la inteligencia artificial”, “las bases de
datos”, “la visualización de datos”, “los sistemas para el apoyo a la
toma de decisiones”, “la recuperación de información”, entre otros
campos
Las metas del KDD son:
• Procesar automáticamente grandes cantidades de datos crudos.
• Identificar los patrones más significativos y relevantes.
• Presentarlos como conocimiento apropiado para satisfacer las metas
del usuario (Vallejo, 2006).

Metodología KDD

Selección
Determinar los objetivos que se deseen lograr, estos, deben ser precisos o
medibles
Preprocesamiento
Recolectar datos útiles para alcanzar los objetivos, así como verificar que la
base de datos sea coherente, confiable, relevante y actualizada

Transformación
Grafica los datos para tener una perspectiva de la información, en caso de
observar comportamientos atípicos o out-layer, proceder a limpiarlos. Si
existen múltiples dimensiones que no permita procesar la información
correctamente, se puede reducir para manipularlo
Minería de Datos
Elegir el algoritmo que mas se adecue a la problemática que se requiere
resolver (Cluster, Arboles , regresión, red neuronal, valles)

Interpretación del conocimiento
En la evaluación, verificar que los supuestos de evaluación se cumplan
(Bootstrapping o cross validation). Se puede replantear el problema para
probar otro algoritmo

Cabe decir que existen otras metodologías como CRISP-DM, SEMMA

Se deben identificar los datos necesarios, sus fuentes e
integrarlos.
La integración con lleva solucionar conflictos de tipos de datos,
niveles de agregación, llaves primarias y foráneas, codificación,
etc.
Esta integración da lugar a data warehouse (almacenes de datos)
Se sugiere:
Hacer una copia de las BD integrantes eliminando
inconsistencias.
Aplicar Data warehouse (Implica agregar y cruzar información,
generando una DB multidimensional)

“La calidad de los datos obtenidos influye en el resultado
final.”
Es bien sabido que en la minería de datos no basta en
aplicar diferente algoritmos, para obtener información, es
por eso la necesidad e importancia de una selección
adecuada.
Después de integrarlos esta fase da pie a mejorar los datos
por medio de la limpieza y trasformación.

En este sentido se hace necesario identificar los datos
necesarios y lo que no va a aportar nada.
Por lo cual se procede a identificar y eliminar. El
proceso de eliminación de datos fuera de rango o
atípicos, en algunos caso modifican fuertemente el
resultado (cabe resalta que esta decisión depende del
tipo de problema que estemos enfrentando, debido a
que en el caso de movimientos atípicos en cuentas
bancarias, daría información que podría ayudar a la
detección de fraudes)

Recordar que se pueden tener datos atípicos
(outliers), pero también se tiene que encontrar datos
faltantes (missing values), si es posible saber el motivo
de la omisión.
“No todos los atributos son relevantes”
En este sentido debido a que ya se ha hecho trabajo
en conocer el objeto de estudio, permitirá de forma
fácil discernir que atributo me va a servir.

Algunos atributos pueden construirse
Algunos atributos pueden generarse de la interacción
de varios, a través de operaciones y que apoyarían a la
simplificación de la base de datos
El tipo de atributos puede cambiarse
Desde el punto del proceso de algunos algoritmos , se
facilita el proceso de estos, si, los datos son
discretizados

En esta fase, lo que se busca es extraer conocimiento
o información útil, para el usuario. Esto puede ser
por medio de modelos basados en los datos, lo que
permite obtener respuestas.
“La selección del algoritmo adecuado para el tipo de
problema”
La experiencia determinara como se procesa los datos,
existen diversos tipos de tareas, que ayudara a
procesar los datos de mejor manera (no se saca un
tornillo con un martillo)

Ahondando en el punto anterior, se tienen que tener
en cuenta, los tipos de datos que maneja cada tarea.
“Determinar que tipo de tarea aplica a nuestra
problemática (clasificación, regresión, clusterizacion,
correlación, asociación, asociación secuencial)”
Clasificación: valores discretos (se obtienen
predicciones de nuevas instancias de acuerdo a los
datos alimentados)

Regresión: valores reales ( se obtiene instancias cuyo
fin es predecir instancias nuevas por medio de una
función)
Clusterizacion: valores discretos (los grupos obtenidos
son de elementos con un grado alto de similitud entre
instancias)

Correlaciones: valores reales (la correlación indica que
grado de relación tienen los datos )
Asociación: valores discretos (se obtiene reglas de
asociación, basadas en relación de tipo “A es B =› C es
D ” )
Asociación secuencial: Valores discretos y reales (se
obtiene reglas de asociación dependientes de una
dimensión temporal)

Tarea:
• Buscar una base de datos para proyecto final
• Reportar que tareas o algoritmos para
procesamiento de datos conoce

En esta fase es importante obtener patrones precisos,
comprensibles e interesantes.
“Si no es entendible lo obtenido una o varias fases
puede estar mal planteadas”
Si bien es cierto, una tarea llevada adecuadamente
será interpretada de manera automática, se podría
asumir que con esto están validadas, esta suposición
es errónea.

“La validación es necesaria”
Una forma rápida para validar seria mediante el uso de
datos o casos distintos, a los que se usaron en el
entrenamiento (Valida dación Simple y Validación Cruzada).
Así mismo es importante recordar lo anterior no es
general, para cada tipo de tarea existe la validación
adecuada.

La difusión y uso se enfoca; en recomendaciones con
base al modelo obtenido y a través de este aplicarlo a
distintos datos.
Así mismo se hace la mención, que el modelo
obtenido, es susceptible a modificaciones
adaptaciones, por la continua evolución de los
sistemas.

REFERENCIAS
1. Kantardzic M. (2011). “Data mining : concepts, models, methods, and algorithms” Ed John Wiley : IEEE Press. ISBN: 0470890452 9780470890455
2. Kao A. Poteet S. (2010). “Natural language processing and text mining” Ed. Springer ISBN: 9781849965583 9781846287541
3. Han J. Kamber M. Pei J. (2011). “Data mining : concepts and techniques” Ed. Elselvier. ISBN: 9780123814791 9789380931913 0123814790
4. Basu S. Davidson I. Wagstaff K. (2009). “Constrained clustering : advances in algorithms, theory, and applications” Ed. CRC Press ISBN: 9781584889960
5. LongB. Zhang Z, Yu P. (2010) “Relational data clustering : models, algorithms, and applications” Ed. Chapman & Hall/CRC ISBN: 9781420072617
6. Ian H. Witten, Eibe Frank, Mark A. Hall.(2011) Data mining : practical machine learning tools and techniques Ed. Elsevier ISBN: 9780123748560
7. Hernández J Ramírez M. Ferri C. (2004) “Introducción a la minería de datos” Ed. Pearson Educación : Prentice Hall ISBN: 9788420540917 8420540919
8. Dunham M. (2003) “Data mining introductory and advanced topics” Ed. Prentice Hall/Pearson Education ISBN: 0130888923
9. Growth R. (2000). “Data mining : building competitive advantage” Ed. Prentice Hall PTR ISBN: 0130862711
10. Feldman R. Sanger J. (2007). “The text mining handbook : advanced approaches in analyzing unstructured data” Ed. Cambridge University Press ISBN:
0521836573 9780521836579
11. Shmueli G. Patel N. Bruce P. (2010). “Data mining for business intelligence : concepts, techniques, and applications in Microsoft Office Excel with
XLMiner” Ed.Wiley ISBN: 9780470526828
12. Bratko I. (2001). “Prolog programming for artificial intelligence” Ed. Pearson
13. Fayyad U. (1996). Advances in knowledge discovery. Ed. Pearson ISBN: 0262560976
14. Pajares P. Sanz.M. (2006). “Inteligencia artificial e ingeniería del conocimiento” Ed. Alfa omega ISBN 9701511662
15. Palma J. Marin M. (2008). “Inteligencia artificial técnicas, métodos y aplicaciones”. Ed. McGraw-Hill ISBN 9788448156183
16. Beltran B (s/a), “Notas Mineria de Datos” , FCC
17. Vallejos S. (2006) “Mineria de datos” LSIC

La minería de datos en el proceso de KDD

La minería de datos en el proceso de KDD

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a La minería de datos en el proceso de KDD

Semelhante a La minería de datos en el proceso de KDD (20)

Último

Último (20)

La minería de datos en el proceso de KDD