SlideShare uma empresa Scribd logo
1 de 33
Baixar para ler offline
Minería de Datos I
Dr. Ricardo Rico Molina
rricom@uaemex.mx
Centro Universitario UAEM Nezahualcóyotl
Directorio
Titulo de la presentación
Directorio
Nezahualcóyotl
Titulo de la presentación
Dra. en C. Magally Martínez Reyes
Encargada del Despacho de la Dirección del Centro Universitario UAEM Nezahualcóyotl
M. en GyA. P. Ma.
Teresa Cruz Patiño Subdirector Académico
CP.
Martha Osorio González Subdirector Administrativo
D. en C.A.
Oliverio Cruz Mejía Coordinadora de Investigación y Estudios Avanzados
M. en A.
Victor Manuel Durán López Coordinador de Planeación y Desarrollo Institucional
M. en C. E.
Cesar Lucio Gutiérrez Ruiz Coordinador de la Licenciatura en Comercio Internacional
M S.S.
Carlos Anaya Hernández. Coordinadora de la Licenciatura en Educación para la Salud
Dra. en Ing. de Sist.
Doricela Gutiérrez Cruz Coordinador de la Licenciatura en Ingeniería en Sistemas
Inteligentes
M. en I.
Javier Romero Torres Coordinador de la Licenciatura en Ingeniería en Transporte
Dr. en E.J.
Rodolfo Téllez Cuevas Coordinador de la Licenciatura en Seguridad Ciudadana
Mapa curricular
Titulo de la presentación
Contenido
Titulo de la presentación
Minería de Datos
Unidad 2. La minería de datos en el proceso de KDD
Contenidos:
2.1 Etapas de proceso de KDD
2.1.1 Integración y recopilación
2.1.2 Selección, limpieza y transformación
2.1.3 Minería de Datos
2.1.4 Evaluación e Interpretación
2.1.5 Difusión y uso
Secuencia
Didáctica
Unidad 2. La minería de datos en el proceso de KDD
2.1 Etapas de proceso de KDD
2.1.1 Integración y recopilación
2.1.2 Selección, limpieza y transformación
2.1.3 Minería de Datos
2.1.4 Evaluación e Interpretación
2.1.5 Difusión y uso
Presentación
Titulo de la presentación
El presente Material Visual de la Unidad de Aprendizaje Mineria de
datos de la licenciatura en Ingeniería en Sistemas Inteligentes reúne
los contenidos de la unidad 2. La minería de datos en el proceso de
KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las
cuales impartirán en cuatro horas semanales.
2.1 Etapas de proceso de KDD
¿Que es KDD?
De acuerdo a Fallad et al., 1996 el KDD es el Proceso no trivial de
identificar patrones válidos, novedosos, potencialmente útiles y, en
última instancia, comprensibles a partir de los datos .
El cual se encarga de la preparación de los datos y la interpretación de
los resultados obtenidos, los cuales dan un significado a estos patrones
encontrados.
2.1 Etapas de proceso de KDD
¿Que es KDD?
Los conceptos con los que podemos definir el KDD son Lenguaje de
alto nivel, precisión, Interés y Eficiencia. Los cuales se definen:
Lenguaje de alto nivel: El conocimiento descubierto se representa en
un lenguaje de alto nivel, inteligible desde el punto de vista humano.
2.1 Etapas de proceso de KDD
¿Que es KDD?
Precisión: Los descubrimientos representan el contenido de la base de
datos que, como reflejo de la realidad, puede contener imperfecciones
y ruido. Por tanto, será raro que algún conocimiento se cumpla con
todos los datos. El grado de certidumbre medirá el crédito o confianza
que el sistema o usuario puede asignar a cierto descubrimiento; si la
certeza no es lo suficientemente alta, los patrones descubiertos no
llegarán a ser conocimiento.
2.1 Etapas de proceso de KDD
¿Que es KDD?
Interés: Aunque es posible extraer numerosos patrones de cualquier
base de datos, sólo se consideran como conocimiento aquéllos que
resulten interesantes según ciertos criterios del usuario. En particular,
un patrón interesante debe ser nuevo, potencialmente útil y no trivial.
2.1 Etapas de proceso de KDD
¿Que es KDD?
Eficiencia: Son deseables procesos de descubrimiento que puedan ser
eficientemente implementados en una computadora. Se considera que
un algoritmo es eficiente cuando su tiempo de ejecución y el espacio
de memoria requerido crecen de forma polinomial con el tamaño de
los datos de entrada
2.1 Etapas de proceso de KDD
¿Que es KDD?
Es la convergencia del Aprendizaje Automático, la Estadística, el
“reconocimiento de patrones”, “la inteligencia artificial”, “las bases de
datos”, “la visualización de datos”, “los sistemas para el apoyo a la
toma de decisiones”, “la recuperación de información”, entre otros
campos
Las metas del KDD son:
• Procesar automáticamente grandes cantidades de datos crudos.
• Identificar los patrones más significativos y relevantes.
• Presentarlos como conocimiento apropiado para satisfacer las metas
del usuario (Vallejo, 2006).
2.1 Etapas de proceso de KDD
Metodología KDD
2.1 Etapas de proceso de KDD
Selección
Determinar los objetivos que se deseen lograr, estos, deben ser precisos o
medibles
Preprocesamiento
Recolectar datos útiles para alcanzar los objetivos, así como verificar que la
base de datos sea coherente, confiable, relevante y actualizada
2.1 Etapas de proceso de KDD
Transformación
Grafica los datos para tener una perspectiva de la información, en caso de
observar comportamientos atípicos o out-layer, proceder a limpiarlos. Si
existen múltiples dimensiones que no permita procesar la información
correctamente, se puede reducir para manipularlo
Minería de Datos
Elegir el algoritmo que mas se adecue a la problemática que se requiere
resolver (Cluster, Arboles , regresión, red neuronal, valles)
2.1 Etapas de proceso de KDD
Interpretación del conocimiento
En la evaluación, verificar que los supuestos de evaluación se cumplan
(Bootstrapping o cross validation). Se puede replantear el problema para
probar otro algoritmo
2.1 Etapas de proceso de KDD
Cabe decir que existen otras metodologías como CRISP-DM, SEMMA
2.1.1 Integración y recopilación
Se deben identificar los datos necesarios, sus fuentes e
integrarlos.
La integración con lleva solucionar conflictos de tipos de datos,
niveles de agregación, llaves primarias y foráneas, codificación,
etc.
Esta integración da lugar a data warehouse (almacenes de datos)
Se sugiere:
Hacer una copia de las BD integrantes eliminando
inconsistencias.
Aplicar Data warehouse (Implica agregar y cruzar información,
generando una DB multidimensional)
2.1.2 Selección, limpieza y transformación
“La calidad de los datos obtenidos influye en el resultado
final.”
Es bien sabido que en la minería de datos no basta en
aplicar diferente algoritmos, para obtener información, es
por eso la necesidad e importancia de una selección
adecuada.
Después de integrarlos esta fase da pie a mejorar los datos
por medio de la limpieza y trasformación.
2.1.2 Selección, limpieza y transformación
En este sentido se hace necesario identificar los datos
necesarios y lo que no va a aportar nada.
Por lo cual se procede a identificar y eliminar. El
proceso de eliminación de datos fuera de rango o
atípicos, en algunos caso modifican fuertemente el
resultado (cabe resalta que esta decisión depende del
tipo de problema que estemos enfrentando, debido a
que en el caso de movimientos atípicos en cuentas
bancarias, daría información que podría ayudar a la
detección de fraudes)
2.1.2 Selección, limpieza y transformación
Recordar que se pueden tener datos atípicos
(outliers), pero también se tiene que encontrar datos
faltantes (missing values), si es posible saber el motivo
de la omisión.
“No todos los atributos son relevantes”
En este sentido debido a que ya se ha hecho trabajo
en conocer el objeto de estudio, permitirá de forma
fácil discernir que atributo me va a servir.
2.1.2 Selección, limpieza y transformación
Algunos atributos pueden construirse
Algunos atributos pueden generarse de la interacción
de varios, a través de operaciones y que apoyarían a la
simplificación de la base de datos
El tipo de atributos puede cambiarse
Desde el punto del proceso de algunos algoritmos , se
facilita el proceso de estos, si, los datos son
discretizados
2.1.3 Minería de Datos
En esta fase, lo que se busca es extraer conocimiento
o información útil, para el usuario. Esto puede ser
por medio de modelos basados en los datos, lo que
permite obtener respuestas.
“La selección del algoritmo adecuado para el tipo de
problema”
La experiencia determinara como se procesa los datos,
existen diversos tipos de tareas, que ayudara a
procesar los datos de mejor manera (no se saca un
tornillo con un martillo)
2.1.3 Minería de Datos
Ahondando en el punto anterior, se tienen que tener
en cuenta, los tipos de datos que maneja cada tarea.
“Determinar que tipo de tarea aplica a nuestra
problemática (clasificación, regresión, clusterizacion,
correlación, asociación, asociación secuencial)”
Clasificación: valores discretos (se obtienen
predicciones de nuevas instancias de acuerdo a los
datos alimentados)
2.1.3 Minería de Datos
Regresión: valores reales ( se obtiene instancias cuyo
fin es predecir instancias nuevas por medio de una
función)
Clusterizacion: valores discretos (los grupos obtenidos
son de elementos con un grado alto de similitud entre
instancias)
2.1.3 Minería de Datos
Correlaciones: valores reales (la correlación indica que
grado de relación tienen los datos )
Asociación: valores discretos (se obtiene reglas de
asociación, basadas en relación de tipo “A es B =› C es
D ” )
Asociación secuencial: Valores discretos y reales (se
obtiene reglas de asociación dependientes de una
dimensión temporal)
2.1.3 Minería de Datos
Tarea:
• Buscar una base de datos para proyecto final
• Reportar que tareas o algoritmos para
procesamiento de datos conoce
2.1.4 Evaluación e Interpretación
En esta fase es importante obtener patrones precisos,
comprensibles e interesantes.
“Si no es entendible lo obtenido una o varias fases
puede estar mal planteadas”
Si bien es cierto, una tarea llevada adecuadamente
será interpretada de manera automática, se podría
asumir que con esto están validadas, esta suposición
es errónea.
2.1.4 Evaluación e Interpretación
“La validación es necesaria”
Una forma rápida para validar seria mediante el uso de
datos o casos distintos, a los que se usaron en el
entrenamiento (Valida dación Simple y Validación Cruzada).
Así mismo es importante recordar lo anterior no es
general, para cada tipo de tarea existe la validación
adecuada.
2.1.5 Difusión y uso
La difusión y uso se enfoca; en recomendaciones con
base al modelo obtenido y a través de este aplicarlo a
distintos datos.
Así mismo se hace la mención, que el modelo
obtenido, es susceptible a modificaciones
adaptaciones, por la continua evolución de los
sistemas.
REFERENCIAS
1. Kantardzic M. (2011). “Data mining : concepts, models, methods, and algorithms” Ed John Wiley : IEEE Press. ISBN: 0470890452 9780470890455
2. Kao A. Poteet S. (2010). “Natural language processing and text mining” Ed. Springer ISBN: 9781849965583 9781846287541
3. Han J. Kamber M. Pei J. (2011). “Data mining : concepts and techniques” Ed. Elselvier. ISBN: 9780123814791 9789380931913 0123814790
4. Basu S. Davidson I. Wagstaff K. (2009). “Constrained clustering : advances in algorithms, theory, and applications” Ed. CRC Press ISBN: 9781584889960
5. LongB. Zhang Z, Yu P. (2010) “Relational data clustering : models, algorithms, and applications” Ed. Chapman & Hall/CRC ISBN: 9781420072617
6. Ian H. Witten, Eibe Frank, Mark A. Hall.(2011) Data mining : practical machine learning tools and techniques Ed. Elsevier ISBN: 9780123748560
7. Hernández J Ramírez M. Ferri C. (2004) “Introducción a la minería de datos” Ed. Pearson Educación : Prentice Hall ISBN: 9788420540917 8420540919
8. Dunham M. (2003) “Data mining introductory and advanced topics” Ed. Prentice Hall/Pearson Education ISBN: 0130888923
9. Growth R. (2000). “Data mining : building competitive advantage” Ed. Prentice Hall PTR ISBN: 0130862711
10. Feldman R. Sanger J. (2007). “The text mining handbook : advanced approaches in analyzing unstructured data” Ed. Cambridge University Press ISBN:
0521836573 9780521836579
11. Shmueli G. Patel N. Bruce P. (2010). “Data mining for business intelligence : concepts, techniques, and applications in Microsoft Office Excel with
XLMiner” Ed.Wiley ISBN: 9780470526828
12. Bratko I. (2001). “Prolog programming for artificial intelligence” Ed. Pearson
13. Fayyad U. (1996). Advances in knowledge discovery. Ed. Pearson ISBN: 0262560976
14. Pajares P. Sanz.M. (2006). “Inteligencia artificial e ingeniería del conocimiento” Ed. Alfa omega ISBN 9701511662
15. Palma J. Marin M. (2008). “Inteligencia artificial técnicas, métodos y aplicaciones”. Ed. McGraw-Hill ISBN 9788448156183
16. Beltran B (s/a), “Notas Mineria de Datos” , FCC
17. Vallejos S. (2006) “Mineria de datos” LSIC
La minería de datos en el proceso de KDD

Mais conteúdo relacionado

Mais procurados

Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Modelado del AnáLisis
Modelado del AnáLisisModelado del AnáLisis
Modelado del AnáLisisCarolina Rojas
 
Presentacion de BI asignacion 5
Presentacion de BI asignacion 5Presentacion de BI asignacion 5
Presentacion de BI asignacion 5siusma
 
Data Mining: clustering and analysis
Data Mining: clustering and analysisData Mining: clustering and analysis
Data Mining: clustering and analysisDataminingTools Inc
 
Historia de la tecnologia de base de datos
Historia de la tecnologia de base de datosHistoria de la tecnologia de base de datos
Historia de la tecnologia de base de datosralbarracin
 
DiseñO De Base De Datos
DiseñO De Base De DatosDiseñO De Base De Datos
DiseñO De Base De DatosChristian Rodas
 
Diagramas de Flujos de Datos
Diagramas de Flujos de DatosDiagramas de Flujos de Datos
Diagramas de Flujos de DatosRenny Batista
 
Prueba de-caja-negra-y-caja-blanca pwp
Prueba de-caja-negra-y-caja-blanca pwpPrueba de-caja-negra-y-caja-blanca pwp
Prueba de-caja-negra-y-caja-blanca pwpGomez Gomez
 
Metodos de entrada y Salida
Metodos de entrada y SalidaMetodos de entrada y Salida
Metodos de entrada y SalidaCristian Andres
 
Data-Warehouse-I.pdf
Data-Warehouse-I.pdfData-Warehouse-I.pdf
Data-Warehouse-I.pdfYair Ambrocio
 
Diseño logico de una base de datos
Diseño logico de  una base de datosDiseño logico de  una base de datos
Diseño logico de una base de datosRobert Rodriguez
 
Data mining-2
Data mining-2Data mining-2
Data mining-2Nit Hik
 

Mais procurados (20)

Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Modelado del AnáLisis
Modelado del AnáLisisModelado del AnáLisis
Modelado del AnáLisis
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Presentacion de BI asignacion 5
Presentacion de BI asignacion 5Presentacion de BI asignacion 5
Presentacion de BI asignacion 5
 
Data Mining: clustering and analysis
Data Mining: clustering and analysisData Mining: clustering and analysis
Data Mining: clustering and analysis
 
Ejemplo dfd
Ejemplo dfdEjemplo dfd
Ejemplo dfd
 
Historia de la tecnologia de base de datos
Historia de la tecnologia de base de datosHistoria de la tecnologia de base de datos
Historia de la tecnologia de base de datos
 
DiseñO De Base De Datos
DiseñO De Base De DatosDiseñO De Base De Datos
DiseñO De Base De Datos
 
Diagramas de Flujos de Datos
Diagramas de Flujos de DatosDiagramas de Flujos de Datos
Diagramas de Flujos de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Prueba de-caja-negra-y-caja-blanca pwp
Prueba de-caja-negra-y-caja-blanca pwpPrueba de-caja-negra-y-caja-blanca pwp
Prueba de-caja-negra-y-caja-blanca pwp
 
Metodos de entrada y Salida
Metodos de entrada y SalidaMetodos de entrada y Salida
Metodos de entrada y Salida
 
Lenguaje SQL
Lenguaje SQLLenguaje SQL
Lenguaje SQL
 
Data-Warehouse-I.pdf
Data-Warehouse-I.pdfData-Warehouse-I.pdf
Data-Warehouse-I.pdf
 
Herramientas case
Herramientas caseHerramientas case
Herramientas case
 
Diseño logico de una base de datos
Diseño logico de  una base de datosDiseño logico de  una base de datos
Diseño logico de una base de datos
 
Tipos de lenguaje formal según Chomsky
Tipos de lenguaje formal según ChomskyTipos de lenguaje formal según Chomsky
Tipos de lenguaje formal según Chomsky
 
Taller de Base de Datos - Unidad 6 SQL procedural
Taller de Base de Datos - Unidad 6 SQL proceduralTaller de Base de Datos - Unidad 6 SQL procedural
Taller de Base de Datos - Unidad 6 SQL procedural
 
Data mining-2
Data mining-2Data mining-2
Data mining-2
 

Semelhante a La minería de datos en el proceso de KDD

Semelhante a La minería de datos en el proceso de KDD (20)

Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Fundamentos de Data Mining con R
Fundamentos de Data Mining con RFundamentos de Data Mining con R
Fundamentos de Data Mining con R
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de datos y textos
Minería de datos y textosMinería de datos y textos
Minería de datos y textos
 
Parte1
Parte1Parte1
Parte1
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
 
Mineria de Datos Dialnet.pdf
Mineria de Datos Dialnet.pdfMineria de Datos Dialnet.pdf
Mineria de Datos Dialnet.pdf
 
Introducción al Data Mining
Introducción al Data MiningIntroducción al Data Mining
Introducción al Data Mining
 
Minería de Datos Aplicado a la EPH Encuesta Permanente de Hogares
Minería de Datos Aplicado a la EPH Encuesta Permanente de HogaresMinería de Datos Aplicado a la EPH Encuesta Permanente de Hogares
Minería de Datos Aplicado a la EPH Encuesta Permanente de Hogares
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
02000 metodo validacion
02000 metodo validacion02000 metodo validacion
02000 metodo validacion
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de Datos. Introducción
Minería de Datos. IntroducciónMinería de Datos. Introducción
Minería de Datos. Introducción
 
Electiva iii parcial 2 - 02-minería de datos
Electiva iii   parcial 2 - 02-minería de datosElectiva iii   parcial 2 - 02-minería de datos
Electiva iii parcial 2 - 02-minería de datos
 

Último

CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptxCARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptxvalenciaespinozadavi1
 
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptaCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptCRISTOFERSERGIOCANAL
 
Ingeniería clínica 1 Ingeniería biomedica
Ingeniería clínica 1 Ingeniería biomedicaIngeniería clínica 1 Ingeniería biomedica
Ingeniería clínica 1 Ingeniería biomedicaANACENIMENDEZ1
 
Mapas y cartas topográficas y de suelos.pptx
Mapas y cartas topográficas y de suelos.pptxMapas y cartas topográficas y de suelos.pptx
Mapas y cartas topográficas y de suelos.pptxMONICADELROCIOMUNZON1
 
ECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfmatepura
 
Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMarceloQuisbert6
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdffredyflores58
 
CLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxCLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxbingoscarlet
 
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptxProcesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptxJuanPablo452634
 
Falla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integralFalla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integralsantirangelcor
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajasjuanprv
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Dr. Edwin Hernandez
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfAntonioGonzalezIzqui
 
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERASDOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERASPersonalJesusGranPod
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfbcondort
 
CONCEPTOS EN HIDROGEOLOGIA-diapositivas varias.pptx
CONCEPTOS EN HIDROGEOLOGIA-diapositivas varias.pptxCONCEPTOS EN HIDROGEOLOGIA-diapositivas varias.pptx
CONCEPTOS EN HIDROGEOLOGIA-diapositivas varias.pptxBrayanJavierCalle2
 
clases de porcinos generales de porcinos
clases de porcinos generales de porcinosclases de porcinos generales de porcinos
clases de porcinos generales de porcinosDayanaCarolinaAP
 
Elaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdfElaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdfKEVINYOICIAQUINOSORI
 
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdfCristhianZetaNima
 

Último (20)

CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptxCARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
 
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptaCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
 
Ingeniería clínica 1 Ingeniería biomedica
Ingeniería clínica 1 Ingeniería biomedicaIngeniería clínica 1 Ingeniería biomedica
Ingeniería clínica 1 Ingeniería biomedica
 
Mapas y cartas topográficas y de suelos.pptx
Mapas y cartas topográficas y de suelos.pptxMapas y cartas topográficas y de suelos.pptx
Mapas y cartas topográficas y de suelos.pptx
 
ECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdf
 
Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principios
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
 
CLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxCLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptx
 
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdfVALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
 
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptxProcesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
Procesos-de-la-Industria-Alimentaria-Envasado-en-la-Produccion-de-Alimentos.pptx
 
Falla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integralFalla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integral
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajas
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
 
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERASDOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
 
CONCEPTOS EN HIDROGEOLOGIA-diapositivas varias.pptx
CONCEPTOS EN HIDROGEOLOGIA-diapositivas varias.pptxCONCEPTOS EN HIDROGEOLOGIA-diapositivas varias.pptx
CONCEPTOS EN HIDROGEOLOGIA-diapositivas varias.pptx
 
clases de porcinos generales de porcinos
clases de porcinos generales de porcinosclases de porcinos generales de porcinos
clases de porcinos generales de porcinos
 
Elaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdfElaboración de la estructura del ADN y ARN en papel.pdf
Elaboración de la estructura del ADN y ARN en papel.pdf
 
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
 

La minería de datos en el proceso de KDD

  • 1. Minería de Datos I Dr. Ricardo Rico Molina rricom@uaemex.mx Centro Universitario UAEM Nezahualcóyotl
  • 2. Directorio Titulo de la presentación
  • 3. Directorio Nezahualcóyotl Titulo de la presentación Dra. en C. Magally Martínez Reyes Encargada del Despacho de la Dirección del Centro Universitario UAEM Nezahualcóyotl M. en GyA. P. Ma. Teresa Cruz Patiño Subdirector Académico CP. Martha Osorio González Subdirector Administrativo D. en C.A. Oliverio Cruz Mejía Coordinadora de Investigación y Estudios Avanzados M. en A. Victor Manuel Durán López Coordinador de Planeación y Desarrollo Institucional M. en C. E. Cesar Lucio Gutiérrez Ruiz Coordinador de la Licenciatura en Comercio Internacional M S.S. Carlos Anaya Hernández. Coordinadora de la Licenciatura en Educación para la Salud Dra. en Ing. de Sist. Doricela Gutiérrez Cruz Coordinador de la Licenciatura en Ingeniería en Sistemas Inteligentes M. en I. Javier Romero Torres Coordinador de la Licenciatura en Ingeniería en Transporte Dr. en E.J. Rodolfo Téllez Cuevas Coordinador de la Licenciatura en Seguridad Ciudadana
  • 4. Mapa curricular Titulo de la presentación
  • 5. Contenido Titulo de la presentación Minería de Datos Unidad 2. La minería de datos en el proceso de KDD Contenidos: 2.1 Etapas de proceso de KDD 2.1.1 Integración y recopilación 2.1.2 Selección, limpieza y transformación 2.1.3 Minería de Datos 2.1.4 Evaluación e Interpretación 2.1.5 Difusión y uso
  • 6. Secuencia Didáctica Unidad 2. La minería de datos en el proceso de KDD 2.1 Etapas de proceso de KDD 2.1.1 Integración y recopilación 2.1.2 Selección, limpieza y transformación 2.1.3 Minería de Datos 2.1.4 Evaluación e Interpretación 2.1.5 Difusión y uso
  • 7. Presentación Titulo de la presentación El presente Material Visual de la Unidad de Aprendizaje Mineria de datos de la licenciatura en Ingeniería en Sistemas Inteligentes reúne los contenidos de la unidad 2. La minería de datos en el proceso de KDD donde se desarrollara los temas: Etapas de proceso de KDD, Integración y recopilación, Selección, limpieza y transformación, Minería de Datos, Evaluación e Interpretación, Difusión y uso; las cuales impartirán en cuatro horas semanales.
  • 8. 2.1 Etapas de proceso de KDD ¿Que es KDD? De acuerdo a Fallad et al., 1996 el KDD es el Proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos . El cual se encarga de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados.
  • 9. 2.1 Etapas de proceso de KDD ¿Que es KDD? Los conceptos con los que podemos definir el KDD son Lenguaje de alto nivel, precisión, Interés y Eficiencia. Los cuales se definen: Lenguaje de alto nivel: El conocimiento descubierto se representa en un lenguaje de alto nivel, inteligible desde el punto de vista humano.
  • 10. 2.1 Etapas de proceso de KDD ¿Que es KDD? Precisión: Los descubrimientos representan el contenido de la base de datos que, como reflejo de la realidad, puede contener imperfecciones y ruido. Por tanto, será raro que algún conocimiento se cumpla con todos los datos. El grado de certidumbre medirá el crédito o confianza que el sistema o usuario puede asignar a cierto descubrimiento; si la certeza no es lo suficientemente alta, los patrones descubiertos no llegarán a ser conocimiento.
  • 11. 2.1 Etapas de proceso de KDD ¿Que es KDD? Interés: Aunque es posible extraer numerosos patrones de cualquier base de datos, sólo se consideran como conocimiento aquéllos que resulten interesantes según ciertos criterios del usuario. En particular, un patrón interesante debe ser nuevo, potencialmente útil y no trivial.
  • 12. 2.1 Etapas de proceso de KDD ¿Que es KDD? Eficiencia: Son deseables procesos de descubrimiento que puedan ser eficientemente implementados en una computadora. Se considera que un algoritmo es eficiente cuando su tiempo de ejecución y el espacio de memoria requerido crecen de forma polinomial con el tamaño de los datos de entrada
  • 13. 2.1 Etapas de proceso de KDD ¿Que es KDD? Es la convergencia del Aprendizaje Automático, la Estadística, el “reconocimiento de patrones”, “la inteligencia artificial”, “las bases de datos”, “la visualización de datos”, “los sistemas para el apoyo a la toma de decisiones”, “la recuperación de información”, entre otros campos Las metas del KDD son: • Procesar automáticamente grandes cantidades de datos crudos. • Identificar los patrones más significativos y relevantes. • Presentarlos como conocimiento apropiado para satisfacer las metas del usuario (Vallejo, 2006).
  • 14. 2.1 Etapas de proceso de KDD Metodología KDD
  • 15. 2.1 Etapas de proceso de KDD Selección Determinar los objetivos que se deseen lograr, estos, deben ser precisos o medibles Preprocesamiento Recolectar datos útiles para alcanzar los objetivos, así como verificar que la base de datos sea coherente, confiable, relevante y actualizada
  • 16. 2.1 Etapas de proceso de KDD Transformación Grafica los datos para tener una perspectiva de la información, en caso de observar comportamientos atípicos o out-layer, proceder a limpiarlos. Si existen múltiples dimensiones que no permita procesar la información correctamente, se puede reducir para manipularlo Minería de Datos Elegir el algoritmo que mas se adecue a la problemática que se requiere resolver (Cluster, Arboles , regresión, red neuronal, valles)
  • 17. 2.1 Etapas de proceso de KDD Interpretación del conocimiento En la evaluación, verificar que los supuestos de evaluación se cumplan (Bootstrapping o cross validation). Se puede replantear el problema para probar otro algoritmo
  • 18. 2.1 Etapas de proceso de KDD Cabe decir que existen otras metodologías como CRISP-DM, SEMMA
  • 19. 2.1.1 Integración y recopilación Se deben identificar los datos necesarios, sus fuentes e integrarlos. La integración con lleva solucionar conflictos de tipos de datos, niveles de agregación, llaves primarias y foráneas, codificación, etc. Esta integración da lugar a data warehouse (almacenes de datos) Se sugiere: Hacer una copia de las BD integrantes eliminando inconsistencias. Aplicar Data warehouse (Implica agregar y cruzar información, generando una DB multidimensional)
  • 20. 2.1.2 Selección, limpieza y transformación “La calidad de los datos obtenidos influye en el resultado final.” Es bien sabido que en la minería de datos no basta en aplicar diferente algoritmos, para obtener información, es por eso la necesidad e importancia de una selección adecuada. Después de integrarlos esta fase da pie a mejorar los datos por medio de la limpieza y trasformación.
  • 21. 2.1.2 Selección, limpieza y transformación En este sentido se hace necesario identificar los datos necesarios y lo que no va a aportar nada. Por lo cual se procede a identificar y eliminar. El proceso de eliminación de datos fuera de rango o atípicos, en algunos caso modifican fuertemente el resultado (cabe resalta que esta decisión depende del tipo de problema que estemos enfrentando, debido a que en el caso de movimientos atípicos en cuentas bancarias, daría información que podría ayudar a la detección de fraudes)
  • 22. 2.1.2 Selección, limpieza y transformación Recordar que se pueden tener datos atípicos (outliers), pero también se tiene que encontrar datos faltantes (missing values), si es posible saber el motivo de la omisión. “No todos los atributos son relevantes” En este sentido debido a que ya se ha hecho trabajo en conocer el objeto de estudio, permitirá de forma fácil discernir que atributo me va a servir.
  • 23. 2.1.2 Selección, limpieza y transformación Algunos atributos pueden construirse Algunos atributos pueden generarse de la interacción de varios, a través de operaciones y que apoyarían a la simplificación de la base de datos El tipo de atributos puede cambiarse Desde el punto del proceso de algunos algoritmos , se facilita el proceso de estos, si, los datos son discretizados
  • 24. 2.1.3 Minería de Datos En esta fase, lo que se busca es extraer conocimiento o información útil, para el usuario. Esto puede ser por medio de modelos basados en los datos, lo que permite obtener respuestas. “La selección del algoritmo adecuado para el tipo de problema” La experiencia determinara como se procesa los datos, existen diversos tipos de tareas, que ayudara a procesar los datos de mejor manera (no se saca un tornillo con un martillo)
  • 25. 2.1.3 Minería de Datos Ahondando en el punto anterior, se tienen que tener en cuenta, los tipos de datos que maneja cada tarea. “Determinar que tipo de tarea aplica a nuestra problemática (clasificación, regresión, clusterizacion, correlación, asociación, asociación secuencial)” Clasificación: valores discretos (se obtienen predicciones de nuevas instancias de acuerdo a los datos alimentados)
  • 26. 2.1.3 Minería de Datos Regresión: valores reales ( se obtiene instancias cuyo fin es predecir instancias nuevas por medio de una función) Clusterizacion: valores discretos (los grupos obtenidos son de elementos con un grado alto de similitud entre instancias)
  • 27. 2.1.3 Minería de Datos Correlaciones: valores reales (la correlación indica que grado de relación tienen los datos ) Asociación: valores discretos (se obtiene reglas de asociación, basadas en relación de tipo “A es B =› C es D ” ) Asociación secuencial: Valores discretos y reales (se obtiene reglas de asociación dependientes de una dimensión temporal)
  • 28. 2.1.3 Minería de Datos Tarea: • Buscar una base de datos para proyecto final • Reportar que tareas o algoritmos para procesamiento de datos conoce
  • 29. 2.1.4 Evaluación e Interpretación En esta fase es importante obtener patrones precisos, comprensibles e interesantes. “Si no es entendible lo obtenido una o varias fases puede estar mal planteadas” Si bien es cierto, una tarea llevada adecuadamente será interpretada de manera automática, se podría asumir que con esto están validadas, esta suposición es errónea.
  • 30. 2.1.4 Evaluación e Interpretación “La validación es necesaria” Una forma rápida para validar seria mediante el uso de datos o casos distintos, a los que se usaron en el entrenamiento (Valida dación Simple y Validación Cruzada). Así mismo es importante recordar lo anterior no es general, para cada tipo de tarea existe la validación adecuada.
  • 31. 2.1.5 Difusión y uso La difusión y uso se enfoca; en recomendaciones con base al modelo obtenido y a través de este aplicarlo a distintos datos. Así mismo se hace la mención, que el modelo obtenido, es susceptible a modificaciones adaptaciones, por la continua evolución de los sistemas.
  • 32. REFERENCIAS 1. Kantardzic M. (2011). “Data mining : concepts, models, methods, and algorithms” Ed John Wiley : IEEE Press. ISBN: 0470890452 9780470890455 2. Kao A. Poteet S. (2010). “Natural language processing and text mining” Ed. Springer ISBN: 9781849965583 9781846287541 3. Han J. Kamber M. Pei J. (2011). “Data mining : concepts and techniques” Ed. Elselvier. ISBN: 9780123814791 9789380931913 0123814790 4. Basu S. Davidson I. Wagstaff K. (2009). “Constrained clustering : advances in algorithms, theory, and applications” Ed. CRC Press ISBN: 9781584889960 5. LongB. Zhang Z, Yu P. (2010) “Relational data clustering : models, algorithms, and applications” Ed. Chapman & Hall/CRC ISBN: 9781420072617 6. Ian H. Witten, Eibe Frank, Mark A. Hall.(2011) Data mining : practical machine learning tools and techniques Ed. Elsevier ISBN: 9780123748560 7. Hernández J Ramírez M. Ferri C. (2004) “Introducción a la minería de datos” Ed. Pearson Educación : Prentice Hall ISBN: 9788420540917 8420540919 8. Dunham M. (2003) “Data mining introductory and advanced topics” Ed. Prentice Hall/Pearson Education ISBN: 0130888923 9. Growth R. (2000). “Data mining : building competitive advantage” Ed. Prentice Hall PTR ISBN: 0130862711 10. Feldman R. Sanger J. (2007). “The text mining handbook : advanced approaches in analyzing unstructured data” Ed. Cambridge University Press ISBN: 0521836573 9780521836579 11. Shmueli G. Patel N. Bruce P. (2010). “Data mining for business intelligence : concepts, techniques, and applications in Microsoft Office Excel with XLMiner” Ed.Wiley ISBN: 9780470526828 12. Bratko I. (2001). “Prolog programming for artificial intelligence” Ed. Pearson 13. Fayyad U. (1996). Advances in knowledge discovery. Ed. Pearson ISBN: 0262560976 14. Pajares P. Sanz.M. (2006). “Inteligencia artificial e ingeniería del conocimiento” Ed. Alfa omega ISBN 9701511662 15. Palma J. Marin M. (2008). “Inteligencia artificial técnicas, métodos y aplicaciones”. Ed. McGraw-Hill ISBN 9788448156183 16. Beltran B (s/a), “Notas Mineria de Datos” , FCC 17. Vallejos S. (2006) “Mineria de datos” LSIC