SlideShare uma empresa Scribd logo
1 de 37
Modelado de Sistemas de Información y Bases de Datos MINERÍA DE DATOS Claves ocultas en los datos Febrero 2010
¿QUIÉN SOY? 2 Néstor González Fernández info@nestorgonzalez.es
INDICE Introducción En busca de una definición Claves ocultas en los datos Características principales Fases de un proceso de minería de datos Aplicaciones en la empresa. Casos prácticos Tecnologías análogas Productos vs software
1 Introducción
INTRODUCCIÓN.  Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales.  En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par.  5 + - El data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos.
INTRODUCCIÓN.  El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos.  Encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. 6 Ej.
INTRODUCCIÓN.  Aunque desde un punto de vista académico el término data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos, en el entorno comercial, ambos términos se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas de varias áreascomo la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. 7
2 En busca de una definición
EN BUSCA DE UNA DEFINICIÓN Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996) La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina y otros, 2001). 9 1 2 3 La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
3 Claves ocultas en los datos
CLAVES OCULTAS EN LOS DATOS  11 Los datos, origen de la información Es poco costoso guardar datos del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes, etc., por lo que nuestras bases de datos crecen hasta límites insospechados.
CLAVES OCULTAS EN LOS DATOS  12 Estructuración de los datos Para poder analizar nuestros datos con fiabilidad es necesario que exista una cierta estructuración y coherencia entre los mismos. Ej. Diferentes tipos de datos representando el mismo concepto: un ejemplo que ha provocado uno de los mayores problemas informáticos es la representación de la fecha, donde el año se puede guardar con 2 o con 4 dígitos. Diferentes claves para representar el mismo elemento: un mismo cliente puede ser representado por un código de cliente propio o por su NIF. Ej. La cuestión no es sencilla, y se agrava cuando los diferentes ficheros se encuentran en sistemas informáticos y soportes diferentes.
4 Características principales
CLAVES OCULTAS EN LOS DATOS  14 Punto de partida 	Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras: Recolección masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.
CLAVES OCULTAS EN LOS DATOS  15 Características y objetivos Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. El entorno de la minería de datos suele tener una arquitectura cliente-servidor. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas. La minería de datos produce cinco tipos de información: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronósticos.
5 Fases de un proceso de minería de datos
FASES DE UN PROCESO DE MINERÍA DE DATOS 17 El proceso de minería de datos pasa por las siguientes fases: Filtrado de datos. Selección de Variables. Extracción de Conocimiento. Interpretación y Evaluación.
FASES DE UN PROCESO DE MINERÍA DE DATOS 18 Filtrado de datos Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...). Selección de variables Los métodos para la selección de características son básicamente dos: Aquellos basados en la elección de los mejores atributos del problema, Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
FASES DE UN PROCESO DE MINERÍA DE DATOS 19 Algoritmos de Extracción de Conocimiento Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. Interpretación y evaluación Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
6 Aplicaciones en la empresa. Casos prácticos
APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 21 El objetivo final de cualquier proyecto de minería de datos puede resumirse en uno de estos dos objetivos: Ahorrar dinero mejorando la eficacia de sus actividades, o bien, Ganar dinero descubriendo nuevas fuentes de beneficios. ¿cómo se traducen los resultados de un proyecto de minería de datos en beneficios tangibles para la empresa?  Los resultados suponen una mejora de la información disponible y será al aplicar dicha información cuando se obtengan los beneficios.
APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 22 MARKETING Cuanto más precisa sea la información que tengamos sobre los clientes, mayores posibilidades tendremos de aumentar nuestros ingresos y rentabilizar al máximo nuestras acciones. El objetivo fundamental puede resumirse en determinar quién comprará qué, cuándo y dónde. Fidelización de clientes: Conseguir un nuevo cliente o recuperar uno perdido resulta mucho más costoso que mantener uno que ya lo es.  Detectan aquéllos que parece más probable que se vayan a perder, permitiendo llevar a cabo iniciativas que eviten dicha pérdida. Ej.
APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 23 PREDICCIÓN A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima.  Detección de oportunidades. Prevención de problemas. Gestión óptima del personal. Optimización de stocks. Ej.
APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 24 PREDICCIÓN A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima.  Detección de oportunidades. Prevención de problemas. Gestión óptima del personal. Optimización de stocks. Ej.
APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 25 CONTROL DE CALIDAD Detención más precisa de productos defectuosos A menudo el control de calidad se realiza de forma manual y, por tanto, depende de una evaluación subjetiva por parte del personal encargado del mismo. El principal problema de este método es que el criterio de calidad no es estable sino que depende de la persona que realiza el análisis. al aumentar la exactitud de la evaluación se ahorran los costes derivados de las clasificaciones erróneas: productos defectuosos que se consideraron correctos por error y productos correctos, desechados por un exceso de precaución. Localización precoz de defectos A menudo no resulta fácil medir la variable que determina la calidad del producto en tiempo real o en la cadena de producción. En estos casos, es imprescindible utilizar técnicas de minería de datos para descubrir posibles relaciones que permitan detectar los fallos utilizando las variables disponibles durante el proceso. Ej. Ej.
7 Tecnologías análogas
TECNOLOGÍAS ANÁLOGAS 27 Suscita cierta polémica el definir las fronteras existentes entre la minería de datos y disciplinas análogas:  Estadística  Inteligencia artificial Sistemas Expertos  Redes neuronales … ¿Por qué? El hecho es, que en la práctica la totalidad de los modelos y algoritmos de uso general en minería de datos —árboles de regresión y clasificación, modelos logísticos, análisis de componentes principales, etc.— gozan de una tradición relativamente larga en otros campos. Hay quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de negocios que la conviertan en un producto vendible.
TECNOLOGÍAS ANÁLOGAS 28 Integración con Data Warehouse El punto de inicio ideal es:  Un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores.  Información histórica sobre potenciales clientes también provee una excelente base para prospectiva.  Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido. 	El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.
TECNOLOGÍAS ANÁLOGAS 29 Extensiones del Data Mining: Web mining Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log).  Las herramientas de web mining analizan y procesan estos logspara producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea.  Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría. Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas. Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.
TECNOLOGÍAS ANÁLOGAS 30 Extensiones del Data Mining: Text mining Estudios recientes indican que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos.  Este campo de estudio es muy vasto, por lo que se utilizan diferentes técnicas como: la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático Se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo (Nasukawa y otros, 2001).
8 Productos vs software
PRODUCTOS VS SOFTWARE 32 R-project (www.cran.r-project.org) Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. KNIME (www.knime.org) Es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse y programado, esencialmente, en java.
PRODUCTOS VS SOFTWARE 33 SPSS (www.spss.com) StatisticalPackageforthe Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado. Como programa estadístico es muy popular su uso debido a la capacidad de trabajar con bases de datos de gran tamaño.   OTROS DE PROGRAMAS DE INTERÉS… SAS Enterprise Miner RapidMiner Weka KXEN Orange
Bibliografía 1. Minería de Datos. Trabajo de adscripción. Sofía J. Vallejos. 2006 2. Minería de Datos. Documento Básico DAEDALUS. www.daedalus.es 3. Minería de Datos. Wikipedia 4. INTRODUCCIÓN A LA MINERÍA DE DATOS. Editorial Pearson, 2004. ISBN: 84 205 4091 9
Ahora es tu turno ¿tienes alguna pregunta?
Gracias por tu atención plas,plas,plas,…
Mineria de datos

Mais conteúdo relacionado

Mais procurados

Diagrama de Flujo de Datos
Diagrama de Flujo de DatosDiagrama de Flujo de Datos
Diagrama de Flujo de DatosInés Andara
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BIfabian fernandez
 
Presentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA MéxicoPresentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA MéxicoRamón Hernández
 
Características, componentes y arquitectura de los dbms.
Características, componentes y arquitectura de los dbms.Características, componentes y arquitectura de los dbms.
Características, componentes y arquitectura de los dbms.Julicamargo
 
Componentes de un sistema de base de datos
Componentes de un sistema de base de datosComponentes de un sistema de base de datos
Componentes de un sistema de base de datosIsabel
 
Especificacion de requerimientos
Especificacion de requerimientosEspecificacion de requerimientos
Especificacion de requerimientosRamiro Aguirre Inga
 
Modelado Orientado a Objetos
Modelado Orientado a ObjetosModelado Orientado a Objetos
Modelado Orientado a ObjetosRafael Miranda
 
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...Denodo
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseConstrucción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseJulio Pari
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjeffersonjsk
 
Business impact without data governance
Business impact without data governanceBusiness impact without data governance
Business impact without data governanceJohn Bao Vuu
 
Ciclo de vida de un sistema de información
Ciclo de vida de un sistema de informaciónCiclo de vida de un sistema de información
Ciclo de vida de un sistema de informaciónJuan Pablo Bustos Thames
 

Mais procurados (20)

Diagrama de Flujo de Datos
Diagrama de Flujo de DatosDiagrama de Flujo de Datos
Diagrama de Flujo de Datos
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
Presentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA MéxicoPresentación de Gobierno de Datos en DAMA México
Presentación de Gobierno de Datos en DAMA México
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Características, componentes y arquitectura de los dbms.
Características, componentes y arquitectura de los dbms.Características, componentes y arquitectura de los dbms.
Características, componentes y arquitectura de los dbms.
 
Componentes de un sistema de base de datos
Componentes de un sistema de base de datosComponentes de un sistema de base de datos
Componentes de un sistema de base de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
introducción a metadatos
introducción a metadatosintroducción a metadatos
introducción a metadatos
 
Especificacion de requerimientos
Especificacion de requerimientosEspecificacion de requerimientos
Especificacion de requerimientos
 
Modelado Orientado a Objetos
Modelado Orientado a ObjetosModelado Orientado a Objetos
Modelado Orientado a Objetos
 
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...
 
BUSINESS INTELLIGENCE
BUSINESS INTELLIGENCEBUSINESS INTELLIGENCE
BUSINESS INTELLIGENCE
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
1. Modelo de Datos
1. Modelo de Datos1. Modelo de Datos
1. Modelo de Datos
 
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseConstrucción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Diseño de interfaz
Diseño de interfazDiseño de interfaz
Diseño de interfaz
 
Introducción a R - con minería de datos
Introducción a R - con minería de datosIntroducción a R - con minería de datos
Introducción a R - con minería de datos
 
Business impact without data governance
Business impact without data governanceBusiness impact without data governance
Business impact without data governance
 
Ciclo de vida de un sistema de información
Ciclo de vida de un sistema de informaciónCiclo de vida de un sistema de información
Ciclo de vida de un sistema de información
 

Destaque

Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSlalopg
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Aplicación de aprendizaje automático en minería de datos
Aplicación de aprendizaje automático en minería de datosAplicación de aprendizaje automático en minería de datos
Aplicación de aprendizaje automático en minería de datosmajitol
 
Componente de weka (mineria datos ing. software)
Componente de weka (mineria datos ing. software)Componente de weka (mineria datos ing. software)
Componente de weka (mineria datos ing. software)Alexander Jimenez
 
Minería de datos y textos
Minería de datos y textosMinería de datos y textos
Minería de datos y textosJesús Tramullas
 
Mineria de Datos Parte I
Mineria de Datos Parte I Mineria de Datos Parte I
Mineria de Datos Parte I ufrj
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos SecuencialesMarilyn Jaramillo
 
Minería de Datos
Minería de DatosMinería de Datos
Minería de Datosasuoc
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics Spain
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes socialesMaría Muñoz Parra
 
Presentación Minería de Datos
Presentación Minería de DatosPresentación Minería de Datos
Presentación Minería de Datosdataminingperu
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Caso de usos mineria
Caso de usos mineriaCaso de usos mineria
Caso de usos mineriaSeerr Kstro
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datoselsemieni
 

Destaque (20)

Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Aplicación de aprendizaje automático en minería de datos
Aplicación de aprendizaje automático en minería de datosAplicación de aprendizaje automático en minería de datos
Aplicación de aprendizaje automático en minería de datos
 
Componente de weka (mineria datos ing. software)
Componente de weka (mineria datos ing. software)Componente de weka (mineria datos ing. software)
Componente de weka (mineria datos ing. software)
 
Minería de datos y textos
Minería de datos y textosMinería de datos y textos
Minería de datos y textos
 
Mineria de Datos Parte I
Mineria de Datos Parte I Mineria de Datos Parte I
Mineria de Datos Parte I
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos Secuenciales
 
Minería de Datos
Minería de DatosMinería de Datos
Minería de Datos
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
Presentación Minería de Datos
Presentación Minería de DatosPresentación Minería de Datos
Presentación Minería de Datos
 
Minería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilizaciónMinería de Datos: Qué significa realmente y ejemplos de utilización
Minería de Datos: Qué significa realmente y ejemplos de utilización
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Caso de usos mineria
Caso de usos mineriaCaso de usos mineria
Caso de usos mineria
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 

Semelhante a Mineria de datos (20)

Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Capitulo5
Capitulo5Capitulo5
Capitulo5
 
Capitulo5
Capitulo5Capitulo5
Capitulo5
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Tecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptTecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.ppt
 
14196827
1419682714196827
14196827
 
Introducción al Data Mining
Introducción al Data MiningIntroducción al Data Mining
Introducción al Data Mining
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Data
DataData
Data
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
 
IN Unidad 3: Minería de datos
IN Unidad 3: Minería de datosIN Unidad 3: Minería de datos
IN Unidad 3: Minería de datos
 
MD: Clase9
MD: Clase9MD: Clase9
MD: Clase9
 
Manejo De Datos
Manejo De DatosManejo De Datos
Manejo De Datos
 
Del dato a la toma de decisiones, pasando por el conocimiento
Del dato a la toma de decisiones, pasando por el conocimientoDel dato a la toma de decisiones, pasando por el conocimiento
Del dato a la toma de decisiones, pasando por el conocimiento
 

Último

PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxMiguelAtencio10
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 

Último (12)

PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 

Mineria de datos

  • 1. Modelado de Sistemas de Información y Bases de Datos MINERÍA DE DATOS Claves ocultas en los datos Febrero 2010
  • 2. ¿QUIÉN SOY? 2 Néstor González Fernández info@nestorgonzalez.es
  • 3. INDICE Introducción En busca de una definición Claves ocultas en los datos Características principales Fases de un proceso de minería de datos Aplicaciones en la empresa. Casos prácticos Tecnologías análogas Productos vs software
  • 5. INTRODUCCIÓN. Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. 5 + - El data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos.
  • 6. INTRODUCCIÓN. El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos. Encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. 6 Ej.
  • 7. INTRODUCCIÓN. Aunque desde un punto de vista académico el término data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos, en el entorno comercial, ambos términos se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas de varias áreascomo la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. 7
  • 8. 2 En busca de una definición
  • 9. EN BUSCA DE UNA DEFINICIÓN Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos (Fayyad y otros, 1996) La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión (Molina y otros, 2001). 9 1 2 3 La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
  • 10. 3 Claves ocultas en los datos
  • 11. CLAVES OCULTAS EN LOS DATOS 11 Los datos, origen de la información Es poco costoso guardar datos del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes, etc., por lo que nuestras bases de datos crecen hasta límites insospechados.
  • 12. CLAVES OCULTAS EN LOS DATOS 12 Estructuración de los datos Para poder analizar nuestros datos con fiabilidad es necesario que exista una cierta estructuración y coherencia entre los mismos. Ej. Diferentes tipos de datos representando el mismo concepto: un ejemplo que ha provocado uno de los mayores problemas informáticos es la representación de la fecha, donde el año se puede guardar con 2 o con 4 dígitos. Diferentes claves para representar el mismo elemento: un mismo cliente puede ser representado por un código de cliente propio o por su NIF. Ej. La cuestión no es sencilla, y se agrava cuando los diferentes ficheros se encuentran en sistemas informáticos y soportes diferentes.
  • 14. CLAVES OCULTAS EN LOS DATOS 14 Punto de partida Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras: Recolección masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.
  • 15. CLAVES OCULTAS EN LOS DATOS 15 Características y objetivos Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. El entorno de la minería de datos suele tener una arquitectura cliente-servidor. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas. La minería de datos produce cinco tipos de información: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronósticos.
  • 16. 5 Fases de un proceso de minería de datos
  • 17. FASES DE UN PROCESO DE MINERÍA DE DATOS 17 El proceso de minería de datos pasa por las siguientes fases: Filtrado de datos. Selección de Variables. Extracción de Conocimiento. Interpretación y Evaluación.
  • 18. FASES DE UN PROCESO DE MINERÍA DE DATOS 18 Filtrado de datos Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...). Selección de variables Los métodos para la selección de características son básicamente dos: Aquellos basados en la elección de los mejores atributos del problema, Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
  • 19. FASES DE UN PROCESO DE MINERÍA DE DATOS 19 Algoritmos de Extracción de Conocimiento Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. Interpretación y evaluación Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
  • 20. 6 Aplicaciones en la empresa. Casos prácticos
  • 21. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 21 El objetivo final de cualquier proyecto de minería de datos puede resumirse en uno de estos dos objetivos: Ahorrar dinero mejorando la eficacia de sus actividades, o bien, Ganar dinero descubriendo nuevas fuentes de beneficios. ¿cómo se traducen los resultados de un proyecto de minería de datos en beneficios tangibles para la empresa? Los resultados suponen una mejora de la información disponible y será al aplicar dicha información cuando se obtengan los beneficios.
  • 22. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 22 MARKETING Cuanto más precisa sea la información que tengamos sobre los clientes, mayores posibilidades tendremos de aumentar nuestros ingresos y rentabilizar al máximo nuestras acciones. El objetivo fundamental puede resumirse en determinar quién comprará qué, cuándo y dónde. Fidelización de clientes: Conseguir un nuevo cliente o recuperar uno perdido resulta mucho más costoso que mantener uno que ya lo es. Detectan aquéllos que parece más probable que se vayan a perder, permitiendo llevar a cabo iniciativas que eviten dicha pérdida. Ej.
  • 23. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 23 PREDICCIÓN A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima. Detección de oportunidades. Prevención de problemas. Gestión óptima del personal. Optimización de stocks. Ej.
  • 24. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 24 PREDICCIÓN A partir de los datos históricos almacenados y utilizando técnicas de minería de datos pueden elaborarse modelos que permitan estimar con precisión la evolución de una variable en el futuro. Disponer de esta información con tiempo suficiente permite adecuar la respuesta de forma óptima. Detección de oportunidades. Prevención de problemas. Gestión óptima del personal. Optimización de stocks. Ej.
  • 25. APLICACIONES EN LA EMPRESA. CASOS PRÁCTICOS 25 CONTROL DE CALIDAD Detención más precisa de productos defectuosos A menudo el control de calidad se realiza de forma manual y, por tanto, depende de una evaluación subjetiva por parte del personal encargado del mismo. El principal problema de este método es que el criterio de calidad no es estable sino que depende de la persona que realiza el análisis. al aumentar la exactitud de la evaluación se ahorran los costes derivados de las clasificaciones erróneas: productos defectuosos que se consideraron correctos por error y productos correctos, desechados por un exceso de precaución. Localización precoz de defectos A menudo no resulta fácil medir la variable que determina la calidad del producto en tiempo real o en la cadena de producción. En estos casos, es imprescindible utilizar técnicas de minería de datos para descubrir posibles relaciones que permitan detectar los fallos utilizando las variables disponibles durante el proceso. Ej. Ej.
  • 27. TECNOLOGÍAS ANÁLOGAS 27 Suscita cierta polémica el definir las fronteras existentes entre la minería de datos y disciplinas análogas: Estadística Inteligencia artificial Sistemas Expertos Redes neuronales … ¿Por qué? El hecho es, que en la práctica la totalidad de los modelos y algoritmos de uso general en minería de datos —árboles de regresión y clasificación, modelos logísticos, análisis de componentes principales, etc.— gozan de una tradición relativamente larga en otros campos. Hay quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de negocios que la conviertan en un producto vendible.
  • 28. TECNOLOGÍAS ANÁLOGAS 28 Integración con Data Warehouse El punto de inicio ideal es: Un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Información histórica sobre potenciales clientes también provee una excelente base para prospectiva. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido. El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.
  • 29. TECNOLOGÍAS ANÁLOGAS 29 Extensiones del Data Mining: Web mining Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log). Las herramientas de web mining analizan y procesan estos logspara producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría. Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas. Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.
  • 30. TECNOLOGÍAS ANÁLOGAS 30 Extensiones del Data Mining: Text mining Estudios recientes indican que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos. Este campo de estudio es muy vasto, por lo que se utilizan diferentes técnicas como: la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático Se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo (Nasukawa y otros, 2001).
  • 31. 8 Productos vs software
  • 32. PRODUCTOS VS SOFTWARE 32 R-project (www.cran.r-project.org) Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. KNIME (www.knime.org) Es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. Está construido bajo la plataforma Eclipse y programado, esencialmente, en java.
  • 33. PRODUCTOS VS SOFTWARE 33 SPSS (www.spss.com) StatisticalPackageforthe Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado. Como programa estadístico es muy popular su uso debido a la capacidad de trabajar con bases de datos de gran tamaño. OTROS DE PROGRAMAS DE INTERÉS… SAS Enterprise Miner RapidMiner Weka KXEN Orange
  • 34. Bibliografía 1. Minería de Datos. Trabajo de adscripción. Sofía J. Vallejos. 2006 2. Minería de Datos. Documento Básico DAEDALUS. www.daedalus.es 3. Minería de Datos. Wikipedia 4. INTRODUCCIÓN A LA MINERÍA DE DATOS. Editorial Pearson, 2004. ISBN: 84 205 4091 9
  • 35. Ahora es tu turno ¿tienes alguna pregunta?
  • 36. Gracias por tu atención plas,plas,plas,…