El documento describe los conceptos clave de minería de datos e incluye las siguientes secciones: (1) definición de minería de datos, (2) proceso de minería de datos, (3) características principales, (4) aplicaciones, (5) extracción de conocimiento en bases de datos (KDD), (6) técnicas como clasificación, agrupamiento, asociación, y (7) herramientas de software como Weka.
¡Cookiegeddon! Bye a las cookies de terceros y cómo afectará a tu software
Mineria de Datos
1. Minería de Datos Integrantes del Equipo: Cerón Reyes María de los Ángeles Gómez Díaz Haydeé Bases de Datos Junio 2010
2. Introducción Día a día generamos información y esto nos lleva a tener una gran cantidad de esta, lo cual implica que el generar información, nos puede ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos.
3.
4. Proceso de Minería de Datos Los pasos a seguir para la realización de un proyecto de minería de datos son: 1. La Determinación de los Objetivos. Trata sobre la delimitación de los objetivos que el cliente desea 2. Pre procesamiento de los Datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y transformación de las bases de datos.
12. TÉCNICAS DE DATA MINING IMPLANTAR MODELO DE DATA MINING DATOS PROBLEMAS Estadística o Inteligencia Artificial ALGORITMOS No estático
13. Con el modelado se construye un modelo en una situación donde se conoce la respuesta y luego se aplica en otra situación de la cual se desconoce la respuesta.
16. Ejemplo Gestión de personal de una empresa: ¿Qué clases de empleados hay contratados? Datos: Modelo generado: Minería de datos Grupo 1 : Sin niños y en una casa alquilada. Bajo número de uniones. Muchos días enfermos Grupo 2 : Sin niños y con coche. Alto número de uniones. Pocos días enfermos. Más mujeres y en una casa alquilada Grupo 3 : Con niños, casados y con coche. Más hombres y normalmente propietarios de casa. Bajo número de uniones
21. Árboles de decisión Agente comercial: ¿Debo conceder una hipoteca a un cliente? Datos: Modelo generado: Minería de datos If Defaulter-accounts > 0 then Returns-credit = no If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes
22. Ejemplo Tienda de TV: ¿Cuántas televisiones planas se venderán el próximo mes? Datos: Modelo generado: Minería de datos Modelo lineal : número de televisiones para el próximo mes V(month) flatTV = 0.62 V(Month-1) flat-TV + 0.33 V(Month-2) flat-TV + 0.12 V(Month-1) DVD-Recorder – 0.05
28. Análisis de Canasta Ejemplo Un ejemplo tradicional de minería de datos es el relacionado con una búsqueda en una bodega de datos, de un negocio de cadena, de hechos comunes y relevantes: Luego del proceso se dio como resultado la siguiente: Si edad < 35; y sexo = masculino; y dia = jueves entonces compras incluyen pañales; y cerveza Esto sirvió para que empresa tomara medidas relacionada con la ubicación de ciertos productos en sitios comunes.
29. Análisis de Canasta (Market Basket Analysis) Los hábitos de compra de los clientes pueden ser representados a través de asociaciones o correlaciones entre los diferentes productos que compran en sus “canastas”. Cliente 1: Arroz, puré, bebida Cliente 2: Arroz, helado, pan Cliente 1: Arroz, bebida, cerveza
31. Análisis de Canasta: Indicadores Confiabilidad (confidence ) : Indica el porcentaje de transacciones que llevan el antecedente y el consecuente juntos, con respecto al total de transacciones que llevan el antecedente. Ejemplo: {arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza} Confianza (cerveza puré)= 1/2=50% Esta relación señala el vínculo entre ambos productos (probabilidad condicional). Pero, qué pasa en el siguiente caso: Confianza(helado arroz)=1/1= 100% ¿Quiere decir que hay una fuerte relación entre estos productos?
32. Análisis de Canasta: Indicadores Ganancia (gain or Improvement ) : puntaje que representa el aumento en la probabilidad de selección del consecuente, al ser comprado en conjunto con el antecedente. Ganancia (A B)=Confianza(A B)/Importancia Relativa(B) Ejemplo: {arroz, puré, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza} Ganancia(helado arroz)=1/1= 1 Ganancia(bebida puré)=0,5/0,3= 1,5 Con estos indicadores podemos entender las relaciones entre clientes
33. Ejemplo Supermercado: ¿Cuándo los clientes compran huevos, también compran aceite? Datos: Modelo generado: Minería de datos Eggs -> Oil: Confianza = 75%, Soporte = 37%
34.
35.
36. Herramienta Weka La Weka ( Gallirallus australis) es un ave originaria de Nueva Zelanda. Esta Gallinácea en peligro de extinción es famosa por su curiosidad y agresividad. De aspecto pardo y tamaño similar a una gallina, las wekas se alimentan fundamentalmente de insectos y frutos. Weka es un software programado en Java que est á orientado a la extracci ó n de conocimientos desde bases de datos con grandes cantidades de informaci ó n.