1. DATAWAREHOUSE
Datawarehouse
Minería de Datos
Fundamentos
CARRERA DE
INGENIERÍA
DE SISTEMAS
2. DATAWAREHOUSE
Agenda
● Introducción.
● Data Mining.
● Fases de un Proyecto Data Mining.
● Arquitectura de un Data Mining.
● Funcionamiento del Data Mining.
● Tipos de problemas.
● Técnicas de Minería de Datos.
● Almacenes de datos.
● Ventajas de Almacenes de Datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
3. DATAWAREHOUSE
Introducción
● El desarrollo de varias tecnologías enfocadas
a aprovechar los datos que se encuentran
escondidos en estos grandes volúmenes de
información.
CARRERA DE
INGENIERÍA
DE SISTEMAS
4. DATAWAREHOUSE
Introducción
● Las BDR, DW, Data Mart (DM), OLAP y OLTP
obtienen conclusiones en base a consultas
deductivas, en tiempos cortos y enormes
volúmenes de información, imposibles en un
proceso manual.
CARRERA DE
INGENIERÍA
DE SISTEMAS
5. DATAWAREHOUSE
Introducción
● Debido al gran volumen de datos el análisis
de los datos ya no puede ser manual (ni
incluso facilitado por herramientas de
almacenes de datos y OLAP) sino que ha de
ser (semi-)automático.
CARRERA DE
INGENIERÍA
DE SISTEMAS
6. DATAWAREHOUSE
Introducción
● Se define el data mining partiendo de la
distinción entre datos, información y
conocimiento.
CARRERA DE
INGENIERÍA
DE SISTEMAS
7. DATAWAREHOUSE
Introducción
● La minería de datos se diferencia en que no
solo transforma y facilita el acceso a la
información para que el usuario la analice más
fácilmente.
● La minería de datos analiza los datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
8. DATAWAREHOUSE
Data Mining
● La Minería de Datos es un conjunto de
técnicas de análisis de datos que permiten:
– Extraer patrones, tendencias y regularidades
para describir y comprender mejor los datos.
– Extraer patrones y tendencias para predecir
comportamientos futuros.
CARRERA DE
INGENIERÍA
DE SISTEMAS
9. DATAWAREHOUSE
Data Mining
● Los patrones válidos son un conjunto de datos,
deben ser útiles para el proceso de
prospección de datos y comprensibles para el
usuario (KDD).
CARRERA DE
INGENIERÍA
DE SISTEMAS
10. DATAWAREHOUSE
Data Mining
● La prospección de datos ( data mining ) se
inscribe en un proceso más amplio como es el
del descubrimiento de conocimiento dentro
de grandes bases de datos (KDD o knowledge
discovery in databases ).
CARRERA DE
INGENIERÍA
DE SISTEMAS
11. DATAWAREHOUSE
Data Mining
● La minería de datos es sólo una etapa del
proceso de extracción de conocimiento a
partir de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
12. DATAWAREHOUSE
Data Mining
● Este proceso consta de varias fases:
– Preparación de Datos (selección, limpieza, y
transformación), Minería de Datos,
Evaluación, Difusión y Uso de Modelos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
13. DATAWAREHOUSE
Fases de un proyecto de Data Mining
● Los pasos a seguir son:
– Filtrado de datos:
● El formato de las fuentes de datos no es el
idóneo. No es posible aplicar minería de datos
en datos en bruto. Actividad de
Preprocesamietno
– Selección de Variables:
● La selección de características reduce el
tamaño de los datos eligiendo las variables
mas influyentes en el modelo de
conocimiento.
CARRERA DE
INGENIERÍA
DE SISTEMAS
14. DATAWAREHOUSE
Fases de un proyecto de Data Mining
● Los pasos a seguir son:
– Extracción del conocimiento:
● Mediante técnicas se obtiene un modelo de
conocimiento, que representa patrones de
comportamiento observados.
– Interpretación y evaluación:
● Se valida el resultado, comprobando las
conclusiones sean satisfactorias. Comprobar
los modelos obtenidos. Modificar los pasos
para los modelos si ninguno es satisfactorio.
CARRERA DE
INGENIERÍA
DE SISTEMAS
15. DATAWAREHOUSE
Arquitectura de Minería de Datos
CARRERA DE
INGENIERÍA
DE SISTEMAS
16. DATAWAREHOUSE
Funcionamiento del Data Mining
● El data mining trabaja en un nivel superior
buscando:
– patrones de conducta,
– agrupaciones,
– secuencias,
– tendencias o
– asociaciones de datos
● que puedan generar algún modelo que
permita entender mejor el dominio con el
objetivo de facilitar la toma de decisiones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
17. DATAWAREHOUSE
Funcionamiento del Data Mining
● El data mining es reunir las ventajas de varias
áreas como:
● principalmente usando como materia prima las
bases de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
18. DATAWAREHOUSE
Tipos de problemas
● Existe una variada tipología de problemas:
– Clasificación,
– Categorización,
– Estimación / regresión,
– Agrupamiento,
– Etc.
CARRERA DE
INGENIERÍA
DE SISTEMAS
19. DATAWAREHOUSE
Técnicas de Minería de Datos
● Entre las técnicas tenemos:
– Arboles de decisión.
– Regresión lineal.
– Redes neuronales artificiales.
– Técnicas bayesianas.
– Maquina de soporte vectorial.
– Reglas de asociación.
– Reglas de clasificación.
CARRERA DE
INGENIERÍA
DE SISTEMAS
20. DATAWAREHOUSE
Técnicas de Minería de Datos
● Modelo de agregación ( clustering ), si nos
proponemos encontrar similitudes y agrupar
modelos semejantes . Un ejemplo sería
localizar grupos de datos similares.
CARRERA DE
INGENIERÍA
DE SISTEMAS
21. DATAWAREHOUSE
Técnicas de Minería de Datos
● Árboles de decisión, tanto si nuestro objetivo
es clasificar objetos como si nos interesa
obtener conocimiento para poder hacer
predicciones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
22. DATAWAREHOUSE
Técnicas de Minería de Datos
● Redes neuronales y las reglas de
clasificación, si nuestro objetivo es clasificar
objetos, estudiar las diferencias entre grupos,
sus características particulares.
CARRERA DE
INGENIERÍA
DE SISTEMAS
23. DATAWAREHOUSE
Técnicas de Minería de Datos
● Modelos predictivos clásicos de la
estadística, en el caso de que nuestro interés
sea obtener conocimiento a partir de los datos
que nos permita predecir acciones,
comportamientos, etc.
CARRERA DE
INGENIERÍA
DE SISTEMAS
24. DATAWAREHOUSE
Técnicas de Minería de Datos
● Modelos descriptivos como, las redes
bayesianas y, en menor grado, las reglas de
asociación, si nos proponemos encontrar y
expresar asociaciones significativas o
causales entre diversas variables, hacer
descripciones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
25. DATAWAREHOUSE
Almacenes de datos
● ¿Es necesario tener almacenes de datos
para realizar minería de datos?
– Los almacenes de datos no son
imprescindibles para hacer extracción de
conocimiento a partir de datos.
● Se puede hacer minería de datos sobre un
simple fichero de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
26. DATAWAREHOUSE
Ventajas de Almacenes de datos
● Las ventajas de almacén de datos se amortizan
sobradamente a medio y largo plazo cuando:
– tenemos grandes volúmenes de datos, o
– éstos aumentan con el tiempo, o
– provienen de fuentes heterogéneas o
– se van a combinar de maneras arbitrarias y
no predefinidas.
CARRERA DE
INGENIERÍA
DE SISTEMAS
27. DATAWAREHOUSE
Otras Minerías de Datos
● Existen otros …minings, como:
– TextMining
– WebMining.
CARRERA DE
INGENIERÍA
DE SISTEMAS