SlideShare uma empresa Scribd logo
1 de 48
Descubrimiento de Conocimiento en Base de Datos (KDD)Fase de Integración y Recopilación ,[object Object]
Almacén de Datos (Data Warehouse).
Almacén de Datos (DW) Ventajas.
Almacén de Datos (DW) Desventajas.
Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW).
DataMart.
DataMart (Tipos).
DataMart versus Almacén de Datos (DW).
Almacén de Datos (DW) Objetivos.
Almacén de Datos (DW) Arquitectura.
Almacén de Datos (DW) Procesos.
Almacén de Datos (DW) Diseño.
Almacén de Datos (DW) Diseño Pasos.
Almacén de Datos (DW) Diseño Modelo de Datos.
Almacén de Datos (DW) Diseño Modelo Multidimensional.
MOLAP – OLAP Multidimensional.
ROLAP – OLAP Relacional.
HOLAP – OLAP Hibrido.Elaborado por: Jean Sánchez
Introducción Los Almacenes de Datos (DataWarehouse) es la clave que permitirá a los usuarios del sistema efectuar sobre los datos: Cualquier pregunta (las preguntas que pueden hacer los usuarios). Cualquier  momento (el acceso de los usuarios a los datos). Cualquier dato (la cantidad de datos y detalles que el usuario puede tener sobre estos).
Introducción Hoy en día toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios, para tomar dichas decisiones se requiere hechos y cifras, sabemos que la competencia crece en todo momento entonces las decisiones que debemos tomar en nuestra empresa deben ser mas aceleradas; pero que pasa si tenemos una montaña de información la cual debe ser analizada, lógicamente pensamos que necesitaríamos mucho tiempo. Los Almacenes de Datos son un proceso, no un producto. El DW es un conjunto de procesos y acciones, es una colección de datos orientados a un tema, integrados y no volátiles en el soporte al proceso  de toma de decisiones de la gerencia.
Introducción Almacenes de Datos (DW) motivación disponer de Sistemas de Información de apoyo a la toma de decisiones (DSS) disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización objetivos análisis de la organización  previsiones de evolución diseño de estrategias
Introducción ¿Cómo trabaja el Almacén de Datos? Extrae la información operacional.  Transforma la operación a formatos consistentes.  Automatiza las tareas de la información para prepararla a un análisis eficiente. ¿En que puede ser usado? Manejo de relaciones de marketing. Análisis de rentabilidad. Reducción de costos. ¿Por qué usarlo? Obtiene respuestas en tiempos razonables.  Analiza desde una perspectiva en el tiempo con la información histórica que se brinde.  Nos permite tener fuentes externas para ayudar a nuestra información.  La información proveniente de fuentes operacionales es transformada y limpiada para lograr consistencia.
Introducción Objetivo: Analizar y extraer información útil de los datos  Necesidad: disponer de los datos. Proceso de recopilación .- Diversidad de fuentes .- Tamaño de las fuentes Archivo simple Qué fuentes .- Internas .- Externas Cómo se van a mantener en el tiempo Cómo se van a organizar Cómo se va a poder extraer .- Total / parcialmente .- Agregados / en detalle Los almacenes de datos no son estrictamente necesarios para realizar minería de datos pero sí son muy útiles si se trabaja con grandes volúmenes de datos, que varían en el tiempo y donde se desea realizar tareas de minería de datos variadas, abiertas y cambiantes.
Introducción Consultas pre-definidas Preguntas ad hoc Modelamiento predictivo  ¿Cómo se usan los Almacenes de Datos? y ¿cuáles son sus requerimientos? ETAPA 1 de Informes QUÉ pasó? ETAPA 2  de Análisis POR QUÉ pasó? ETAPA 3  de Predicción QUÉ PUEDE pasar si..?
Almacén de Datos (DW) Inmon[MicroSt96] (considerado el padre de las B.D.) en 1992: “Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”.  En 1993, Susan Osterfeldt[MicroSt96] publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico".
Almacén de Datos (DW) Un Almacén de Datos o DataWarehouse es esencialmente una replica de la información existente estructurada de tal forma que permita acceder y representar grandes volúmenes de datos de la organización, sean estos estratégicos, tácticos y operativos, posibilitando la explotación de su contenido, proporcionando información vital para la toma de decisiones. Un DataWarehouse es: Orientada a un objetivo (subject-oriented), integrada, Variable en el tiempo, No volátil.
Almacén de Datos (DW) PRODUCTO GAMA VENTA PAÍS CURSO REUNION PROTOTIPO ... ... ... ... ... ... ... Información Necesaria Se diseña para consultar eficientemente información relativa a las  actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, entre otros). DW: Orientado hacia a un objetivos, la información relevante de la organización Base de Datos Transaccional
Almacén de Datos (DW) Fuente de Datos 1 texto Base de Datos Transaccional 1 Fuentes Externas Fuentes Internas Base de Datos Transaccional 2 Almacén de Datos Fuente de Datos 3 Fuente de Datos 2 HTML Integra todos los datos recogidos de  los diferentes sistemas operacionales de la organización, además de fuentes externas. DW: Integrado
Almacén de Datos (DW) Datos Tiempo 01/2007 Datosde Enero 02/2007 Datos de Febrero 03/2007 Datos de Marzo Los datos son relativos a un período de tiempo y deben ser incrementados periódicamente. DW: Variable en el tiempo Los datos son almacenados como fotos (snapshots) correspondientes a períodos de tiempo.
Almacén de Datos (DW) Los datos almacenados no son actualizados, sólo son incrementados.  DW: No volátil Carga Bases de datos operacionales Almacén de Datos INSERT      READ UPDATE DELETE READ El período de tiempo cubierto por un DW varía entre 2 a 15 años.
Almacén de Datos (DW)
Almacén de Datos (DW) Ventajas Almacén de Datos ventajas para las organizaciones rentabilidad de las inversiones realizadas para su creación aumento de la productividad de los técnicos de dirección aumento de la competitividad en el mercado
Almacén de Datos (DW) Desventajas  Almacén de Datos desventajas privacidad de los datos Sub-valoración del esfuerzo necesario para su diseño y creación incremento continuo de los requisitos de los usuarios Sub-valoración de los recursos necesarios para la captura, carga y almacenamiento de los datos
Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW)
DataMart Es el almacén de datos relacional que contiene las tablas a partir de las cuales se construye el cubo dimensional.  Además, es un repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica. Por otra parte, es un conjunto de hechos y datos organizados para soporte decisional basados en la necesidad de un área o departamento específico. Los datos son orientados a satisfacer las necesidades particulares de un departamento dado teniendo sólo sentido  para el personal de ese departamento y sus datos no tienen porque tener las mismas fuentes que los de otro DataMart. Con su implementación se consigue: Programas y procedimientos para extraer, transformar y cargar datos. Instalar herramientas de acceso a los datos. Poblar el DW con los datos necesarios. Poblar el catálogo de metadatos con los datos necesarios. Técnicas de uso y soporte el almacén
DataMart (Tipos) 1.- Data Marts Finanzas. 2.- Data Marts Comercial. 3.- Data Marts Logística. 4.- Data Marts Recursos Humanos.
DataMart versus Almacén de Datos (DW)
Almacén de Datos (DW) Objetivos Posibilitar a Ejecutivos de la empresa, de nivel superior y medio, y analistas, generar, a partir de la información disponible, el conocimiento necesario para orientar, readecuar o fortalecer mejores y más rápidas decisiones ejecutivas, a través de sistemas como: Sistema de información ejecutiva (EIS), herramientas que posibilitan la entrega de información estratégica a los ejecutivos a través de: reportes varios, reportes comparativos y cuadros de mando multi-dimensionales. Sistema de asistencia a las decisiones (DSS), herramientas que proporcionan asistencia para la toma de decisiones. Adiciona ciertas reglas de decisión y análisis de datos no predefinidos en las capacidades de un EIS .
Almacén de Datos (DW) Arquitectura Los principales resultados del desarrollo de laarquitectura DW incluyen: El modelo de datos fuente. El modelo de datos conceptual DW. Arquitectura tecnológica DW. Estándares y procedimientos DW. El plan de implementación incremental para el DW.
Almacén de Datos (DW) Arquitectura Organización (Externa) de Los Datos… Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos. Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.
Almacén de Datos (DW) Arquitectura Marca Tiempo Descripción Semana Producto Categoría Departamento Mes Trimestre Nro_producto Día Ventas Año Tipo importe unidades Almacén Ciudad Tipo Almacén Región
Almacén de Datos (DW) Arquitectura Tiempo Producto Ventas importe unidades Actividad que es objeto de análisis con los indicadores que interesa analizar Almacén Dimensiones (puntos de vista) desde los que se puede analizar la actividad. Marca Semana Descripción Categoría Mes Departamento Trimestre Día Nro_producto Año Tipo Almacén Ciudad Tipo Región
Almacén de Datos (DW) Procesos Los procesos que conforma el DataWarehouse son: Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del DW, realizando: Extracción de los datos. Filtrado de los datos: limpieza, consolidación, etc. Carga inicial del almacén: ordenación, agregaciones, etc. Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos. Repositorio Propio de Datos:  Información relevante: corresponde a la mirada temporal de los datos (mezcla de “fotos” de los datos) y las agregaciones correspondientes)  Metadatos (datos con respecto a los datos), que son almacenados para indicar el significado y uso de los datos propiamente tal.
Almacén de Datos (DW) Procesos Interfaz: permiten acceder a los datos y sobre ellos se conectan otro tipo de herramientas más sofisticadas  Herramientas de Consulta: corresponde a software especializado en el análisis y consulta de grandes volúmenes de datos (OLAP, EIS, Minería de Datos). Sistemas de Integridad: se encargan de un mantenimiento global (actualizaciones y calidad de información) Seguridad: encargado de realizar las copias de seguridad, recuperación, entre otros.
Almacén de Datos (DW) Diseño El desarrollo de la tecnología de Almacenes de Datos se caracteriza por: Temprano desarrollo industrial provocado por las demandas de los usuarios. Uso de metodologías de diseño, donde  la atención se ha centrado en mejorar la eficiencia en la ejecución de consultas. Se diseñan los Almacenes de Datos sabiendo que: Modelo de datos utilizado que de cuenta de la necesidad de almacenamiento de información histórica y orientada a análisis. Búsqueda de eficiencia en el almacenamiento y extracción de información, así como de herramientas de análisis. Compromiso entre el nivel de detalle requerido y la utilidad y costo de ellos .
Almacén de Datos (DW) Diseño Recogida y análisis de requisitos Diseño conceptual Diseño lógico específico Diseño físico Implementación
Almacén de Datos (DW) Diseño Recogida y análisis de requisitos Análisis Diseño conceptual Requisitos de usuario (consultas de análisis necesarias, nivel de agregación, …) Discernimiento de fuentes necesarias del sistema de información de la organización (OLTP) y las externas Diseño lógico Diseño físico Implementación Diseño Conceptual
Almacén de Datos (DW) Diseño Recogida y análisis de requisitos Diseño Lógico Diseño conceptual Modelado multidimensional (MR) Diseño lógico Diseño físico Esquemas  estrella Implementación

Mais conteúdo relacionado

Mais procurados

Datawarehouse
DatawarehouseDatawarehouse
Datawarehouseshady85
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosMaría Isabel Bautista
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datosen mi casa
 
Datawarehouse y Datamining
Datawarehouse y DataminingDatawarehouse y Datamining
Datawarehouse y Dataminingdannoblack
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dwMax Santiago
 
DATA WAREHOUSE
DATA WAREHOUSEDATA WAREHOUSE
DATA WAREHOUSEGrupo Dos
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningNintendo
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1nestor
 
Fundamentos de DataWarehouse
Fundamentos de DataWarehouseFundamentos de DataWarehouse
Fundamentos de DataWarehouseHermes Romero
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Titiushko Jazz
 
Data warehouse
Data warehouseData warehouse
Data warehousemaggybe
 

Mais procurados (20)

Almacenes de datos
Almacenes de datosAlmacenes de datos
Almacenes de datos
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datos
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
data warehouse
data warehousedata warehouse
data warehouse
 
Datawarehouse y Datamining
Datawarehouse y DataminingDatawarehouse y Datamining
Datawarehouse y Datamining
 
Almacén de datos
Almacén de datosAlmacén de datos
Almacén de datos
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dw
 
DATA WAREHOUSE
DATA WAREHOUSEDATA WAREHOUSE
DATA WAREHOUSE
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-mining
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Datawarehouse1
Datawarehouse1Datawarehouse1
Datawarehouse1
 
Fundamentos de DataWarehouse
Fundamentos de DataWarehouseFundamentos de DataWarehouse
Fundamentos de DataWarehouse
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 

Destaque (20)

Pintura com os pés
Pintura com os pésPintura com os pés
Pintura com os pés
 
Internet
InternetInternet
Internet
 
Caligrafía ezequiel ocampo
Caligrafía ezequiel ocampoCaligrafía ezequiel ocampo
Caligrafía ezequiel ocampo
 
Identificación_Institucional
Identificación_InstitucionalIdentificación_Institucional
Identificación_Institucional
 
Evaluacion primer periodo-11-2
Evaluacion primer periodo-11-2Evaluacion primer periodo-11-2
Evaluacion primer periodo-11-2
 
MODELO TPACK
MODELO TPACKMODELO TPACK
MODELO TPACK
 
Sopa de Pedra
Sopa de PedraSopa de Pedra
Sopa de Pedra
 
Beatriz costa
Beatriz costa   Beatriz costa
Beatriz costa
 
O p2 p
O p2 pO p2 p
O p2 p
 
R E D E S S O C I A L E S
R E D E S  S O C I A L E SR E D E S  S O C I A L E S
R E D E S S O C I A L E S
 
Rela
RelaRela
Rela
 
001 matrimonios-200413
001 matrimonios-200413001 matrimonios-200413
001 matrimonios-200413
 
El arte visigodo
El arte visigodoEl arte visigodo
El arte visigodo
 
Informe "Los cruceños y sus actitudes sobre el amor"
Informe "Los cruceños y sus actitudes sobre el amor"Informe "Los cruceños y sus actitudes sobre el amor"
Informe "Los cruceños y sus actitudes sobre el amor"
 
Historia y cartografía de cartagena de indias
Historia y cartografía de cartagena de indias  Historia y cartografía de cartagena de indias
Historia y cartografía de cartagena de indias
 
Receitas PráTicas
Receitas PráTicasReceitas PráTicas
Receitas PráTicas
 
Dia mundial del sida
Dia  mundial  del  sidaDia  mundial  del  sida
Dia mundial del sida
 
Presentacion andragogia
Presentacion andragogiaPresentacion andragogia
Presentacion andragogia
 
Guião de trabalho
Guião de trabalhoGuião de trabalho
Guião de trabalho
 
Audiencia
AudienciaAudiencia
Audiencia
 

Semelhante a Kdd fase1

Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligenceMaryy Aqua
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Climanfef
 
La planificacion segun_data_ware_house
La planificacion segun_data_ware_houseLa planificacion segun_data_ware_house
La planificacion segun_data_ware_houseernestoicidec
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Calzada Meza
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSEnestor
 
Open Class Semana 3 - Datawarehouse - Formato 2022.pdf
Open Class Semana 3 - Datawarehouse - Formato 2022.pdfOpen Class Semana 3 - Datawarehouse - Formato 2022.pdf
Open Class Semana 3 - Datawarehouse - Formato 2022.pdfMaggyLoz
 
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...Julio Antonio Huaman Chuque
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligenceIrene Lorza
 

Semelhante a Kdd fase1 (20)

Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
1DATA WAREHOUSE.ppt
1DATA WAREHOUSE.ppt1DATA WAREHOUSE.ppt
1DATA WAREHOUSE.ppt
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligence
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3Minera de-datos-presentacin-1205263710628735-3
Minera de-datos-presentacin-1205263710628735-3
 
ALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptxALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptx
 
La planificacion segun_data_ware_house
La planificacion segun_data_ware_houseLa planificacion segun_data_ware_house
La planificacion segun_data_ware_house
 
Fundamentos dw
Fundamentos dwFundamentos dw
Fundamentos dw
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSE
 
S15 bi v1-1
S15 bi v1-1S15 bi v1-1
S15 bi v1-1
 
Open Class Semana 3 - Datawarehouse - Formato 2022.pdf
Open Class Semana 3 - Datawarehouse - Formato 2022.pdfOpen Class Semana 3 - Datawarehouse - Formato 2022.pdf
Open Class Semana 3 - Datawarehouse - Formato 2022.pdf
 
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
Clase 02 - Base de Datos Estratégica [Inteligencia de Negocios en las Organiz...
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligence
 
Unidad 5 mercadotecnia
Unidad 5 mercadotecniaUnidad 5 mercadotecnia
Unidad 5 mercadotecnia
 
Inteligencia de Negocios – Data Warehouse
Inteligencia de Negocios – Data WarehouseInteligencia de Negocios – Data Warehouse
Inteligencia de Negocios – Data Warehouse
 

Mais de Jean Sanchez

WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...
WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...
WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...Jean Sanchez
 
Jean realidadaumentada
Jean realidadaumentadaJean realidadaumentada
Jean realidadaumentadaJean Sanchez
 
Brevepaseoporla mineríadedatos
Brevepaseoporla mineríadedatosBrevepaseoporla mineríadedatos
Brevepaseoporla mineríadedatosJean Sanchez
 
Yog leaflet spanish
Yog leaflet spanishYog leaflet spanish
Yog leaflet spanishJean Sanchez
 
Presentacion andragogia
Presentacion andragogiaPresentacion andragogia
Presentacion andragogiaJean Sanchez
 
Presentacion andragogia
Presentacion andragogiaPresentacion andragogia
Presentacion andragogiaJean Sanchez
 
Jean sancheziiicvei extenso
Jean sancheziiicvei extensoJean sancheziiicvei extenso
Jean sancheziiicvei extensoJean Sanchez
 
Programa final cvei
Programa final cveiPrograma final cvei
Programa final cveiJean Sanchez
 
Program final cveiii
Program final cveiiiProgram final cveiii
Program final cveiiiJean Sanchez
 

Mais de Jean Sanchez (20)

WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...
WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...
WEKA: Programa que Permite una mayor Comprensión y Acercamiento a la Minería ...
 
Jean realidadaumentada
Jean realidadaumentadaJean realidadaumentada
Jean realidadaumentada
 
Weka
WekaWeka
Weka
 
Brevepaseoporla mineríadedatos
Brevepaseoporla mineríadedatosBrevepaseoporla mineríadedatos
Brevepaseoporla mineríadedatos
 
Koala
KoalaKoala
Koala
 
Yog leaflet spanish
Yog leaflet spanishYog leaflet spanish
Yog leaflet spanish
 
Panda
PandaPanda
Panda
 
Gorila
GorilaGorila
Gorila
 
Amazonalive web2
Amazonalive web2Amazonalive web2
Amazonalive web2
 
Grupo sslj-805
Grupo sslj-805Grupo sslj-805
Grupo sslj-805
 
Presentacion andragogia
Presentacion andragogiaPresentacion andragogia
Presentacion andragogia
 
Presentacion andragogia
Presentacion andragogiaPresentacion andragogia
Presentacion andragogia
 
Weka completo
Weka completoWeka completo
Weka completo
 
Memorias IIICVEI
Memorias IIICVEIMemorias IIICVEI
Memorias IIICVEI
 
Articulo ICIEI
Articulo ICIEIArticulo ICIEI
Articulo ICIEI
 
Jornadas una
Jornadas unaJornadas una
Jornadas una
 
Jean sancheziiicvei extenso
Jean sancheziiicvei extensoJean sancheziiicvei extenso
Jean sancheziiicvei extenso
 
IIICVEI
IIICVEIIIICVEI
IIICVEI
 
Programa final cvei
Programa final cveiPrograma final cvei
Programa final cvei
 
Program final cveiii
Program final cveiiiProgram final cveiii
Program final cveiii
 

Kdd fase1

  • 1.
  • 2. Almacén de Datos (Data Warehouse).
  • 3. Almacén de Datos (DW) Ventajas.
  • 4. Almacén de Datos (DW) Desventajas.
  • 5. Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW).
  • 8. DataMart versus Almacén de Datos (DW).
  • 9. Almacén de Datos (DW) Objetivos.
  • 10. Almacén de Datos (DW) Arquitectura.
  • 11. Almacén de Datos (DW) Procesos.
  • 12. Almacén de Datos (DW) Diseño.
  • 13. Almacén de Datos (DW) Diseño Pasos.
  • 14. Almacén de Datos (DW) Diseño Modelo de Datos.
  • 15. Almacén de Datos (DW) Diseño Modelo Multidimensional.
  • 16. MOLAP – OLAP Multidimensional.
  • 17. ROLAP – OLAP Relacional.
  • 18. HOLAP – OLAP Hibrido.Elaborado por: Jean Sánchez
  • 19. Introducción Los Almacenes de Datos (DataWarehouse) es la clave que permitirá a los usuarios del sistema efectuar sobre los datos: Cualquier pregunta (las preguntas que pueden hacer los usuarios). Cualquier momento (el acceso de los usuarios a los datos). Cualquier dato (la cantidad de datos y detalles que el usuario puede tener sobre estos).
  • 20. Introducción Hoy en día toda empresa necesita depositar mucha confianza en la toma de decisiones sobre los negocios, para tomar dichas decisiones se requiere hechos y cifras, sabemos que la competencia crece en todo momento entonces las decisiones que debemos tomar en nuestra empresa deben ser mas aceleradas; pero que pasa si tenemos una montaña de información la cual debe ser analizada, lógicamente pensamos que necesitaríamos mucho tiempo. Los Almacenes de Datos son un proceso, no un producto. El DW es un conjunto de procesos y acciones, es una colección de datos orientados a un tema, integrados y no volátiles en el soporte al proceso de toma de decisiones de la gerencia.
  • 21. Introducción Almacenes de Datos (DW) motivación disponer de Sistemas de Información de apoyo a la toma de decisiones (DSS) disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización objetivos análisis de la organización previsiones de evolución diseño de estrategias
  • 22. Introducción ¿Cómo trabaja el Almacén de Datos? Extrae la información operacional. Transforma la operación a formatos consistentes. Automatiza las tareas de la información para prepararla a un análisis eficiente. ¿En que puede ser usado? Manejo de relaciones de marketing. Análisis de rentabilidad. Reducción de costos. ¿Por qué usarlo? Obtiene respuestas en tiempos razonables. Analiza desde una perspectiva en el tiempo con la información histórica que se brinde. Nos permite tener fuentes externas para ayudar a nuestra información. La información proveniente de fuentes operacionales es transformada y limpiada para lograr consistencia.
  • 23. Introducción Objetivo: Analizar y extraer información útil de los datos Necesidad: disponer de los datos. Proceso de recopilación .- Diversidad de fuentes .- Tamaño de las fuentes Archivo simple Qué fuentes .- Internas .- Externas Cómo se van a mantener en el tiempo Cómo se van a organizar Cómo se va a poder extraer .- Total / parcialmente .- Agregados / en detalle Los almacenes de datos no son estrictamente necesarios para realizar minería de datos pero sí son muy útiles si se trabaja con grandes volúmenes de datos, que varían en el tiempo y donde se desea realizar tareas de minería de datos variadas, abiertas y cambiantes.
  • 24. Introducción Consultas pre-definidas Preguntas ad hoc Modelamiento predictivo ¿Cómo se usan los Almacenes de Datos? y ¿cuáles son sus requerimientos? ETAPA 1 de Informes QUÉ pasó? ETAPA 2 de Análisis POR QUÉ pasó? ETAPA 3 de Predicción QUÉ PUEDE pasar si..?
  • 25. Almacén de Datos (DW) Inmon[MicroSt96] (considerado el padre de las B.D.) en 1992: “Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”. En 1993, Susan Osterfeldt[MicroSt96] publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico".
  • 26. Almacén de Datos (DW) Un Almacén de Datos o DataWarehouse es esencialmente una replica de la información existente estructurada de tal forma que permita acceder y representar grandes volúmenes de datos de la organización, sean estos estratégicos, tácticos y operativos, posibilitando la explotación de su contenido, proporcionando información vital para la toma de decisiones. Un DataWarehouse es: Orientada a un objetivo (subject-oriented), integrada, Variable en el tiempo, No volátil.
  • 27. Almacén de Datos (DW) PRODUCTO GAMA VENTA PAÍS CURSO REUNION PROTOTIPO ... ... ... ... ... ... ... Información Necesaria Se diseña para consultar eficientemente información relativa a las actividades (ventas, compras, producción, ...) básicas de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, entre otros). DW: Orientado hacia a un objetivos, la información relevante de la organización Base de Datos Transaccional
  • 28. Almacén de Datos (DW) Fuente de Datos 1 texto Base de Datos Transaccional 1 Fuentes Externas Fuentes Internas Base de Datos Transaccional 2 Almacén de Datos Fuente de Datos 3 Fuente de Datos 2 HTML Integra todos los datos recogidos de los diferentes sistemas operacionales de la organización, además de fuentes externas. DW: Integrado
  • 29. Almacén de Datos (DW) Datos Tiempo 01/2007 Datosde Enero 02/2007 Datos de Febrero 03/2007 Datos de Marzo Los datos son relativos a un período de tiempo y deben ser incrementados periódicamente. DW: Variable en el tiempo Los datos son almacenados como fotos (snapshots) correspondientes a períodos de tiempo.
  • 30. Almacén de Datos (DW) Los datos almacenados no son actualizados, sólo son incrementados. DW: No volátil Carga Bases de datos operacionales Almacén de Datos INSERT READ UPDATE DELETE READ El período de tiempo cubierto por un DW varía entre 2 a 15 años.
  • 32. Almacén de Datos (DW) Ventajas Almacén de Datos ventajas para las organizaciones rentabilidad de las inversiones realizadas para su creación aumento de la productividad de los técnicos de dirección aumento de la competitividad en el mercado
  • 33. Almacén de Datos (DW) Desventajas Almacén de Datos desventajas privacidad de los datos Sub-valoración del esfuerzo necesario para su diseño y creación incremento continuo de los requisitos de los usuarios Sub-valoración de los recursos necesarios para la captura, carga y almacenamiento de los datos
  • 34. Procesamiento de Transacciones en Línea (OLPT) versus Almacén de Datos (DW)
  • 35. DataMart Es el almacén de datos relacional que contiene las tablas a partir de las cuales se construye el cubo dimensional. Además, es un repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica. Por otra parte, es un conjunto de hechos y datos organizados para soporte decisional basados en la necesidad de un área o departamento específico. Los datos son orientados a satisfacer las necesidades particulares de un departamento dado teniendo sólo sentido para el personal de ese departamento y sus datos no tienen porque tener las mismas fuentes que los de otro DataMart. Con su implementación se consigue: Programas y procedimientos para extraer, transformar y cargar datos. Instalar herramientas de acceso a los datos. Poblar el DW con los datos necesarios. Poblar el catálogo de metadatos con los datos necesarios. Técnicas de uso y soporte el almacén
  • 36. DataMart (Tipos) 1.- Data Marts Finanzas. 2.- Data Marts Comercial. 3.- Data Marts Logística. 4.- Data Marts Recursos Humanos.
  • 37. DataMart versus Almacén de Datos (DW)
  • 38. Almacén de Datos (DW) Objetivos Posibilitar a Ejecutivos de la empresa, de nivel superior y medio, y analistas, generar, a partir de la información disponible, el conocimiento necesario para orientar, readecuar o fortalecer mejores y más rápidas decisiones ejecutivas, a través de sistemas como: Sistema de información ejecutiva (EIS), herramientas que posibilitan la entrega de información estratégica a los ejecutivos a través de: reportes varios, reportes comparativos y cuadros de mando multi-dimensionales. Sistema de asistencia a las decisiones (DSS), herramientas que proporcionan asistencia para la toma de decisiones. Adiciona ciertas reglas de decisión y análisis de datos no predefinidos en las capacidades de un EIS .
  • 39. Almacén de Datos (DW) Arquitectura Los principales resultados del desarrollo de laarquitectura DW incluyen: El modelo de datos fuente. El modelo de datos conceptual DW. Arquitectura tecnológica DW. Estándares y procedimientos DW. El plan de implementación incremental para el DW.
  • 40. Almacén de Datos (DW) Arquitectura Organización (Externa) de Los Datos… Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos. Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis.
  • 41. Almacén de Datos (DW) Arquitectura Marca Tiempo Descripción Semana Producto Categoría Departamento Mes Trimestre Nro_producto Día Ventas Año Tipo importe unidades Almacén Ciudad Tipo Almacén Región
  • 42. Almacén de Datos (DW) Arquitectura Tiempo Producto Ventas importe unidades Actividad que es objeto de análisis con los indicadores que interesa analizar Almacén Dimensiones (puntos de vista) desde los que se puede analizar la actividad. Marca Semana Descripción Categoría Mes Departamento Trimestre Día Nro_producto Año Tipo Almacén Ciudad Tipo Región
  • 43. Almacén de Datos (DW) Procesos Los procesos que conforma el DataWarehouse son: Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del DW, realizando: Extracción de los datos. Filtrado de los datos: limpieza, consolidación, etc. Carga inicial del almacén: ordenación, agregaciones, etc. Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos. Repositorio Propio de Datos: Información relevante: corresponde a la mirada temporal de los datos (mezcla de “fotos” de los datos) y las agregaciones correspondientes) Metadatos (datos con respecto a los datos), que son almacenados para indicar el significado y uso de los datos propiamente tal.
  • 44. Almacén de Datos (DW) Procesos Interfaz: permiten acceder a los datos y sobre ellos se conectan otro tipo de herramientas más sofisticadas Herramientas de Consulta: corresponde a software especializado en el análisis y consulta de grandes volúmenes de datos (OLAP, EIS, Minería de Datos). Sistemas de Integridad: se encargan de un mantenimiento global (actualizaciones y calidad de información) Seguridad: encargado de realizar las copias de seguridad, recuperación, entre otros.
  • 45. Almacén de Datos (DW) Diseño El desarrollo de la tecnología de Almacenes de Datos se caracteriza por: Temprano desarrollo industrial provocado por las demandas de los usuarios. Uso de metodologías de diseño, donde la atención se ha centrado en mejorar la eficiencia en la ejecución de consultas. Se diseñan los Almacenes de Datos sabiendo que: Modelo de datos utilizado que de cuenta de la necesidad de almacenamiento de información histórica y orientada a análisis. Búsqueda de eficiencia en el almacenamiento y extracción de información, así como de herramientas de análisis. Compromiso entre el nivel de detalle requerido y la utilidad y costo de ellos .
  • 46. Almacén de Datos (DW) Diseño Recogida y análisis de requisitos Diseño conceptual Diseño lógico específico Diseño físico Implementación
  • 47. Almacén de Datos (DW) Diseño Recogida y análisis de requisitos Análisis Diseño conceptual Requisitos de usuario (consultas de análisis necesarias, nivel de agregación, …) Discernimiento de fuentes necesarias del sistema de información de la organización (OLTP) y las externas Diseño lógico Diseño físico Implementación Diseño Conceptual
  • 48. Almacén de Datos (DW) Diseño Recogida y análisis de requisitos Diseño Lógico Diseño conceptual Modelado multidimensional (MR) Diseño lógico Diseño físico Esquemas estrella Implementación
  • 49. Almacén de Datos (DW) Diseño Recogida y análisis de requisitos Diseño Físico Diseño conceptual Diseño lógico Definición del esquema ROLAP o MOLAP Diseño físico Diseño del ETL Implementación
  • 50. Almacén de Datos (DW) Diseño Recogida y análisis de requisitos Diseño conceptual Implementación Diseño lógico Carga del AD (ETL) Diseño físico Preparación de las vistas de usuario (herramienta OLAP) Implementación
  • 51. Almacén de Datos (DW) Diseño Pasos Paso 1. Elegir un “proceso” de la organización para modelar. Paso 2. Decidir el gránulo (nivel de detalle) de representación del proceso. Paso 3. Identificar las dimensiones que caracterizan el proceso. Paso 4. Decidir la información a almacenar sobre el proceso.
  • 52. Almacén de Datos (DW) Diseño Pasos Paso 1. Elegir un “proceso” de la organización para modelar. Proceso: actividad de la organización soportada por un OLTP del cual se puede extraer información con el propósito de construir el almacén de datos. Pedidos (de clientes). Compras (a suministradores). Facturación. Envíos. Ventas. Inventario.
  • 53.
  • 54. El gránulo determina el significado de las tuplas de la tabla de hechos.
  • 55. El gránulo determina las dimensiones básicas del esquema
  • 59.
  • 60.
  • 61. Almacén de Datos (DW) Diseño Modelo de Datos Tiempo Foto de datos El Modelo de Datos para representar historia y diseño del Almacén de Datos esta basado en el compromiso de: Repetir una foto temporal de los datos, así como aquellos elementos descriptivos (dimensiones). Orientación hacia el análisis y descubrimiento, así como identificar aquellos valores a ser requeridos (hechos).
  • 62. Almacén de Datos (DW) Diseño Modelo Multidimensional Modelo Multidimensional representa la actividad que es analizada (hecho) y las dimensiones que caracterizan la actividad (dimensiones). La información del hecho (actividad) se representan por indicadores (medidas o atributos de hecho). La información de cada dimensión se representan por atributos (de dimensión). Los tipos del Modelo Multidimensional son: Esquema de Estrella (Star schema): Un hecho está en medio del conjunto de dimensiones Esquema de Copo de Nieve (Snowflake schema): Un refinamiento del anterior, donde alguna jerarquía dimensional es normalizada en un conjunto de pequeñas dimensiones. Constelación de Hechos: Tablas de múltiples hechos, vistas como una colección de estrellas.
  • 63. Almacén de Datos (DW) Diseño Modelo Multidimensional (Esquema) Este esquema multidimensional recibe varios nombres: Estrella: si la jerarquía de dimensiones es lineal Estrella jerárquica o copo de nieve: si la jerarquía no es lineal.
  • 64. Almacén de Datos (DW) Diseño Modelo Multidimensional en Estrella Lineal Producto (Cantidad, Valor) Día Local
  • 65. Almacén de Datos (DW) Diseño Modelo Multidimensional en Estrella Jerárquico En este caso existen dimensiones que tienen la posibilidad de extender su descripción vía jerarquía. El caso de la dimensión tiempo se extiende en dos jerarquías.
  • 66. MOLAP - OLAP Multidimensional Los datos origen y sus agregaciones están en una estructura multidimensional. Los objetos dimensionales son procesados para incorporar cambios de los datos operacionales Existe latencia. tiempo comprendido entre procesamientos Características: Provee excelente rendimiento y compresión de datos. Mejor tiempo de respuesta, depende de las las agregaciones. Estructura optimizada para maximizar las consultas. Apropiado para cubos de rápida respuesta.
  • 67. ROLAP - OLAP Relacional La información del cubo, sus datos, su agregación, sumas son almacenados en una base de datos relacional. No copia la BD original, accede a las tablas origen. Es más lenta que las otras estrategias (MOLAP o HOLAP). Se utiliza para ahorrar espacio de almacenamiento en grandes DB de baja frecuencia de consulta. Usos comunes: Cuando los clientes desean ver los cambios inmediatamente. Cuando contamos con grandes conjuntos de datos que no son frecuentemente buscados
  • 68. HOLAP – OLAP Híbrido Combina atributos de MOLAP y ROLAP. Las agregaciones se almacenen en una estructura multidimensional y los detalle, en la BD original. Cubos más pequeños q’ MOLAP y más rápidos q’ ROLAP. Usos comunes: Cubos que requieren rápida respuesta Cuando existen sumarizaciones basadas en una gran cantidad de datos de origen. Solución de compromiso para bajar el espacio ocupado sin perjudicar totalmente el rendimiento de las consultas.