SlideShare uma empresa Scribd logo
1 de 13
Baixar para ler offline
Capítulo 2 Tecnología data warehouse
El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una
herramienta para analizar la información. Este capítulo se encuentra organizado de la
siguiente manera. En la sección 2.1 se analiza la arquitectura de un DW. La sección 2.2
define el modelo multidimensional y muestra los diferentes esquemas relacionales para
implementar un esquema multidimensional como esquema relacional. En la sección 2.3 se
explicará la construcción del DW, es decir el cargado de la información y el refrescado de
la misma. En la sección 2.4 se discutirá el análisis que se puede llevar a cabo en un DW y la
sección 2.5 concluye el capítulo.
2.1 Arquitectura de un DW
Un DW es una colección de grandes cantidades de datos que se encuentran seleccionados,
organizados e historiados para soportar aplicaciones. Un DW es un repositorio donde se
almacena de manera integrada la información de una organización. Se almacenan datos con
el objetivo de obtener información estratégica y táctica para predecir o ayudar en la toma de
decisiones [21].
A diferencia de un sistema tradicional de bases de datos, un DW brinda soporte de análisis
a una empresa. Algunas de sus principales características son: ejecutar consultas para
facilitar el análisis de datos, la cantidad de datos administrados sobrepasan los miles incluso
llegan a ser millones, su uso se basa en la lectura y puede soportar un gran número de
usuarios.
La figura 2.1 muestra la arquitectura básica de un DW. En la parte inferior de la figura se
pueden ver las fuentes conectadas a un extractor – monitor. El extractor es un módulo
responsable de homogenizar la información. El monitor es el responsable de detectar los
cambios que puedan ser realizados en las fuentes y reportarlos al integrador [2].
Figura 2.1. Arquitectura básica de un DW
El integrador recibe los resultados de los extractores y después de integrarlos, los carga al
DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los
datos, el esquema multidimensional del DW.
fuente fuente
extractor /monitor extractor /monitor
integrador
DW
Fase
Construcción
Fase
Explotación
Administrador de consultas
Interfaz
El administrador de consultas se encarga de organizar las consultas y seleccionar los
operadores para permitir su análisis. Para explicar la actividad de un DW podemos
identificar dos grandes fases: construcción y explotación.
La fase de construcción se refiere al diseño e implementación de las herramientas
encargadas de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe
integrar y homogenizar la información previamente. Un proceso posterior pero asociado a
esta misma fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos
al DW.
En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del
DW a través de técnicas que facilitan y hacen más eficiente su consulta. Ya con el DW
poblado lo último es diseñar e implementar una interfaz que le permita al usuario final
interactuar con el repositorio, brindándole todas las ventajas del análisis de la información.
2.2 Modelo multidimensional
El modelo multidimensional describe la organización de la información en un DW. Define
los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones.
2.2.1 Conceptos
Dimensión
Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para
seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el
concepto de dimensión como el grado de libertad de movimiento en el espacio.
Entenderemos esta libertad como el número de direcciones ortogonales diferentes que
podamos tomar [18].
Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona
puede tener los siguientes niveles: ciudad, estado, región, país y continente. Otro ejemplo
es la dimensión Tiempo que presenta los siguientes niveles: día, semana, mes y año [21].
Medida
Una medida es un valor en un espacio multidimensional definido por dimensiones
ortogonales [1]. La medida es un dato numérico que representa la agregación de un
conjunto de datos. Los datos son producidos como resultado del funcionamiento de una
empresa. Un DW comúnmente tiene tres tipos de medidas [25]:
• Snapshots: modelan entidades en un punto dado en el tiempo.
• Eventos: modelan eventos del mundo real, con el grano más fino.
• Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo.
Dependiendo de sus propiedades podemos tener medidas:
• Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo
“temperatura”, que puede estar dada por las dimensiones estación, región y fecha.
• Semi – aditivas, pueden no ser combinadas a lo largo de una o más dimensiones.
Por ejemplo “nómina” que puede estar dada por las dimensiones empleados y
tiempo, pero no producto.
• No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo
“cantidad de producto”, que únicamente puede estar dada por la dimensión
producto.
Cubo
Una instancia del modelo multidimensional, esquema multidimensional, es conocida como
cubo o hipercubo de n dimensiones. Cuando la gente observa los datos en un cubo de n
dimensiones, es más fácil interpretar la información que contiene dicho cubo, así como las
distintas operaciones que se le pueden realizar
Para ejemplificar consideremos la existencia de una aplicación que realiza la venta de
juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones:
producto, tiempo y región. La figura 2.2 presenta el esquema multidimensional de un DW
para la venta de productos que organiza un conjunto de medidas según las dimensiones
REGIÓN, TIEMPO y PRODUCTO.
Figura 2.2. Esquema multidimensional
Cada dimensión tiene asociada una jerarquía de niveles que denotan la granularidad de
observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión
REGIÓN se organiza por Ciudad à Estado à RegiónàPaís. Así se puede observar la
cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla.
2.2.2 Esquema de representación
Un esquema multidimensional puede instrumentarse usando un esquema relacional en
estrella (Star Schema) o usando un esquema copo de nieve (Show Flake Schema) [1]. Un
esquema en estrella está formado por una tabla por cada dimensión y una tabla principal de
hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada
tabla de dimensión como se puede apreciar en la figura 2.3.
n
Producto
Región
Tiempo
Martes 26
Puebla
Muñeca
(ciudad – estado- región- país)
(día – mes – año)
(unidad – grupo – familia)
Figura 2.3 Esquema en estrella
En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita
redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones
del ambiente de los negocios, ya que tiene un acceso más directo a los datos [1]. La figura
2.4 muestra el esquema copo de nieve de nuestro ejemplo.
Medida
Id_Ciudad
nombre
dirección
region
Región
Id_Producto
descripción
marca
grupo
familia
tipo
precio
Producto
Id_Tiempo
fecha
Tiempo
Id_Producto
Id_Ciudad
Id_Tiempo
unid_vendidas
Figura 2.4. Esquema copo de nieve
2.3 Construcción y mantenimiento de un DW
2.3.1 Construcción
Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción
de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los
datos y se comunican con un integrador que integra los datos con respecto al esquema del
DW [1].
Tabla de hechos
Id_Ciudad
nombre
dirección
Región
Id_Producto
descripción
marca
tipo
precio
Producto
Id_Tiempo
díaTiempo
Id_Producto
Id_Ciudad
Id_Tiempo
unid_vendidas
Id Región
región
Id_Mes
mes
Id_Año
año
Id_Grupo
grupo
Id_Familia
familia
La Figura 2.5 presenta la arquitectura del mecanismo de construcción de un DW que
consiste en un conjunto de extractores asociados a las fuentes. Un extractor interactúa con
la fuente para extraer la información y la transforma a una representación comprendida por
un integrador. El extractor conoce el formato de las fuentes, el formato de representación de
datos del DW, el protocolo de comunicación y la ubicación de ambos.
Figura 2.5. Arquitectura básica de la construcción de un DW
El integrador integra la información y calcula los valores agregados con respecto al
esquema del DW [2]. Las tareas principales del integrador son: combinar los datos
obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW [5].
extractor
DWintegradorextractor
extractor
2.3.2 Mantenimiento
El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen
dos formas de refrescar los datos: la primera es llevar los datos al DW segundos después de
que las fuentes fueron actualizadas. La segunda es acumulando y almacenando los datos ya
integrados y transformados, en un sitio intermedio para que de forma periódica pasar la
información al DW. El refrescado se puede realizar de manera incremental o recalculando
todos los datos.
El refrescado de un DW está considerado como un problema difícil debido a las siguientes
razones: primero, el volumen de datos almacenados en el DW es muy grande y crece cada
vez más. Segundo, el refrescado debe ser accesible a los diferentes cambios de ejecución
del DW. Finalmente, el refrescado engloba transacciones que por lo regular acceden
múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos
ya que producirían un alto nivel de agregación.
2.4 Explotación de un DW
La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas
nos referimos a la manipulación, análisis y visualización de la información que realiza el
usuario sobre la información del DW. Para el análisis de los datos almacenados en el DW
se utiliza la tecnología OLAP (On-Line Analytical Processing). Ésta tecnología cuenta con
operadores tales como: Slice´n dice roll-up y drill-down [1].
Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es
decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW [4]. En la
figura 2.6 se observa un ejemplo en el que se restringe el resultado para analizar solo las
ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla.
Figura 2.6 Operador Slice ´n dice
Roll-up agrega medidas que van de un nivel Ni a un nivel más general Nj de una
dimensión. Permite analizar la información a través de diferentes niveles de granularidad de
las dimensiones. Drill-down es la operación inversa. A partir de un nivel superior éste
349 300 280
900 100 898
300 850 630
Cubeta
Escoba
Trapeador
PRODUCTO
REGIÓN
Monterrey
Puebla
Yucatán
TIEMPO
2001
2002
2003
Trapeador
900 100
300 850
REGIÓN
Monterrey Puebla
TIEMPO
2002
2003
Cubeta
PRODUCTO
Slice ´n dice
operador permite bajar de nivel. En la figura 2.7 se observa un claro ejemplo de cómo la
dimensión tiempo cambia de nivel días a meses y viceversa.
Figura 2.7 Operadores drill-down y roll-up
2.5 Discusión
En este capítulo se explicó la tecnología que se usará para resolver las necesidades de la
empresa “Textiles Carmelita”. Se definieron conceptos importantes como dimensión y
medida para poder representar un esquema multidimensional. Se explicaron las fases de
construcción y explotación de un DW. Esta tecnología permite organizar la información
Trapeador
PRODUCTO
TIEMPO
Monterrey Yucatán
Escoba
Cubeta
Puebla
REGIÓN
día30
TIEMPO
REGIÓN
Monterrey
Puebla
Yucatán
PRODUCTO
Cubeta
Trapeador
Escoba
Abril
Roll - up
Drill - down
día 29
día 2
día 1
para analizarla y tomar decisiones que le permiten obtener ventajas competitivas y mejorar
su posición en el mercado en el que opera. Con el apoyo de esta tecnología esta empresa
puede responder preguntas tales como: ¿Cuál es el perfil de sus clientes? ¿Cómo es su
comportamiento con respecto a las compras? ¿Cuál es la utilidad de sus ventas? ¿Cuál es la
evaluación de sus inventarios en el tiempo?

Mais conteúdo relacionado

Destaque

Como evitar las espinillas
Como evitar las espinillasComo evitar las espinillas
Como evitar las espinillasevitared2
 
Supreme court cases landmark
Supreme court cases landmarkSupreme court cases landmark
Supreme court cases landmarkwforrest
 
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...Dalton Martins
 
Bai Bubbles Sell Sheet 9_10_15- web
Bai Bubbles Sell Sheet 9_10_15- webBai Bubbles Sell Sheet 9_10_15- web
Bai Bubbles Sell Sheet 9_10_15- webAl Krauza
 
Hiperparatiroidismo e hipoparatiroidismo
Hiperparatiroidismo e hipoparatiroidismoHiperparatiroidismo e hipoparatiroidismo
Hiperparatiroidismo e hipoparatiroidismoAndrea Yáñez
 
Thats the way - aha aha - i like it: Über die Kommunikationsstrategien von CISOs
Thats the way - aha aha - i like it: Über die Kommunikationsstrategien von CISOsThats the way - aha aha - i like it: Über die Kommunikationsstrategien von CISOs
Thats the way - aha aha - i like it: Über die Kommunikationsstrategien von CISOsMarcus Beyer
 

Destaque (11)

Llega la navidad briefing
Llega la navidad briefingLlega la navidad briefing
Llega la navidad briefing
 
Como evitar las espinillas
Como evitar las espinillasComo evitar las espinillas
Como evitar las espinillas
 
Mdf ciro
Mdf ciroMdf ciro
Mdf ciro
 
Supreme court cases landmark
Supreme court cases landmarkSupreme court cases landmark
Supreme court cases landmark
 
Senac assistente de marketing aula 01
Senac assistente de marketing aula 01Senac assistente de marketing aula 01
Senac assistente de marketing aula 01
 
Bai5 campaign
Bai5 campaignBai5 campaign
Bai5 campaign
 
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
 
Bai Bubbles Sell Sheet 9_10_15- web
Bai Bubbles Sell Sheet 9_10_15- webBai Bubbles Sell Sheet 9_10_15- web
Bai Bubbles Sell Sheet 9_10_15- web
 
CRM Comparison Chart 2012
CRM Comparison Chart 2012CRM Comparison Chart 2012
CRM Comparison Chart 2012
 
Hiperparatiroidismo e hipoparatiroidismo
Hiperparatiroidismo e hipoparatiroidismoHiperparatiroidismo e hipoparatiroidismo
Hiperparatiroidismo e hipoparatiroidismo
 
Thats the way - aha aha - i like it: Über die Kommunikationsstrategien von CISOs
Thats the way - aha aha - i like it: Über die Kommunikationsstrategien von CISOsThats the way - aha aha - i like it: Über die Kommunikationsstrategien von CISOs
Thats the way - aha aha - i like it: Über die Kommunikationsstrategien von CISOs
 

Semelhante a Data warehouse. (20)

DATA WAREHOUSE
DATA WAREHOUSEDATA WAREHOUSE
DATA WAREHOUSE
 
Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dw
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Trabajo ayudantia
Trabajo ayudantiaTrabajo ayudantia
Trabajo ayudantia
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 
Estructuras basicas
Estructuras basicas Estructuras basicas
Estructuras basicas
 
Estructuras básicas
Estructuras básicasEstructuras básicas
Estructuras básicas
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 
Estructuras basicas
Estructuras basicasEstructuras basicas
Estructuras basicas
 
Creacion de data mart
Creacion de data martCreacion de data mart
Creacion de data mart
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
M4 sbd s01
M4 sbd s01M4 sbd s01
M4 sbd s01
 
M4 sbd s01
M4 sbd s01M4 sbd s01
M4 sbd s01
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Analisis services
Analisis servicesAnalisis services
Analisis services
 
Josue
JosueJosue
Josue
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
La planificación
La planificaciónLa planificación
La planificación
 
tarea 3 ayudantia
tarea 3 ayudantiatarea 3 ayudantia
tarea 3 ayudantia
 

Mais de Oscar Valdivieso (20)

Examen final redes i.
Examen final redes i.Examen final redes i.
Examen final redes i.
 
2 flickr.
2 flickr.2 flickr.
2 flickr.
 
Youtube.
Youtube.Youtube.
Youtube.
 
Tutorial issuu.
Tutorial issuu.Tutorial issuu.
Tutorial issuu.
 
Slide.
Slide.Slide.
Slide.
 
Oscar valdivieso 13.
Oscar valdivieso 13.Oscar valdivieso 13.
Oscar valdivieso 13.
 
Oscar valdivieso 12.
Oscar valdivieso 12.Oscar valdivieso 12.
Oscar valdivieso 12.
 
Que es la mutiplexacion oscar valdivieso.
Que es la mutiplexacion oscar valdivieso.Que es la mutiplexacion oscar valdivieso.
Que es la mutiplexacion oscar valdivieso.
 
Oscar valdivieso 11.
Oscar valdivieso 11.Oscar valdivieso 11.
Oscar valdivieso 11.
 
Oscar valdivieso (1).
Oscar valdivieso (1).Oscar valdivieso (1).
Oscar valdivieso (1).
 
Oscar valdivieso pdf10.
Oscar valdivieso pdf10.Oscar valdivieso pdf10.
Oscar valdivieso pdf10.
 
Oscar valdivieso (3).
Oscar  valdivieso (3).Oscar  valdivieso (3).
Oscar valdivieso (3).
 
Oscar valdivieso (2).
Oscar  valdivieso (2).Oscar  valdivieso (2).
Oscar valdivieso (2).
 
Oscar valdivieso (1).
Oscar  valdivieso (1).Oscar  valdivieso (1).
Oscar valdivieso (1).
 
Oscar valdivieso.
Oscar valdivieso.Oscar valdivieso.
Oscar valdivieso.
 
Oscar valdivieso.
Oscar  valdivieso.Oscar  valdivieso.
Oscar valdivieso.
 
Oscar valdivieso.
Oscar  valdivieso.Oscar  valdivieso.
Oscar valdivieso.
 
Oscar valdivieso (1).
Oscar valdivieso (1).Oscar valdivieso (1).
Oscar valdivieso (1).
 
.
..
.
 
Oscar valdivieso.
Oscar valdivieso.Oscar valdivieso.
Oscar valdivieso.
 

Último

NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
La evolucion de la especie humana-primero de secundaria
La evolucion de la especie humana-primero de secundariaLa evolucion de la especie humana-primero de secundaria
La evolucion de la especie humana-primero de secundariamarco carlos cuyo
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024gharce
 
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdfÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdfluisantoniocruzcorte1
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOweislaco
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfDannyTola1
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALEDUCCUniversidadCatl
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docxAgustinaNuez21
 
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxc3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxMartín Ramírez
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfromanmillans
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024IES Vicent Andres Estelles
 
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfBIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfCESARMALAGA4
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfDaniel Ángel Corral de la Mata, Ph.D.
 

Último (20)

Sesión La luz brilla en la oscuridad.pdf
Sesión  La luz brilla en la oscuridad.pdfSesión  La luz brilla en la oscuridad.pdf
Sesión La luz brilla en la oscuridad.pdf
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
La evolucion de la especie humana-primero de secundaria
La evolucion de la especie humana-primero de secundariaLa evolucion de la especie humana-primero de secundaria
La evolucion de la especie humana-primero de secundaria
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
 
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdfÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdf
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
CIENCIAS NATURALES 4 TO ambientes .docx
CIENCIAS NATURALES 4 TO  ambientes .docxCIENCIAS NATURALES 4 TO  ambientes .docx
CIENCIAS NATURALES 4 TO ambientes .docx
 
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxc3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdf
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024
 
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfBIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
 
Unidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDIUnidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDI
 

Data warehouse.

  • 1. Capítulo 2 Tecnología data warehouse El objetivo de éste capítulo es mostrar la tecnología data warehouse (DW) como una herramienta para analizar la información. Este capítulo se encuentra organizado de la siguiente manera. En la sección 2.1 se analiza la arquitectura de un DW. La sección 2.2 define el modelo multidimensional y muestra los diferentes esquemas relacionales para implementar un esquema multidimensional como esquema relacional. En la sección 2.3 se explicará la construcción del DW, es decir el cargado de la información y el refrescado de la misma. En la sección 2.4 se discutirá el análisis que se puede llevar a cabo en un DW y la sección 2.5 concluye el capítulo. 2.1 Arquitectura de un DW Un DW es una colección de grandes cantidades de datos que se encuentran seleccionados, organizados e historiados para soportar aplicaciones. Un DW es un repositorio donde se almacena de manera integrada la información de una organización. Se almacenan datos con el objetivo de obtener información estratégica y táctica para predecir o ayudar en la toma de decisiones [21]. A diferencia de un sistema tradicional de bases de datos, un DW brinda soporte de análisis a una empresa. Algunas de sus principales características son: ejecutar consultas para facilitar el análisis de datos, la cantidad de datos administrados sobrepasan los miles incluso
  • 2. llegan a ser millones, su uso se basa en la lectura y puede soportar un gran número de usuarios. La figura 2.1 muestra la arquitectura básica de un DW. En la parte inferior de la figura se pueden ver las fuentes conectadas a un extractor – monitor. El extractor es un módulo responsable de homogenizar la información. El monitor es el responsable de detectar los cambios que puedan ser realizados en las fuentes y reportarlos al integrador [2]. Figura 2.1. Arquitectura básica de un DW El integrador recibe los resultados de los extractores y después de integrarlos, los carga al DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los datos, el esquema multidimensional del DW. fuente fuente extractor /monitor extractor /monitor integrador DW Fase Construcción Fase Explotación Administrador de consultas Interfaz
  • 3. El administrador de consultas se encarga de organizar las consultas y seleccionar los operadores para permitir su análisis. Para explicar la actividad de un DW podemos identificar dos grandes fases: construcción y explotación. La fase de construcción se refiere al diseño e implementación de las herramientas encargadas de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe integrar y homogenizar la información previamente. Un proceso posterior pero asociado a esta misma fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos al DW. En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del DW a través de técnicas que facilitan y hacen más eficiente su consulta. Ya con el DW poblado lo último es diseñar e implementar una interfaz que le permita al usuario final interactuar con el repositorio, brindándole todas las ventajas del análisis de la información. 2.2 Modelo multidimensional El modelo multidimensional describe la organización de la información en un DW. Define los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones.
  • 4. 2.2.1 Conceptos Dimensión Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el concepto de dimensión como el grado de libertad de movimiento en el espacio. Entenderemos esta libertad como el número de direcciones ortogonales diferentes que podamos tomar [18]. Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona puede tener los siguientes niveles: ciudad, estado, región, país y continente. Otro ejemplo es la dimensión Tiempo que presenta los siguientes niveles: día, semana, mes y año [21]. Medida Una medida es un valor en un espacio multidimensional definido por dimensiones ortogonales [1]. La medida es un dato numérico que representa la agregación de un conjunto de datos. Los datos son producidos como resultado del funcionamiento de una empresa. Un DW comúnmente tiene tres tipos de medidas [25]: • Snapshots: modelan entidades en un punto dado en el tiempo. • Eventos: modelan eventos del mundo real, con el grano más fino. • Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo. Dependiendo de sus propiedades podemos tener medidas:
  • 5. • Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo “temperatura”, que puede estar dada por las dimensiones estación, región y fecha. • Semi – aditivas, pueden no ser combinadas a lo largo de una o más dimensiones. Por ejemplo “nómina” que puede estar dada por las dimensiones empleados y tiempo, pero no producto. • No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo “cantidad de producto”, que únicamente puede estar dada por la dimensión producto. Cubo Una instancia del modelo multidimensional, esquema multidimensional, es conocida como cubo o hipercubo de n dimensiones. Cuando la gente observa los datos en un cubo de n dimensiones, es más fácil interpretar la información que contiene dicho cubo, así como las distintas operaciones que se le pueden realizar Para ejemplificar consideremos la existencia de una aplicación que realiza la venta de juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones: producto, tiempo y región. La figura 2.2 presenta el esquema multidimensional de un DW para la venta de productos que organiza un conjunto de medidas según las dimensiones REGIÓN, TIEMPO y PRODUCTO.
  • 6. Figura 2.2. Esquema multidimensional Cada dimensión tiene asociada una jerarquía de niveles que denotan la granularidad de observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión REGIÓN se organiza por Ciudad à Estado à RegiónàPaís. Así se puede observar la cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla. 2.2.2 Esquema de representación Un esquema multidimensional puede instrumentarse usando un esquema relacional en estrella (Star Schema) o usando un esquema copo de nieve (Show Flake Schema) [1]. Un esquema en estrella está formado por una tabla por cada dimensión y una tabla principal de hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada tabla de dimensión como se puede apreciar en la figura 2.3. n Producto Región Tiempo Martes 26 Puebla Muñeca (ciudad – estado- región- país) (día – mes – año) (unidad – grupo – familia)
  • 7. Figura 2.3 Esquema en estrella En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones del ambiente de los negocios, ya que tiene un acceso más directo a los datos [1]. La figura 2.4 muestra el esquema copo de nieve de nuestro ejemplo. Medida Id_Ciudad nombre dirección region Región Id_Producto descripción marca grupo familia tipo precio Producto Id_Tiempo fecha Tiempo Id_Producto Id_Ciudad Id_Tiempo unid_vendidas
  • 8. Figura 2.4. Esquema copo de nieve 2.3 Construcción y mantenimiento de un DW 2.3.1 Construcción Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los datos y se comunican con un integrador que integra los datos con respecto al esquema del DW [1]. Tabla de hechos Id_Ciudad nombre dirección Región Id_Producto descripción marca tipo precio Producto Id_Tiempo díaTiempo Id_Producto Id_Ciudad Id_Tiempo unid_vendidas Id Región región Id_Mes mes Id_Año año Id_Grupo grupo Id_Familia familia
  • 9. La Figura 2.5 presenta la arquitectura del mecanismo de construcción de un DW que consiste en un conjunto de extractores asociados a las fuentes. Un extractor interactúa con la fuente para extraer la información y la transforma a una representación comprendida por un integrador. El extractor conoce el formato de las fuentes, el formato de representación de datos del DW, el protocolo de comunicación y la ubicación de ambos. Figura 2.5. Arquitectura básica de la construcción de un DW El integrador integra la información y calcula los valores agregados con respecto al esquema del DW [2]. Las tareas principales del integrador son: combinar los datos obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW [5]. extractor DWintegradorextractor extractor
  • 10. 2.3.2 Mantenimiento El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen dos formas de refrescar los datos: la primera es llevar los datos al DW segundos después de que las fuentes fueron actualizadas. La segunda es acumulando y almacenando los datos ya integrados y transformados, en un sitio intermedio para que de forma periódica pasar la información al DW. El refrescado se puede realizar de manera incremental o recalculando todos los datos. El refrescado de un DW está considerado como un problema difícil debido a las siguientes razones: primero, el volumen de datos almacenados en el DW es muy grande y crece cada vez más. Segundo, el refrescado debe ser accesible a los diferentes cambios de ejecución del DW. Finalmente, el refrescado engloba transacciones que por lo regular acceden múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos ya que producirían un alto nivel de agregación. 2.4 Explotación de un DW La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas nos referimos a la manipulación, análisis y visualización de la información que realiza el usuario sobre la información del DW. Para el análisis de los datos almacenados en el DW se utiliza la tecnología OLAP (On-Line Analytical Processing). Ésta tecnología cuenta con operadores tales como: Slice´n dice roll-up y drill-down [1].
  • 11. Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW [4]. En la figura 2.6 se observa un ejemplo en el que se restringe el resultado para analizar solo las ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla. Figura 2.6 Operador Slice ´n dice Roll-up agrega medidas que van de un nivel Ni a un nivel más general Nj de una dimensión. Permite analizar la información a través de diferentes niveles de granularidad de las dimensiones. Drill-down es la operación inversa. A partir de un nivel superior éste 349 300 280 900 100 898 300 850 630 Cubeta Escoba Trapeador PRODUCTO REGIÓN Monterrey Puebla Yucatán TIEMPO 2001 2002 2003 Trapeador 900 100 300 850 REGIÓN Monterrey Puebla TIEMPO 2002 2003 Cubeta PRODUCTO Slice ´n dice
  • 12. operador permite bajar de nivel. En la figura 2.7 se observa un claro ejemplo de cómo la dimensión tiempo cambia de nivel días a meses y viceversa. Figura 2.7 Operadores drill-down y roll-up 2.5 Discusión En este capítulo se explicó la tecnología que se usará para resolver las necesidades de la empresa “Textiles Carmelita”. Se definieron conceptos importantes como dimensión y medida para poder representar un esquema multidimensional. Se explicaron las fases de construcción y explotación de un DW. Esta tecnología permite organizar la información Trapeador PRODUCTO TIEMPO Monterrey Yucatán Escoba Cubeta Puebla REGIÓN día30 TIEMPO REGIÓN Monterrey Puebla Yucatán PRODUCTO Cubeta Trapeador Escoba Abril Roll - up Drill - down día 29 día 2 día 1
  • 13. para analizarla y tomar decisiones que le permiten obtener ventajas competitivas y mejorar su posición en el mercado en el que opera. Con el apoyo de esta tecnología esta empresa puede responder preguntas tales como: ¿Cuál es el perfil de sus clientes? ¿Cómo es su comportamiento con respecto a las compras? ¿Cuál es la utilidad de sus ventas? ¿Cuál es la evaluación de sus inventarios en el tiempo?