1. DATAWAREHOUSE
Datawarehouse
On-Line Analytical Processing
Introducción
CARRERA DE
INGENIERÍA
DE SISTEMAS
2. DATAWAREHOUSE
Agenda
● Introducción.
● Niveles de análisis OLAP
● Características del OLAP
● Herramientas OLAP
● Tipos de Sistemas OLAP
● ROLAP y MOLAP
CARRERA DE
INGENIERÍA
DE SISTEMAS
3. DATAWAREHOUSE
Introducción
● On-line Analytical Processing (OLAP) es una
tecnología en el acceso y análisis de datos en
línea; en el que se usan herramientas
analíticas, que facilitan el análisis de la
información del negocio.
CARRERA DE
INGENIERÍA
DE SISTEMAS
4. DATAWAREHOUSE
Introducción
● La información se halla organizada en
actividades (hechos), se analiza en
perspectiva de sus dimensiones y
indicadores (métricas) que permiten la
flexibilidad de la ejecución de consultas
complejas.
CARRERA DE
INGENIERÍA
DE SISTEMAS
5. DATAWAREHOUSE
Introducción
● Permite a los usuarios una fácil y amigable
navegación por la información, obteniendo el
nivel de granulidad (detalle) que requiere para
la toma de decisiones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
6. DATAWAREHOUSE
Niveles de análisis OLAP
● Los servicios de OLAP proveen de múltiples
niveles de análisis:
– Consultas complejas (grandes volumnes).
– Comparación de datos (intensivo).
– Encontrar patrones.
– Análisis de tendencias.
– Reportes, etc.
CARRERA DE
INGENIERÍA
DE SISTEMAS
7. DATAWAREHOUSE
Característica del OLAP
● Consolidad: Lainformación se encuentra
agrupada desde toda las áreas de la
organización y almacenada en un repositorio
central y único.
● Consistente: Todos los usuario tienen la
misma versión de los datos.
● Orientada al objetivo: Solo contiene
información que permita tomar decisiones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
8. DATAWAREHOUSE
Característica del OLAP
● Histórica: Toda la información de la empresa
esta almacenada como fotografía en el
repositorio.
● Solo lectura: El sistema OLAP s para solo
consultas.
● Atómica: La información OLAP contiene data
sumarizada y resumida.
CARRERA DE
INGENIERÍA
DE SISTEMAS
9. Herramientas OLAP DATAWAREHOUSE
– Los servidores OLAP son una tecnología
superior para aplicaciones de inteligencia.
– Las aplicaciones OLAP realizan consultas a un
nivel agregado de la información.
● Como totales de ventas por línea de producto,
regióny vendedor.
– Las bases de datos OLAP son optimizadas para
el análisis.
– Consultas rápidas y consistentes a cualquier
nivel de sumarización de la información.
– Las bases de datos OLAP son alimentadas de
distintas fuentes de información.
CARRERA DE
INGENIERÍA
DE SISTEMAS
10. Herramientas OLAP DATAWAREHOUSE
● Las herramientas de OLAP presentan al
usuario una visión multidimensional de los
datos (esquema multidimensional) para cada
actividad que es objeto de análisis.
● El usuario formula consultas a la herramienta
OLAP seleccionando atributos de este
esquema multidimensional sin conocer la
estructura interna (esquema físico) del
almacén de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
11. Herramientas OLAP DATAWAREHOUSE
● La herramienta OLAP genera la
correspondiente consulta y la envía al gestor
de consultas del sistema (p.ej. mediante una
sentencia SELECT).
CARRERA DE
INGENIERÍA
DE SISTEMAS
12. Herramientas OLAP DATAWAREHOUSE
Una consulta a un almacén de datos consiste generalmente en la
obtención de medidas sobre los hechos parametrizadas por
atributos de las dimensiones y restringidas por condiciones
impuestas sobre las dimensiones
medida hecho
¿ “Importe total de las ventas durante este año de los productos
del departamento Bebidas, por trimestre y por categoría” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
Parámetros de la consulta: por categoría de producto y por trimestre
CARRERA DE
INGENIERÍA
DE SISTEMAS
13. Herramientas OLAP DATAWAREHOUSE
Marca “Bebidas”
Producto
Día de la semana
Categoría
Mes
Departamento
Nro_producto Día Año Trimestre
Tipo
as
nt
Ve
importe “2012”
unidades
Almacén
“Importe total de ventas en este Ciudad
Tipo
año, del departamento de Región
“Bebidas”, por categoría y trimestre”
CARRERA DE
INGENIERÍA
DE SISTEMAS
14. Herramientas OLAP DATAWAREHOUSE
trimestre categoría importe
CARRERA DE
INGENIERÍA
DE SISTEMAS
15. Herramientas OLAP DATAWAREHOUSE
Categoría Trimestre Ventas
Presentación tabular (relacional)
Refrescos T1 2000000 de los datos seleccionados
Refrescos T2 1000000
Refrescos T3 3000000
Refrescos T4 2000000
Zumos T1 1000000
Zumos T2 1500000
Se asumen dos categorías en el
Zumos T3 8000000 departamento de Bebidas:
Refrescos y Zumos.
Zumos T4 2400000
CARRERA DE
INGENIERÍA
DE SISTEMAS
16. Herramientas OLAP DATAWAREHOUSE
trimestre
Presentación matricial
T1 T2 T3 T4
categoría (multidimensional) de los
datos seleccionados
Refrescos 2000000 1000000 3000000 2000000
Zumos 1000000 1500000 8000000 2400000
Los parámetros de la consulta (“por trimestre” y “por
categoría”) determinan los criterios de agrupación de los
datos seleccionados (ventas de productos del departamento
Bebidas durante este año). La agrupación se realiza sobre
dos dimensiones (Producto, Tiempo).
CARRERA DE
INGENIERÍA
DE SISTEMAS
17. Herramientas OLAP DATAWAREHOUSE
● La realización de las consultas no es relevante,
se puede hacer con selecciones, proyecciones,
concatenaciones y agrupamientos
tradicionales.
● Las herramientas OLAP tienen operadores de
refinamiento o manipulación de consultas.
– ROLL
– DRILL
– SLICE & DICE
– PIVOT
CARRERA DE
INGENIERÍA
DE SISTEMAS
18. Herramientas OLAP DATAWAREHOUSE
● El carácter agregado de las consultas en el
análisis de datos, aconseja la definición de
nuevos operadores que faciliten la agregación
(consolidación) y la disgregación (división)
de los datos:
– agregación (roll): permite eliminar un criterio
de agrupación en el análisis, agregando a los
grupos actuales.
– disgregación (drill): permite introducir un
nuevo criterio de agrupación en el análisis,
disgregando los grupos actuales.
CARRERA DE
INGENIERÍA
DE SISTEMAS
19. Herramientas OLAP DATAWAREHOUSE
Si se desea introducir la dimensión Almacén en el análisis
anterior e incluir un nuevo criterio de agrupación sobre la
ciudad del almacén:
¿ “Importe total de las ventas durante este año de los
productos del departamento Bebidas, por trimestre, por
categorías y por ciudad del almacén” ?.
Restricciones: productos del departamento Bebidas, ventas
durante este año
Parámetros de la consulta: por categoría de producto, por
trimestre y por ciudad del almacén.
CARRERA DE
INGENIERÍA
DE SISTEMAS
20. Herramientas OLAP DATAWAREHOUSE
e st e
“Bebidas” ar
eñDía de la semana
Marca
d is
Producto
Categoría
a
sit rme
ce fo
Mes
ne in
Departamento
Nro_producto
n o vo Día Año Trimestre
io nue
Tipo
as
ar
nt
su
Ve
e lu importe “2012”
unidades
Almacén
Ciudad
“Importe total de ventas en este Tipo
año, del departamento de Región
“Bebidas”, por categoría,
trimestre y ciudad”
CARRERA DE
INGENIERÍA
DE SISTEMAS
21. Herramientas OLAP DATAWAREHOUSE
trimestre categoría importe
n
acé
A lm
S
OS d)
¡ la operación de
R
AC iuda DRILL se realiza sobre
I L L (C
DR el informe original !
o
ta llad
d e
m as
e
In f orm
CARRERA DE
INGENIERÍA
DE SISTEMAS
22. Herramientas OLAP DATAWAREHOUSE
Categoría Trimestre Ventas Categoría Trimestre Ciudad Ventas
Refrescos T1 Arequipa 1000000
Refrescos T1 2000000
Trujillo
Refrescos 1000000
T1
Refrescos T2 1000000 Refrescos T2 Arequipa 400000
Refrescos T2 Trujillo 700000
Refrescos T3 3000000
Refrescos T4 2000000
Cada grupo (categoría-trimestre)
Zumos T1 1000000 de la consulta original se disgrega
en dos nuevos grupos
Zumos T2 1500000 (categoría-trimestre-ciudad) para
T3 8000000 las ciudades de Arequipa y Trujillo.
Zumos
Zumos T4 2400000
* Se asumen dos ciudades:
Arquipa y Trujillo.
CARRERA DE
INGENIERÍA
DE SISTEMAS
23. Herramientas OLAP DATAWAREHOUSE
ipa
A requ
Zumos
300000 500000 200000 2000000
Refrescos
1000000 400000 100000 500000
Presentación matricial
de los datos
T1 T2 T3 T4 seleccionados.
CARRERA DE
INGENIERÍA
DE SISTEMAS
24. Herramientas OLAP DATAWAREHOUSE
Si se desea eliminar el criterio de agrupación sobre
la dimensión Tiempo en la consulta original:
¿ “Importe total de las ventas durante este año de
los productos del departamento Bebidas, por
categorías” ?
CARRERA DE
INGENIERÍA
DE SISTEMAS
25. Herramientas OLAP DATAWAREHOUSE
Marca “Bebidas”
Producto
Día de la semana
Categoría
Mes
Departamento
Nro_producto Día Año Trimestre
Tipo
importe “2012”
unidades
Almacén
Ciudad
“Importe total de ventas en este Tipo
Almacén
año, del departamento de Región
“Bebidas”, por categorías”
CARRERA DE
INGENIERÍA
DE SISTEMAS
26. Herramientas OLAP DATAWAREHOUSE
trimestre categoría importe
o
iemp
S ST ¡ la operación de ROLL
RO stre)
C
L A rime
L (T
se realiza sobre el
RO informe original !
do
re ga
s ag
e ma
o rm
Inf
CARRERA DE
INGENIERÍA
DE SISTEMAS
27. Herramientas OLAP DATAWAREHOUSE
Categoría Trimestre Ventas
Refrescos T1 2000000
Refrescos T2 1000000
Categoría Ventas
Refrescos T3 3000000
Refrescos 8000000
Refrescos T4 2000000
Zumos 12900000
Zumos T1 1000000
Zumos T2 1500000
Zumos T3 8000000
Zumos T4 2400000
CARRERA DE
INGENIERÍA
DE SISTEMAS
28. Herramientas OLAP DATAWAREHOUSE
● Las operaciones de agregación (ROLL) y
disgregación (DRILL) se pueden hacer sobre:
– atributos de una dimensión sobre los que se
ha definido una jerarquía: DRILL-DOWN,
ROLL-UP
● departamento – categoría - producto (Producto)
● año - trimestre – mes - día (Tiempo)
– sobre dimensiones independientes: DRILL-
ACROSS, ROLL-ACROSS
● Producto – Almacén -Tiempo
CARRERA DE
INGENIERÍA
DE SISTEMAS
29. Herramientas OLAP DATAWAREHOUSE
trimestre categoría importe
o
mp ¡ la operación de DRILL se
Tie
O WN ) realiza sobre el informe
L D (mes
DRIL original !
te
n es
se s”
nta de me
e o
d e v ent ría y
tal rtam tego
to a
rte dep r ca
po el , po
“Im o, d as”
añ ebid
“B
CARRERA DE
INGENIERÍA
DE SISTEMAS
30. Herramientas OLAP DATAWAREHOUSE
Categoría Trimestre Ventas Categoría Trimestre Mes Ventas
Refrescos T1 Enero 1000000
Refrescos T1 2000000
Febrero
Refrescos 500000
T1
Refrescos T2 1000000 Refrescos T1 Marzo 500000
Refrescos T3 3000000
Refrescos T4 2000000
Zumos T1 1000000 Cada grupo (categoría-trimestre)
de la consulta original se disgrega
Zumos T2 1500000
en tres nuevos grupos
Zumos T3 8000000 (categoría-trimestre-mes).
Zumos T4 2400000
CARRERA DE
INGENIERÍA
DE SISTEMAS
31. Herramientas OLAP DATAWAREHOUSE
● Otras operaciones de OLAP:
– SLICE & DICE: seleccionar y proyectar datos
en el informe.
– PIVOT: reorientación de las dimensiones en el
informe.
CARRERA DE
INGENIERÍA
DE SISTEMAS
34. Herramientas OLAP DATAWAREHOUSE
Las herramientas de OLAP se caracterizan* por:
ofrecer una visión multidimensional de los datos (matricial).
no imponer restricciones sobre el número de dimensiones.
ofrecer simetría para las dimensiones.
permitir definir de forma flexible (sin limitaciones) sobre las
dimensiones: restricciones, agregaciones y jerarquías entre
ellas.
ofrecer operadores intuitivos de manipulación: drill-down,
roll-up, slice-and-dice, pivot.
ser transparentes al tipo de tecnología que soporta el
almacén de datos (ROLAP o MOLAP).
*Subconjunto de las 12 reglas propuestas por E.F. Codd para
almacen de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
35. Tipos de Sistemas OLAP DATAWAREHOUSE
● El almacén de datos y las herramientas OLAP
se pueden basar físicamente en varias
organizaciones:
– Sistemas ROLAP
● Se implementan sobre tecnología relacional,
pero disponen de algunas facilidades para
mejorar el rendimiento (índices de mapas de
bits, índices de JOIN).
● El motor OLAP se encuentra en un servidor
dedicado.
● Permite el análisis de una enorme cantidad de
datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
36. Tipos de Sistemas OLAP DATAWAREHOUSE
– Sistemas MOLAP
● Disponen de estructuras de almacenamiento
específicas (arrays) y técnicas de
compactación de datos que favorecen el
rendimiento del almacén.
– Sistemas HOLAP
● Sistemas híbridos entre ambos.
● Almacena algunos datos en un motor relacional
y otros en una base de datos
multidimensional.
– Sistemas DOLAP o Desktop OLAP
● OLAP de escritorio.
CARRERA DE
INGENIERÍA
DE SISTEMAS
37. DATAWAREHOUSE
Tipos de Sistemas OLAP
CARRERA DE
INGENIERÍA
DE SISTEMAS
38. ROLAP y MOLAP DATAWAREHOUSE
● Sistemas ROLAP:
– El almacén de datos se construye sobre un
SGBD Relacional.
– Los fabricantes de SGBD relacionales ofrecen
extensiones y herramientas para poder
utilizar el SGBDR como un Sistema Gestor
de Almacenes de Datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
39. ROLAP y MOLAP DATAWAREHOUSE
● Sistemas ROLAP:
– Extensiones de los SGBD relacionales:
– índices de mapa de bits
– índices de JOIN
– técnicas de particionamiento de los datos
– optimizadores de consultas
– extensiones del SQL (operador CUBE, roll-up)
CARRERA DE
INGENIERÍA
DE SISTEMAS
40. ROLAP y MOLAP DATAWAREHOUSE
Sistemas MOLAP.
Sistema de propósito específico:
estructuras de datos (arrays)
técnicas de compactación.
El objetivo de los sistemas MOLAP es almacenar
físicamente los datos en estructuras
multidimensionales de forma que la representación
externa y la representación interna coincidan.
CARRERA DE
INGENIERÍA
DE SISTEMAS
41. ROLAP y MOLAP DATAWAREHOUSE
Estructuras Herramienta
multidimensionales
OLAP
– El servidor MOLAP construye y
almacena datos en estructuras
multidimensionales.
– La herramienta de OLAP presenta
estas estructuras
multidimensionales.
Servidor
MOLAP
Warehouse
CARRERA DE
INGENIERÍA
DE SISTEMAS
42. ROLAP y MOLAP DATAWAREHOUSE
Estructuras Herramienta
multidimensionales
MOLAP: OLAP
– Datos
• Arrays
• Extraídos del almacén de datos
– almacenamiento y procesos
eficientes
Servidor
MOLAP
– la complejidad de la BD se oculta a
los usuarios
– el análisis se hace sobre datos
agregados y métricas o
indicadores precalculados. Warehouse
CARRERA DE
INGENIERÍA
DE SISTEMAS
43. ROLAP y MOLAP DATAWAREHOUSE
ROLAP MOLAP
Desktop
Cliente
Herramienta
OLAP
Servidor Herramienta
Multidimensional OLAP
Servidor
Relacional
Servidor
Warehouse
CARRERA DE
INGENIERÍA
DE SISTEMAS
44. ROLAP y MOLAP DATAWAREHOUSE
ROLAP/MOLAP: Ventajas e Inconvenientes:
ROLAP
pueden aprovechar la tecnología relacional.
pueden utilizarse sistemas relacionales genéricos (más baratos
o incluso gratuitos).
el diseño lógico corresponde al físico si se utiliza el diseño de
Kimball.
MOLAP:
generalmente más eficientes que los ROLAP.
el coste de los cambios en la visión de los datos.
la construcción de las estructuras multidimensionales.
CARRERA DE
INGENIERÍA
DE SISTEMAS