SlideShare uma empresa Scribd logo
1 de 69
Baixar para ler offline
Datawarehousing
B.I. : Business Intelligence
 Software que le posibilita a los usuarios la obtención de
  informaciones corporativas mas fácilmente.
 El software BI debe permitir que sean derivadas las
  transacciones y sumarios que el usuario necesite, sin
  que se precise conocer cuales son las fuentes de esos
  datos
B.I.: Business Intelligence
B. I. : Business Intelligence
B.I.: Recursos y herramientas
 Fuentes de datos : warehouses, data marts, etc
 Herramientas de administración de datos
 Herramientas de extracción y consulta
 Herramientas de modelización (Data Mining)
Datamining (Minería de datos)
 El datamining (minería de datos), es el conjunto de
 técnicas y tecnologías que permiten explorar grandes
 bases de datos, de manera automática o
 semiautomática, con el objetivo de encontrar patrones
 repetitivos, tendencias o reglas que expliquen el
 comportamiento de los datos en un determinado
 contexto.
Evolución:
Business Data to Business Information
       Etapa         Pregunta de          Tecnología   Proveedores   Características
                     Negocio              disponible


       Data          ¿Cuál fue el total   Computadoras, IBM, NCR,    Retrospectivo
       Collection    de ventas en         cintas, discos etc         Estático
       (1960)        Capital Federal y
                     GBA?
       Data Access   ¿Cuáles fueron       RDBMS        Oracle,       Retrospectivo
       (1980)        las ventas por       SQL          Informix,     Dinámico
                     sucursal en                       Sybase, etc
                     Capital Federal y
                     GBA?
Evolución:
Business Data to Business Information
   Etapa        Pregunta de     Tecnología       Proveedores   Características
                Negocio         disponible


   Data         ¿Cuál fue el    OLAP             Pilot,        Retrospectivo
   Navigation   total de        DW               Discoverer,   Dinámico
   (1990)       ventas en                        Arbor, etc    Niveles
                Capital                                        múltiples
                Federal?
                Drill down a
                GBA
   Data         ¿Cómo           Algoritmos       Intelligent   Prospectivo.
   Mining       evolucionarán   avanzados        Miner (IBM)   Proactivo
   (2000)       las ventas en   Multiprocesado   SGI
                el próximo      res              SAS, etc
                año?
D.W. : Data Warehouse
 El objetivo de los DWs (almacenamiento de datos) es
 almacenar los datos oriundos de los diversos sistemas
 de información transaccionales en varios grados de
 relaciones y sumarios, con el fin de facilitar y agilizar
 los procesos de toma de decisión por diferentes niveles
 gerenciales.
Orientados al usuario
 Los datos almacenados en el Data Warehouse proveen
 información sobre un tema en particular en vez de
 atender la operatoria de gestión de la compañía.
Integridad
 Esos  datos deben ser tratados (identificados,
 catalogados,   recolectados,    a    disponibilidad,
 transformados en informaciones) e integrados
 permitiendo diversas formas de consultas, a través de
 mecanismos amistosos de las herramientas de los
 usuarios.
Variación en el tiempo
 Los DWs son normalmente actualizados en Batch
 (actualizados una o algunas veces por día y no
 conteniendo los datos de las transacciones de la
 empresa de manera on-line) y pueden contener
 grandes cantidades de datos.
Data Marts
 Los Datamarts(DMs) son DWs de alcance limitados,
 dicho de otra manera son pequeños repositorios de
 datos específicos para cada área de negocios o
 departamentos de las empresas.
Data Warehouse
 Tanto los DWs como los DMs forman la base a partir
 de la cual las empresas pueden utilizar las
 herramientas BI –Business Intelligence -para la
 extracción de informaciones gerenciales
Datos operacionales y Data
Warehouse
               Datos                 Data Warehouse
               operacionales
Contenido      Valores elementales   Datos sumarizados,
                                     derivados

Organización   Por aplicación        Por tema



Estabilidad    Dinámicos             Estáticos hasta su
                                     actualización
Datos operacionales y Data
Warehouse
                 Datos               Data Warehouse
                 operacionales
Estructura       Optimizada para     Optimizada para
                 uso transaccional   querys complejos
                 (NORMALIZADA)       (DESNORMALIZADA)
Frecuencia de    Alta                Media y baja

acceso
Tipo de acceso   Lectura / escritura Lectura
                 Actualización       Sumarización
                 campo por campo
Datos operacionales y Data
Warehouse
            Datos           Data
            operacionales   Warehouse
Uso         Predecible      Ad hoc
            Repetitivo      Heurístico

Tiempo de   Segundos        Segundos a minutos

respuesta
Problemas con los datos
 Demasiados datos
   datos corruptos o con ruido
   datos redundantes (requieren factorización)
   datos irrelevantes
   excesiva cantidad de datos
Problemas con los datos
 Pocos datos
    atributos perdidos (missings)
    valores perdidos
    poca cantidad de datos
 Datos fracturados
    datos incompatibles
    múltiples fuentes de datos
¿Cuántos datos son necesarios?
 ¿Cuántas filas?.
 ¿Cuántas columnas?.
 ¿Cuánta historia?
 Regla general : cuanto más datos, mejor
 En la práctica : condicionado a los recursos de
  obtención y procesamiento.
Explotación del Datawarehouse
                                        Report
                                        Query,
                             Metadata    EIS
             Extracción,
          clean up y carga
              de datos
                                         OLAP

                              DW

                                         Data
    Datos                               Mining
operacionales y
   externos
Componentes del DW
 Fuentes de datos
 Procedimientos de Extracción
                                                  ETL
 Procedimientos de Transformación
 Procedimientos de carga (Loading)
 Soporte físico de los datos (DBMS)
 Herramientas de explotación : OLAP, reporting, Data
 Mining, etc.
ETL
 Procedimientos (herramientas) destinados a obtener
 los datos de las fuentes operacionales, limpiarlos,
 convertirlos a los formatos de utilización y cargarlos en
 el repositorio final.
Integridad de datos
 Los datos cumplen condiciones de integridad cuando
  se ajustan a todos los stándares de valor y completitud.
 Todos los datos del DW son correctos
 El DW está completo (no existen más datos fuera de
  él).
Integridad de datos
 La credibilidad del DW depende de la integridad de
  sus datos
 El uso del DW depende de la percepción de los
  usuarios y de la confianza que tengan en su contenido.
 De la integridad de datos depende el éxito del
  proyecto.
Controles de Integridad
 Controles de Prevención : controlan la integridad
  antes de cargar los datos en el DW.
 Controles de Detección : aseguran la exactitud y
  completitud de la información una vez cargada en el
  DW.
Data Process Flow



Data Process Flow Stages:
1.Data Migration
2.Cleansing
3.Transformation
4.Loading

5.Reconciliation
Etapas del proceso ETL
 Migración de datos
 Limpieza
 Transformación
 (cálculos,agregados,sumarizaciones,desnormalización).
 Carga
 Conciliación - Validación
Migración
 Staging area : área de trabajo fuera del DW.
 El propósito de la migración es mover los datos de los
  sistemas operacionales a las áreas de trabajo (staging
  areas).
 NO se debe mover datos innecesarios (control
  preventivo).
Limpieza (Data cleaning)
 Corregir, estandarizar y completar los datos
 Identificar datos redundantes
 Identificar valores atípicos (outliers)
 Identificar valores perdidos (missings)
Limpieza (actividades)
 Se debe uniformar las tablas de códigos de los sistemas
  operacionales y simplificar esquemas de codificación
 Datos complejos, que representan varios atributos a la
  vez, deben ser particionados.
Transformación
 Son procesos destinados a adaptar los datos al modelo lógico
  del DW
 Se generan “reglas de transformación”.
 Las reglas deben validarse con los usuarios del DW
Transformación
 Generalmente el DW no contiene información de las
  entidades que - en los sistemas operacionales - son
  muy dinámicas y sufren frecuentes cambios.
 Si es necesario se utilizan Snapshots (fotos
  instantáneas)
Transformación
 La des-normalización de los datos tiene como
  propósito mejorar la performance.
 Otro propósito es el de reflejar relaciones estáticas,es
  decir, que no cambian en una perspectiva histórica.
  Por ejemplo: producto - precio vigente al momento de
  facturación.
Transformación (sumarizaciones)
 Los datos sumarizados aceleran los tiempos de
  análisis.
 Las sumarizaciones también ocultan complejidad
  de los datos.
 Las sumarizaciones pueden incluir joins de
  múltiples tablas
 Las sumarizaciones proveen múltiples vistas del
  mismo      conjunto   de   datos     detallados
  (dimensiones).
Estructura dimensional
Sumarizaciones (mantenimiento)
 El mantenimiento de las sumarizaciones es una
  tarea crítica.
 El DW debe actualizarlas a medida que se cargan
  nuevos datos.
 Debe existir alguna forma de navegar los datos
  hasta el nivel de detalle (drill down).
 La definición de la granularidad es un problema
  serio de diseño.
El nivel de granularidad:
problema de diseño del DW

 Cúal es la unidad de tratamiento (fila)
 ¿Qué es un cliente? Una cuenta, un individuo, una
  familia
 ¿Cómo se sumariza la dimensión tiempo? Días,
  semanas, meses …?
Carga (Loading)
 Dos aproximaciones:
    Full Refresh
    Incremental
 Aunque el Full Refresh parece más sólido desde el
 punto de vista de la integridad de los datos, a medida
 que crece el DW se vuelve cada vez más difícil de
 realizar.
Controles de detección
 La validación de la carga del DW identifica problemas
  en los datos no detectados en las etapas anteriores.
 Existen dos maneras de hacer la validación:
   completa (al final del proceso)
   por etapas a medida que se cargan los datos
Controles de detección
 Los controles incluyen reportes que comparan los
 datos del DW con las fuentes operacionales a través de:
   totales de control
   número de registros cargados
   valores originales vs valores limpios (transformados),
    etc.
Herramientas ETL
 Pueden ser procesos manuales diseñados a medida (querys
  SQL, programas en Visual Basic, etc).
 Existen herramientas que proporcionan interfaces visuales
  para definir joins, transformaciones, agregados, etc. sobre las
  plataformas mas comunes.
Data Modelling Techniques for Data Warehousing
La pregunta central
 ¿De qué modo deben diseñarse las bases de datos que
 conforman     un Data Warehouse para soportar
 eficientemente los requerimientos de los usuarios?
¿Por qué es importante?
 Visualización del universo del negocio
 Modelo de abstracción de las “preguntas” que los
  usuarios necesitan responder
 Diseño del plan de implantación del Data Warehouse
Dos técnicas
Modelo E-R       Modelo dimensional

   Entidades       Hechos
   Atributos       Dimensiones
   Relaciones      Medidas
Modelo E-R
Modelo dimensional: HECHOS
 Hechos : colección de items de datos y datos de
  contexto. Cada hecho representa un item de negocio,
  una transacción o un evento
 Los hechos se registran en las tablas CENTRALES del
  DW
Modelo dimensional: DIMENSION
 Una dimensión es una colección de miembros o
  unidades o individuos del mismo tipo
 Cada punto de entrada de la tabla de HECHOS está
  conectado a una DIMENSION
 Determinan el contexto de los HECHOS
Modelo dimensional:
DIMENSIONES
 Se utilizan como parámetros para los análisis OLAP
 Dimensiones habituales son:
   Tiempo
   Geografía
   Cliente
   Vendedor
Modelo dimensional:
DIMENSIONES - Miembros


          Dimensión   Miembro
          Tiempo      Meses, Trimestre, Años
          Geografía   País, Región, Ciudad
          Cliente     Id Cliente
          Vendedor    Id Vendedor
Modelo dimensional
DIMENSIONES - Jerarquía
Modelo dimensional
DIMENSIONES : Medidas
 Medida : es un atributo numérico de un hecho que
  representa la performance o comportamiento del
  negocio relativo a la dimensión
 Ejemplos:
   Ventas en $$
   Cantidad de productos
   Total de transacciones, etc.
Visualización de un modelo
dimensional
DW - OLAP
El modelo dimensional es ideal para soportar las 4
operaciones básicas de la tecnología OLAP:

  Relacionadas con la granularidad: ROLL UP - DRILL
   DOWN
  Navegación por las dimensiones : SLICE - DICE
Drill Down - Roll Up
Slice and Dice
Modelos básicos dimensionales
 STAR              SNOWFLAKE
Star
SnowFlake
Datawarehousing process
Manage the Project
 Es un proceso cíclico e iterativo
 Refiere al manejo del PROYECTO, no al manejo del
  Warehouse (ONGOING)
Define the project
 ¿Qué se necesita analizar y por qué?¿Cuál es el alcance
  del proyecto?
 El contexto de definición y los alcances del proyecto
  DEBEN permitir FLEXIBILIDAD. NO deben ser
  demasiado específicos.
Requirements gathering
 Quién (personas, grupos, usuarios, etc)
 Qué (se quiere analizar)
 Por qué
 Cuándo (factores de oportunidad en el tiempo)
 Dónde (factores geográficos)
 Cómo definir las medidas
Source driven
 Los requerimientos se definen utilizando las fuentes
  de datos operacionales.
 La mayor ventaja es que de antemano se conoce que
  todos los datos podrán ser provistos ya que se sabe qué
  está disponible
Source driven
 Se minimiza el tiempo de interacción con los usuarios
  en las primeras etapas (se gana velocidad).
 El riesgo es producir un conjunto incorrecto de
  requerimientos por la poca participación del usuario
 El usuario recibe “lo que tenemos”
User driven
 Los requerimientos se definen a partir de las
  necesidades del usuario.
 Conduce a proyectos más acotados pero
  probablemente más útiles
 Tiene como desventaja que al no limitarse el
  pedido del usuario pueden solicitarse
  objetivos imposibles
Relevamiento:
Source driven vs User driven
Source driven - User driven
 Data Mart : User driven


 Global Data Warehouse : Source driven para partir el
 proyecto en áreas temáticas. Luego para cada área se
 utiliza un enfoque User driven

Mais conteúdo relacionado

Mais procurados

Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dwMax Santiago
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosMaría Isabel Bautista
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. IntroduccionRicardo Mendoza
 
Datawarehouse práctica 6
Datawarehouse   práctica 6Datawarehouse   práctica 6
Datawarehouse práctica 6Gustavo Araque
 
Data warehouse
Data warehouseData warehouse
Data warehousemaggybe
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseConstrucción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseJulio Pari
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Calzada Meza
 
Modelado de Data Warehouse
Modelado de Data WarehouseModelado de Data Warehouse
Modelado de Data WarehouseEduardo Castro
 
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSMOn-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSMJulio Pari
 
Introducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosIntroducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosSebastian Rodriguez Robotham
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datosen mi casa
 

Mais procurados (20)

Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Arquitectura de un dw
Arquitectura de un dwArquitectura de un dw
Arquitectura de un dw
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datos
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. Introduccion
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Datawarehouse práctica 6
Datawarehouse   práctica 6Datawarehouse   práctica 6
Datawarehouse práctica 6
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseConstrucción de un DataWareHouse - FISI - UNMSM - DataWareHouse
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouse
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1
 
Modelado de Data Warehouse
Modelado de Data WarehouseModelado de Data Warehouse
Modelado de Data Warehouse
 
Datawarehouse2
Datawarehouse2Datawarehouse2
Datawarehouse2
 
Almacenes de datos
Almacenes de datosAlmacenes de datos
Almacenes de datos
 
Almacén de datos
Almacén de datosAlmacén de datos
Almacén de datos
 
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSMOn-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
 
Introducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosIntroducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de Negocios
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 

Semelhante a Datawarehouse

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoDatalytics
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Luis Fernando Aguas Bucheli
 
Datawarehouse base datos
Datawarehouse base datosDatawarehouse base datos
Datawarehouse base datosjaimeja76
 
Sofwares que se aplica en las areas de trabajo
Sofwares que se aplica en las areas de trabajoSofwares que se aplica en las areas de trabajo
Sofwares que se aplica en las areas de trabajoFLOMORYEI
 
Aplicaciones De Ti Cs
Aplicaciones De Ti CsAplicaciones De Ti Cs
Aplicaciones De Ti CsBalbiG
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Presentación Sistemas
Presentación SistemasPresentación Sistemas
Presentación Sistemasvickyderas17
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000Salvador Ramos
 
Big Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIBig Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIDatalytics
 
Curso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligenceCurso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligenceSalvador Ramos
 

Semelhante a Datawarehouse (20)

Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Kdd fase1
Kdd fase1Kdd fase1
Kdd fase1
 
Diseño de un Datamart
Diseño de un DatamartDiseño de un Datamart
Diseño de un Datamart
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
 
Bussines Inteligence
Bussines InteligenceBussines Inteligence
Bussines Inteligence
 
Fundamentos dw
Fundamentos dwFundamentos dw
Fundamentos dw
 
Datawarehouse base datos
Datawarehouse base datosDatawarehouse base datos
Datawarehouse base datos
 
Sofwares que se aplica en las areas de trabajo
Sofwares que se aplica en las areas de trabajoSofwares que se aplica en las areas de trabajo
Sofwares que se aplica en las areas de trabajo
 
Aplicaciones De Ti Cs
Aplicaciones De Ti CsAplicaciones De Ti Cs
Aplicaciones De Ti Cs
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
Presentación Sistemas
Presentación SistemasPresentación Sistemas
Presentación Sistemas
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Capitulo 2 introducción al business intelligence
Capitulo 2   introducción al business intelligenceCapitulo 2   introducción al business intelligence
Capitulo 2 introducción al business intelligence
 
Big Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIBig Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BI
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
ALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptxALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptx
 
Curso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligenceCurso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligence
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 

Último

GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 

Último (20)

GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 

Datawarehouse

  • 2. B.I. : Business Intelligence  Software que le posibilita a los usuarios la obtención de informaciones corporativas mas fácilmente.  El software BI debe permitir que sean derivadas las transacciones y sumarios que el usuario necesite, sin que se precise conocer cuales son las fuentes de esos datos
  • 4. B. I. : Business Intelligence
  • 5. B.I.: Recursos y herramientas  Fuentes de datos : warehouses, data marts, etc  Herramientas de administración de datos  Herramientas de extracción y consulta  Herramientas de modelización (Data Mining)
  • 6. Datamining (Minería de datos)  El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
  • 7. Evolución: Business Data to Business Information Etapa Pregunta de Tecnología Proveedores Características Negocio disponible Data ¿Cuál fue el total Computadoras, IBM, NCR, Retrospectivo Collection de ventas en cintas, discos etc Estático (1960) Capital Federal y GBA? Data Access ¿Cuáles fueron RDBMS Oracle, Retrospectivo (1980) las ventas por SQL Informix, Dinámico sucursal en Sybase, etc Capital Federal y GBA?
  • 8. Evolución: Business Data to Business Information Etapa Pregunta de Tecnología Proveedores Características Negocio disponible Data ¿Cuál fue el OLAP Pilot, Retrospectivo Navigation total de DW Discoverer, Dinámico (1990) ventas en Arbor, etc Niveles Capital múltiples Federal? Drill down a GBA Data ¿Cómo Algoritmos Intelligent Prospectivo. Mining evolucionarán avanzados Miner (IBM) Proactivo (2000) las ventas en Multiprocesado SGI el próximo res SAS, etc año?
  • 9. D.W. : Data Warehouse  El objetivo de los DWs (almacenamiento de datos) es almacenar los datos oriundos de los diversos sistemas de información transaccionales en varios grados de relaciones y sumarios, con el fin de facilitar y agilizar los procesos de toma de decisión por diferentes niveles gerenciales.
  • 10. Orientados al usuario  Los datos almacenados en el Data Warehouse proveen información sobre un tema en particular en vez de atender la operatoria de gestión de la compañía.
  • 11. Integridad  Esos datos deben ser tratados (identificados, catalogados, recolectados, a disponibilidad, transformados en informaciones) e integrados permitiendo diversas formas de consultas, a través de mecanismos amistosos de las herramientas de los usuarios.
  • 12. Variación en el tiempo  Los DWs son normalmente actualizados en Batch (actualizados una o algunas veces por día y no conteniendo los datos de las transacciones de la empresa de manera on-line) y pueden contener grandes cantidades de datos.
  • 13. Data Marts  Los Datamarts(DMs) son DWs de alcance limitados, dicho de otra manera son pequeños repositorios de datos específicos para cada área de negocios o departamentos de las empresas.
  • 14. Data Warehouse  Tanto los DWs como los DMs forman la base a partir de la cual las empresas pueden utilizar las herramientas BI –Business Intelligence -para la extracción de informaciones gerenciales
  • 15. Datos operacionales y Data Warehouse Datos Data Warehouse operacionales Contenido Valores elementales Datos sumarizados, derivados Organización Por aplicación Por tema Estabilidad Dinámicos Estáticos hasta su actualización
  • 16. Datos operacionales y Data Warehouse Datos Data Warehouse operacionales Estructura Optimizada para Optimizada para uso transaccional querys complejos (NORMALIZADA) (DESNORMALIZADA) Frecuencia de Alta Media y baja acceso Tipo de acceso Lectura / escritura Lectura Actualización Sumarización campo por campo
  • 17. Datos operacionales y Data Warehouse Datos Data operacionales Warehouse Uso Predecible Ad hoc Repetitivo Heurístico Tiempo de Segundos Segundos a minutos respuesta
  • 18. Problemas con los datos  Demasiados datos  datos corruptos o con ruido  datos redundantes (requieren factorización)  datos irrelevantes  excesiva cantidad de datos
  • 19. Problemas con los datos  Pocos datos  atributos perdidos (missings)  valores perdidos  poca cantidad de datos  Datos fracturados  datos incompatibles  múltiples fuentes de datos
  • 20. ¿Cuántos datos son necesarios?  ¿Cuántas filas?.  ¿Cuántas columnas?.  ¿Cuánta historia?  Regla general : cuanto más datos, mejor  En la práctica : condicionado a los recursos de obtención y procesamiento.
  • 21. Explotación del Datawarehouse Report Query, Metadata EIS Extracción, clean up y carga de datos OLAP DW Data Datos Mining operacionales y externos
  • 22. Componentes del DW  Fuentes de datos  Procedimientos de Extracción ETL  Procedimientos de Transformación  Procedimientos de carga (Loading)  Soporte físico de los datos (DBMS)  Herramientas de explotación : OLAP, reporting, Data Mining, etc.
  • 23. ETL  Procedimientos (herramientas) destinados a obtener los datos de las fuentes operacionales, limpiarlos, convertirlos a los formatos de utilización y cargarlos en el repositorio final.
  • 24. Integridad de datos  Los datos cumplen condiciones de integridad cuando se ajustan a todos los stándares de valor y completitud.  Todos los datos del DW son correctos  El DW está completo (no existen más datos fuera de él).
  • 25. Integridad de datos  La credibilidad del DW depende de la integridad de sus datos  El uso del DW depende de la percepción de los usuarios y de la confianza que tengan en su contenido.  De la integridad de datos depende el éxito del proyecto.
  • 26. Controles de Integridad  Controles de Prevención : controlan la integridad antes de cargar los datos en el DW.  Controles de Detección : aseguran la exactitud y completitud de la información una vez cargada en el DW.
  • 27. Data Process Flow Data Process Flow Stages: 1.Data Migration 2.Cleansing 3.Transformation 4.Loading 5.Reconciliation
  • 28. Etapas del proceso ETL  Migración de datos  Limpieza  Transformación (cálculos,agregados,sumarizaciones,desnormalización).  Carga  Conciliación - Validación
  • 29. Migración  Staging area : área de trabajo fuera del DW.  El propósito de la migración es mover los datos de los sistemas operacionales a las áreas de trabajo (staging areas).  NO se debe mover datos innecesarios (control preventivo).
  • 30. Limpieza (Data cleaning)  Corregir, estandarizar y completar los datos  Identificar datos redundantes  Identificar valores atípicos (outliers)  Identificar valores perdidos (missings)
  • 31. Limpieza (actividades)  Se debe uniformar las tablas de códigos de los sistemas operacionales y simplificar esquemas de codificación  Datos complejos, que representan varios atributos a la vez, deben ser particionados.
  • 32. Transformación  Son procesos destinados a adaptar los datos al modelo lógico del DW  Se generan “reglas de transformación”.  Las reglas deben validarse con los usuarios del DW
  • 33. Transformación  Generalmente el DW no contiene información de las entidades que - en los sistemas operacionales - son muy dinámicas y sufren frecuentes cambios.  Si es necesario se utilizan Snapshots (fotos instantáneas)
  • 34. Transformación  La des-normalización de los datos tiene como propósito mejorar la performance.  Otro propósito es el de reflejar relaciones estáticas,es decir, que no cambian en una perspectiva histórica. Por ejemplo: producto - precio vigente al momento de facturación.
  • 35. Transformación (sumarizaciones)  Los datos sumarizados aceleran los tiempos de análisis.  Las sumarizaciones también ocultan complejidad de los datos.  Las sumarizaciones pueden incluir joins de múltiples tablas  Las sumarizaciones proveen múltiples vistas del mismo conjunto de datos detallados (dimensiones).
  • 37. Sumarizaciones (mantenimiento)  El mantenimiento de las sumarizaciones es una tarea crítica.  El DW debe actualizarlas a medida que se cargan nuevos datos.  Debe existir alguna forma de navegar los datos hasta el nivel de detalle (drill down).  La definición de la granularidad es un problema serio de diseño.
  • 38. El nivel de granularidad: problema de diseño del DW  Cúal es la unidad de tratamiento (fila)  ¿Qué es un cliente? Una cuenta, un individuo, una familia  ¿Cómo se sumariza la dimensión tiempo? Días, semanas, meses …?
  • 39. Carga (Loading)  Dos aproximaciones:  Full Refresh  Incremental  Aunque el Full Refresh parece más sólido desde el punto de vista de la integridad de los datos, a medida que crece el DW se vuelve cada vez más difícil de realizar.
  • 40. Controles de detección  La validación de la carga del DW identifica problemas en los datos no detectados en las etapas anteriores.  Existen dos maneras de hacer la validación:  completa (al final del proceso)  por etapas a medida que se cargan los datos
  • 41. Controles de detección  Los controles incluyen reportes que comparan los datos del DW con las fuentes operacionales a través de:  totales de control  número de registros cargados  valores originales vs valores limpios (transformados), etc.
  • 42. Herramientas ETL  Pueden ser procesos manuales diseñados a medida (querys SQL, programas en Visual Basic, etc).  Existen herramientas que proporcionan interfaces visuales para definir joins, transformaciones, agregados, etc. sobre las plataformas mas comunes.
  • 43. Data Modelling Techniques for Data Warehousing
  • 44. La pregunta central ¿De qué modo deben diseñarse las bases de datos que conforman un Data Warehouse para soportar eficientemente los requerimientos de los usuarios?
  • 45. ¿Por qué es importante?  Visualización del universo del negocio  Modelo de abstracción de las “preguntas” que los usuarios necesitan responder  Diseño del plan de implantación del Data Warehouse
  • 46. Dos técnicas Modelo E-R Modelo dimensional  Entidades  Hechos  Atributos  Dimensiones  Relaciones  Medidas
  • 48. Modelo dimensional: HECHOS  Hechos : colección de items de datos y datos de contexto. Cada hecho representa un item de negocio, una transacción o un evento  Los hechos se registran en las tablas CENTRALES del DW
  • 49. Modelo dimensional: DIMENSION  Una dimensión es una colección de miembros o unidades o individuos del mismo tipo  Cada punto de entrada de la tabla de HECHOS está conectado a una DIMENSION  Determinan el contexto de los HECHOS
  • 50. Modelo dimensional: DIMENSIONES  Se utilizan como parámetros para los análisis OLAP  Dimensiones habituales son:  Tiempo  Geografía  Cliente  Vendedor
  • 51. Modelo dimensional: DIMENSIONES - Miembros Dimensión Miembro Tiempo Meses, Trimestre, Años Geografía País, Región, Ciudad Cliente Id Cliente Vendedor Id Vendedor
  • 53. Modelo dimensional DIMENSIONES : Medidas  Medida : es un atributo numérico de un hecho que representa la performance o comportamiento del negocio relativo a la dimensión  Ejemplos:  Ventas en $$  Cantidad de productos  Total de transacciones, etc.
  • 54. Visualización de un modelo dimensional
  • 55. DW - OLAP El modelo dimensional es ideal para soportar las 4 operaciones básicas de la tecnología OLAP:  Relacionadas con la granularidad: ROLL UP - DRILL DOWN  Navegación por las dimensiones : SLICE - DICE
  • 56. Drill Down - Roll Up
  • 59. Star
  • 62. Manage the Project  Es un proceso cíclico e iterativo  Refiere al manejo del PROYECTO, no al manejo del Warehouse (ONGOING)
  • 63. Define the project  ¿Qué se necesita analizar y por qué?¿Cuál es el alcance del proyecto?  El contexto de definición y los alcances del proyecto DEBEN permitir FLEXIBILIDAD. NO deben ser demasiado específicos.
  • 64. Requirements gathering  Quién (personas, grupos, usuarios, etc)  Qué (se quiere analizar)  Por qué  Cuándo (factores de oportunidad en el tiempo)  Dónde (factores geográficos)  Cómo definir las medidas
  • 65. Source driven  Los requerimientos se definen utilizando las fuentes de datos operacionales.  La mayor ventaja es que de antemano se conoce que todos los datos podrán ser provistos ya que se sabe qué está disponible
  • 66. Source driven  Se minimiza el tiempo de interacción con los usuarios en las primeras etapas (se gana velocidad).  El riesgo es producir un conjunto incorrecto de requerimientos por la poca participación del usuario  El usuario recibe “lo que tenemos”
  • 67. User driven  Los requerimientos se definen a partir de las necesidades del usuario.  Conduce a proyectos más acotados pero probablemente más útiles  Tiene como desventaja que al no limitarse el pedido del usuario pueden solicitarse objetivos imposibles
  • 69. Source driven - User driven  Data Mart : User driven  Global Data Warehouse : Source driven para partir el proyecto en áreas temáticas. Luego para cada área se utiliza un enfoque User driven