El documento describe un proyecto de máster en Business Intelligence que analiza los datos del metro de Madrid. El proyecto incluye la elección del tema, los objetivos, el proceso general, las fuentes de datos, las entidades de análisis, las métricas, el modelado dimensional, el proceso ETL, el diseño de la base de datos multidimensional, los informes y las conclusiones.
2.
Elección de la temática del proyecto
Principales objetivos
Proceso general
Orígenes de datos
Entidades para el análisis
Métricas del negocio
Modelado dimensional
Proceso ETL
Diseño de la BBDD multidimensional
Reporting
Excel 2013 como cliente OLAP
Conclusiones y beneficios
2
4.
Análisis de la evolución del número de viajeros en la
red de Metro de Madrid a lo largo del tiempo
Análisis de ventas de los distintos tipos de billetes
Determinación de la influencia de indicadores
sociales, laborales y demográficos en el nº de viajes
(indicadores disponibles por fecha y zona geográfica)
Categorización de las estaciones en función de los
tramos horarios en los que son frecuentadas
4
6.
Ficheros planos incluyendo:
◦ Datos públicos por distritos
http://www.madrid.es/portales/munimadrid/es/Inicio/El-Ayuntamiento/Estadistica
◦ Ventas de billetes (tickets y abonos)
◦ Paso de viajeros por los tornos de las estaciones
BBDD Metro para la extracción de datos de:
◦ Estaciones y líneas
◦ Tarifas
◦ Viajeros titulares de los abonos
6
14.
SQL Server Integration Services 2012
Proyecto estructurado en varios paquetes
Utilización BBDD de Staging
Carga incremental
Limpieza de datos
Aprovechamiento de los distintos tipos de
transformaciones
Aplicación de buenas prácticas
Importación de formas geométricas ESRI Shapefiles
(shp) para los distritos, líneas y estaciones
14
16.
SQL Server Analysis Services 2012
Data Source View (DSV)
◦ Uso de Named Queries y Named Calculations
Dimensiones de BBDD
◦ Definición de jerarquías
◦ Relaciones entre atributos
◦ Ajuste de propiedades (KeyColumns,
NameColumns…)
16
17.
Diseño del cubo
◦ Modo de almacenamiento: MOLAP
◦ Relación entre dimensiones de cubo y grupos de
medidas (Dimension Usage)
◦ Funciones de agregación
◦ Medidas calculadas y conjuntos dinámicos (MDX)
◦ Definición de KPIs
◦ Definición de particiones
◦ Diseño de agregaciones
◦ Procesamiento del cubo
17
18.
SQL Server Reporting Services 2012
Informes con origen de datos OLAP
Datasets (MDX) construidos mediante:
◦ Query Designer
◦ Expresiones
Ejemplos
18
24.
Conclusiones
◦ Nº de viajes ligado al nº de afiliaciones a la Seguridad Social.
◦ Contraste claro entre distritos de la zona norte y los de la zona sur.
También entre los del centro y los de la periferia para determinadas
medidas como la tasa de paro, renta per cápita, precio de la vivienda o la
edad promedio.
◦ Incremento de las ventas en el año 2012 a pesar del descenso del nº de
viajeros motivado por el incremento de tarifas.
Beneficios
◦ Control de las ventas y del nº de viajeros.
◦ Estaciones categorizadas en función de los tramos horarios en los que
son frecuentadas.
◦ Visualización e interpretación rápida de resultados gracias a los mapas.
◦ Análisis a medida del usuario gracias a las tablas dinámicas de Excel
conectadas al cubo OLAP.
◦ Gran rendimiento de consulta de los informes por tener como origen de
datos el cubo OLAP.
24