SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
Tecnologías y aplicaciones
www.stratebi.com
Roberto Tardío
Head of Big Data en StrateBI.
Associate Professor (EAE).
Sígueme en Linkedin y en Twittter
@RoberTardio
www.stratebi.com
www.stratebi.com
www.stratebi.com
• Definición del Big Data en relación a las características de los datos:
• Volumen: Escenarios de datos en organizaciones que llegan a Terabytes (103 Gb) e
incluso Petabytes (>1.000.000 Gigabytes)
• Variedad: Aumento en cantidad y heterogeneidad de las fuentes de datos
• Velocidad: Aprovechar los datos en el momento oportuno puede ayudar a reducir
los tiempos de actuación
Datos estructurados Semi estructurados No estructurados
www.stratebi.com
• Escenarios en los que debemos plantearnos una solución Big Data
• Necesidad de almacenar y procesar múltiples conjuntos de datos que
presentan una o más de las siguientes características:
• Volumen, Variedad y Velocidad
• Arquitectura BI actual no es capaz de procesar los datos y con las
restricciones de tiempo y calidad definidas.
• Estar preparados para un futuro Big Data:
• Necesidad de soporte a la escalabilidad el procesamiento y almacenamiento de
datos a corto o medio plazo.
www.stratebi.com
www.stratebi.com
www.stratebi.com
• Ejemplo de arquitectura Big Data Analytics con Azure
www.stratebi.com
www.stratebi.com
• Escenario
• Empresa de marketing dedicada el desarrollo de aplicaciones web y moviles de
pago por suscripción
• Para un mercado de más de 30 países
• Inversiones de más de 100K € semanales en campañas.
• Principales objetivos de análisis
• Campañas de marketing (ej. Google Ads) : Impresiones, altas, clicks, eventos, ratios de
conversión de (clicks, impresiones, altas,…) , errores de captación,…
• Base datos de clientes, duración de las suscripciones,…
• Financiero
www.stratebi.com
• Objetivos
• Mejora del sistema de sistema de reporting existente
• Reduciendo el tiempo de carga y preparación de los datos: “Frescura del dato”
• Near real time (datos actualizados y disponibles cada 10-15 minutos)
• Implantación de herramientas BI Open-Source (Lince Big Data Stack)
• Self-service OLAP, reporting y dashboarding
• Retos
• Cientos de gigabytes de datos nuevos cada día, más de 100 terabytes de datos
históricos.
• Datos estructurados y semi estructurados.
• Actualizaciones de histórico frecuentes.
www.stratebi.com
• Modelos de datos identificados
• Contexto de análisis
Dimensiones Atributos Descripción
Periodo
Año Año (YYYY)
Mes Mes (YYYY-MM)
Semana Semana (Fecha del primer día de la semana)
Día Día
Negocio
Línea de Negocio Un operador tiene una o más líneas de negocio
Operador Operador que ofrece el servicio
País País del operador
Producto
Portal de Contenidos Es el producto (web portal de contenidos)
Landing page Un usuario puede suscribirse a un Portal de Contenidos desde una o más landings.
Dominio Landing La web del portal de contenidos. Una landing puede tener múltiples dominios.
Creatividad
Es el banner o elemento publicitario que se usa para atraer a los potenciales suscriptores
hasta el portal de contenidos.
Publicidad
Proveedor de Publicidad El proveedor de la publicidad del Portal (ej. Google Adwords)
Tarifa de Publicidad
Tarifa de Publicidad de un proveedor. Un proveedor puede tener 1 o más tarifas de
publicidad.
Medio de Publicidad Medio de publicidad (SEM, Social Media, Plataformas,…)
Subpublisher Un proveedor de publicidad puede tener subpublishers
ISP Proveedor de Servicios de Internet del dispositivo del usuario
Network Type El tipo de red comunicación (3g, wifi, DOB, Desconocido)
Device Type El tipo de dispostivo (Tablet, Mobile, Desktop, Desconocido)
Device OS Sistema operativo del dispositivo
Canal Canal Canal (SMS, Web,…)
Tarifa Tarifa Tarifa a aplicar sobre la suscripción.
www.stratebi.com
• Modelos de datos identificados
• Algunas métricas
Grupo Métrica Descripción Cálculo
Altas
Altas Incluye todas las suscripciones registradas durante un período específico
Net Additions Incluye todas las suscripciones registradas durante un período, menos el
número total bajas durante el mismo período.
(Altas - Bajas)
CPA Eventos pixels Representa el coste de cada suscripción notificada por Google Adds (Publicidad/ Eventos pixels)
Bajas
Bajas Incluye todos los usuarios facturados o no facturados, registrados tanto
dentro como después de las 24 horas desde el momento de su suscripción
Bajas billed Bajas facturadas
Bajas not billed Bajas no facturadas
% Old Churn OC% . Representa el porcentaje de bajas sobre el total de suscritos (Bajas totales / Customer Base
(acumulado))
Bajas 24H Incluye todos los usuarios facturados o no facturados, registrados en las 24
horas desde el momento de su suscripción.
% Instant Churn %IC. Representa el porcentaje de bajas 24H sobre el total de altas (Bajas 24h / Altas)
Conversión
Impresiones Impresiones
CR Altas Nos informa sobre la capacidad de convertir las impresiones de nuestra
publicidad en suscripciones
(Altas/ Impresiones)
CR Pixels Nos informa sobre la capacidad de convertir las impresiones de nuestra
publicidad en eventos pixels
(Eventos pixels/ Impresiones)
Eventos Pixels/ Altas % Representa el porcentaje de eventos sobre el total de altas Eventos Pixels/ Altas
www.stratebi.com
• Arquitectura propuesta basada en AWS y usando tecnologías Open Source
• Clúster Hadoop EMR: Sqoop, Hive, Kafka, Oozie, S3 / HDFS…
• Apache Kylin: Sistema Big Data OLAP
www.stratebi.com
• Resultados
• Reducción del tiempo de consulta
• Mayoría de las consultas por debajo de los 5 s.
• Sobre tablas con miles de millones de filas.
• Reducción de los tiempos de carga
• Datos disponibles en Kylin cada pocos minutos
• Integración con herramientas de BI
• STPivot, STReport, STDashboard
www.stratebi.com
• Resultados
• Ejemplo real: agregación por dimensión país de todo el histórico de una tabla de
hechos de unos 300 millones filas → 0,10 segundos (caché desactivada)
www.stratebi.com
www.stratebi.com
• Escenario
• Empresa de marketing direccional: Servicios de campañas a otras empresas por
distintos canales
• Correo postal
• Teléfono
• Email
• Datos
• Bases de datos de clientes: Nombre, DNI, dirección, teléfono, email,…
• Bases de datos de comunicaciones
• Ficheros semiestructurados con listas de personas a excluir: Robinson y propias de
experiencias de las empresas.
www.stratebi.com
• Principales objetivos
• Garantizar la calidad de los datos para:
1. Optimizar las campañas.
• Evitar el envío de correspondencia a direcciones incorrectas o contacto
teléfónico,….
• Dirigirse a la persona adecuadamente en la personalización de la publicidad (señor,
señora, señorita, ….)
2. El cumplimiento de la GDPR.
• Evitar contactar a personas que han solicitado expresamente que no se les
contacte.
3. Limpieza de datos a terceros.
www.stratebi.com
• Principales objetivos
• Modular
• Direcciones
• Nombres y apellidos
• Documento de identidad
• Emails
• Teléfonos
• De-duplicación de personas (registros completos)
www.stratebi.com
• Principales objetivos
• Modular
• Direcciones
• Detección de direcciones ilocalizables.
• Fiabilidad para envíos de correspondencia.
• Separa tipo de vía, nombre, número, complementos, código postal y población.
• Incorpora el código postal correcto y actualizado en función de la población, vía y número.
• Nombres y apellidos
• Documento de identidad
• Emails
• Teléfonos
• De-duplicación de personas (registros completos)
www.stratebi.com
• Principales objetivos
• Modular
• Direcciones
• Nombres y apellidos
• Separación de nombres y apellidos, en las personas físicas.
• Asignación de género en función del nombre.
• Detección de errores frecuentes de deletreo.Expansión de abreviaturas.
• Marcaje de nombres no identificables.
• Documento de identidad
• Emails
• Teléfonos
• De-duplicación de personas (registros completos)
www.stratebi.com
• Solución propuesta
• Técnicas
• Procesamiento del lenguaje natural (PLN)
• Fuzzy Matching: Definición de algoritmo de de-duplicación basado en técnicas
estadísticas (Cadenas de levensthein ponderadas).
• Expresiónes regulares (Pattern Matching) aplicando reglas estándar para validación de
emails (RFC 5322), teléfonos,…
• Fuentes de datos complementarías (semi estructuradas y no estructuradas)
• Callejeros de todas España: INE y, posteriormente, Correos.
• Diccionarios de nombres, nombres-género, apellidos, hipocorísticos,…
www.stratebi.com
• Solución propuesta
• Tecnología - Clúster Hadoop
• Amazon EMR (Elastic Map Reduce)
• Apache Spark
• 100 % escalable, el mismo código se ejecuta igual en 1 que en 100 o N máquinas.
• Ejecución distribuida y en memoria.
• En lenguaje Scala y usando principalmente API Spark SQL (Data Frames)
• Implementación de algoritmo de-duplicación usando liberias matemáticas, estadísticas, Mlib…
• Ideal para la computación compleja e intensiva que requiere la corrección de dirección
mediante comparación con los callejeros y la de-deduplicación.
• Otros:
• S3 (storage), Hive (Data Warehouse), Oozie (Orchestration), Zeppelin (Data Discovery, PoCs),…
www.stratebi.com
• Solución propuesta
• Tecnología
www.stratebi.com
• Solución propuesta
• Tecnología
www.stratebi.com
• Resultados
www.stratebi.com
• Resultados
• Correcciones y de-duplicaciones con una fiabilidad superior al 90%
• Proceso 100% escalable y eficiente
• Ejecutable bajo demanda
• Fácilmente adaptable para soportar nuevos diccionarios y callejeros
www.stratebi.com
• Casos similares conocidos
• https://aws.amazon.com/es/solutions/case-studies/buildfax/
• BuildFax entrega todos sus datos por dirección, por lo que es imperativo ejecutar la corrección
de dirección.
• La información de la dirección es a veces bastante escasa, tal vez incluyendo sólo el número de la
calle, el nombre de la calle y el condado, pero no la ciudad, el estado o el código postal.
• Recorrer los valores posibles (todos los códigos postales de un condado, todas las ciudades de un
condado, etc.) y marcar las posibles coincidencias.
• Este proceso requiere ejecutar 750 millones de combinaciones de direcciones diferentes, lo
que sería virtualmente imposible sin Amazon Elastic MapReduce (Amazon EMR).
• Con hasta 80 nodos por conjunto de datos, la empresa mantiene los tiempos de ejecución por
debajo de 3 horas, gracias a Amazon EMR
www.stratebi.com
www.stratebi.com
• La mejor forma para conocer la tecnología Big Data es probándola
• Hemos desarrollado una web de demostraciones.
http://bigdata.stratebi.com/
www.stratebi.com
• Los tecnologías Big Data Analytics permiten la optimización de los procesos
de Marketing.
• No todos los casos son Big Data.
• Es importante valorar el esfuerzo necesario (suele ser alto) en relación al beneficio que
podemos obtener.
• Cada tecnología Big Data es más adecuada para unos casos de uso.
• Apache Spark para la calidad y transformación de datos, machine learning, batch o real
time…
• Apache Hive, Kylin, Vertica, Azure Synapse…. para el reporting y cuadros de mando.
• Elasticsearch para cuadros de mandos y análisis real time, exploración analítica de
datos raw…
www.stratebi.com
• Algunas de nuestras referencias en proyectos y formaciones Big Data
Aplicaciones Big Data Marketing

Mais conteúdo relacionado

Mais procurados

Introducción al BI con pentaho
Introducción al BI con pentahoIntroducción al BI con pentaho
Introducción al BI con pentaho
Iván Ruiz-Rube
 

Mais procurados (20)

PowerBI Salesforce integration
PowerBI Salesforce integrationPowerBI Salesforce integration
PowerBI Salesforce integration
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con Pentaho
 
Sap Business Objects - Sector Banca
Sap Business Objects - Sector BancaSap Business Objects - Sector Banca
Sap Business Objects - Sector Banca
 
Introducción al BI con pentaho
Introducción al BI con pentahoIntroducción al BI con pentaho
Introducción al BI con pentaho
 
Suite de inteligencia de negocios pentaho
Suite de inteligencia de negocios pentahoSuite de inteligencia de negocios pentaho
Suite de inteligencia de negocios pentaho
 
Porque Pentaho ?
Porque Pentaho ?Porque Pentaho ?
Porque Pentaho ?
 
Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimatica
 
Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)Open Source Business Intelligence 2013 (spanish)
Open Source Business Intelligence 2013 (spanish)
 
Sesion 1 pentaho special-edition 2013
Sesion 1  pentaho special-edition 2013Sesion 1  pentaho special-edition 2013
Sesion 1 pentaho special-edition 2013
 
Office y Power BI: Usando Visio y Power Point para visualizar y analizar datos
Office y Power BI: Usando Visio y Power Point para visualizar y analizar datosOffice y Power BI: Usando Visio y Power Point para visualizar y analizar datos
Office y Power BI: Usando Visio y Power Point para visualizar y analizar datos
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTN
 
Business Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma PentahoBusiness Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma Pentaho
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
 
Paso de TI, tengo Power BI
Paso de TI, tengo Power BIPaso de TI, tengo Power BI
Paso de TI, tengo Power BI
 
Microsoft Azure Data Environment
Microsoft Azure Data EnvironmentMicrosoft Azure Data Environment
Microsoft Azure Data Environment
 
Talend Solutions
Talend SolutionsTalend Solutions
Talend Solutions
 
Power BI. Dando el salto a la nube con los pies en el suelo
Power BI. Dando el salto a la nube con los pies en el sueloPower BI. Dando el salto a la nube con los pies en el suelo
Power BI. Dando el salto a la nube con los pies en el suelo
 
Excel power pivot ssas tabular
Excel power pivot ssas tabularExcel power pivot ssas tabular
Excel power pivot ssas tabular
 
Data Visualization con Pentaho
Data Visualization con PentahoData Visualization con Pentaho
Data Visualization con Pentaho
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIU
 

Semelhante a Aplicaciones Big Data Marketing

Semelhante a Aplicaciones Big Data Marketing (20)

JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxJASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
 
Innovation Track AWS Cloud Experience Argentina - Novedades de Distribución d...
Innovation Track AWS Cloud Experience Argentina - Novedades de Distribución d...Innovation Track AWS Cloud Experience Argentina - Novedades de Distribución d...
Innovation Track AWS Cloud Experience Argentina - Novedades de Distribución d...
 
Catalogo servicios somos.plus
Catalogo servicios somos.plusCatalogo servicios somos.plus
Catalogo servicios somos.plus
 
Catalogo servicios somos.plus
Catalogo servicios somos.plusCatalogo servicios somos.plus
Catalogo servicios somos.plus
 
Catalogo servicios somos.plus
Catalogo servicios somos.plusCatalogo servicios somos.plus
Catalogo servicios somos.plus
 
Catalogo servicios somos.plus
Catalogo servicios somos.plusCatalogo servicios somos.plus
Catalogo servicios somos.plus
 
Catalogo servicios somos.plus
Catalogo servicios somos.plusCatalogo servicios somos.plus
Catalogo servicios somos.plus
 
Catalogo servicios somos.plus
Catalogo servicios somos.plusCatalogo servicios somos.plus
Catalogo servicios somos.plus
 
Catalogo servicios somos.plus
Catalogo servicios somos.plusCatalogo servicios somos.plus
Catalogo servicios somos.plus
 
Catalogo servicios somos.plus
Catalogo servicios somos.plusCatalogo servicios somos.plus
Catalogo servicios somos.plus
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014
 
Copy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.pptCopy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.ppt
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 
Exprimiendo Google Analytics
Exprimiendo Google AnalyticsExprimiendo Google Analytics
Exprimiendo Google Analytics
 
Google Datastudio: Dashboards profesionales a tu alcance
Google Datastudio: Dashboards profesionales a tu alcanceGoogle Datastudio: Dashboards profesionales a tu alcance
Google Datastudio: Dashboards profesionales a tu alcance
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Webs inmobiliarias premium
Webs inmobiliarias premiumWebs inmobiliarias premium
Webs inmobiliarias premium
 
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
Patrones arquitectónicos y mejores prácticas de "big data" en AWS - MXO203 - ...
 
Inmersión Laboral Analítica Digital.pdf
Inmersión Laboral Analítica Digital.pdfInmersión Laboral Analítica Digital.pdf
Inmersión Laboral Analítica Digital.pdf
 
Principios básicos de Google Analytics
Principios básicos de Google AnalyticsPrincipios básicos de Google Analytics
Principios básicos de Google Analytics
 

Mais de Stratebi

Mais de Stratebi (20)

Azure Synapse
Azure SynapseAzure Synapse
Azure Synapse
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with Python
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with Python
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicas
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup Spain
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports Analytics
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme Analysis
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overview
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalle
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con Talend
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent Analytics
 
El Futuro del Business Intelligence
El Futuro del Business IntelligenceEl Futuro del Business Intelligence
El Futuro del Business Intelligence
 
Benchmark Big Data Analytics (español)
Benchmark Big Data Analytics (español)Benchmark Big Data Analytics (español)
Benchmark Big Data Analytics (español)
 
Benchmark Big Data Analytics (english)
Benchmark Big Data Analytics (english)Benchmark Big Data Analytics (english)
Benchmark Big Data Analytics (english)
 
PCM18 (Big Data Analytics)
PCM18 (Big Data Analytics)PCM18 (Big Data Analytics)
PCM18 (Big Data Analytics)
 
PowerBI Portfolio
PowerBI PortfolioPowerBI Portfolio
PowerBI Portfolio
 
Machine Learning con Anaconda, Jupyter y Python
Machine Learning con Anaconda, Jupyter y PythonMachine Learning con Anaconda, Jupyter y Python
Machine Learning con Anaconda, Jupyter y Python
 
50 claves de Futbol Analytics
50 claves de Futbol Analytics50 claves de Futbol Analytics
50 claves de Futbol Analytics
 

Último

Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
OBSERVATORIOREGIONAL
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
klebersky23
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
BESTTech1
 

Último (20)

Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdfSEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
SEMANA II - EQUIPOS, INSTRUMENTOS Y MATERIALES TOPOGRAFICOS.pdf
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdf
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
 
Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024
Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024
Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 

Aplicaciones Big Data Marketing

  • 2. www.stratebi.com Roberto Tardío Head of Big Data en StrateBI. Associate Professor (EAE). Sígueme en Linkedin y en Twittter @RoberTardio
  • 5. www.stratebi.com • Definición del Big Data en relación a las características de los datos: • Volumen: Escenarios de datos en organizaciones que llegan a Terabytes (103 Gb) e incluso Petabytes (>1.000.000 Gigabytes) • Variedad: Aumento en cantidad y heterogeneidad de las fuentes de datos • Velocidad: Aprovechar los datos en el momento oportuno puede ayudar a reducir los tiempos de actuación Datos estructurados Semi estructurados No estructurados
  • 6. www.stratebi.com • Escenarios en los que debemos plantearnos una solución Big Data • Necesidad de almacenar y procesar múltiples conjuntos de datos que presentan una o más de las siguientes características: • Volumen, Variedad y Velocidad • Arquitectura BI actual no es capaz de procesar los datos y con las restricciones de tiempo y calidad definidas. • Estar preparados para un futuro Big Data: • Necesidad de soporte a la escalabilidad el procesamiento y almacenamiento de datos a corto o medio plazo.
  • 9. www.stratebi.com • Ejemplo de arquitectura Big Data Analytics con Azure
  • 11. www.stratebi.com • Escenario • Empresa de marketing dedicada el desarrollo de aplicaciones web y moviles de pago por suscripción • Para un mercado de más de 30 países • Inversiones de más de 100K € semanales en campañas. • Principales objetivos de análisis • Campañas de marketing (ej. Google Ads) : Impresiones, altas, clicks, eventos, ratios de conversión de (clicks, impresiones, altas,…) , errores de captación,… • Base datos de clientes, duración de las suscripciones,… • Financiero
  • 12. www.stratebi.com • Objetivos • Mejora del sistema de sistema de reporting existente • Reduciendo el tiempo de carga y preparación de los datos: “Frescura del dato” • Near real time (datos actualizados y disponibles cada 10-15 minutos) • Implantación de herramientas BI Open-Source (Lince Big Data Stack) • Self-service OLAP, reporting y dashboarding • Retos • Cientos de gigabytes de datos nuevos cada día, más de 100 terabytes de datos históricos. • Datos estructurados y semi estructurados. • Actualizaciones de histórico frecuentes.
  • 13. www.stratebi.com • Modelos de datos identificados • Contexto de análisis Dimensiones Atributos Descripción Periodo Año Año (YYYY) Mes Mes (YYYY-MM) Semana Semana (Fecha del primer día de la semana) Día Día Negocio Línea de Negocio Un operador tiene una o más líneas de negocio Operador Operador que ofrece el servicio País País del operador Producto Portal de Contenidos Es el producto (web portal de contenidos) Landing page Un usuario puede suscribirse a un Portal de Contenidos desde una o más landings. Dominio Landing La web del portal de contenidos. Una landing puede tener múltiples dominios. Creatividad Es el banner o elemento publicitario que se usa para atraer a los potenciales suscriptores hasta el portal de contenidos. Publicidad Proveedor de Publicidad El proveedor de la publicidad del Portal (ej. Google Adwords) Tarifa de Publicidad Tarifa de Publicidad de un proveedor. Un proveedor puede tener 1 o más tarifas de publicidad. Medio de Publicidad Medio de publicidad (SEM, Social Media, Plataformas,…) Subpublisher Un proveedor de publicidad puede tener subpublishers ISP Proveedor de Servicios de Internet del dispositivo del usuario Network Type El tipo de red comunicación (3g, wifi, DOB, Desconocido) Device Type El tipo de dispostivo (Tablet, Mobile, Desktop, Desconocido) Device OS Sistema operativo del dispositivo Canal Canal Canal (SMS, Web,…) Tarifa Tarifa Tarifa a aplicar sobre la suscripción.
  • 14. www.stratebi.com • Modelos de datos identificados • Algunas métricas Grupo Métrica Descripción Cálculo Altas Altas Incluye todas las suscripciones registradas durante un período específico Net Additions Incluye todas las suscripciones registradas durante un período, menos el número total bajas durante el mismo período. (Altas - Bajas) CPA Eventos pixels Representa el coste de cada suscripción notificada por Google Adds (Publicidad/ Eventos pixels) Bajas Bajas Incluye todos los usuarios facturados o no facturados, registrados tanto dentro como después de las 24 horas desde el momento de su suscripción Bajas billed Bajas facturadas Bajas not billed Bajas no facturadas % Old Churn OC% . Representa el porcentaje de bajas sobre el total de suscritos (Bajas totales / Customer Base (acumulado)) Bajas 24H Incluye todos los usuarios facturados o no facturados, registrados en las 24 horas desde el momento de su suscripción. % Instant Churn %IC. Representa el porcentaje de bajas 24H sobre el total de altas (Bajas 24h / Altas) Conversión Impresiones Impresiones CR Altas Nos informa sobre la capacidad de convertir las impresiones de nuestra publicidad en suscripciones (Altas/ Impresiones) CR Pixels Nos informa sobre la capacidad de convertir las impresiones de nuestra publicidad en eventos pixels (Eventos pixels/ Impresiones) Eventos Pixels/ Altas % Representa el porcentaje de eventos sobre el total de altas Eventos Pixels/ Altas
  • 15. www.stratebi.com • Arquitectura propuesta basada en AWS y usando tecnologías Open Source • Clúster Hadoop EMR: Sqoop, Hive, Kafka, Oozie, S3 / HDFS… • Apache Kylin: Sistema Big Data OLAP
  • 16. www.stratebi.com • Resultados • Reducción del tiempo de consulta • Mayoría de las consultas por debajo de los 5 s. • Sobre tablas con miles de millones de filas. • Reducción de los tiempos de carga • Datos disponibles en Kylin cada pocos minutos • Integración con herramientas de BI • STPivot, STReport, STDashboard
  • 17. www.stratebi.com • Resultados • Ejemplo real: agregación por dimensión país de todo el histórico de una tabla de hechos de unos 300 millones filas → 0,10 segundos (caché desactivada)
  • 19. www.stratebi.com • Escenario • Empresa de marketing direccional: Servicios de campañas a otras empresas por distintos canales • Correo postal • Teléfono • Email • Datos • Bases de datos de clientes: Nombre, DNI, dirección, teléfono, email,… • Bases de datos de comunicaciones • Ficheros semiestructurados con listas de personas a excluir: Robinson y propias de experiencias de las empresas.
  • 20. www.stratebi.com • Principales objetivos • Garantizar la calidad de los datos para: 1. Optimizar las campañas. • Evitar el envío de correspondencia a direcciones incorrectas o contacto teléfónico,…. • Dirigirse a la persona adecuadamente en la personalización de la publicidad (señor, señora, señorita, ….) 2. El cumplimiento de la GDPR. • Evitar contactar a personas que han solicitado expresamente que no se les contacte. 3. Limpieza de datos a terceros.
  • 21. www.stratebi.com • Principales objetivos • Modular • Direcciones • Nombres y apellidos • Documento de identidad • Emails • Teléfonos • De-duplicación de personas (registros completos)
  • 22. www.stratebi.com • Principales objetivos • Modular • Direcciones • Detección de direcciones ilocalizables. • Fiabilidad para envíos de correspondencia. • Separa tipo de vía, nombre, número, complementos, código postal y población. • Incorpora el código postal correcto y actualizado en función de la población, vía y número. • Nombres y apellidos • Documento de identidad • Emails • Teléfonos • De-duplicación de personas (registros completos)
  • 23. www.stratebi.com • Principales objetivos • Modular • Direcciones • Nombres y apellidos • Separación de nombres y apellidos, en las personas físicas. • Asignación de género en función del nombre. • Detección de errores frecuentes de deletreo.Expansión de abreviaturas. • Marcaje de nombres no identificables. • Documento de identidad • Emails • Teléfonos • De-duplicación de personas (registros completos)
  • 24. www.stratebi.com • Solución propuesta • Técnicas • Procesamiento del lenguaje natural (PLN) • Fuzzy Matching: Definición de algoritmo de de-duplicación basado en técnicas estadísticas (Cadenas de levensthein ponderadas). • Expresiónes regulares (Pattern Matching) aplicando reglas estándar para validación de emails (RFC 5322), teléfonos,… • Fuentes de datos complementarías (semi estructuradas y no estructuradas) • Callejeros de todas España: INE y, posteriormente, Correos. • Diccionarios de nombres, nombres-género, apellidos, hipocorísticos,…
  • 25. www.stratebi.com • Solución propuesta • Tecnología - Clúster Hadoop • Amazon EMR (Elastic Map Reduce) • Apache Spark • 100 % escalable, el mismo código se ejecuta igual en 1 que en 100 o N máquinas. • Ejecución distribuida y en memoria. • En lenguaje Scala y usando principalmente API Spark SQL (Data Frames) • Implementación de algoritmo de-duplicación usando liberias matemáticas, estadísticas, Mlib… • Ideal para la computación compleja e intensiva que requiere la corrección de dirección mediante comparación con los callejeros y la de-deduplicación. • Otros: • S3 (storage), Hive (Data Warehouse), Oozie (Orchestration), Zeppelin (Data Discovery, PoCs),…
  • 29. www.stratebi.com • Resultados • Correcciones y de-duplicaciones con una fiabilidad superior al 90% • Proceso 100% escalable y eficiente • Ejecutable bajo demanda • Fácilmente adaptable para soportar nuevos diccionarios y callejeros
  • 30. www.stratebi.com • Casos similares conocidos • https://aws.amazon.com/es/solutions/case-studies/buildfax/ • BuildFax entrega todos sus datos por dirección, por lo que es imperativo ejecutar la corrección de dirección. • La información de la dirección es a veces bastante escasa, tal vez incluyendo sólo el número de la calle, el nombre de la calle y el condado, pero no la ciudad, el estado o el código postal. • Recorrer los valores posibles (todos los códigos postales de un condado, todas las ciudades de un condado, etc.) y marcar las posibles coincidencias. • Este proceso requiere ejecutar 750 millones de combinaciones de direcciones diferentes, lo que sería virtualmente imposible sin Amazon Elastic MapReduce (Amazon EMR). • Con hasta 80 nodos por conjunto de datos, la empresa mantiene los tiempos de ejecución por debajo de 3 horas, gracias a Amazon EMR
  • 32. www.stratebi.com • La mejor forma para conocer la tecnología Big Data es probándola • Hemos desarrollado una web de demostraciones. http://bigdata.stratebi.com/
  • 33. www.stratebi.com • Los tecnologías Big Data Analytics permiten la optimización de los procesos de Marketing. • No todos los casos son Big Data. • Es importante valorar el esfuerzo necesario (suele ser alto) en relación al beneficio que podemos obtener. • Cada tecnología Big Data es más adecuada para unos casos de uso. • Apache Spark para la calidad y transformación de datos, machine learning, batch o real time… • Apache Hive, Kylin, Vertica, Azure Synapse…. para el reporting y cuadros de mando. • Elasticsearch para cuadros de mandos y análisis real time, exploración analítica de datos raw…
  • 34. www.stratebi.com • Algunas de nuestras referencias en proyectos y formaciones Big Data