O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

2016 ULL Cabildo KEEDIO - BigData

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Carregando em…3
×

Confira estes a seguir

1 de 46 Anúncio

Mais Conteúdo rRelacionado

Diapositivos para si (20)

Semelhante a 2016 ULL Cabildo KEEDIO - BigData (20)

Anúncio

Mais recentes (20)

2016 ULL Cabildo KEEDIO - BigData

  1. 1. Taller "Big Data: Experiencias Reales"
  2. 2. KEEDIO: QUIÉNES SOMOS NUESTRA FILOSOFÍA E HISTORIA
  3. 3. Solving Big Data Issues 3 HISTORIA Su matriz y equipo llevan más de 10 años haciendo computación distribuida. Una iniciativa conjunta de Banco Santander con la Universidad Alfonso X el Sabio. Especializada en tecnologías Big Data (y Cloud Computing) Composición del equipo técnico: §  DataScientists §  Desarrolladores §  Sistemas 2005 2014 2016
  4. 4. Solving Big Data Issues 4 ANTECEDENTES GRID COMPUTING HPC CLOUD COMPUTING Grids de cómputo financiero y científicos Laboratorio de cálculo acelerado por GPUs Despliegues de Clouds Privados NUESTRO RECORRIDO HACIA BIG DATA DESDE 2005 HACIENDO PROYECTOS DE INNOVACIÓN Y COMPUTACIÓN DISTRIBUIDA
  5. 5. Solving Big Data Issues 5 PARTNERS
  6. 6. Plataforma Servicios Keedio tiene en propiedad una plataforma Big Data (Keedio Data Stack) Es OpenSource y está en producción. Big Data Assessment (Descubriendo casos de uso). Desarrollo de proyectos y soporte a la posventa. Sobre cualquier tecnología, propietaria o no. Formación comercial y a desarrolladores Big Data. El abordaje de los proyectos, lo hacemos preferiblemente de forma conjunta con nuestros partners. La unión de conocimientos de ambos, garantiza el E2E.
  7. 7. TALLER "BIG DATA: EXPERIENCIAS REALES"
  8. 8. OBJETIVO En este taller haremos un recorrido desde los conceptos básicos de Big Data hasta las plataformas más utilizadas en los entornos empresariales. Los ejemplos reales mostrarán diferentes casos de éxito y fracaso a la hora de implantar sistemas de tratamiento de datos masivos. DESMITIFICAR BIGDATA Big Data o Data Analytic o Big Data Analytic, es hacer análisis de datos. Los datos del operacional y otros, se analizan con las tecnologías Big Data
  9. 9. ÍNDICE Lo que es Big Data (Qué) - Casos de uso (Cómo) - Lo hacemos: Con una plataforma Futuro: Data Centric
  10. 10. LO QUE ES BIG DATA PROCESAMIENTO DISTRIBUIDO DE DATOS Y DE LA INFORMACIÓN
  11. 11. Solving Big Data Issues 11 LO QUE DICE LA UE RESPECTO A BIG DATA (HORIZONTE 2020) Empresas 4 de cada 10 desaparecerán (no tendrán capacidad de transformarse). Profesionales 47% de los empleos van a desaparecer. 53% van a cambiar. 2 Millones de posiciones no se cubrirán por falta de cualificación. Lo que requerirá el mercado: •  Robótica •  Realidad aumentada •  Big Data. Profesiones Big Data, Data & Analytics (D&A): •  Acelera el crecimiento de una organización hasta en un 40%. •  Las ofertas de empleo Big Data aumentaron un 92% en 2015. •  IOT en el mundo va a facturar 1.9 Billones (Europeos) en la UE. 6 veces la industria farmacéutica. Realidad aumentada va a aumentar por 30 su facturación. Conclusión: Hay que estar en el mundo de Big Data (Data Analytic) http://www.ticbeat.com/tecnologias/ofertas-empleo-big-data/
  12. 12. Solving Big Data Issues 12 EVOLUCIÓN De los pueblos y las ciudades, al mundo virtual: analítica imprescindible MUNDO PASADO MUNDO VIRTUAL Aquí nos conocemos todos, o podríamos hacerlo. El proveedor elige o el cliente, como ocurría en los pueblos. Aquí no tenemos contactos físicos, hay que conocer al cliente por medio de otros canales
  13. 13. Solving Big Data Issues Sí es Big Data 13 DATOS Y PROCESAMIENTO: OPERACIONAL Y EL ANALÍTICO §  Un conjunto de tecnologías para hacer análisis de información §  Data analytic §  (Plataforma + casos de uso) §  Dato Distribuido. §  Distribución de procesos y almacenamiento en diferentes nodos. §  Operacional: Liquidación de cuentas, transferencias, domiciliaciones… §  ERP y CRM §  Transaccional §  Data Centric (not yet…) No es Big Data
  14. 14. Solving Big Data Issues 14 CULTURILLA: LAS ∞ V,S DE BIG DATA “Conjunto de nuevas tecnologías capaces de obtener valor de datos que por su situación, volumen, variedad o velocidad, antes no se aprovechaban.” Volume Velocity Variety Visibility Viscosity Value Veracity Vampire …. “Esa cantidad de datos que no sabía que tenía ni que podía usar y ahora que lo se quiero hacerlo.” Marketing, Sector Retail
  15. 15. Solving Big Data Issues Big Data no solo aplica para tratar grandes volúmenes de datos 15 BIG DATA, ES EL MOMENTO DE LAS NUEVAS OPORTUNIDADES §  De manera no estructurada y también estructurada. §  Diversas fuentes de información: Internas y Externas. Reducción de Costes Datos Escalabilidad y Volumen §  Hardware barato. Commodity §  Plataforma barata. §  Desarrollo divide los tiempos entre 4 Streaming §  Procesado en real-time o near-real-time. §  Imposible o muy costoso con tecnologías convencionales. §  Interpretación de los datos.
  16. 16. Solving Big Data Issues 16 BIG DATA: INFORMACIÓN ESTRUCTURADA Y/O NO ESTRUCTURADA El 80% de los datos que existen son No estructurados El 20% de los datos que existen son estructurados Por eso Big Data está muy ligado a las bases de datos NoSQL (Not Only SQL) La información almacenada caduca… la mejor base de datos es Internet. Hay en la Red una ingente cantidad de información, actualizada al minuto por instituciones y particulares. - Fuente Madiva -
  17. 17. Solving Big Data Issues 17 MAGNITUDES ¿QUÉ PASA EN 1 MINUTO EN INTERNET? Actividad Mundial en Internet en 2016 60SEGUNDOS 69.444 horas visionadas 701.389 logins en Facebook 527.760 fotos compartidas en Snapchat 51.000 descargas desde App Store 2,78 millones de vídeos vistos 972.222 swipes en Tinder 2,4 millones de búsquedas +120 cuentas nuevas de Linkedin 203.596$ en ventas 38.052 horas de música en Spotify 347.222 nuevos tuits 38.194 posts 1.389 carreras 150 millones emails enviados +20,8 millones de mensajes en Whatsapp 1,04 millones de loops en Vine
  18. 18. Solving Big Data Issues 18 BIG DATA “VS” BI BI Vs Menor Coste Pocos Casos de Uso Existentes Mayor flujo de Datos Mayor Escalabilidad Mayor Coste Más Casos de Uso Existentes Menor flujo de Datos Menor Escalabilidad Mayor Novedad Mayor Madurez
  19. 19. Solving Big Data Issues 19 LA CADENA DE VALOR BIG DATA INGESTIÓN NoesETLtradicional,esadaptadoaBIGDATA ALMACENAMIENTO Datos en crudo, sin tratar HDFS BBDD NoSQL Computación y tratamiento de los datos CONSULTA VISUALIZACIÓN APLICACIONES EXTERNAS MACHINE LEARNING Y PREDICITVE TRATAMIENTO Computación y tratamiento de los datos. Batch, Tiempo Real, Streaming.
  20. 20. ©© Así empezó todo esto Doug Cutting (el elefante era el juguete de su hija) Junto con Mike Cafarella crean Hadoop a partir de los Papers de Google Labs (Google publica un paper sobre Google File System en octubre del 2003 y otro paper sobre MapReduce en diciembre del 2004) 2004 - 2005
  21. 21. Solving Big Data Issues 21 EVOLUCIÓN ECOSISTEMA APACHE HADOOP Apache Hadoop Spark Research Paper 2004 2010 2015 2006 Google MapReduce Seminal Paper Spark becomes an Apache Top Level project 2014 Spark Becomes the standard for batch processing development on Hadoop Apache Flink superseedes Apache Spark for both Batch and Stream processing 2017
  22. 22. Solving Big Data Issues 22 EJEMPLO DE EVOLUCIÓN DEL ECOSISTEMA BIG DATA Daytona Gray: Para conocer la rapidez con que un sistema puede ordenar 100 TB de datos (1 Billón de registros) https://databricks.com/blog/2014/11/05/spark-officially- sets-a-new-record-in-large-scale-sorting.html DAYTONA GRAY SORT 100TB BENCHMARK Generación Data size Time Nodes Cores I Hadoop MR 102.5 TB 72 min 2,100 50,400 physical II Apache Spark 100 TB 23 min 206 6,592 virtualized Benchmarks independientes nos dicen que con el pasar del tiempo las herramientas de Big Data se van haciendo más eficientes. Las nuevas generaciones de herramientas consiguen el mismo resultado con menos recursos y en menor tiempo.
  23. 23. Solving Big Data Issues 23 EVOLUCIÓN DEL ECOSISTEMA BIG DATA ¿Tercera generación de frameworks de procesamiento? No lo sabemos
  24. 24. Conclusión
  25. 25. (QUÉ) - CASOS DE USO ALTERNATIVAS, PRODUCTOS
  26. 26. Solving Big Data Issues 26 EJEMPLOS DE CASOS DE USO: ELECCIONES USA Desde las primeras elecciones tras la Guerra de Secesión, las casas de apuestas han acertado siempre los resultados y las encuestas no. •  Con BigData es posible emular lo que sucede en las casa de apuestas. •  [La predicción de las casas de apuestas falló ante una de las Guerras] En las últimas elecciones americanas Nov. 2016 los resultados entre ambos candidatos, estuvo tan igualado porque ambos utilizaron técnicas BigData basadas en Spark cada vez que iban a una ciudad. •  Sabían lo que les preocupa en la ciudades que visitaban y los dos más o menos decían lo mismo. •  Se trabajó con BigData para analizar Blogs, Redes sociales etc..] Allan Lichtman, (American University) lleva 32 años pronosticando correctamente el resultado de todas las elecciones presidenciales americanas. •  Ha desarrollado un sistema científico/matemático basado en 13 preguntas que se pueden responder de manera objetiva con un sí o un no . •  Analizan cómo ha sido la gestión del partido que ha estado los últimos cuatro años en la Casa Blanca. Preguntas MétodoCasas de apuestas y BigData Vs Demoscopia (Encuestas)
  27. 27. Solving Big Data Issues 27 "¿El partido actualmente en la Casa Blanca ha ganado escaños en el Congreso en las elecciones en mitad de legislatura?” ”¿El actual presidente es también el candidato de sus partido a la Casa Blanca?” ”¿Hay un tercer partido o un candidato independiente que tenga una presencia significativa?” “Durante la campaña electoral, ¿se encuentra la economía en recesión?” ”¿El crecimiento económico en la última legislatura ha sido igual o superior al registrado en las dos anteriores?” ”¿Ha habido escándalos graves?” ”¿Ha habido derrotas militares o fracasos en la política exterior?” ”¿Se han llevado a cabo durante la legislatura reformas importantes?"... Hasta 13. Las preguntas son del tipo: Con Big Data es posible hacer esas preguntas consultando la “red de redes”
  28. 28. Solving Big Data Issues 28 EJEMPLOS DE CASOS DE USO: BANCA Analizando el registro de operaciones se puede relacionar FIFO la venta con la compra y aplicar la norma antireposición para obtener una orientación sobre el Impacto fiscal de una operación de capital. Detección Fraude en tarjetas: •  Tarjetas con denuncia de robo no real. •  Uso de tarjetas no activadas en manos de su verdadero usuario. Análisis de texto libre. Análisis del campo observaciones incluido en cada operación (texto libre) y extraer conclusiones valiosas sobre la propia operación, la relación con el cliente y para un mejor perfilado. (semántico) Monitorizar flujos de negocio. Ante una operación de negocio y definido su patrón, se puede hacer seguimiento de las mismas a fin de detectar de forma temprana, detecciones anómalas, errores y finalmente analítica y estadísticas de sus circunstancias.
  29. 29. Solving Big Data Issues 29 EJEMPLOS DE CASOS DE USO: EMPRESAS IOT (SCADA) - Sector industria (Mantenimiento) Mediante la colocación de centralitas de medición en las máquinas y dispositivos, y mediante predictivos, se puede ser muy preciso en: •  MTBF (Mean Time Between Failures) •  MTTR (Mean Time To Reparation) •  Intervenciones predictivas •  Órdenes de trabajo, gestión de expedientes. Logística transporte Mediante la colocación de centralitas de medición, asociado a IOT o no, pero siempre vía predictivos: •  Planificar de forma óptima las rutas. •  Rutas óptimas mediante la predicción de la demanda. •  Derivar información a la agenda comercial. •  Detección de incidencias en las rutas tales como: Paradas anómalas, sobrecargas, exceso de velocidad. Ahorro de costes: Migrando información a analizar de BI (BD + Entornos caros) a Big Data (BD + Entornos baratos, se pueden obtener ahorros de hasta un 90% a la vez que se aceleran los tiempos de consulta de la información
  30. 30. Solving Big Data Issues 30 EJEMPLOS DE CASOS DE USO: SANIDAD Información genética: El análisis de datos genéticos mediante Big Data, permitirá detectar nuevas mutaciones patológicas y facilitará las técnicas de edición genética. En el ámbito de Urgencias Médicas, el análisis en tiempo real de la información generada en las pruebas complementarias (analíticas, RMN, TAC, ECG...) mejora la rapidez en el triaje y priorizaría el tratamiento. La información generada por los nuevos dispositivos portátiles, económicos y sencillos de utilizar por los propios pacientes se podrá enviar a un repositorio centralizado y automatizar el análisis y diagnóstico. Mecanismos implantables inteligentes para dosificación de medicación y medición de variables biológicas, permitirán diagnosticos precoces, evitar desplazamientos...
  31. 31. (CÓMO) - LO HACEMOS: CON UNA PLATAFORMA
  32. 32. Solving Big Data Issues 32 DISYUNTIVA: ME CONSTRUYO YO LA PLATAFORMA O ME SUSCRIBO A UNA? ¿Qué hago, en que escenario voy a hacer Big Data? A Me compongo yo mi propia plataforma B Trabajo con una plataforma de mercado
  33. 33. Solving Big Data Issues 33 SI QUIERES CREAR TU PROPIA PLATAFORMA… DEFINIR TU PROPIA CADENA DE VALOR BIG DATA PARA CADA PASO SELECIONAR UNO O MÁS DE 1200 ELEMENTOS DARLE FORMA… … Y QUE FUNCIONE Y TÚ HACES MANTENIMIENTO CORRECTIVO Y EVOLUTIVO AL FINAL ALGO FALLA SEGURO Y LLAMAS A KEEDIO 1 2 3 4 5 6 7
  34. 34. Solving Big Data Issues 34 COMPOSICIÓN, BÚSQUEDA DE ELEMENTOS
  35. 35. Solving Big Data Issues 35 LA CADENA DE VALOR BIG DATA INGESTIÓN NoesETLtradicional,esadaptadoaBIGDATA ALMACENAMIENTO Datos en crudo, sin tratar HDFS BBDD NoSQL Computación y tratamiento de los datos CONSULTA VISUALIZACIÓN APLICACIONES EXTERNAS MACHINE LEARNING Y PREDICITVE TRATAMIENTO Computación y tratamiento de los datos. Batch, Tiempo Real, Streaming.
  36. 36. Solving Big Data Issues 36 UNA PLATAFORMA Y SU DESCOMPOSICIÓN EN MÓDULOS MESSAGE BUS BROKER BATCH DATA PROCESING BATCH REAL TIME DATA PROCESSING STREAM MACHINE LEARNING & PREDICTIVE NEURONA LONG TERM DATA STORAGE ARCHIVE DATA ORCHESTATION WORKFLOW OPERATIONAL DATA STORAGE OPERATIONAL DATA GOVERNANCE AUDITOR KEEDIO MANAGER & SECURITY KEEDIO MANAGER REST API KIO BI Tools Dashboards & Reports JDBC client ODBC client Data Science Tools DATA INGESTION ENTRY
  37. 37. Solving Big Data Issues 37 A TENER EN CUENTA AL ELEGIR UNA PLATAFORMA No Vendor Lock-in • Sólo se usan herramientas estables ampliamente usadas y contrastadas • Parches y plugins son liberados como open source Distribuciones a medida para cada cliente • Que se pueda adaptar a las necesidades de cada cliente o caso de uso. No reinventar la rueda • Aprovechar la potencia y capacidad de desarrollo de la comunidad para cada módulo. Integración entre módulos • A pesar de poder desplegarse de forma independiente, que exista estrecha integración entre cada uno de los módulos. Analítica avanzada de datos en tiempo real • Batch, tiempo real, streaming y predictivo.
  38. 38. Solving Big Data Issues Soluciones Big Data para crear una plataforma común La Iniciativa Plataforma Open Data (ODP) es un esfuerzo de la industria para compartir y promocionar las tecnologías Apache Hadoop® y Big Data para la empresa 38 INICIATIVA OPEN DATA PLATFORM
  39. 39. Solving Big Data Issues 39 EL VECTOR DE LOS MUNDOS DE PLATAFORMAS: PROPIETARIO OPEN
  40. 40. Solving Big Data Issues PLATAFORMAS BIG DATA: COMMUNITY “VS” ENTERPRISE OPCIONES COMMUNITY SUSCRIPCIÓN ENTERPRISE Módulos Mantenimiento evolutivo Soporte 40
  41. 41. Solving Big Data Issues 41 UNA DISTRIBUCIÓN BIG DATA PUEDE IR ON-PREMISE O EN LA NUBE Replicación a 3 •  Asegura tolerancia a fallos, evita single one point failure. •  No es necesario cabinas de discos ni sistemas RAID. •  Acelera la lectura de los datos. ON-PREMISENUBE Escalará horizontalmente cuando el procesamiento / almacenamiento aumente. BIG DATA, distribuye sin limite el procesamiento en servidores sin limite.
  42. 42. Solving Big Data Issues 42 DISYUNTIVA: ME CONSTRUYO YO LA PLATAFORMA O ME SUSCRIBO A UNA? ¿Qué hago? A Me compongo yo mi propia plataforma B Trabajo con una plataforma de mercado Ventajas: Precio, absolutamente a medida. Inconvenientes: Me la mantengo yo, se va el que la ha construido. Ventajas: Mantenimiento correctivo y evolutivo garantizado. Inconvenientes: Pequeña factura de suscripción, si es Vendor lock-in es un gran problema.
  43. 43. EL FUTURO DE BIGDATA: DATA CENTRIC
  44. 44. Solving Big Data Issues 44 ERP APLICACIONES PRODUCTOS ERP Comercial UUN SISTEMA DE INFORMACIÓN ES UN HYBRID MODEL Herramienta analítica RECONCILACIÓN DE DATOS
  45. 45. Solving Big Data Issues 45 Legacy Call Center Legacy CRM Campaign Manager Mobile App E- commerce TPV App Digital Marketing DATA CENTRIC FUTURO: DATO EN EL MEDIO PARA OPERACIONAL + ANALÍTICO APLICACIONES PRODUCTOS ÚNICA BASE DE DATOS
  46. 46. Calle Virgilio 25 Edificio Ayessa I, Bajo D Pozuelo de Alarcón 28223 Madrid @keedioinfo@keedio.comwww.keedio.com keedio

Notas do Editor

  • por qué se justifica nuestra experiencia en proyectos Big Data. ANTECEDENTES
    hemos estado haciendo durante 10 años proyectos de innovación tecnológica y computación distribuida como grids de cómputo financiero y científicos, labotatorios de cálculo acelerado por GPU y despliegues de Clouds privados. Todo esto en ocasiones sin estar ni de moda las palabras. Entonces lo hilo con que en algún momento, se puede decir, que hemos estado haciendo Big Data sin saber que se llamaba Big Data, pero ahora con las mejores herramientas...
  • en un menor 18K, el Partner quería instalar y parametrizar
  • Reducción de costes: No para determinados organismos con poco apetito de riesgo. 175 K BigData vs 2000 K BI
  • El técnico de seguros que dinamita la reunión: “Somos expertos en destrozar reuniones”.
    CIO y su cadena lo ven como una amenaza.
    En ocasiones no somos capaces de demostrar valor.
    Organismos oficiales 1 a 10 BI y rechazan BigData
  • Hay dos mundos radicalmente distintos en Bigdata: La aplicación al negocio / tecnología.
  • Hay que ingestar (Blogs, Foros y Redes Sociales).
    Data Scientics = dar valor al dato; semántico.
    Importante: Segmentar votantes; geolocalización, lenguaje, horas…
    X Segmento = Pensar en el mensaje que va a calar
    España 2016 - Los sondeos públicos predijeron 117 escaños para el PP, The Messina Group predijo 135, resultado final 137“
    Conclusión = Fiabilidad + Precio
  • El triaje (del francés triage = clasificación) o protocolo de intervención, es un método de selección y clasificación de pacientes
    Información genética: Anderson 1 hora

    Conclusión a las tendencias: Customer centric + Fraude
  • Podemos montarnos una plataforma nosotros
    Mantenimiento correctivo y evolutivo delicado.
  • Error, caso de Fracaso: Piensan en la plataforma sin pensar en los casos de uso que van a implementar / desarrollar.
  • Ya estamos convencidos de que hay que ir a una plataforma.
    Error: Construirte la tuya… en ocasiones al final ha habido que suscribirse a una y “reescribir” todo el código.

    Ál final de la mañana: Cómo empezamos + cómo se hace un proyecto
  • Lo está contando BdE / Caixabank etc…
  • Problema = Transaccional, no  un CICS
    No es un problema de BigData, es un problema de normalización de datos y de definición de Bases de Datos

×