3.
Big Data (o el manejo de grandes volúmenes de de información) son conjuntos
de datos que crecen tan grandes que se vuelven incómodos para trabajar con
las herramientas de gestión de bases de datos tradicionales.
Las dificultades incluyen la captura, almacenamiento, de búsqueda, el
intercambio, análisis, y la visualización.
De continuar esta tendencia, debido a los beneficios de trabajar con conjuntos
de datos más grandes que permiten a los analistas a "detectar las tendencias
de negocios, prevenir enfermedades, combatir el delito" se irán necesitando de
nuevas tecnologías, NoSQL, Hadoop… que lo soporten.
Formación Big Data
4. Formación Big Data
En Big Data se usan tecnologías heterogéneas, pero complementarias para
conseguir estos objetivos (Hadoop, NoSQL, Column oriented DB, SQL
Databases...), junto con poderosas herramientas de visualización, igualmente
open source.
Se ofrecen tanto cursos de Introducción al Big Data como de Especialistas
Técnicos como Data Scientists
Público objetivoPúblico objetivo
Profesionales de las tecnologías de información, gestores de TI, Analistas de
Negocio, Analistas de sistemas, arquitectos Java, desarrolladores de sistemas,
administradores de bases de datos, desarrolladores y profesionales con
relación a el área de tecnología, marketing, negocio y financiera
7. Big Data Open Source - Stratebi
Escalabilidad
Vertical
+ CPU
+ RAM
Tipología de datos
Estructurados
No Estructurados
Retos ActualesRetos Actuales
Horizontal
Más nodos
¿Tablas de relacionales de nodo x que
FK apuntan a PK de tablas de otros nodos?
14. Temario
Curso de Introducción al Big Data (1)
Curso orientado a introducir y explicar los principales
conceptos y tecnologías del campo Big Data
3 jornadas. Entrega de Documentación y Certificado
Dirigido a todo tipo de audiencia interesada en introducirse en
el mundo del Big Data, mediante la realización de ejercicios.
El objetivo de este curso es ofrecer una visión holística de Big
Data, apoyándonos en su capacidad para generar
oportunidades de negocio, así como optimizar los ya
existentes.
Se verán ejemplos de arquitecturas ya implantadas en el
mercado y se analizarán los casos de uso en los que Big Data
es y ha sido decisivo.
15. Temario
Curso de Introducción al Big Data (1)
1) Introducción a Big Data
Directrices principales en las que se basa Big Data
Visión histórica y e introducción al público al problema Big
Data a través de ejemplos intuitivos.
Cómo afecta Big Data a los negocios.
La relación entre Big Data, Business Intelligence & Data
Science.
16. Temario
Curso de Introducción al Big Data (1)
2) Sistemas de Almacenamiento NoSQL
Introducción a NoSQL: veremos las soluciones propuesta
por la industria. Conceptos generales de sistemas
distribuidos, el teorema CAP, etc.
Análisis de los diferentes sistemas de almacenamiento
NoSQL.
Estudio de las principales soluciones NoSQL que con más
potencia se están imponiendo en el mercado, como
MongoDB, Cassandra, CouchDB, HP Vertica, etc..
Ejemplos prácticos y visión de futuro sobre estas bases de
datos.
Exploración de las limitaciones que implica NoSQL
17. Temario
Curso de Introducción al Big Data (1)
3) Sistemas de Procesamiento Big Data
Una vez se tienen los datos en un sistema NoSQL se da la
necesidad de extraer esos datos con el fin de obtener
métricas. Por ello es muy importante ver las diferentes
propuestas que tenemos disponible, como Hadoop
MapReduce o Apache Spark.
Se verán ejemplos que hagan entender al público como es
necesario tener un perfil ingenieril en los equipos para
utilizar algunas de estas tecnologías.
18. Temario
Curso de Introducción al Big Data (1)
4) Sistemas de procesamiento en Tiempo Real
Realizaremos agregaciones sobre los datasets y
analizaremos los datos en Tiempo Real. Se estudiará tanto
Storm como Kafka, y se verán algunos ejemplos clave.
5) Introducción a Machine Learning & Big Data
Data Science en Big Data. Al trabajar con grandes
volúmenes de datos, los estadistas tienen la oportunidad
de trabajar con este tipo de tecnologías a través de R o
Python
Estudio de R y Python. Estudio de los proyectos que utilizan
Hadoop y Spark como base del análisis de datos
19. Temario
Curso de Introducción al Big Data (1)
6) Herramientas de obtención de datos en Big Data
Visión de los diferentes paradigmas Big Data.
Se requieren nuevas soluciones que estén adaptadas a las
necesidades. Se estudiará Sqoop, Flume y otros como
Chukwa, Kettle, etc…
7) Casos de Estudio
Veremos cómo la gestión de Big Data fue fundamental
para las elecciones de Estados Unidos en 2012, lo que
supuso para el equipo de Obama una ventaja competitiva
que les ayudó a renovar la presidencia
Se analizarán otros casos de uso como NetFlix, Amazon,
Google, etc…
20. Temario
Curso Especialista Técnico para Data Scientists (2)
Curso orientado a formar especialistas altamente
cualificados en tecnologías del campo Big Data
5 jornadas. Entrega de Documentación y Certificado
Dirigido a ingenieros con conocimientos previos en el campo
del análisis de datos, estadística, etc…
El objetivo de este curso es ofrecer una visión detallada y
práctica desde el punto de vista técnico de Big Data, así
como su aplicación práctica de las diferentes tecnologías.
Se verán ejemplos de arquitecturas ya implantadas en el
mercado y se analizarán los casos de uso en los que Big Data
es y ha sido decisivo, mediante ejercicios prácticos.
21. Temario
Curso Especialista Técnico para Data Scientists (2)
1) Introduccion
Visión de lo que se impartirá en el curso
Historia de los sistemas distribuidos
2) Sistemas de almacenamiento NoSQL.
Apache Cassandra: sistema de base de datos NoSQL,
distribuida y peer to peer, altamente escalable. Es clave-
valor y columnar y se estudiará un modelo de datos
mediante ejemplos sencillos.
MongoDB: sistema de base de datos NoSQL, distribuida
con arquitectura maestro-esclavo. Es clave-valor y
documental. Se estudiará un modelo de datos mediante
ejemplos sencillos
22. Temario
Curso Especialista Técnico para Data Scientists (2)
Se realizará una práctica en Cassandra donde
instalaremos y configuraremos Cassandra y crearemos un
keyspace de ejemplo
3) Sistemas de procesamiento de grandes volúmenes de
datos
Ecosistema Apache Hadoop: creación de un cluster HDFS.
Utilización del framework MapReduce así como sus algunos
de los proyectos que más empuje han tenido estos últimos
años, tales como Hive (consultas like SQL sobre HDFS), Pig
(parametrización de Map Reduce), HBase (sistema de
base de datos NoSQL con base en HDFS)
23. Temario
Curso Especialista Técnico para Data Scientists (2)
4) Sistemas de procesamiento Real Time
Apache Kafka: el sistema de colas que más empaque
tiene en a la hora de gestionar diversas entradas de datos.
Veremos cómo crear Topics, productores y consumidores.
Daremos un repaso a los casos de uso donde se utiliza
Kafka y haremos ejemplos en vivo
Apache Spark Streaming: Spark Streaming es capaz de
procesar cadenas de datos y su potencial reside en la
facilidad de uso y su integración con Apache Spark. Esto
permite crear sistemas con arquitecturas Lambda
24. Temario
Curso Especialista Técnico para Data Scientists (2)
Apache Storm: Storm es un framework opensource,
desarrollado en clojure y java, para la computación
distribuida de sistemas real-time.
Se podría decir que Storm es el análogo para el
procesamiento de streamings de datos a Hadoop,
estando este diseñado para procesamiento en batchs.
Exploraremos su arquitectura a través de ejemplos y
veremos el potencial de esta tecnología. Se realizará
una práctica con Storm donde instalaremos y
configuraremos un cluster en local y se propondrán
ejercicios.
25. Temario
Curso Especialista Técnico para Data Scientists (2)
5) Herramientas de obtención de datos en Big Data
Apache Flume: sistema ELT que permite realizar cargas
masivas de logs. Se estudiará su arquitectura y veremos
algunos ejemplos de cómo realizar cargas en HDFS.
Apache Sqoop: sistema que permite pasar datos de un
sistema de base de datos relacional a un sistema de base
de datos NoSQL y sus distintas combinaciones. Veremos
algunos ejemplos de cómo pasar datos de MySQL a
Cassandra.
Herramientas de Big Data para Pentaho: veremos los
conectores Big Data en Kettle y algunos ejemplos de cómo
usarlos
26. Temario
Curso Especialista Técnico para Data Scientists (2)
Se realizará una práctica en la que se tendrá una fuente
de origen de datos y habrá que migrarla a un sistema
NoSQL. Para ello utilizaremos los conectores Big Data de
Kettle
27. Temario
Curso Especialista Técnico para Data Scientists (2)
6) Gestión de entornos Big Data
Vagrant: gestor de entornos virtualizados. Es posible que en
múltiples ocasiones te hayas encontrado en necesidad de
un entorno virtual de desarrollo. Quizás muchas veces lo
necesitaste para hacerte la vida más fácil y no lo sabías.
Daremos solución a estos problemas mediante el uso de
una herramienta de construcción de entornos.
Docker: gestor de despliegue de aplicaciones. Es muy
común que nos encontremos desarrollando una aplicación
y llegue el momento que decidamos tomar todos sus
archivos y migrarlos ya sea al entorno de producción, de
prueba o simplemente probar su comportamiento en
diferentes plataformas y servicios
28. Temario
Curso Especialista Técnico para Data Scientists (2)
Para situaciones de este estilo existen herramientas que,
entre otras cosas, nos facilitan el empaquetado y
despliegue de la aplicación, es aquí donde entra en juego
Docker.
Chef: gestor de máquinas. Una herramienta muy útil que
cumple el propósito de facilitar el proceso de construcción
de entornos virtuales de manera automatizada.
La instalación de software y su configuración en los
entornos es quizás una de las tareas más importantes de
este proceso
29. Temario
Curso Especialista Técnico para Data Scientists (2)
7) Cloud Computing & BigData
La Nube de Amazon: Amazon ofrece diferentes servicios
online. Esto ha supuesto una oportunidad para que
pequeñas y medianas empresas puedan utilizar las
novedosas tecnologías Big Data y aprovecharse de todo el
rendimiento que aportan.
Por ello se verá la importancia de conocer cada
aplicación de los servicios Web de Amazon.
La Nube de Google: google fue el creador de Google File
System. Veremos herramientas como Google Big Query y
algunos servicios adicionales a través de ejemplos.
30. Temario
Curso Especialista Técnico para Data Scientists (2)
Esto puede ser una buena opción en algunos casos,
donde el cliente solo quiere observar durante un corto
espacio de tiempo algún tipo de información sobre sus
datos.
Casos de uso: crearemos una cuenta en Amazon Web
Services y veremos cómo crear una microinstancia.
Veremos los servicios de Google Big Query a través de
ejemplos
31. Temario
Curso Especialista Técnico para Data Scientists (2)
8) Analítica en Big Data
Apache Kylin: un motor analítico distribuido de eBay que
proporciona una capa SQL y permite un análisis
multidimensional (OLAP) en Hadoop, admintiendo datasets
con grandes volúmenes de datos.
Clusters Mixtos: explotación de información a través de un
sistema analítico altamente eficiente con las tecnologías
HP Vertica + Hadoop.