2. Big Data
Machine Learning
Cursos Ofertados
Curso de Introducción a Big Data (3 Jornadas)
Curso de especialista técnico en Data Science (5 Jornadas)
Curso de Introducción a Machine Learning (3 Jornadas)
Sobre StrateBI
Formaciones Big Data & Machine Learning
3. Big Data
Forma de afrontar el procesamiento, análisis y visualización de
grandes volúmenes de información que por su naturaleza
desestructurada no pueden ser analizados, en un tiempo
aceptable, usando los procesos y herramientas tradicionales de
bases de datos y Business Intelligence
El Big Data es resultado de los cambios que se han producido en
la naturaleza de los datos manejados por las organizaciones
Aumento del Volumen de los datos disponibles para el análisis (Terabytes
(103 Gb) - Petabytes (106))
Incremento de la Velocidad a la que se generan y se distribuyen los datos en
las fuentes (ej. Captura y procesamiento de datos en tiempo real)
La Variedad se refiere al importante aumento en la heterogeneidad de las
fuentes de datos
Big Data
4. Big Data
La gestión y procesamiento con éxito del Big Data puede dar lugar
a importantes beneficios a las empresas y particulares:
Detección de tendencias de negocio
Detección de fraude y otros delitos
Marketing
…..
Sin embargo, la gestión y aprovechamiento del Big Data no es una
tarea ni mucho menos trivial. Algunos de los problemas más
relevantes son:
Tamaño de datos, nivel de estructura, variedad de formatos de
archivo, calidad de los datos, datos generados en tiempo real y que
además se han de analizar en tiempo real, datos de baja calidad,…
Big Data
6. En los últimos años ha ido surgiendo un amplio abanico de tecnologías
y herramientas
Tecnologías: Hadoop, NoSQL, Bases de datos columnares,…
Herramientas: Almacenamiento (HDFS, Cassandra, MongoDB…),
procesamiento (Spark, Hive, Storm, Pentaho..), visualización (Pentaho
,Tableau, Clickview…),..
La mayoría de estas tecnologías son Open Source
Accesibles a un mayor número de organizaciones que las soluciones
propietarias
Problema (Know-How):
¿Cómo usar y combinar efectivamente las tecnologías disponibles para
rentabilizar con éxito la gestión y procesamiento del Big Data?
Big Data
11. Machine Learning
Capacidad de un sistema para generalizar sobre la base de la
experiencia . Consiste en el uso de estas generalizaciones para
dar respuesta a las cuestiones relativas a datos recopilados con
anterioridad, así como datos que no se han encontrado antes.
Combina y se aplica en multitud de áreas de conocimiento
Estadística, reconocimiento de patrones, inteligencia artificial,
minería de datos,..
Por aplicación de distintos tipos de algoritmos estos sistemas son
capaces de extraer conocimiento de forma automatizada
Clasificación, agrupamiento, regresión para la generación de
predicciones
Machine Learning
13. Machine Learning
En combinación con el Big Data (fuentes de datos y tecnologías)
aumenta su eficacia y el número de aplicaciones en las que puede
ser de utilidad
Gran número de posibles aplicaciones que resuelven problemas
realmente complejos:
Sistemas de recomendación (ej. Carrito de la compra en Amazon)
Predecir un tipo de tumor (benigno o maligno) dado un conjunto de
datos de entrenamiento
Predecir el precio de una vivienda dado un juego de datos de
entrenamiento
….
Machine Learning
15. Machine Learning
Técnicas: Clasificación, Regresión, Clustering…
Algoritmos: C4.5, k-means, Support vector machines, Apriori, EM
, PageRank, AdaBoost, k-nearest neighbours class, …
Tecnologías:
Clásicas: WEKA, Python (scikit-learn, pandas, TensorFlow), R,…
Big Data: Apache Mahout, Spark con Mlib,
Problema (De nuevo el Know-How):
¿Cómo usar y combinar efectivamente las técnicas y tecnologías
disponibles para aplicar Machine Learning con éxito?
¿Cómo aplicar Machine Learning sobre Big Data?
Machine Learning
17. Cursos ofertados
1) Curso de Introducción a Big Data (3 Jornadas)
2) Curso de especialista técnico en Data Science (5 Jornadas)
3) Curso de Introducción a Machine Learning (3 Jornadas)
Formaciones Big Data & Machine Learning
18. 1) Curso de Introducción a Big Data
Curso orientado a introducir y explicar los principales conceptos y
tecnologías del campo Big Data
3 jornadas. Entrega de Documentación y Certificado
Dirigido a todo tipo de audiencia interesada en introducirse en el
mundo del Big Data, mediante la realización de ejercicios.
El objetivo de este curso es ofrecer una visión holística de Big
Data, apoyándonos en su capacidad para generar oportunidades
de negocio, así como optimizar los ya existentes.
Se verán ejemplos de arquitecturas ya implantadas en el mercado
y se analizarán los casos de uso en los que Big Data es y ha sido
decisivo.
Formaciones Big Data & Machine Learning
19. Curso de Introducción a Big Data
1) Introducción a Big Data
Directrices principales en las que se basa Big Data
Visión histórica e introducción al contexto del Big Data a través de
ejemplos intuitivos
Cómo afecta Big Data a los negocios. Se analizarán algunos
ejemplos de aplicación exitosa del Big Data y las potenciales
aplicaciones del mismo.
La relación entre Big Data, Business Intelligence, Machine Learning
& Data Science.
Formaciones Big Data & Machine Learning
20. Curso de Introducción a Big Data
2) Arquitecturas Big Data
Introducción y clasificación a las diferentes arquitecturas y sistemas
Big Data disponibles en el mercado
Entorno Hadoop: HDFS, Map Reduce, YARN, análisis de la pila de
herramientas disponibles sobre HDFS y Map Reduce (Hive, Pig...),
introducción a las distribuciones de Hadoop, etc.
NoSQL: Cassandra, MongoDB,...
Ejemplos prácticos donde el alumnos pondrá en práctica lo
estudiado sobre el entorno Hadoop
Introducción a una distribución de Hadoop y a la gestión del clúster
Uso del sistema de archivos HDFS
Formaciones Big Data & Machine Learning
22. Curso de Introducción a Big Data
3) Obtención y movimiento de datos en Big Data
Estudio de los principales tipos de fuentes de datos actuales
Datos estructurados, semi estructurados y no estructurados
Batch y streaming
Análisis de las principales herramientas disponibles para la
adquisición y movimiento de datos:
Pentaho Data Integration (multipropósito, DW), Sqoop (datos
relacionales en batch), Flume (datos streaming)
Ejercicios prácticos con algunas de las herramientas anteriores
basados en un caso de estudio para la obtención de datos de logs,
redes sociales...
Formaciones Big Data & Machine Learning
23. Curso de Introducción a Big Data
4) Procesamiento del Big Data
Análisis de los requerimientos del análisis según nuestros objetivos.
No todos los proyectos Big Data siguen el mismo patrón, por lo que
es importante una correcta elección de las herramientas en función
de los objetivos.
Introducción a las principales herramientas para el procesamiento y
análisis del Big Data
Herramientas sobre MapReduce: Pig, Hive
Herramientas que no usan Map Reduce: Spark, Spark Streaming, …
Continuación del ejercicio basado en un caso de estudio para el
procesamiento de datos de logs, redes sociales...
Formaciones Big Data & Machine Learning
24. Curso de Introducción a Big Data
5) Casos de estudio
Análisis de algunos los casos de estudio más relevantes del
mercado: Sistema de recomendación de Amazon, análisis de datos
de sensores en empresas de transporte, análisis de clics en páginas
web, elecciones EEUU...
Análisis de casos de estudios basados en nuestra amplia
experiencia en el desarrollo de proyectos Big Data
La revisión de los casos anteriores permitirá comprobar como las
tecnologías y técnicas estudiadas se han aplicado con éxito en
numerosos proyecto Big Data
Formaciones Big Data & Machine Learning
25. 2) Curso de especialista técnico para Data Scientist
Curso orientado a formar especialistas altamente cualificados en
tecnologías del campo Big Data
5 jornadas. Entrega de Documentación y Certificado
Dirigido a ingenieros, analistas, científicos y, en general, a
cualquier profesional con conocimientos básicos de matemáticas,
informática y estadística
El objetivo de este curso es ofrecer una visión detallada y práctica
desde el punto de vista técnico del Big Data, así como la puesta
práctica de las diferentes técnicas y tecnologías estudiadas.
Se verán ejemplos de arquitecturas ya implantadas en el mercado
y se analizarán los casos de uso en los que Big Data es y ha sido
decisivo, mediante ejercicios prácticos.
Formaciones Big Data & Machine Learning
26. Curso de especialista técnico para Data Scientist
1) Introducción a Big Data
Directrices principales en las que se basa Big Data
Visión histórica e introducción al contexto del Big Data a través de
ejemplos intuitivos
Cómo afecta Big Data a los negocios. Se analizarán algunos
ejemplos de aplicación exitosa del Big Data y las potenciales
aplicaciones del mismo.
La relación entre Big Data, Business Intelligence, Machine Learning
& Data Science
Formaciones Big Data & Machine Learning
27. Curso de especialista técnico para Data Scientist
2) Arquitecturas Big Data
Introducción y clasificación de las principales arquitecturas Big Data
Estudio en profundidad del entorno Hadoop: HDFS, Map Reduce,
YARN, Hive, Pig, Spark, distribuciones de Hadoop, etc.
Estudio de las principales soluciones NoSQL: Cassandra, MongoDB,...
Introducción a las bases de datos analíticas: HPVertica y MonetDB
Consideraciones para la elección de la arquitectura Big Data idónea
para cada escenario
Ejemplos prácticos con Hadoop (HDFS, gestión del clúster),
Cassandra y Mongo DB
Formaciones Big Data & Machine Learning
29. Curso de especialista técnico para Data Scientist
3) Obtención y movimiento de datos en Big Data
Estudio de los principales tipos de fuentes de datos actuales, para
entender las dificultades que puede entrañar su procesamiento
Análisis de las principales herramientas disponibles:
Pentaho Data Integration (multipropósito, DW), Sqoop (datos
relacionales en batch), Flume (datos streaming), Kafka (sistema de
colas distribuido, datos Streaming)
Ejercicios prácticos con algunas de las herramientas anteriores
basados en un caso de estudio para la obtención de datos de logs,
redes sociales...
Ejercicios para el movimiento y transformación de datos con
Pentaho Data Integration desde y hacia Mongo DB
Formaciones Big Data & Machine Learning
30. Curso de especialista técnico para Data Scientist
4) Procesamiento del Big Data
Análisis de los requerimientos del análisis según nuestros objetivos
Introducción a las principales herramientas para el procesamiento y
análisis del Big Data
Herramientas sobre MapReduce: Pig, Hive
Herramientas que no usan Map Reduce: Spark, Spark Streaming,
Storm...
Introducción a Spark y al lenguaje Scala
Ejercicios con Spark y lenguaje escala sobre Hadoop
Análisis de las posibilidades de integración con las distintas
arquitecturas Big Data: Cassandra, Mongo DB,etc.
Continuación del ejercicio basado en un caso de estudio
Formaciones Big Data & Machine Learning
32. Curso de especialista técnico para Data Scientist
5) Introducción al procesamiento del Big Data en tiempo real
Análisis de las soluciones para el análisis de datos en tiempo real en
Hadoop:
Spark Streaming
Storm
Integración con otras herramientas del entorno Hadoop
Flume, Kafka, Hive,…
Formaciones Big Data & Machine Learning
33. Curso de especialista técnico para Data Scientist
6) Introducción a Machine Learning
Introducción a concepto de Machine Learning, donde el alumno
conocerá las técnicas más novedosas para la extracción de
conocimiento implícito en los datos
Definición del concepto de Machine Learning
Análisis de las técnicas más relevantes
Introducción al Machine Learning con Spark: Técnicas y
herramientas para el desarrollo de aplicaciones de Machine
Learning con Spark y MLib
Ejercicio para el desarrollo de un sencillo algoritmo de Machine
Learning con Spark y MLib
Formaciones Big Data & Machine Learning
34. Curso de especialista técnico para Data Scientist
7) Nuevas tecnologías y posibilidades analíticas en Big Data
Análisis de las más novedosas tecnologías que están surgiendo en el
cambiante contexto del Big Data
Análisis OLAP en Big Data
Apache Kylin: un motor analítico distribuido de eBay que proporciona
una capa SQL y permite un análisis multidimensional (OLAP) en
Hadoop, admitiendo datasets con grandes volúmenes de datos.
Otras alternativas Pinot, FiloDB
Apache Tez: Alternativa de procesamiento sobre Hadoop que
promete mejorar el rendimiento de herramientas como Pig y Hive
en 100x
Formaciones Big Data & Machine Learning
36. Curso de especialista técnico para Data Scientist
8) Casos de estudio
Análisis de algunos los casos de estudio más relevantes del
mercado: Sistema de recomendación de Amazon, análisis de datos
de sensores en empresas de transporte, análisis de clics en páginas
web, elecciones EEUU...
Análisis de casos de estudios basados en nuestra amplia
experiencia en el desarrollo de proyectos Big Data
La revisión de los casos anteriores permitirá comprobar como las
tecnologías y técnicas estudiadas se han aplicado con éxito en
numerosos proyecto Big Data
Formaciones Big Data & Machine Learning
37. Curso de Introducción a Machine Learning
Curso orientado a introducir y explicar los principales conceptos,
métodos y tecnologías de Machine Learning
3 jornadas. Entrega de Documentación y Certificado
Dirigido a ingenieros, analistas, científicos y, en general, a
cualquier profesional con conocimientos básicos de matemáticas,
informática y estadística
El objetivo de este curso es ofrecer una visión introductoria de
Machine Learning, analizando su capacidad para generar
oportunidades de negocio y para la resolución de problemas de
distinta naturaleza que involucren el uso de datos masivos (Big
Data)
Se verán ejemplos prácticos de los principales algoritmos y su
implementación con las tecnologías existentes
Formaciones Big Data & Machine Learning
38. Curso de Introducción a Machine Learning
1) Introducción al Machine Learning
Definición de Machine Learning e introducción a los flujos de
procesos de Machine Learning
Aprende a distinguir entre aprendizaje supervisado y no
supervisado
Se analizarán los distintos tipos de algoritmos y sus posibles
aplicaciones: Clustering, Clasificación, Regresión,…
Estudio de las técnicas para la medición de la calidad de un
algoritmo: Matriz de Confusión, Curva ROC (AUC)
Formaciones Big Data & Machine Learning
39. Curso de Introducción a Machine Learning
2) Extracción de estructura de los datos: Estudio y aplicación de
las principales técnicas de Clustering
K-Medias
Modelos de Mezcla Gaussiana (GMM)
3) Sistemas de recomendación
Introducción al diseño de sistemas recomendación. Estos sistemas son cada
vez más usados en aplicaciones de e-commerce (ej. Amazon)
Estudio en profundidad de las técnicas de Descomposición en valores
singulares de una matriz (SVD) y Filtrado Colaborativo
Ejercicios prácticos donde se pondrán en práctica las técnicas estudiadas
usando Python y Apache Mahout
Sistemas de recomendación sobre conjunto de datos de películas
Formaciones Big Data & Machine Learning
41. Curso de Introducción a Machine Learning
4) Redes Neuronales y Deep Learning
Introducción a las redes neuronales
Perceptrón simple
Perceptrón multicapa
Introdución al Deep Learning
Algoritmo de entrenamiento retropropagación (backpropagation)
Máquinas de Boltzmann restringidas (RBMs)
Formaciones Big Data & Machine Learning
42. Curso de Introducción a Machine Learning
5) Sistemas de elección
Estudio la técnica de experimentación Test A/B (Experimento de 2
grupos) ampliamente utilizada en el ámbito del marketing
Se llevará a cabo un experimento para el estudio de una máquina
tragaperras con varias palancas
6) Procesamiento de Lenguaje Natural
Introducción a las técnicas de Procesamiento del Lenguaje Natural
(PLN)
Procesamiento del lenguaje natural con Python (NLTK)
Funciones útiles para análisis semántico
Las técnicas anteriores se pondrán en práctica con un ejercicio de
análisis de sentimientos sobre críticas de películas
Formaciones Big Data & Machine Learning
43. Vea nuestra demo Big Data para el procesamiento de datos de Twitter:
http://151.80.176.180:8080/BgDemoStratebi/real-time/index.htm
Sobre StrateBI
44. Vea otras de nuestras demos Online:
http://www.pentaho5.stratebi.com
(Credenciales: stratebi / osbipent5)
http://www.tatopagao.es
Sobre StrateBI
45. ¿Por qué Stratebi para la formación en Big Data & Machine Learning?
Grandes Especialistas Big Data en España (Hadoop, Spark, Hive, Flume,
Hortonworks, Cloudera, Cassandra, HP Vértica…)
Proyectos y formaciones en el Grupo de Ciberseguridad de Prosegur,
Telefónica Educación Digital (TED), con el Ministerio de Presidencia,
con el Grupo Schibsted, INCIBE (Instituto Nacional de
Ciberseguridad…)
Primeros especialistas en BI Open Source (Pentaho, Talend, Mondrian,
Ctools, Saiku…) en España
Unica empresa española que ha estado en los 8 Pentaho Developers
celebrados, habiendo organizado la edición de Barcelona
Stratebi ha puesto en producción más de 100 sistemas Business
Intelligence con Pentaho, incluyendo grandes organizaciones como BBVA,
Telefónica, Globalia, Prosegur, ALD, Gobiernos de La Rioja, Extremdura,
Baleares, Eroski, Equifax, Unilever, Amnistía Internacional, Caixa De
Enginyers, Schibsted, etc… y es el principal especialista Business
Intelligence Open Source en España.
Sobre StrateBI
46. ¿Por qué Stratebi para la formación en Big Data & Machine Learning?
Profesores de los Masters en Business Intelligence y Big Data en:
EOI (Escuela de Organización Industrial)
CIFF
UOC
UTAD
Desarrollo de soluciones para la visualización y analítica de datos sobre
código Pentaho (en producción en muchas organizaciones):
Mejoras en Saiku Reporting y adaptación a nuevas versiones
Visor OLAP STPivot
Editor de Cuadros de Mando (STDashboard)
Aplicación de Scorecards (STCard)
Sobre StrateBI