3. Solving Big Data Issues 3
KEEDIO DATA STACK (KDS) – MÓDULOS
MESSAGE
BUS
BROKER
BATCH DATA
PROCESING
BATCH
REAL TIME DATA
PROCESSING
STREAM
MACHINE LEARNING & PREDICTIVE
NEURONA
LONG TERM DATA STORAGE
ARCHIVE
DATA
ORCHESTATION
WORKFLOW
OPERATIONAL
DATA
STORAGE
OPSTORE
DATA GOVERNANCE
AUDITOR
KEEDIO MANAGER & SECURITY
KEEDIO MANAGER
REST API KIO
DATA
INGESTION
ENTRY
BI Tools
Dashboard
s & Reports
Monitoring
Services
JDBC /ODBC
clients
SUBSEQUENT
ANALISYS
(Data Science
Tools)
4. Solving Big Data Issues 4
KEEDIO DATA STACK (KDS) - VENTAJAS
No Vendor Lock-in
• Sólo se usan herramientas estables
ampliamente usadas y contrastadas
• Nuestros parches y plugins son liberados
como open source
Distribuciones a medida para cada cliente
• KDS no es monolítica y se puede adaptar
a las necesidades de cada cliente o caso
de uso.
• Una distribución o plataforma compacta
y enfocada es más fácil de mantener
Distribuciones Apache Spark
• Integración con librerías de terceros necesarias
en escenarios y casos específicos
• Bugfixes y personalizaciones
No reinventar la rueda
• Aprovechamos la potencia y capacidad
de desarrollo de la comunidad para cada
módulo de KDS.
Integración entre módulos
• A pesar de poder desplegarse de forma
independiente, cuidamos la estrecha
integración entre cada uno de los
módulos.
Herramientas Big Data
• Incluye una selección de las principales
herramientas Big Data para la
construcción de una arquitectura y
plataforma analítica modular.
Analítica avanzada de datos en
tiempo real
• Batch, tiempo real, streaming y
predictivo.
5. Solving Big Data Issues 5
KEEDIO DATA STACK (KDS) – KEEDIO MANAGER
KEEDIO Manager está basado en Apache Ambari
Integración nativa con Kerberos y FreeIPA.
Soporte nativo para full HA.
Se apoya en la capacidad de desarrollo de la comunidad y las
líneas estratégicas globales de evolución.
Mejoras introducidas por KEEDIO.
Estandarización en la gestión de los servicios gestionados.
Adaptaciones para gestionar fácilmente nuevas
herramientas Big Data.
Integración con herramientas no disponibles en la versión de
la comunidad.
Despliegues on-premise avanzados.
6. Solving Big Data Issues 6
KEEDIO DATA STACK (KDS) – KEEDIO MANAGER
Gestión avanzada de los servicios de la plataforma
Despliegue centralizado de la plataforma.
Monitorización y métricas.
Control de versiones de la configuración.
Gestión del HA, decomisionado y posibilidad de extensión de
la arquitectura.
Acceso centralizado
Control de usuarios y la seguridad.
Acceso a las GUIs de cada uno de los servicios y
herramientas.
API de gestión y administración.
8. Solving Big Data Issues 8
DEMO
SIMULADOR
AGENTESDEFLUME
KAFKA
HDFS HDFS HDFS
KIBANA
SPARK STREAMING
Tarjeta Transferencia
MOTOR TR
Parser
Indexación
9. Solving Big Data Issues 9
SIEM - ARQUITECTURA
Procesado Batch
§ Archivado de todo el histórico de
eventos.
Procesado Real-time
§ Filtrado horizontal de la información:
descarte de eventos no relevantes
§ Filtrado vertical de la información:
descarte de campos no relevantes
dentro de eventos.
Analítica
§ Analítica exploratoria de los eventos
históricos.
§ Dashboards de seguridad y
correlación eventos en Splunk.
CMDB
11. Solving Big Data Issues 11
KEEDIO DATA STACK (KDS) – ENTRY
Arquitectura de ingesta unificada basada en Apache Flume
Con la potencia y versatilidad de docenas de componentes
soportados por la comunidad.
20+ componentes contribuidos por KEEDIO y desplegados en
los entornos más exigentes.
Full HA cuando es necesario
Integración con Apache NiFi
Motor de ingesta distribuido.
Atractiva interfaz gráfica de configuración de pipelines de
ingesta y transformación.
Componentes open-source contribuidos por KEEDIO.
12. Solving Big Data Issues 12
KEEDIO DATA STACK (KDS) – ENTRY
Agentes recolectores
Multifuente: FTP, SFTP, SQL, Single & Multi File, http, Apache Kafka,
Netcat, JMS, Avro, SNMP, Thrift, etc.
Amplio abanico de agentes open-source de flume desarrollados ad-hoc
por KEEDIO.
Componentes activos (pull) y componentes pasivos (push).
Procesos para el enriquecimiento y metadatado en tiempo real
con mecanismos de cache.
Integración con fuentes de datos de terceros.
Enriquecimiento y metadatado de la información
Integración con los diferentes módulos de KDS de
almacenamiento y procesamiento.
Backends legacy (Oracle, MySQL, DB2, DWH, etc.)
Integración con múltiples backends
DATA
INGESTION
ENTRY
13. Solving Big Data Issues 13
KEEDIO DATA STACK (KDS) – BROKER
Se apoya en Apache Kafka
Persistencia temporal de los datos.
Mensajería multicanal de alto rendimiento.
Desacopla la capa de ingestión de la capa de procesamiento
y/o consolidación.
MESSAGE BUS
BROKER
DATA INGESTION
ENTRY
publicadores
consumidores
14. Solving Big Data Issues 14
KEEDIO DATA STACK (KDS) – ARCHIVE
Basado en Apache Hadoop HDFS
Asegura que la información es almacenada de forma
redundante y con alta disponibilidad.
Compatible con todos los módulos de KDS y ampliamente
integrado con herramientas de terceros.
Control de accesos “fine grained”.
Almacenamiento persistente de los datos raw procedentes de
Entry
Opcional pero siempre recomendado.
DATA
INGESTION
ENTRY
RAW DATA
BUMPER
HDFS HDFS HDFS
MESSAGE
BUS
BROKER
15. Solving Big Data Issues 15
KEEDIO DATA STACK (KDS) – BATCH
Basado en Apache Spark
Tiene toda la potencia de Apache Spark para la carga,
transformación y análisis de datos.
Compatible con pipelines MapReduce preexistentes
Escalado automático hacia arriba para trabajos
computacionalmente intensivos.
Escalado automático hacia abajo para ahorrar en costes
(especialmente en entornos cloud).
Data locality awareness: para un uso eficiente de los
recursos de red, los datos no se mueven de una VM o de un
rack (según configuración), es la computación que se mueve
hacia el dato.
16. Solving Big Data Issues 16
KEEDIO DATA STACK (KDS) – STREAM
Procesamiento de los datos en streaming
Módulo adaptable dependiendo de las necesidades de cada caso
de uso.
Alternativas a diferentes frameworks de procesamiento como
Apache Spark Streaming y Apache Storm.
Se puede usar más de un framework de procesamiento en
streaming a la vez.
Apache Spark Streaming
Semántica de exactly-once.
API sofisticada de procesamiento de ventanas deslizantes.
Apache Storm
Semántica de at-least-once.
Facilita la lógica de diseño para el procesamiento por eventos.
17. Solving Big Data Issues 17
KEEDIO DATA STACK (KDS) – NEURONA
Estado del arte de las APIs de Machine Learning y predicción
Algoritmos distribuidos con un crecimiento en rendimiento lineal
acorde al crecimiento del cluster.
Estrechamente integrado con los módulos Batch y Stream
Neurona une lo mejor de los dos mundos Spark MLlib y R
Prácticamente todos los paquetes disponibles en CRAN se
pueden usar en un entorno distribuido basado en Apache Spark.
Con las distribuciones de Apache Spark a medida de KDS se
construyen sofisticados y potentes frameworks para el
procesamiento de datos con técnicas de Machine Learning y
predictiva.
MLlib
18. Solving Big Data Issues 18
KEEDIO DATA STACK (KDS) – WORKFLOW & OP STORAGE
WORKFLOW
Gestión de procesos y workflows para la ejecución de pipelines
complejos en la plataforma.
OPSTORE
Bases de Datos NoSQL
Almacenamiento de información “desestructurada”
Elasticsearch como ejemplo:
• Basado en Apache Lucene
• Índices, tipos, documentos y campos como abstracciones
similares a bases de datos, tablas, filas y columnas.
19. Solving Big Data Issues 19
KEEDIO DATA STACK (KDS) – Next Steps (I)
AUDITOR
Trazabilidad de los datos.
Informes de manipulación de datos.
BATCH OVER STREAMING
API de procesamiento Batch/Streaming unificada, basada en
Apache Flink.
Shift hacia una arquitectura streaming centric que trate todo los
datos como un “flujo”.
Simplificación del paradigma de tratamiento de los datos: el
procesado batch es un caso especial del procesado en streaming.
20. Solving Big Data Issues 20
KEEDIO DATA STACK (KDS) – Next Steps (II)
KIO
API REST unificada de gestión y explotación de la plataforma.
Abstracción de los módulos subyacentes.
Documentación centralizada para la administración,
configuración y explotación de todos los módulos de la
plataforma.
Contribución de KEEDIO a la comunidad, 100% Open Source.
ODPi
Compliance con la Open Data Platform initiative.
Simplificación y estandarización de ecosistemas Big Data.
21. Calle Virgilio 25
Edificio Ayessa I, Bajo D
Pozuelo de Alarcón
28223 Madrid
@keedioinfo@keedio.comwww.keedio.com keedio