Big Data para desarrolladores utilizando Hadoop y OpenStack

Big Data para desarrolladores:
Hadoop y Openstack
I
Guillermo Alvarado Mejía
DevOps Engineer
Victor Barrera Nuñez
Data Scientist

Contenido
➢ Openstack
➢ Hadoop
➢ Arquitecturas en la nube
➢ Openstack & Hadoop
➢ Benchmark
➢ Consideraciones Generales
➢ Preguntas

Openstack
OpenStack es producto de la colaboración mundial de
desarrolladores y administradores de sistemas DevOps
que dan como resultado una plataforma Cloud de
código abierto que entrega soluciones para todo tipo de
nubes.

Openstack
Cuenta con más de 17.000 miembros individuales de
139 países y 850 organizaciones diferentes.

Openstack
Habilidades requeridas para incursionar en
Openstack
➢ Python
○ Openstack está escrito en este lenguaje
➢ Linux (Command line navigation)
○ Openstack y sus componente corren sobre Linux
➢ Programación Bash (Linux scripting)

Openstack
¿Quién utiliza OpenStack? Destacan: PayPal,
MercadoLibre, Comcast, NSA, Rackspace, Cisco,
PlayStation, Dream Host, el CERN y Kio Networks
como pionero en Latinoamérica.
Visita http://www.openstack.org/user-stories/

Openstack
Openstack está siendo acogido rápidamente en el
sector corporativo.

Openstack
Esencial: Integración y API´s.
SDK’s: Clojure, Erlang, Go, Java, JS, .NET, Perl, PHP,
Python, Ruby, etc.
¿Bash? Command Line Interfaces.

Hadoop
➢ Problemas con sistemas tradicionales
○ Procesadores más rápidos y más RAM en una única máquina
➢ Problemas con sistemas distribuidos
○ Sincronización de datos, ancho de banda, fallos parciales
➢ Era Big-Data
○ Terabytes de datos por día
➢ Requerimientos para un nuevo enfoque
○ Speculative execution
○ Replicación
○ Escalabilidad

Hadoop
➢ Surge a partir de 2 publicaciones realizadas por
Google en 2003 y 2004
➢ Los datos son replicados múltiples veces en el
sistema de archivos
○ Éstos son divididos en archivos más pequeños denominados
“blocks”
➢ El nodo principal o master
○ Designa tareas a los nodos esclavos o datanodes
○ Reasigna tareas cuando un nodo falla o sale de operación

Hadoop
1500 Nodos 690 Nodos 140 Nodos
http://wiki.apache.org/hadoop/PoweredBy

Hadoop
➢ Hadoop resuelve un problema real y por tal razón estará con nosotros
por varias décadas
➢ Hadoop es una habilidad profesional que vale la pena adquirir

Hadoop
Habilidades requeridas para incursionar en Hadoop
➢ Java
○ Hadoop está escrito en este lenguaje
➢ Linux (Command line navigation)
○ Hadoop y sus componente corren sobre Linux
➢ Programación Bash (Linux scripting)
➢ Hadoop Streaming
○ Python
○ Rubi
○ C

Arquitecturas en la nube
Las Arquitecturas Cloud son los diseños y desarrollo de
elementos de infraestructura virtual y software que
hacen un uso eficiente de los servicios en Cloud.

➢Son interoperables.
➢Ejecutan de forma óptima las tareas para cubrir una
necesidad de negocio.
➢Sólo hacen uso de la infraestructura que es necesaria
en cada momento.
➢Escalan basándose en la demanda.

¿El problema? Son tareas concurrentes, repetitivas.
Dejemos de perder el tiempo, automaticemos. Desde
un enfoque DevOps.
Heat es el proyecto de OpenStack para Orquestación.

Heat permiten la creación y gestión de:
IPs flotantes, Instancias de computo, Redes, Virtuales, Volúmenes de
almacenamiento, Grupo de seguridad/Firewall, Usuarios
Funciones avanzadas:
Alta disponibilidad, autoscaling, software de terceros, recovery.
Además es compatible con Cloud Formation de AWS.

Plantillas
Archivos de texto con formato YAML, son un documento que detalla la
orquestación.
Heat Orchestration Template
(HOT), es el lenguaje nativo de Heat para escribir una plantilla.

Las plantillas también pueden especificar las relaciones
entre los recursos, por ejemplo, este volumen está
conectado a este servidor.

Openstack & Hadoop
Time To Provision
Time To Market
A Hadoop le viene como anillo al dedo Openstack y su
elasticidad

Openstack & Hadoop
➢ Tecnologías libres y de código abierto
➢ IDC estima un crecimiento alto (15%) de soluciones
cloud y Big Data para 2014
○ “Will big data make IT infraestructure sexy again?“, Mike Barlow,
O’Reilly, 2014)
➢ Tecnologías y soluciones Big Data abarcarán el
89% de las inversiones en IT durante 2014
➢ 70% de los datawarehouse experimentan problemas
de procesamiento y almacenamiento, Gartner

Benchmark
Cantidad de nodos de datos (datanodes)
➢ IBM tiene el cluster más grande con 1000 nodos de datos
➢ En promedio los cluster tienen 14 nodos de datos

Benchmark
➢ IBM, CISCO y HP son los cluster más rápidos
➢ KIO/DATTLAS es el 8º más rápido con 40 minutos para ordenar
1TB de datos
Tiempo transcurrido ordenando un 1TB de datos

Benchmark
➢ CISCO tiene el cluster más eficiente con ~225 MB/seg por datanode
➢ IBM tiene el cluster más inificiente con 9,5MB/seg procesados por
datanode
Velocidad de procesamiento por datanode

Benchmark
➢ Los fabricantes tienen un promedio de 1170 GB RAM
➢ Nótese que a mayor memoria RAM, menor el tiempo de procesamiento
Memoria RAM total instalada

Benchmark
GB RAM versus Duración

Openstack & Hadoop
El futuro:
Sahara by Openstack. Disponible para Juno.
Proyecto que proporciona un medio sencillo para
aprovisionar un cluster Hadoop sobre Openstack.
Configuración de varios parámetros:
versión de Hadoop, la topología del cluster, los detalles de los nodos, etc.

Openstack & Hadoop
➢ Con un solo clic, autoservicio de aprovisionamiento
basado en plantillas
➢ Escalamiento dinámico, disparadores de workloads.
➢ Medición de recursos de manera sencilla, Hadoop
as a Service.

Openstack & Hadoop
➢ API´s para ejecutar tareas Map/Reduce, Oozie
workflows, consutas Hive/Pig.
➢ Administración y monitoreo centralizado.
➢ Accesos a datos controlados.
➢ Acceso a UI integrado, como Hive y Pig.

Openstack & Hadoop
➢ Infraestructura
○ Nube privada o pública (OpenStack)
○ Alojamiento de servidores (Co-location)
➢ Misión crítica, datacenter diseño TIER IV
➢ Operación
○ Help desk 24/7
➢ Big Data
○ Generación de modelos matemáticos
○ Hadoop as a Service
○ Data-Analytics as a Service

¿Preguntas?
I
Guillermo Alvardo
galvarado@kionetworks.com
@galvarado89
Victor Barrera
vabarrera@dattlas.com
@vikbar

Big Data para desarrolladores utilizando Hadoop y OpenStack

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (7)

Semelhante a Big Data para desarrolladores utilizando Hadoop y OpenStack

Semelhante a Big Data para desarrolladores utilizando Hadoop y OpenStack (20)

Mais de Software Guru

Mais de Software Guru (20)

Big Data para desarrolladores utilizando Hadoop y OpenStack