SlideShare uma empresa Scribd logo
1 de 36
Baixar para ler offline
An Evening with…

Apache Hadoop
Arkho Innova Meetup Series
• Un espacio para compartir
experiencias y conocimiento
• Un espacio para hacer relaciones
entre equipos con intereses afines
• Un espacio para pasarla bien
Gracias por su asistencia!!!
Agenda
1.Qué es ? Introducción Apache Hadoop.
2.MapReduce.
3.Integración Apache Hadoop y otras plataformas.
4.Escenarios claves.
5.Hadoop as a service (HaaS).
6.Hadoop en la industria de la salud.
1. ¿Qué es Hadoop?
Introducción Apache Hadoop
• Framework Open Source que permite el procesamiento distribuido de grandes volúmenes de
datos a través de un cluster de servidores.
• Data mining utilizando clustering.
• Diseñado para escalar desde uno a varios servidores.
• Fault tolerance, High Available Service
• Procesamiento paralelo masivo de datos no estructurados.
Introducción Apache Hadoop
Ecosistema de Hadoop
HDFS	
Hadoop	
Job	Management	
Motor	de	procesamiento
Ecosistema de Hadoop
HDFS	
Hadoop	
MapReduce	
Hive	 HBase	 Mahout	
Pig	 Sqoop	 …
Componentes principales
• Job Tracker
• Administra la ejecución de los trabajos en cada uno de
los nodos
• Mantiene información de nodos: cercanía, carga datos
• Sabe donde esta la información
• Reprograma las tareas fallidas
• Task Tracker
• Es el encargado de ejecutar la tarea
• Fair Scheduler:
• Encargado de organización del trabajo
• Distribución de los trabajos en pool y colas
HDFS
• Principalmente es un sistema de archivos distribuido
• Fue diseñado para se usado con Hardware Básico
• Tiene la capacidad de almacenar un archivo gigante en varias maquinas
• Existe redundancia para tolerar fallos
• Hadoop tiene una interfaz de comandos para usar con HDFS
• Tal como unix también tiene la capacidad de usar permisos de archivos
• Namenode
• Es el master de todos los nodos
• Maneja la metadata. ( nombres de archivos y rutas por ejemplo)
• Regula el acceso a los archivos
• Controlas las operaciones de I/O
• Datanode
• Mantienen la información concretamente
• Es donde se ejecutan las operaciones de lectura-escritura
• Bloque
• Es la unidad de almacenamiento de HDFS.
• Tamaño por defecto 64MB, normalmente es 128MB. Más de 512MB no recomendable.
HDFS
HDFS
2. MapReduce
• Modelo de programación para procesamiento de gran volumen de datos.
• Divide el procesamiento en dos faces: map() & reduce()
• Estructurados en tuplas del tipo (clave, valor)
• La función map() se ejecuta en todas las máquinas del cluster.
• El resultado de la función map() es utilizado como input de la función reduce()
MapReduce
3. Integración Apache Hadoop y
otras plataformas
• Conciliación de datos estructurados y no-estructurados (web logs,
datos de maquina, datos no estructurados, censores, audio, video,
imágenes, etc).
• Procesamiento batch donde el tiempo de procesamiento es menos
crítico para el negocio.
• Proveer storage de bajo costo y procesamiento de grandes
volúmenes de datos.
Integración Apache Hadoop y otras
plataformas
• Procesamiento complejo a gran velocidad.
• Permite evaluar consultas que no son fácilmente expresadas
mediante SQL.
• BI y minería de datos y en donde procesos de negocio pueden
cambiar rápidamente o generar muchos datos en poco tiempo.
Integración Apache Hadoop y otras
plataformas
• Oracle Analytics
• SAS
• SAP HANA – Apache Hadoop
Oracle
SAS
SAP Hana
4. Escenarios claves
*Usando SAP Hana como ejemplo (aplicable a otras plataformas)
Hadoop as a Flexible Data Store
Hadoop as a Flexible Data Store
Escenario Descripción Caso de uso Comentario
Datos referenciales Copia de grandes data sets de datos
referenciales
Encuestas, información geo- referencial,
datos meteorológicos
Almacenar datos en un solo lugar
para facilitar el proceso analítico
Auditoria y análisis
de riesgo
Captura de eventos de negocio desde
múltiples fuentes para un posterior
análisis de riesgo y auditoria.
Transacciones de desde sistemas ERP u
otros sistemas externos (ej, call
centers).
Correlacionar y analizar datos
desde sistemas externos para
ayudar en la identificación de
riesgos
Repositorio de
documentos
Captura y almacenamiento de
documentos generados o recibidos por
el negocio
Medicina, aseguradoras o cualquier otra
industria que deba generar documentos
y ser almacenados por largos periodos.
Almacenar un numero ilimitados
de documentos utilizando por
ejemplo Hbase.
Data archive Captura de logs históricos que de otra
forma serian enviados a sistemas de
almacenamiento off-line
Logs de sistemas. Menor costo comparado con otras
soluciones de almacenamiento
convencional.
Hadoop as a simple database
Hadoop as a simple database
Escenario Descripción Caso de uso Comentario
ETL desde otros sistemas hacia
Hadoop
Ingresar data hacia Hadoop
desde sistemas externos
tal como SAP HANA o algún
data warehouse.
Combinar datos en fuentes
analíticas con datos desde
Hadoop.
SAP Data Service provee ETL
para transferencia de datos
desde Hadoop.
Disponer de una base de datos
para el almacenamiento de
volúmenes de documentos de
gran tamaño
Rápido almacenamiento y
recuperación de “blobs”
utilizando HBase
Almacenamiento de archivos
PDF, imágenes o video.
Esta funcionalidad es utilizada
por Facebook para para
almacenar y recuperar datos.
Hadoop as a processing engine
Hadoop as a processing engine
Escenario Descripción Caso de uso Comentario
Minería de datos Búsqueda de patrones, clustering y
correlaciones de datos almacenados en
Hadoop
Análisis de comportamiento de
clientes a través de diversos
sistemas. Análisis de datos de
máquina para mantenimiento
preventivo
Utilización de Mahout en
conjunto con Hadoop
Análisis de riesgo Búsqueda de patrones en datos dentro de
Hadoop que sugiera comportamiento de
riesgo
Gestión de riesgo, análisis de
fuga, transacciones fraudulentas.
DM puede ayudar en la
identificación de patrones de
comportamiento riesgoso.
Identificación de
diferencia en los datos
Identificación de diferencia en data sets
similares y de gran volumen
Identificación de diferencias en
cadenas de ADN
MapReduce puede ser mas rápido
que los enfoques tradicionales.
Hadoop for data analytics
Hadoop for data analytics
Escenario Descripción Caso de uso Comentario
Client-side federation Aplicaciones BI ejecutan consultas de
forma separada y consolidan resultados
en otras plataformas tales como SAS
Enterprise Miner
Cualquier caso de procesamiento analítico
en donde los datos a ser analizados se
encuentran en Hadoop y además en otro
sistema.
Práctico cuando el volumen de
datos retornado por Hadoop es
relativamente pequeño.
Stand-alone federation Aplicaciones BI analizan data
directamente en Hadoop
Cualquier caso de procesamiento analítico
en donde los datos a ser analizados se
encuentran en Hadoop
Útil cuando el análisis de los datos
se realiza en diferentes fuentes.
Query-federation El DW consulta a diferentes fuentes
para luego consolidar y combinar los
resultados.
Cualquier caso de procesamiento analítico
en donde los datos a ser analizados se
encuentran en Hadoop y además en otro
sistema.
Útil cuando los datos retornados por
Hadoop son de gran tamaño.
6. Hadoop As a Service (HAaS)
Hadoop As a Service (HAaS)
• Solución de cloud computing que hace el procesamiento de datos de
gran escala accesible, fácil y económico.
• Oportunidad para clientes que no cuentan con el “know how” y/o
infraestructura necesaria.
Hadoop As a Service (HAaS)
Deplegar Hadoop en minutos
Proporcionar una
plataforma distribuida y
tolerante a fallas
Plataforma integrada de
backup y DR
Almacenar, procesar y
analizar gran volumen de
datos del tipo relacionados y
no-relacionados
Foco está en el desarrollo
de aplicaciones y
responder preguntas
complejas del negocio
Pagar solo por el poder
de computo y no en la
adquisición de HW
Escalamiento a la medida
de los requerimientos del
negocio
7. Hadoop en la industria de la salud
• Gran cantidad de datos
heterogéneos.
• Registro de sintomatología.
• Hallazgos médicos.
• Medicación y seguimiento.
• Historiales médicos.
Síntomas
Medicamentos
Historial clínico
Exámenes
Big Data
Analytics
Evidencia
Reducción
de costos
Mejora en el
diagnostico
Hadoop en la industria de la salud
• Procesamiento de imágenes (HIPI – Hadoop Image Processing Interface)
• Almacenamiento de bajo costo y alto poder de computo.
• Posibilidad de realizar procesamiento analítico sobre el cluster.
• La industria requiere de análisis en tiempo real.
• Necesidad de aplicar el proceso KDD (Knowledge Discovery in Databases) para
identificar patrones validos y útiles tanto para los pacientes como para los médicos.
• Almacenamiento en la nube potencia soluciones de HAaS.
• Monitoreo constante de los efectos de tratamiento médico.
• Diagnóstico asistido.
• Detección de fraudes .
• Monitoreo de pacientes.
• Análisis de imágenes.
• Repositorio de referencia a búsquedas de enfermedades y síntomas de pacientes.
• Análisis de laboratorio.
Hadoop en la industria de la salud
An Evening with…

Apache Hadoop
Arkho Innova Meetup Series - Ejemplo práctico

Mais conteúdo relacionado

Mais procurados

Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningStratebi
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopArsys
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Data warehouse
Data warehouseData warehouse
Data warehousemaggybe
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big DataStratebi
 
Webinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y ZeppelinWebinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y ZeppelinFederico Leven
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosCelestino Güemes Seoane
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkJose Manuel Ortega Candel
 
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACKKEEDIO
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Guillermo Alvarado Mejía
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosRaul Ochoa
 

Mais procurados (20)

Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
Webinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y ZeppelinWebinar de Introducción a Hive y Zeppelin
Webinar de Introducción a Hive y Zeppelin
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
Hadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datosHadoop: MapReduce para procesar grandes cantidades de datos
Hadoop: MapReduce para procesar grandes cantidades de datos
 
Almacén de datos
Almacén de datosAlmacén de datos
Almacén de datos
 
Tipos de base de datos
Tipos de base de datosTipos de base de datos
Tipos de base de datos
 

Destaque

Theories of Personality
Theories of PersonalityTheories of Personality
Theories of PersonalityShantanu Basu
 
The environment
The environmentThe environment
The environmentbob hey
 
Question 3 review of feedback
Question 3 review of feedbackQuestion 3 review of feedback
Question 3 review of feedbackaaronmc165
 
Sales coaching vijf mythen ontkracht
Sales coaching vijf mythen ontkrachtSales coaching vijf mythen ontkracht
Sales coaching vijf mythen ontkrachtFrank De Lannoit
 
Biografia De Gil Eanes
Biografia De Gil EanesBiografia De Gil Eanes
Biografia De Gil Eanescrie_historia8
 
Second Annual Employee Engagement Study
Second Annual Employee Engagement StudySecond Annual Employee Engagement Study
Second Annual Employee Engagement StudyAPCO
 
Codes and conventions of print documentary adverts
Codes and conventions of print documentary advertsCodes and conventions of print documentary adverts
Codes and conventions of print documentary advertsShaun Hughes
 
Vincent Van Gogh
Vincent Van GoghVincent Van Gogh
Vincent Van Goghprimer1415
 
Ryan Duff 2015 WordCamp US HTTP API
Ryan Duff 2015 WordCamp US HTTP APIRyan Duff 2015 WordCamp US HTTP API
Ryan Duff 2015 WordCamp US HTTP APIryanduff
 
Information Visualisation - Lecture 1
Information Visualisation - Lecture 1Information Visualisation - Lecture 1
Information Visualisation - Lecture 1Stefan Wasserbauer
 
Demand Generation Presentation
Demand Generation PresentationDemand Generation Presentation
Demand Generation Presentationjasoncliff
 

Destaque (15)

Theories of Personality
Theories of PersonalityTheories of Personality
Theories of Personality
 
The environment
The environmentThe environment
The environment
 
Question 3 review of feedback
Question 3 review of feedbackQuestion 3 review of feedback
Question 3 review of feedback
 
Sales coaching vijf mythen ontkracht
Sales coaching vijf mythen ontkrachtSales coaching vijf mythen ontkracht
Sales coaching vijf mythen ontkracht
 
Biografia De Gil Eanes
Biografia De Gil EanesBiografia De Gil Eanes
Biografia De Gil Eanes
 
Second Annual Employee Engagement Study
Second Annual Employee Engagement StudySecond Annual Employee Engagement Study
Second Annual Employee Engagement Study
 
Codes and conventions of print documentary adverts
Codes and conventions of print documentary advertsCodes and conventions of print documentary adverts
Codes and conventions of print documentary adverts
 
Vincent Van Gogh
Vincent Van GoghVincent Van Gogh
Vincent Van Gogh
 
Ryan Duff 2015 WordCamp US HTTP API
Ryan Duff 2015 WordCamp US HTTP APIRyan Duff 2015 WordCamp US HTTP API
Ryan Duff 2015 WordCamp US HTTP API
 
Information Visualisation - Lecture 1
Information Visualisation - Lecture 1Information Visualisation - Lecture 1
Information Visualisation - Lecture 1
 
Sss congruence Postulate
Sss congruence PostulateSss congruence Postulate
Sss congruence Postulate
 
Andy warhol
Andy warholAndy warhol
Andy warhol
 
Demand Generation Presentation
Demand Generation PresentationDemand Generation Presentation
Demand Generation Presentation
 
Semiconductors 101
Semiconductors 101Semiconductors 101
Semiconductors 101
 
Cost Volume Profit Analysis
Cost Volume Profit AnalysisCost Volume Profit Analysis
Cost Volume Profit Analysis
 

Semelhante a An evening with... Apache hadoop Meetup

01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIsBig Data Spain
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
 
Big data y las apis (big data spain)
Big data y las apis (big data spain)Big data y las apis (big data spain)
Big data y las apis (big data spain)CloudAppi
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datosAntonio Rodriguez
 
Piensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresPiensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresRafael Bermúdez Míguez
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Bases de datos.docx kethy
Bases de datos.docx kethyBases de datos.docx kethy
Bases de datos.docx kethyKethyVasquez
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligenceIrene Lorza
 

Semelhante a An evening with... Apache hadoop Meetup (20)

01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
BigData
BigDataBigData
BigData
 
Polybase
PolybasePolybase
Polybase
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIs
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Big data y las apis (big data spain)
Big data y las apis (big data spain)Big data y las apis (big data spain)
Big data y las apis (big data spain)
 
ALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptxALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptx
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
Piensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresPiensa en grande: Big data para programadores
Piensa en grande: Big data para programadores
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Bases de datos.docx kethy
Bases de datos.docx kethyBases de datos.docx kethy
Bases de datos.docx kethy
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligence
 

Mais de Arkhotech

An Evening with Agile lean design_thinking
An Evening with Agile lean design_thinkingAn Evening with Agile lean design_thinking
An Evening with Agile lean design_thinkingArkhotech
 
An Evening with Meetup microservices-s2
An Evening with Meetup microservices-s2An Evening with Meetup microservices-s2
An Evening with Meetup microservices-s2Arkhotech
 
An evening with...Rust
An evening with...RustAn evening with...Rust
An evening with...RustArkhotech
 
An Evening with... Go Lang
An Evening with... Go LangAn Evening with... Go Lang
An Evening with... Go LangArkhotech
 
An evening with... Docker
An evening with... DockerAn evening with... Docker
An evening with... DockerArkhotech
 
An evening with "Rework" - Reinventando nuestra forma de trabajar
An evening with "Rework" - Reinventando nuestra forma de trabajarAn evening with "Rework" - Reinventando nuestra forma de trabajar
An evening with "Rework" - Reinventando nuestra forma de trabajarArkhotech
 
An evening with... Microservices - Session 1
An evening with... Microservices - Session 1An evening with... Microservices - Session 1
An evening with... Microservices - Session 1Arkhotech
 
An evening with... Scrum
An evening with... ScrumAn evening with... Scrum
An evening with... ScrumArkhotech
 
An evening with... Liquidbase
An evening with... LiquidbaseAn evening with... Liquidbase
An evening with... LiquidbaseArkhotech
 
An evening with... DevOps
An evening with... DevOpsAn evening with... DevOps
An evening with... DevOpsArkhotech
 
An evening with ... Ionic Framework Meetup
An evening with ... Ionic Framework Meetup An evening with ... Ionic Framework Meetup
An evening with ... Ionic Framework Meetup Arkhotech
 
An evening with... BPM redhat Meetup
An evening with... BPM redhat MeetupAn evening with... BPM redhat Meetup
An evening with... BPM redhat MeetupArkhotech
 
An evening with... Continuous Integration and Bamboo intro Meetup
An evening with... Continuous Integration and Bamboo intro MeetupAn evening with... Continuous Integration and Bamboo intro Meetup
An evening with... Continuous Integration and Bamboo intro MeetupArkhotech
 
An evening with... Agile Metrics Meetup
An evening with... Agile Metrics MeetupAn evening with... Agile Metrics Meetup
An evening with... Agile Metrics MeetupArkhotech
 
An evening with... Polymer Intro Meetup
An evening with... Polymer Intro MeetupAn evening with... Polymer Intro Meetup
An evening with... Polymer Intro MeetupArkhotech
 
An evening with... Oracle Endeca Guided Search & Experience Manager Meetup
An evening with... Oracle Endeca Guided Search & Experience Manager MeetupAn evening with... Oracle Endeca Guided Search & Experience Manager Meetup
An evening with... Oracle Endeca Guided Search & Experience Manager MeetupArkhotech
 
An evening with... No SQL Meetup
An evening with... No SQL MeetupAn evening with... No SQL Meetup
An evening with... No SQL MeetupArkhotech
 

Mais de Arkhotech (17)

An Evening with Agile lean design_thinking
An Evening with Agile lean design_thinkingAn Evening with Agile lean design_thinking
An Evening with Agile lean design_thinking
 
An Evening with Meetup microservices-s2
An Evening with Meetup microservices-s2An Evening with Meetup microservices-s2
An Evening with Meetup microservices-s2
 
An evening with...Rust
An evening with...RustAn evening with...Rust
An evening with...Rust
 
An Evening with... Go Lang
An Evening with... Go LangAn Evening with... Go Lang
An Evening with... Go Lang
 
An evening with... Docker
An evening with... DockerAn evening with... Docker
An evening with... Docker
 
An evening with "Rework" - Reinventando nuestra forma de trabajar
An evening with "Rework" - Reinventando nuestra forma de trabajarAn evening with "Rework" - Reinventando nuestra forma de trabajar
An evening with "Rework" - Reinventando nuestra forma de trabajar
 
An evening with... Microservices - Session 1
An evening with... Microservices - Session 1An evening with... Microservices - Session 1
An evening with... Microservices - Session 1
 
An evening with... Scrum
An evening with... ScrumAn evening with... Scrum
An evening with... Scrum
 
An evening with... Liquidbase
An evening with... LiquidbaseAn evening with... Liquidbase
An evening with... Liquidbase
 
An evening with... DevOps
An evening with... DevOpsAn evening with... DevOps
An evening with... DevOps
 
An evening with ... Ionic Framework Meetup
An evening with ... Ionic Framework Meetup An evening with ... Ionic Framework Meetup
An evening with ... Ionic Framework Meetup
 
An evening with... BPM redhat Meetup
An evening with... BPM redhat MeetupAn evening with... BPM redhat Meetup
An evening with... BPM redhat Meetup
 
An evening with... Continuous Integration and Bamboo intro Meetup
An evening with... Continuous Integration and Bamboo intro MeetupAn evening with... Continuous Integration and Bamboo intro Meetup
An evening with... Continuous Integration and Bamboo intro Meetup
 
An evening with... Agile Metrics Meetup
An evening with... Agile Metrics MeetupAn evening with... Agile Metrics Meetup
An evening with... Agile Metrics Meetup
 
An evening with... Polymer Intro Meetup
An evening with... Polymer Intro MeetupAn evening with... Polymer Intro Meetup
An evening with... Polymer Intro Meetup
 
An evening with... Oracle Endeca Guided Search & Experience Manager Meetup
An evening with... Oracle Endeca Guided Search & Experience Manager MeetupAn evening with... Oracle Endeca Guided Search & Experience Manager Meetup
An evening with... Oracle Endeca Guided Search & Experience Manager Meetup
 
An evening with... No SQL Meetup
An evening with... No SQL MeetupAn evening with... No SQL Meetup
An evening with... No SQL Meetup
 

An evening with... Apache hadoop Meetup

  • 1. An Evening with…
 Apache Hadoop Arkho Innova Meetup Series
  • 2. • Un espacio para compartir experiencias y conocimiento • Un espacio para hacer relaciones entre equipos con intereses afines • Un espacio para pasarla bien Gracias por su asistencia!!!
  • 3. Agenda 1.Qué es ? Introducción Apache Hadoop. 2.MapReduce. 3.Integración Apache Hadoop y otras plataformas. 4.Escenarios claves. 5.Hadoop as a service (HaaS). 6.Hadoop en la industria de la salud.
  • 4. 1. ¿Qué es Hadoop?
  • 5. Introducción Apache Hadoop • Framework Open Source que permite el procesamiento distribuido de grandes volúmenes de datos a través de un cluster de servidores. • Data mining utilizando clustering. • Diseñado para escalar desde uno a varios servidores. • Fault tolerance, High Available Service • Procesamiento paralelo masivo de datos no estructurados.
  • 9. Componentes principales • Job Tracker • Administra la ejecución de los trabajos en cada uno de los nodos • Mantiene información de nodos: cercanía, carga datos • Sabe donde esta la información • Reprograma las tareas fallidas • Task Tracker • Es el encargado de ejecutar la tarea • Fair Scheduler: • Encargado de organización del trabajo • Distribución de los trabajos en pool y colas
  • 10. HDFS • Principalmente es un sistema de archivos distribuido • Fue diseñado para se usado con Hardware Básico • Tiene la capacidad de almacenar un archivo gigante en varias maquinas • Existe redundancia para tolerar fallos • Hadoop tiene una interfaz de comandos para usar con HDFS • Tal como unix también tiene la capacidad de usar permisos de archivos
  • 11. • Namenode • Es el master de todos los nodos • Maneja la metadata. ( nombres de archivos y rutas por ejemplo) • Regula el acceso a los archivos • Controlas las operaciones de I/O • Datanode • Mantienen la información concretamente • Es donde se ejecutan las operaciones de lectura-escritura • Bloque • Es la unidad de almacenamiento de HDFS. • Tamaño por defecto 64MB, normalmente es 128MB. Más de 512MB no recomendable. HDFS
  • 12. HDFS
  • 13. 2. MapReduce • Modelo de programación para procesamiento de gran volumen de datos. • Divide el procesamiento en dos faces: map() & reduce() • Estructurados en tuplas del tipo (clave, valor) • La función map() se ejecuta en todas las máquinas del cluster. • El resultado de la función map() es utilizado como input de la función reduce()
  • 15. 3. Integración Apache Hadoop y otras plataformas • Conciliación de datos estructurados y no-estructurados (web logs, datos de maquina, datos no estructurados, censores, audio, video, imágenes, etc). • Procesamiento batch donde el tiempo de procesamiento es menos crítico para el negocio. • Proveer storage de bajo costo y procesamiento de grandes volúmenes de datos.
  • 16. Integración Apache Hadoop y otras plataformas • Procesamiento complejo a gran velocidad. • Permite evaluar consultas que no son fácilmente expresadas mediante SQL. • BI y minería de datos y en donde procesos de negocio pueden cambiar rápidamente o generar muchos datos en poco tiempo.
  • 17. Integración Apache Hadoop y otras plataformas • Oracle Analytics • SAS • SAP HANA – Apache Hadoop
  • 19. SAS
  • 21. 4. Escenarios claves *Usando SAP Hana como ejemplo (aplicable a otras plataformas)
  • 22. Hadoop as a Flexible Data Store
  • 23. Hadoop as a Flexible Data Store Escenario Descripción Caso de uso Comentario Datos referenciales Copia de grandes data sets de datos referenciales Encuestas, información geo- referencial, datos meteorológicos Almacenar datos en un solo lugar para facilitar el proceso analítico Auditoria y análisis de riesgo Captura de eventos de negocio desde múltiples fuentes para un posterior análisis de riesgo y auditoria. Transacciones de desde sistemas ERP u otros sistemas externos (ej, call centers). Correlacionar y analizar datos desde sistemas externos para ayudar en la identificación de riesgos Repositorio de documentos Captura y almacenamiento de documentos generados o recibidos por el negocio Medicina, aseguradoras o cualquier otra industria que deba generar documentos y ser almacenados por largos periodos. Almacenar un numero ilimitados de documentos utilizando por ejemplo Hbase. Data archive Captura de logs históricos que de otra forma serian enviados a sistemas de almacenamiento off-line Logs de sistemas. Menor costo comparado con otras soluciones de almacenamiento convencional.
  • 24. Hadoop as a simple database
  • 25. Hadoop as a simple database Escenario Descripción Caso de uso Comentario ETL desde otros sistemas hacia Hadoop Ingresar data hacia Hadoop desde sistemas externos tal como SAP HANA o algún data warehouse. Combinar datos en fuentes analíticas con datos desde Hadoop. SAP Data Service provee ETL para transferencia de datos desde Hadoop. Disponer de una base de datos para el almacenamiento de volúmenes de documentos de gran tamaño Rápido almacenamiento y recuperación de “blobs” utilizando HBase Almacenamiento de archivos PDF, imágenes o video. Esta funcionalidad es utilizada por Facebook para para almacenar y recuperar datos.
  • 26. Hadoop as a processing engine
  • 27. Hadoop as a processing engine Escenario Descripción Caso de uso Comentario Minería de datos Búsqueda de patrones, clustering y correlaciones de datos almacenados en Hadoop Análisis de comportamiento de clientes a través de diversos sistemas. Análisis de datos de máquina para mantenimiento preventivo Utilización de Mahout en conjunto con Hadoop Análisis de riesgo Búsqueda de patrones en datos dentro de Hadoop que sugiera comportamiento de riesgo Gestión de riesgo, análisis de fuga, transacciones fraudulentas. DM puede ayudar en la identificación de patrones de comportamiento riesgoso. Identificación de diferencia en los datos Identificación de diferencia en data sets similares y de gran volumen Identificación de diferencias en cadenas de ADN MapReduce puede ser mas rápido que los enfoques tradicionales.
  • 28. Hadoop for data analytics
  • 29. Hadoop for data analytics Escenario Descripción Caso de uso Comentario Client-side federation Aplicaciones BI ejecutan consultas de forma separada y consolidan resultados en otras plataformas tales como SAS Enterprise Miner Cualquier caso de procesamiento analítico en donde los datos a ser analizados se encuentran en Hadoop y además en otro sistema. Práctico cuando el volumen de datos retornado por Hadoop es relativamente pequeño. Stand-alone federation Aplicaciones BI analizan data directamente en Hadoop Cualquier caso de procesamiento analítico en donde los datos a ser analizados se encuentran en Hadoop Útil cuando el análisis de los datos se realiza en diferentes fuentes. Query-federation El DW consulta a diferentes fuentes para luego consolidar y combinar los resultados. Cualquier caso de procesamiento analítico en donde los datos a ser analizados se encuentran en Hadoop y además en otro sistema. Útil cuando los datos retornados por Hadoop son de gran tamaño.
  • 30. 6. Hadoop As a Service (HAaS)
  • 31. Hadoop As a Service (HAaS) • Solución de cloud computing que hace el procesamiento de datos de gran escala accesible, fácil y económico. • Oportunidad para clientes que no cuentan con el “know how” y/o infraestructura necesaria.
  • 32. Hadoop As a Service (HAaS) Deplegar Hadoop en minutos Proporcionar una plataforma distribuida y tolerante a fallas Plataforma integrada de backup y DR Almacenar, procesar y analizar gran volumen de datos del tipo relacionados y no-relacionados Foco está en el desarrollo de aplicaciones y responder preguntas complejas del negocio Pagar solo por el poder de computo y no en la adquisición de HW Escalamiento a la medida de los requerimientos del negocio
  • 33. 7. Hadoop en la industria de la salud • Gran cantidad de datos heterogéneos. • Registro de sintomatología. • Hallazgos médicos. • Medicación y seguimiento. • Historiales médicos. Síntomas Medicamentos Historial clínico Exámenes Big Data Analytics Evidencia Reducción de costos Mejora en el diagnostico
  • 34. Hadoop en la industria de la salud • Procesamiento de imágenes (HIPI – Hadoop Image Processing Interface) • Almacenamiento de bajo costo y alto poder de computo. • Posibilidad de realizar procesamiento analítico sobre el cluster. • La industria requiere de análisis en tiempo real. • Necesidad de aplicar el proceso KDD (Knowledge Discovery in Databases) para identificar patrones validos y útiles tanto para los pacientes como para los médicos. • Almacenamiento en la nube potencia soluciones de HAaS.
  • 35. • Monitoreo constante de los efectos de tratamiento médico. • Diagnóstico asistido. • Detección de fraudes . • Monitoreo de pacientes. • Análisis de imágenes. • Repositorio de referencia a búsquedas de enfermedades y síntomas de pacientes. • Análisis de laboratorio. Hadoop en la industria de la salud
  • 36. An Evening with…
 Apache Hadoop Arkho Innova Meetup Series - Ejemplo práctico