SlideShare uma empresa Scribd logo
1 de 4
Baixar para ler offline
Internet
Desktop
Cliente
BigData & Responsive Web Architecture
Intranet
Hadoop Cluster
HDFS
<Big Data Storage>
Ambari
<Web Admin
Console>
Logs
Usuario
ODBC
BD transaccional
<BD Relacional>
Web
Application
<Responsive>
AngularJS
<MVC client Fwork>
Web
Services
<Spring REST>
YARN
<Resource Mng>
MapReduce
<Batch
Process>
TEZ
<RealTime Process>
PIG
<Script 4ETL>
Hive
<SQL-
DWarehouse>
HCatalog
<Hive
TableMng>
HBase
<NoSql DB>
Tableau
<BI>
Análisis
App
<Java>
JDBC
SQOOP
<Bulk Load>
Excel
<Office App>
Flume
<Java Agent
Stream Data>
Twitter
<Social Network>
Load Load
SOLR
<Search & BI>
Zepellin
<Notebook
Data Analisys>
Load
WebHDFS
<REST>
Load
Custom
App
Análisis
App
<App>
HBase
API
Slider
<LongRun
Process>
Spark
<inMemory Process>
HDF-Nifi
<DataFlow Mng>
Custom
App
<App>
JDBC
Load
Drill
<SQL HBase>
BigData & Responsive Architecture cheat sheet by
Luis Alberto Espinoza Bustamante
(SCRUM Master Certified)
https://cl.linkedin.com/in/soaagenda
www.soaAgenda.com
Componentes Hadoop
 HDFS: (Hadoop Distributed FileSystem) DataStorage distribuido, repositorio de información (original
raw unstructured data) de gran escala(Big DataStorage).
 YARN: administrador de recursos en cluster, coordinación ejecución distribuida (scheduling), es el
Data Operating System de Hadoop.
 MapReduce: framework java para procesamiento (batch) distribuido de bigdata, es como lenguaje de
mas bajo nivel, se programa en Java, se esta reemplazando por TEZ (new hadoop2).
 Ambari: consola web de administración Hadoop.
 TEZ: framework optimizado para procesamiento bigdata, con TEZ se definen diagramas de dataflow a
ejecutar (DAG directed acyclic graph), orquestación tareas map o reduce, permite paralelizar tareas
map y reduce por separado. TEZ también define Java API (extiende API original MapReduce para
compatibilidad). En Ambari se pueden ver los flujos DAG gráficamente. Logra performance que
permite interactive-realtime processing de bigdata.
 PIG: Script Language (PIG Latin) para realizar procesos ETL y programas de Data Analisys. PIG se
compila en MapReduce Jobs (ahora hechos en TEZ)
 Hive: Datawarehouse (BD Relacional para Query-Analisis) da una vista Relacional al BigData,
permitiendo crear tablas y querys SQL, conservando la data original en HDFS, son como vistas SQL de
data en Hadoop (emula tablas-SQL). Ofrece interfaces JDBC y ODBC. Hive encapsula TEZ; traduce SQL
(statements) en TEZ (processing graphs)
 HCatalog Administrador de Tablas (SQL)expone metadata Hive a otras Hadoop App. Hive y HCatalog
se unieron luego Hive Querys usa HCatalog para implementar un “CREATE TABLE”.
 HBase: Base de Datos NoSQL, que implementa tablas columnares, para análisis de gran cantidad de
datos en tiempo real. Ofrece API Java (org.apache.hadoop.hbase) y REST para integrarse.
 SQOOP: bulkcopy, es una aplicación de comandos que permite carga datos desde hacia bases de
datos relacionales, posee conectores para las principales bases de datos. Es una aplicación batch que
esta fuera de Ambari, (como todo bulkcopy). Aunque se podría usar Flume u otro componente, SQOOP
esta optimizado para alta carga datos batch.
Componentes Hadoop
 Flume: agentes para transferencia de datos (stream data) en Hadoop, stream data pueden
ser logs o social data (Twitter). Pequeñas servicios Linux en Java (agente) que mediante
manejo de eventos obtienen y cargan datos de stream en el HDFS de Hadoop. Un agente
Flume se programa con un archivo de configuración (.conf) , y se ejecuta en consola Linux
 WebHDFS: interfaz REST para HDFS, normalmente se usa para realizar carga datos a HDFS
mediante aplicaciones (custom load)
 SOLR (on Hadoop): búsqueda e indexación, tiene su propia base datos, pero para Hadoop
guarda documentos e indexación en HDFS (vía PIG Jobs y conectores). (Search like Google)
 Banana for SOLR: Dashboard para Análisis Datos JSON indexados con SOLR
 Slider: framework para ejecutar aplicación de largo aliento (longterm) soporta HBase, es
motor equivalente a TEZ pero optimizado para longterm.
 Hortonworks Dataflow (HDF) y NiFi: Aplicación de diseño e implementación de Dataflow, es
equivalente a un ETL, para Hadoop tiene plugins (processors) para HDFS, que permiten
extraer y cargar en Hadoop. Tiene una API REST que permite controlar Nifi por una app. HDF
es un paquete de NiFi.
 Zepellin: es una consola web que permite análisis colaborativo de datos, implementa el
concepto “notebook” (en contexto de data analisys), que son plantillas de análisis de datos,
que permiten visualizar la data. Zepellin permite ejecutar Spark, y provee varios interpretes
(sh, Python).Zepellin junto SPARK permite realizar predictive models, basados en data
obtenida de sensores (Twitter se puede tomar como sensor) entre otras fuentes.
 SPARK: motor de data processing en memoria, se pueden crear aplicaciones sobre dataset
compartidos. SPARK tiene interpretes para programar en Scala, Java, Python, y R. Es la base
de los notebooks (aplicaciones de análisis) de Zepellin.
Otros Conceptos Relacionados
 Bigdata tomar un montón de data no estructurada, volverla algo valioso y en tiempo real.
 data warehouse base de datos diseñada para consultas y análisis mas que para transaccionalidad.
 Web notebook estructura de datos compartida y que es plataforma de análisis de datos, un espacio de colaboración
(usan los data scientist)
 IOT: Internet de las Cosas, tiene relación con Bigdata (Hadoop) ya que suelen implementar sensores que entregan
mucha información (big data)que solo se puede recopilar-analizar con una plataforma como Hadoop.
 Phoenix: permite acceder HBase mediante SQL-JDBC, compila SQL en una serie de HBase scans.
 Drill: SQL query engine para Hbase (noSQL) y Hadoop.
 WebHCat: (ex Templeton) REST API para HCatalog y Hive, permite crear tablas y querys (SQL) entre otros. En
HortonWorks hay que instalarlo.

Mais conteúdo relacionado

Mais procurados

Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseJoseph Lopez
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro
 
TALEND ETL Introducción
TALEND ETL IntroducciónTALEND ETL Introducción
TALEND ETL IntroducciónSoftware
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Microsoft Azure SQL Database
Microsoft Azure SQL DatabaseMicrosoft Azure SQL Database
Microsoft Azure SQL DatabaseJoseph Lopez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014SolidQ
 
Power BI UG Lima webcast enero 22 - Seguridad
Power BI UG Lima   webcast enero 22 - SeguridadPower BI UG Lima   webcast enero 22 - Seguridad
Power BI UG Lima webcast enero 22 - SeguridaddbLearner
 
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...Joseph Lopez
 
Inteligencia de Negocios con Microsoft
Inteligencia de Negocios con MicrosoftInteligencia de Negocios con Microsoft
Inteligencia de Negocios con MicrosoftJohn Bulla
 
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...MongoDB
 
Introducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BIIntroducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BIFreddy Angarita
 
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ
 
Introduccion a Power BI
Introduccion a Power BIIntroduccion a Power BI
Introduccion a Power BIJoseph Lopez
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 

Mais procurados (19)

Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScriptFull-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
TALEND ETL Introducción
TALEND ETL IntroducciónTALEND ETL Introducción
TALEND ETL Introducción
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Microsoft Azure SQL Database
Microsoft Azure SQL DatabaseMicrosoft Azure SQL Database
Microsoft Azure SQL Database
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014
 
Guía power bi
Guía   power biGuía   power bi
Guía power bi
 
Power BI UG Lima webcast enero 22 - Seguridad
Power BI UG Lima   webcast enero 22 - SeguridadPower BI UG Lima   webcast enero 22 - Seguridad
Power BI UG Lima webcast enero 22 - Seguridad
 
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
 
Inteligencia de Negocios con Microsoft
Inteligencia de Negocios con MicrosoftInteligencia de Negocios con Microsoft
Inteligencia de Negocios con Microsoft
 
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
 
Introducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BIIntroducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BI
 
Presentación taller aplicaciones
Presentación  taller aplicacionesPresentación  taller aplicaciones
Presentación taller aplicaciones
 
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
 
Introduccion a Power BI
Introduccion a Power BIIntroduccion a Power BI
Introduccion a Power BI
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 

Semelhante a Best hadoop bigdata architecture resume

Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0Jeremi Sixto Perales
 
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics con Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
 
Sfd 2013 pentaho
Sfd 2013 pentahoSfd 2013 pentaho
Sfd 2013 pentahoFinger Cash
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL ServerEduardo Castro
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0Sthefani Villanueva Cigaran
 
base de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptxbase de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptxJuniorMiraval
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
 
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.Brad Villavicencio Rojas
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Miguel Pastor
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkJose Manuel Ortega Candel
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open sourceeduardojose55
 
Google Cloud Platform y Python
Google Cloud Platform y PythonGoogle Cloud Platform y Python
Google Cloud Platform y PythonCarlos Toxtli
 

Semelhante a Best hadoop bigdata architecture resume (20)

Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Couch db
Couch dbCouch db
Couch db
 
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
 
Sfd 2013 pentaho
Sfd 2013 pentahoSfd 2013 pentaho
Sfd 2013 pentaho
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0
 
base de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptxbase de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptx
 
Documento Web2Py
Documento Web2PyDocumento Web2Py
Documento Web2Py
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
 
BigData
BigDataBigData
BigData
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 
Wamp server
Wamp serverWamp server
Wamp server
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open source
 
Google Cloud Platform y Python
Google Cloud Platform y PythonGoogle Cloud Platform y Python
Google Cloud Platform y Python
 

Mais de Luis Alberto Espinoza Bustamante (8)

Big Data University BD0101EN Certificate _ Big Data University
Big Data University BD0101EN Certificate _ Big Data UniversityBig Data University BD0101EN Certificate _ Big Data University
Big Data University BD0101EN Certificate _ Big Data University
 
Big Data University DS0105EN Certificate _ Big Data University
Big Data University DS0105EN Certificate _ Big Data UniversityBig Data University DS0105EN Certificate _ Big Data University
Big Data University DS0105EN Certificate _ Big Data University
 
Taller Agil Scrum Master
Taller Agil Scrum MasterTaller Agil Scrum Master
Taller Agil Scrum Master
 
Berkeley_CS105x_Passing_Grade_Luis_Espinoza
Berkeley_CS105x_Passing_Grade_Luis_EspinozaBerkeley_CS105x_Passing_Grade_Luis_Espinoza
Berkeley_CS105x_Passing_Grade_Luis_Espinoza
 
certificadosPostitulos
certificadosPostituloscertificadosPostitulos
certificadosPostitulos
 
SOA Governance, Enfoque Practico
SOA Governance, Enfoque PracticoSOA Governance, Enfoque Practico
SOA Governance, Enfoque Practico
 
Portal de Colaboracion SOA con Redmine
Portal de Colaboracion SOA con RedminePortal de Colaboracion SOA con Redmine
Portal de Colaboracion SOA con Redmine
 
Servicios SOA
Servicios SOAServicios SOA
Servicios SOA
 

Último

Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfPOULANDERSONDELGADOA2
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllJulietaCarbajalOsis
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfDodiAcuaArstica
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfJC Díaz Herrera
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Tendencias en la Gestión del Talento Humano.pdf
Tendencias en la Gestión del Talento Humano.pdfTendencias en la Gestión del Talento Humano.pdf
Tendencias en la Gestión del Talento Humano.pdfdanaeamadot
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 

Último (20)

Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Tendencias en la Gestión del Talento Humano.pdf
Tendencias en la Gestión del Talento Humano.pdfTendencias en la Gestión del Talento Humano.pdf
Tendencias en la Gestión del Talento Humano.pdf
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 

Best hadoop bigdata architecture resume

  • 1. Internet Desktop Cliente BigData & Responsive Web Architecture Intranet Hadoop Cluster HDFS <Big Data Storage> Ambari <Web Admin Console> Logs Usuario ODBC BD transaccional <BD Relacional> Web Application <Responsive> AngularJS <MVC client Fwork> Web Services <Spring REST> YARN <Resource Mng> MapReduce <Batch Process> TEZ <RealTime Process> PIG <Script 4ETL> Hive <SQL- DWarehouse> HCatalog <Hive TableMng> HBase <NoSql DB> Tableau <BI> Análisis App <Java> JDBC SQOOP <Bulk Load> Excel <Office App> Flume <Java Agent Stream Data> Twitter <Social Network> Load Load SOLR <Search & BI> Zepellin <Notebook Data Analisys> Load WebHDFS <REST> Load Custom App Análisis App <App> HBase API Slider <LongRun Process> Spark <inMemory Process> HDF-Nifi <DataFlow Mng> Custom App <App> JDBC Load Drill <SQL HBase> BigData & Responsive Architecture cheat sheet by Luis Alberto Espinoza Bustamante (SCRUM Master Certified) https://cl.linkedin.com/in/soaagenda www.soaAgenda.com
  • 2. Componentes Hadoop  HDFS: (Hadoop Distributed FileSystem) DataStorage distribuido, repositorio de información (original raw unstructured data) de gran escala(Big DataStorage).  YARN: administrador de recursos en cluster, coordinación ejecución distribuida (scheduling), es el Data Operating System de Hadoop.  MapReduce: framework java para procesamiento (batch) distribuido de bigdata, es como lenguaje de mas bajo nivel, se programa en Java, se esta reemplazando por TEZ (new hadoop2).  Ambari: consola web de administración Hadoop.  TEZ: framework optimizado para procesamiento bigdata, con TEZ se definen diagramas de dataflow a ejecutar (DAG directed acyclic graph), orquestación tareas map o reduce, permite paralelizar tareas map y reduce por separado. TEZ también define Java API (extiende API original MapReduce para compatibilidad). En Ambari se pueden ver los flujos DAG gráficamente. Logra performance que permite interactive-realtime processing de bigdata.  PIG: Script Language (PIG Latin) para realizar procesos ETL y programas de Data Analisys. PIG se compila en MapReduce Jobs (ahora hechos en TEZ)  Hive: Datawarehouse (BD Relacional para Query-Analisis) da una vista Relacional al BigData, permitiendo crear tablas y querys SQL, conservando la data original en HDFS, son como vistas SQL de data en Hadoop (emula tablas-SQL). Ofrece interfaces JDBC y ODBC. Hive encapsula TEZ; traduce SQL (statements) en TEZ (processing graphs)  HCatalog Administrador de Tablas (SQL)expone metadata Hive a otras Hadoop App. Hive y HCatalog se unieron luego Hive Querys usa HCatalog para implementar un “CREATE TABLE”.  HBase: Base de Datos NoSQL, que implementa tablas columnares, para análisis de gran cantidad de datos en tiempo real. Ofrece API Java (org.apache.hadoop.hbase) y REST para integrarse.  SQOOP: bulkcopy, es una aplicación de comandos que permite carga datos desde hacia bases de datos relacionales, posee conectores para las principales bases de datos. Es una aplicación batch que esta fuera de Ambari, (como todo bulkcopy). Aunque se podría usar Flume u otro componente, SQOOP esta optimizado para alta carga datos batch.
  • 3. Componentes Hadoop  Flume: agentes para transferencia de datos (stream data) en Hadoop, stream data pueden ser logs o social data (Twitter). Pequeñas servicios Linux en Java (agente) que mediante manejo de eventos obtienen y cargan datos de stream en el HDFS de Hadoop. Un agente Flume se programa con un archivo de configuración (.conf) , y se ejecuta en consola Linux  WebHDFS: interfaz REST para HDFS, normalmente se usa para realizar carga datos a HDFS mediante aplicaciones (custom load)  SOLR (on Hadoop): búsqueda e indexación, tiene su propia base datos, pero para Hadoop guarda documentos e indexación en HDFS (vía PIG Jobs y conectores). (Search like Google)  Banana for SOLR: Dashboard para Análisis Datos JSON indexados con SOLR  Slider: framework para ejecutar aplicación de largo aliento (longterm) soporta HBase, es motor equivalente a TEZ pero optimizado para longterm.  Hortonworks Dataflow (HDF) y NiFi: Aplicación de diseño e implementación de Dataflow, es equivalente a un ETL, para Hadoop tiene plugins (processors) para HDFS, que permiten extraer y cargar en Hadoop. Tiene una API REST que permite controlar Nifi por una app. HDF es un paquete de NiFi.  Zepellin: es una consola web que permite análisis colaborativo de datos, implementa el concepto “notebook” (en contexto de data analisys), que son plantillas de análisis de datos, que permiten visualizar la data. Zepellin permite ejecutar Spark, y provee varios interpretes (sh, Python).Zepellin junto SPARK permite realizar predictive models, basados en data obtenida de sensores (Twitter se puede tomar como sensor) entre otras fuentes.  SPARK: motor de data processing en memoria, se pueden crear aplicaciones sobre dataset compartidos. SPARK tiene interpretes para programar en Scala, Java, Python, y R. Es la base de los notebooks (aplicaciones de análisis) de Zepellin.
  • 4. Otros Conceptos Relacionados  Bigdata tomar un montón de data no estructurada, volverla algo valioso y en tiempo real.  data warehouse base de datos diseñada para consultas y análisis mas que para transaccionalidad.  Web notebook estructura de datos compartida y que es plataforma de análisis de datos, un espacio de colaboración (usan los data scientist)  IOT: Internet de las Cosas, tiene relación con Bigdata (Hadoop) ya que suelen implementar sensores que entregan mucha información (big data)que solo se puede recopilar-analizar con una plataforma como Hadoop.  Phoenix: permite acceder HBase mediante SQL-JDBC, compila SQL en una serie de HBase scans.  Drill: SQL query engine para Hbase (noSQL) y Hadoop.  WebHCat: (ex Templeton) REST API para HCatalog y Hive, permite crear tablas y querys (SQL) entre otros. En HortonWorks hay que instalarlo.