O documento discute a arquitetura Big Data, apresentando seu conceito, características e uma arquitetura de referência. É descrito o caso do navio Vasa como uma reflexão sobre a importância da arquitetura.
O documento discute o conceito de Big Data, definindo-o como dados em massa de diferentes fontes e formatos. Apresenta os três Vs que caracterizam o Big Data - volume, velocidade e variedade - e discute como ferramentas como Hadoop e bancos NoSQL podem lidar com a análise e armazenamento desses dados em grande escala.
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Vinícius Barros
O documento discute como a Internet das Coisas (IoT) e Big Data irão mudar a forma como lidamos com a tecnologia, mencionando como essas tecnologias estão relacionadas à Indústria 4.0 e apresentando breves explicações sobre MapReduce, Hadoop e Spark.
O documento discute os principais conceitos e tecnologias relacionadas a Big Data, incluindo a transformação de dados em informações, análise em nuvem, ecossistema e infraestrutura para Big Data. Casos de sucesso mostram como empresas usaram serviços AWS como EMR, Redshift e Data Pipeline para obter visibilidade, reduzir custos e acelerar processos analíticos.
Modernizando o papel do Data Lake em uma arquitetura de Data FabricDenodo
Watch full webinar here:https://bit.ly/3XolWHf
O conceito de Data Lake já foi um tema bastante debatido e de grande desejo de utilização por parte das organizações. Entretanto, hoje divide opiniões, pois embora possam ser incrivelmente úteis para uma organização, eles também podem ser uma fonte de grandes outros diversos problemas.
Sua facilidade de dimensionar o armazenamento a um custo mínimo abriu as portas para muitas novas soluções, mas também favoreceu os chamados "pântanos de dados": dados não estruturados, sem governança e não controlados.
Com a adição de um mecanismo MPP baseado em Presto à camada lógica gerenciada pelo Denodo, queremos reconsiderar o papel do Data Lake em sua estratégia geral de dados.
Participe deste webinar para aprender:
- Os novos recursos MPP que Denodo inclui.
- Como usá-los para melhorar a segurança e a governança do seu Data Lake.
- Novos cenários e soluções nos quais sua estratégia do Data Fabric pode evoluir.
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
1. O documento apresenta uma história sobre Ryu, escolhido para analisar grandes volumes de dados do e-commerce Shadaloo usando Apache Hadoop.
2. Explica brevemente o que é Hadoop, sua arquitetura e ferramentas como HDFS, MapReduce, Hive e PIG.
3. Apresenta demonstrações práticas de como usar a sandbox Hortonworks para trabalhar com Hadoop, incluindo upload de dados, criação de tabelas Hive e execução de scripts.
O documento descreve soluções de infraestrutura de data center da Lenovo, incluindo servidores de rack, modelos de servidores e suas especificações, e soluções de armazenamento DM e DE, com detalhes sobre modelos, capacidades, cargas de trabalho suportadas e recursos.
O documento discute o conceito de Big Data, definindo-o como dados em massa de diferentes fontes e formatos. Apresenta os três Vs que caracterizam o Big Data - volume, velocidade e variedade - e discute como ferramentas como Hadoop e bancos NoSQL podem lidar com a análise e armazenamento desses dados em grande escala.
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Vinícius Barros
O documento discute como a Internet das Coisas (IoT) e Big Data irão mudar a forma como lidamos com a tecnologia, mencionando como essas tecnologias estão relacionadas à Indústria 4.0 e apresentando breves explicações sobre MapReduce, Hadoop e Spark.
O documento discute os principais conceitos e tecnologias relacionadas a Big Data, incluindo a transformação de dados em informações, análise em nuvem, ecossistema e infraestrutura para Big Data. Casos de sucesso mostram como empresas usaram serviços AWS como EMR, Redshift e Data Pipeline para obter visibilidade, reduzir custos e acelerar processos analíticos.
Modernizando o papel do Data Lake em uma arquitetura de Data FabricDenodo
Watch full webinar here:https://bit.ly/3XolWHf
O conceito de Data Lake já foi um tema bastante debatido e de grande desejo de utilização por parte das organizações. Entretanto, hoje divide opiniões, pois embora possam ser incrivelmente úteis para uma organização, eles também podem ser uma fonte de grandes outros diversos problemas.
Sua facilidade de dimensionar o armazenamento a um custo mínimo abriu as portas para muitas novas soluções, mas também favoreceu os chamados "pântanos de dados": dados não estruturados, sem governança e não controlados.
Com a adição de um mecanismo MPP baseado em Presto à camada lógica gerenciada pelo Denodo, queremos reconsiderar o papel do Data Lake em sua estratégia geral de dados.
Participe deste webinar para aprender:
- Os novos recursos MPP que Denodo inclui.
- Como usá-los para melhorar a segurança e a governança do seu Data Lake.
- Novos cenários e soluções nos quais sua estratégia do Data Fabric pode evoluir.
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
1. O documento apresenta uma história sobre Ryu, escolhido para analisar grandes volumes de dados do e-commerce Shadaloo usando Apache Hadoop.
2. Explica brevemente o que é Hadoop, sua arquitetura e ferramentas como HDFS, MapReduce, Hive e PIG.
3. Apresenta demonstrações práticas de como usar a sandbox Hortonworks para trabalhar com Hadoop, incluindo upload de dados, criação de tabelas Hive e execução de scripts.
O documento descreve soluções de infraestrutura de data center da Lenovo, incluindo servidores de rack, modelos de servidores e suas especificações, e soluções de armazenamento DM e DE, com detalhes sobre modelos, capacidades, cargas de trabalho suportadas e recursos.
Este documento apresenta conceitos sobre computação de borda e sistemas embarcados. Discute as diferenças entre arquitetura remota e computação de borda, sendo esta última mais eficiente ao processar dados localmente. Também apresenta uma aplicação prática demonstrando as vantagens da computação de borda ao controlar um veículo com base na análise de imagens processadas localmente.
O documento apresenta uma trilha sobre Big Data e NoSQL, abordando tópicos como streaming de dados em data lake com Debezium, Delta Lake e EMR, incluindo arquiteturas, ferramentas e casos reais.
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchBernardo Donadio
Este documento discute como usar Xen e CoreOS para implementar uma solução de data mining com NodeJS e ElasticSearch de forma escalável e segura. Ele apresenta dois estudos de caso reais de aplicações intensivas de dados e discute os desafios de levantamento de requisitos e escalabilidade, propondo estratégias como uso de cloud privada, Docker, bancos de dados multi-níveis e cache para atender requisitos de alto desempenho e disponibilidade.
O documento discute a arquitetura de um Data Lake multicloud. Primeiro, explica os conceitos de Data Lake e as diferenças em relação a data warehouse. Em seguida, aborda os desafios na arquitetura de um Data Lake multicloud, incluindo a captura e processamento de dados de múltiplas fontes, o consumo dos dados e a governança. Por fim, apresenta exemplos de arquiteturas em nuvens diferentes e estratégias como virtualização e gravidade dos dados.
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
O appliance IBM Netezza consiste em uma plataforma de banco de dados otimizado e integrado a um hardware de alta performance. Uma nova forma de análise em grandes volumes de dados é fator chave de competitividade para as empresas.
As soluções tradicionais de datawarehouse são rígidas, complexas, lentas e caras, inibindo a agilidade na tomada de decisões. O IBM Netezza é uma plataforma que foi desenvolvida para endereçar exatamente este problema: uma solução de performance desruptiva, administração muito simples e custo reduzido, utilizado para datawarehouses de grande volume e complexidade.
Ele integra banco de dados, servidor, e discos de armazenamento em um único rack. Sua arquitetura de processamento massivo paralelo combina blades de processamento, discos e um processo de filtragem de dados através de software armazenado diretamente em chips (FPGAs: field-programmable gate arrays). Este é o diferencial de performance do IBM Netezza quando comparado aos concorrentes: sua arquitetura é única e inteligente, devido ao uso de FPGAs com software gravado diretamente em silício, lê menos dados e também move menos dados entre os componentes internos, eliminando desperdícios e gargalos de processamento. Esta arquitetura dispensa tuning, índices, particionamento, etc. tornando a administração simples, permitindo que a equipe técnica tenha mais tempo para trabalhar em projetos de negócio ao invés de gastar tempo em atividades técnicas/administrativas que não geram valor agregado.
Veja o webcast no link http://www.videolog.tv/devworksbr/videos/716598
O documento discute Big Data, casos e oportunidades. Ele apresenta conceitos como Big Data, Business Intelligence, cientista de dados e ferramentas como Hadoop, Spark e Kafka. Também apresenta exemplos de uso em empresas como Netflix, Facebook e casos de sucesso como House of Cards.
O documento discute Planejando Data Lake com Big Data Clusters. Explica o que é Big Data e os Vs do Big Data. Também define o que é um Data Lake e suas principais características. Por fim, descreve o que são Big Data Clusters, sua arquitetura e como podem ser usados para criar pipelines de dados e ambientes para IA/ML, processando dados de forma escalável.
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
Marcio Junior Vieira apresenta sobre dominando o Big Data com software livre. Ele discute o que é Big Data e os 4 V's (volume, velocidade, variedade e valor). Também apresenta ferramentas de software livre populares para Big Data como Hadoop, HDFS, MapReduce, HBase, Hive, PIG e Apache Spark.
O documento discute o projeto Sloan Digital Sky Survey (SDSS), que mapeia o céu e mede distâncias e propriedades de objetos celestes. Os dados do SDSS precisam ser processados rapidamente usando Big Data para direcionar telescópios. O framework Hive é usado para armazenar e analisar os dados do SDSS usando a linguagem HiveQL.
O documento resume as principais tecnologias e conceitos relacionados ao Big Data, incluindo Hadoop, HDFS, MapReduce, bancos de dados NoSQL, Data Lake, processamento distribuído e arquiteturas de dados. O documento também discute conceitos como volume, variedade e velocidade de dados, além de apresentar as principais nuvens públicas para Big Data.
O documento apresenta uma arquitetura para otimização de sistemas legados através de três estratégias: 1) aproveitamento de dados de aplicações através de um Data Services System, 2) aproveitamento de regras de negócio através de um Business Rules System e 3) criação de microserviços utilizando um Enterprise Service Bus. Apresenta também o histórico e conceitos do framework Greenbox para geração de aplicações.
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
O documento discute a construção de um data lake usando Apache Hadoop de forma agnóstica às clouds. A RD Station decidiu criar seu próprio data lake para ter independência, controle de custos e domínio tecnológico. Ferramentas como HDFS, Hive e Presto foram usadas para integrar e analisar dados armazenados na Oracle Cloud. A abordagem trouxe benefícios como estabilidade, redução de custos e flexibilidade.
Workshop BigData, Hadoop e Data Science - Cetax x DealMarco Garcia
Nesse workshop feito na Deal, falamos sobre alguns aspectos de bigdata e hadoop, passando por seus componentes, além de abordar um pouco de Data Science
O documento discute os conceitos de Big Data, bancos de dados NoSQL e In Memory, incluindo suas características e aplicações. Aborda os desafios trazidos pelos grandes volumes de dados gerados atualmente e como essas novas tecnologias podem ajudar a lidar com esses dados.
Rails Summit 2008 - Web Operations - George Guimarães - PagestackerGeorge Guimarães
O documento discute tópicos como implantação, planejamento de capacidade, escalabilidade e monitoramento que deveriam ser mais abordados em eventos sobre desenvolvimento web. O autor defende que escalabilidade está no software e não no hardware, e que planejamento de capacidade não é apenas teoria, mas também prática, como proposto pelo método Guerrilla Capacity Planning.
O documento descreve o banco de dados PostgreSQL, incluindo sua história, versões, capacidade de armazenamento e empresas que o utilizam. O PostgreSQL é um SGBD objeto-relacional desenvolvido via internet por um grupo global de desenvolvedores como uma alternativa de código aberto para SGBDs comerciais. Ele suporta armazenamento de grandes volumes de dados sem limite de tamanho. Muitas empresas brasileiras e internacionais o utilizam em aplicações corporativas.
TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analíticotdc-globalcode
O documento apresenta dois especialistas em big data, Alan Silva e Claudio Takamiya, e discute o Apache Kudu, um sistema de armazenamento para dados estruturados que permite análises rápidas em dados em constante mudança.
O documento discute Big Data, definindo-o como dados que possuem alto volume, velocidade e variedade. Detalha como a mídia tem relatado sobre Big Data e explica os 3Vs (Volume, Velocidade e Variedade). Também descreve os principais componentes tecnológicos de Big Data, incluindo bancos de dados, MapReduce, Hadoop e mineração de dados.
Este documento apresenta conceitos sobre computação de borda e sistemas embarcados. Discute as diferenças entre arquitetura remota e computação de borda, sendo esta última mais eficiente ao processar dados localmente. Também apresenta uma aplicação prática demonstrando as vantagens da computação de borda ao controlar um veículo com base na análise de imagens processadas localmente.
O documento apresenta uma trilha sobre Big Data e NoSQL, abordando tópicos como streaming de dados em data lake com Debezium, Delta Lake e EMR, incluindo arquiteturas, ferramentas e casos reais.
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchBernardo Donadio
Este documento discute como usar Xen e CoreOS para implementar uma solução de data mining com NodeJS e ElasticSearch de forma escalável e segura. Ele apresenta dois estudos de caso reais de aplicações intensivas de dados e discute os desafios de levantamento de requisitos e escalabilidade, propondo estratégias como uso de cloud privada, Docker, bancos de dados multi-níveis e cache para atender requisitos de alto desempenho e disponibilidade.
O documento discute a arquitetura de um Data Lake multicloud. Primeiro, explica os conceitos de Data Lake e as diferenças em relação a data warehouse. Em seguida, aborda os desafios na arquitetura de um Data Lake multicloud, incluindo a captura e processamento de dados de múltiplas fontes, o consumo dos dados e a governança. Por fim, apresenta exemplos de arquiteturas em nuvens diferentes e estratégias como virtualização e gravidade dos dados.
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
O appliance IBM Netezza consiste em uma plataforma de banco de dados otimizado e integrado a um hardware de alta performance. Uma nova forma de análise em grandes volumes de dados é fator chave de competitividade para as empresas.
As soluções tradicionais de datawarehouse são rígidas, complexas, lentas e caras, inibindo a agilidade na tomada de decisões. O IBM Netezza é uma plataforma que foi desenvolvida para endereçar exatamente este problema: uma solução de performance desruptiva, administração muito simples e custo reduzido, utilizado para datawarehouses de grande volume e complexidade.
Ele integra banco de dados, servidor, e discos de armazenamento em um único rack. Sua arquitetura de processamento massivo paralelo combina blades de processamento, discos e um processo de filtragem de dados através de software armazenado diretamente em chips (FPGAs: field-programmable gate arrays). Este é o diferencial de performance do IBM Netezza quando comparado aos concorrentes: sua arquitetura é única e inteligente, devido ao uso de FPGAs com software gravado diretamente em silício, lê menos dados e também move menos dados entre os componentes internos, eliminando desperdícios e gargalos de processamento. Esta arquitetura dispensa tuning, índices, particionamento, etc. tornando a administração simples, permitindo que a equipe técnica tenha mais tempo para trabalhar em projetos de negócio ao invés de gastar tempo em atividades técnicas/administrativas que não geram valor agregado.
Veja o webcast no link http://www.videolog.tv/devworksbr/videos/716598
O documento discute Big Data, casos e oportunidades. Ele apresenta conceitos como Big Data, Business Intelligence, cientista de dados e ferramentas como Hadoop, Spark e Kafka. Também apresenta exemplos de uso em empresas como Netflix, Facebook e casos de sucesso como House of Cards.
O documento discute Planejando Data Lake com Big Data Clusters. Explica o que é Big Data e os Vs do Big Data. Também define o que é um Data Lake e suas principais características. Por fim, descreve o que são Big Data Clusters, sua arquitetura e como podem ser usados para criar pipelines de dados e ambientes para IA/ML, processando dados de forma escalável.
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
Marcio Junior Vieira apresenta sobre dominando o Big Data com software livre. Ele discute o que é Big Data e os 4 V's (volume, velocidade, variedade e valor). Também apresenta ferramentas de software livre populares para Big Data como Hadoop, HDFS, MapReduce, HBase, Hive, PIG e Apache Spark.
O documento discute o projeto Sloan Digital Sky Survey (SDSS), que mapeia o céu e mede distâncias e propriedades de objetos celestes. Os dados do SDSS precisam ser processados rapidamente usando Big Data para direcionar telescópios. O framework Hive é usado para armazenar e analisar os dados do SDSS usando a linguagem HiveQL.
O documento resume as principais tecnologias e conceitos relacionados ao Big Data, incluindo Hadoop, HDFS, MapReduce, bancos de dados NoSQL, Data Lake, processamento distribuído e arquiteturas de dados. O documento também discute conceitos como volume, variedade e velocidade de dados, além de apresentar as principais nuvens públicas para Big Data.
O documento apresenta uma arquitetura para otimização de sistemas legados através de três estratégias: 1) aproveitamento de dados de aplicações através de um Data Services System, 2) aproveitamento de regras de negócio através de um Business Rules System e 3) criação de microserviços utilizando um Enterprise Service Bus. Apresenta também o histórico e conceitos do framework Greenbox para geração de aplicações.
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
O documento discute a construção de um data lake usando Apache Hadoop de forma agnóstica às clouds. A RD Station decidiu criar seu próprio data lake para ter independência, controle de custos e domínio tecnológico. Ferramentas como HDFS, Hive e Presto foram usadas para integrar e analisar dados armazenados na Oracle Cloud. A abordagem trouxe benefícios como estabilidade, redução de custos e flexibilidade.
Workshop BigData, Hadoop e Data Science - Cetax x DealMarco Garcia
Nesse workshop feito na Deal, falamos sobre alguns aspectos de bigdata e hadoop, passando por seus componentes, além de abordar um pouco de Data Science
O documento discute os conceitos de Big Data, bancos de dados NoSQL e In Memory, incluindo suas características e aplicações. Aborda os desafios trazidos pelos grandes volumes de dados gerados atualmente e como essas novas tecnologias podem ajudar a lidar com esses dados.
Rails Summit 2008 - Web Operations - George Guimarães - PagestackerGeorge Guimarães
O documento discute tópicos como implantação, planejamento de capacidade, escalabilidade e monitoramento que deveriam ser mais abordados em eventos sobre desenvolvimento web. O autor defende que escalabilidade está no software e não no hardware, e que planejamento de capacidade não é apenas teoria, mas também prática, como proposto pelo método Guerrilla Capacity Planning.
O documento descreve o banco de dados PostgreSQL, incluindo sua história, versões, capacidade de armazenamento e empresas que o utilizam. O PostgreSQL é um SGBD objeto-relacional desenvolvido via internet por um grupo global de desenvolvedores como uma alternativa de código aberto para SGBDs comerciais. Ele suporta armazenamento de grandes volumes de dados sem limite de tamanho. Muitas empresas brasileiras e internacionais o utilizam em aplicações corporativas.
TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analíticotdc-globalcode
O documento apresenta dois especialistas em big data, Alan Silva e Claudio Takamiya, e discute o Apache Kudu, um sistema de armazenamento para dados estruturados que permite análises rápidas em dados em constante mudança.
O documento discute Big Data, definindo-o como dados que possuem alto volume, velocidade e variedade. Detalha como a mídia tem relatado sobre Big Data e explica os 3Vs (Volume, Velocidade e Variedade). Também descreve os principais componentes tecnológicos de Big Data, incluindo bancos de dados, MapReduce, Hadoop e mineração de dados.
2. Adriano Gomes Batista dos Santos
2
Arquiteto de soluções do time de Digital Architecture da everis:
o Arquitetura Digital
o Arquitetura Big Data
o Devops
o Arquitetura Orientada a Serviços (SOA)
o Arquitetura Java
Academia
o Bacharel em Ciência da Computação (PUC-SP).
o Especialização em Arquitetura de Software (UNICAMP).
o Especialização em Orientação a Objetos (UNICAMP).
o MBA em TI (USP).
o Técnico em Processamento de Dados (Flamingo).
adriano.batista.santos@everis.com https://www.linkedin.com/in/adrianoarquitetoti/
3. Assuntos
3
O caso do Navio Vasa, Reflexão!
Características Arquitetura Big Data
Arquitetura de Referência Big Data
Arvore de decisão Big
Data
4. 4
Vasa – O navio de guerra
O caso do Navio Vasa, Reflexão!
5. Cliente
• Rei sueco Gustave Adolphus, 1626-1628;
• Em guerra com a Polônia;
• O patrocinador do projeto;
Requisito
• Construir um barco novo: 70 metros de comprimento para comportar
300 soldados, com 64 canhões pesados dispostos em dois decks;
Arquiteto
• O arquiteto Henrik Hybertsson foi contratado para construir o Navio;
Usuários
•Projetou o navio
Vasa como se
fosse um navio
com apenas um
deck ;
•Extrapolou o
projeto para
comportar um
deck duplo de
canhões;
PreocupaçõesdoArquiteto
•1 - Prazo;
•2 - Desempenho;
•3 - Funcionalidade;
•4 - Confiabilidade;
•5 - Custo;
DesempenhodoArquiteto
Vasa - O navio de guerra
5 Fonte: https://www.vasamuseet.se/pt
• A tripulação do navio.
O caso do Navio Vasa, Reflexão!
O que você faria?
Reflexão
6. Vasa - O navio de guerra
6
O que o arquiteto poderia ter feito antes para evitar que apenas no dia da
entrega do navio fosse descobertos os problemas?
Resultado do Projeto
•Em 1628 o navio afundou na baía de Estocolmo na sua viagem inaugural;
•Navio se inclinou devido forte vento; Água entrou pelas portas abertas dos canhões que foram disparados;
•1/3 dos tripulantes morreram;
O caso do Navio Vasa, Reflexão!
Reflexão
8. Big Data
8
O Big Data é conceito que
diz respeito a análise,
processamento com alta
velocidade, e
armazenamento de
grandes volumes e
variedades de dados.
Características Arquitetura Big Data
O Apache Hadoop é um
ecossistema(conjunto de
softwares) open-source para
armazenamento de dados em
larga escala e processamento
distribuído em clusters de
computadores. É o pioneiro na
geração de tecnologias Big Data.
Casos de usos
“Diminuição da quantidade
de carros circulando nas
cidades: economia de
combustível e diminuição da
poluição.”
“Monitora os
equipamentos de
forma preventiva
para detectar o
aparecimento de
defeitos”.
9. 9
Escalabilidadevertical
Escalabilidade horizontal
o Alto custo $
o Escalabilidade limitada
o Aumento dos recursos da máquina
o Melhor custo $
o Escalabilidade ilimitada
o Adição de máquinas ao cluster
Processamento Distribuído
Arquitetura tradicional Arquitetura Big Data
Características Arquitetura Big Data
10. 10
Dados são copiados do computador repositório para serem processados em outros computadores.
Armazenamento e processamento
Dados
Computador Repositório
Arquitetura tradicional
Dados
“Computador X “
Processamento
“Computador Y “
Processamento
“Computador Z “
Processamento
Características Arquitetura Big Data
11. 11
o Dado é distribuído quando é
armazenado;
o A computação do dado
ocorre onde esta o dado
armazenado;
o Sistemas modernos geram
mais dados;
o Terabytes são gerados
diariamente;
Armazenamento e processamento
Dados
Dados
Arquitetura Big Data
Arquitetura tradicional
Dados
Computador Repositório
“Computador X “
Processamento
“Computador Y “
Processamento
“Computador Z“
Processamento
“Computador X “
Processamento e
Repositório
“Computador y “
Processamento e
Repositório
“Computador Z “
Processamento e
Repositório
Características Arquitetura Big Data
13. 13
A seguir ilustração referente o HDFS (Hadoop Distributed File System):
Perspectiva de um arquivo de entrada de 600 MB cujo é dividido em 5 blocos.
o O tamanho default dos blocos no HDFS é de 128 MB;
Armazenamento Big Data
Qual é o total de
espaço aproximado
que o arquivo ocupa
após ser armazenado
nos computadores?
a – 600 MB
b – 1920 MB
c – 1800 MB
d – 128 MB
e – nda
Reflexão
Características Arquitetura Big Data
Perspectiva do arquivo de entrada armazenado replicado nos
computadores.
Computador
X
Computador
y
Computador
z
Computador
i
Computador
j
14. 14
Figura Os preços de armazenamento de dados caíram dramaticamente de mais de US $ 10.000 para menos de
US $ 0,10 por GB ao longo das décadas.
Custo de armazenamento
Características Arquitetura Big Data
16. Ingestion Batch Layer Service Layer ApplicationsSources
Governance & Security
DevOps
Fast Layer
16
DATA VISUALIZATION
DATA EXPLORATION
API GATEWAY /
ESB
CRYPITOGRAPHY ACCESS CONTROL
WORKLOAD
ANALYTICS / MACHINE
LEARNING
AUTOMATION CONTINUOUS DELIVERY CONTINUOUS INTEGRATION
Arquitetura de Referência – Perspectiva lógica
Arquitetura de Referência Big Data
Social
Audio/Video
DB
DocsArquivos
SensoresWeb
API
Filas
Batch
Fast
PERSISTENCE
Distribuido No-SQL
Scheduler
PROCESSING
Distribuido
PERSISTENCE
No-SQL
PROCESSING
Fast
APPs
CEP Regras
17. 17
Ingestion Batch Layer Service Layer ApplicationsSources
Governance & Security
DATA EXPLORATION
DATA VISUALIZATION
PERSISTENCE
PROCESSING
WORK LOAD
Fast Layer
MACHINE LEARNING
Arquitetura de Referência – Perspectiva técnica - Batch
Arquitetura de Referência Big Data
Social
Audio/Video
DB
DocsArquivos
SensoresWeb
API
Filas
DevOps
Jupyter Zeppelin
MLlib
Scikits
18. 18
Ingestion Batch Layer Service Layer ApplicationsSources
Governance & Security
DevOps
Fast Layer
API GATEWAY /
ESB
APPs
Arquitetura de Referência – Perspectiva técnica - Fast
Arquitetura de Referência Big Data
Social
Audio/Video
DB
DocsArquivos
SensoresWeb
API
Filas
PERSISTENCE
PROCESSING