5. • Framework Open-source mantido pela Apache.
• Tolerante a falha e altamente resiliente.
• Processamento e armazenamento massivo (MPP).
• Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo.
BDC | Contextualização
Link Youtube
Doug Cutting
Porque Hadoop ?
6. Docker
• Empacota os binários, códigos, bibliotecas.
• Configure uma vez e replique N.
• Escalável / Diminui tempo de Deploy
Kubernetes
• Orquestração e gerenciamento para Dockers
• Criado pelo Google e cedido para Apache.
• Escalabilidade
• O recheio de 1 Pod é composto por n Dockers.
BDC | Contextualização
12. BDC | Arquitetura do nosso ambiente
Master
Compute
Data
Pool
Data
Pool
Storage
Pool
Storage
Pool
Controller
Polybase Pool
SQL Server
Shared
HDFS
Control Plane
Compute Plane
Data Plane
14. BDC | Control Plane
Principais Serviços (Controller Services):
• SQL Server Master
• Kubernetes Master
• Segurança
• Grafana
• Kibana
15. BDC | Compute Plane
• Um conjunto de instancias stateless que fornece
recurso de consultas/processamento distribuido.
• Poder de “Computação “
• Scale-out / Processamento em Paralelo.
Books Online: PolyBase Scale-out Groups
16. BDC | Data Plane – Storage Pool
• Nós do HDFS distribuídos nos nodes do Storage Pool
• Integração com Yarn
• sparkhead-0
• RM – Resource Manager
• nmnode-0-0
• Storage-0-0 / Storage-0-1
18. BDC | Data Pool
• Composto por uma ou mais instancias SQL
• Distribui os dados entre as instancia (ROUND_ROBIN)
• Scale-out / Processamento em Paralelo
21. BDC | Cenário 01
Virtualização de Dados Maior agilidade na entrega de valor real para a empresa
Streaming via
Kafka
Data Lake
Ciêntista de Dados
22. BDC | Cenário 02
Producer
Ciêntista de Dados
VirtualizaçãodeDados
Data Shared
Historico Transações
Transação
batch
Consumo Online
External Tables
External Tables
Objetivo
Calcular o score e a taxa de
juros para o financiamento
Score 900
taxa 0.50