Sql maniacs sql server 2019 Big Data Clusters

Big Data Clusters & MongoDB
Leandro Domingues
Luiz Henrique Garetti

Evolução para Plataforma de Dados

Mas antes...
“Big data são dados com maior variedade que chegam em
volumes crescentes e com velocidade cada vez maior”
Gartner

Hadoop
• Framework Open-source mantido pela Apache.
• Processamento e armazenamento massivo (MPP).
• Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo.

Big Data Landscape
Link Youtube
Doug Cutting

Docker e Kubernetes
Docker
• Empacota os binários, códigos, bibliotecas.
• Portavél para outros Hosts.
• Open-Source escrita em GO.
• Configure uma vez e replique N.
• Ótimo para criação de Micro serviços
• Escalável / Diminui tempo de Deploy
Kubernetes
• Orquestração e gerenciamento para Dockers
• Criado pelo Google e cedido para Apache.
• Elimina grande parte do processo manual, para
implantar ou escalar container.

Big Data Clusters
SQL Server 2019
Big Data gera mais valor, quando somado a dados do mundo transactional.
Motivação: Processamento e armazenamento massivo,ML,
Analise de dados e escalabilidade.

Big Data Clusters - Definições
• Plataforma de dados unificada para abranger dados estruturados e não estruturados.
• BDC Fornece a flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando,
armazenando (Hdfs) gerenciando via SQL por meio de um cluster.
• Criação de Pipelines (olhar do Ciêntista de dados).
• SQL Server não é mais somente um SGBD, é uma plataforma de dados escalável.
• O SQL Server 2019 - BDC estende sua plataforma de dados unificada para abranger Big data (SQL e NoSQL)
integrando o Spark e o HDFS em uma central de administração.

Big Data Clusters – Virtualização de Dados
• Virtualização / Federação de Dados via engine Polybase.
• PushDown – External Table
• Para Hadoop (HDFS, YARN). Polybase envia a consulta via MapReduce.
• Pipeline ETL (Copiando massas de dados entre ambients).
• Atualizados – Conformidades com GDPR / LGPD.

Big Data Clusters - Arquitetura

Big Data Clusters – Control Plane
• Principais Serviços (Controller Services):
• Gerenciamento do Cluster
• SQL Server Master
• Hive Metadados
• Kubernetes Master
• Segurança
• Monitoração (Grafana, Kibana)

Big Data Clusters – Compute Plane
• Poder de “Computação” Processamento do Cluster.
• Escalabilidade gerenciados pelo Kubernetes

Big Data Clusters – Data Plane

Big Data Clusters – Data Pipeline

<<< Estrutura Demo >>
• Dados de Politicos e Partidos
tbl_Partido, tbl_Candidato, tbl_Candidatura
• Dados do Perfil Eleitorado
Collaction eleicoes.eleitorado
• Dados de Votação (simulando log da urna eletronica)
path /LogUrnaHDFS/files.csv
} Querys integrando os três mundos

Sql maniacs sql server 2019 Big Data Clusters

Mais conteúdo relacionado

Mais procurados

Semelhante a Sql maniacs sql server 2019 Big Data Clusters

Mais de Luiz Henrique Garetti Rosário

Sql maniacs sql server 2019 Big Data Clusters