Big Data Clusters & MongoDB
Leandro Domingues
Luiz Henrique Garetti
SQL Rock – Hoje!! – 21h
Inscrições:
https://tinyurl.com/sqlrock
• Após o SQLSat, sábado as 21h.
http://stjohns.com.br
• Local: Rua Itapura, 1308
• Vila Gomes Cardim, São Paulo
https://www.facebook.com/BandaSystem32/
Obrigado aos Nossos Patrocinadores
sys.stdout.write (“Garetti")
• Solutions Architect Big Data
• Bacharel em Ciências da Computação
• MBA em Big Data
www.dataisbig.com.brwww.Imasters.com.br
{
“nome”: “Leandro Domingues”,
“tecnologias”: [
{
“nome”: “MongoDB”,
“titulo”: [ “Ambassador”, “Evangelist”]
}
],
“titulos”: [
“Microsoft Data Platform MVP”,
“MongoDB Certified Trainer”,
“MongoDB Certified Developer”,
“Senior Software Consultant”,
“Community Manager”,
“Speaker”,
“Founder at Cluster Consultoria”, ],
“contatos”: [
{“linkedin”: https://www.linkedin.com/in/leandro-domingues/”}
{“twitter”: “@delbussoweb”}
{“e-mail”: leandro@clusterconsultoria.com}
]
}
Quem sou eu…
Contatos
https://www.linkedin.com/in/leandro-domingues/
https://www.instagram.com/leandrodomingues/
@delbussoweb
New
SQL Server 2019
Evolução para Plataforma de Dados
Mas antes...
Mas antes...
“Big data são dados com maior variedade que chegam em
volumes crescentes e com velocidade cada vez maior”
Gartner
Big Data Landscape
Hadoop
• Framework Open-source mantido pela Apache.
• Processamento e armazenamento massivo (MPP).
• Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo.
Hadoop - Infra
Big Data Landscape
Link Youtube
Doug Cutting
Docker e Kubernetes
Docker
• Empacota os binários, códigos, bibliotecas.
• Portavél para outros Hosts.
• Open-Source escrita em GO.
• Configure uma vez e replique N.
• Ótimo para criação de Micro serviços
• Escalável / Diminui tempo de Deploy
Kubernetes
• Orquestração e gerenciamento para Dockers
• Criado pelo Google e cedido para Apache.
• Elimina grande parte do processo manual, para
implantar ou escalar container.
MongoDB
FRIENDS DON’T LET REAL
FRIENDS
USE RELATIONAL DATABASES
{ }
NoSQ
L
Atualmente mais de 225
dbengines.com
Big Data Clusters
SQL Server 2019
Big Data gera mais valor, quando somado a dados do mundo transactional.
Motivação: Processamento e armazenamento massivo,ML,
Analise de dados e escalabilidade.
Big Data Clusters - Definições
• Plataforma de dados unificada para abranger dados estruturados e não estruturados.
• BDC Fornece a flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando,
armazenando (Hdfs) gerenciando via SQL por meio de um cluster.
• Criação de Pipelines (olhar do Ciêntista de dados).
• SQL Server não é mais somente um SGBD, é uma plataforma de dados escalável.
• O SQL Server 2019 - BDC estende sua plataforma de dados unificada para abranger Big data (SQL e NoSQL)
integrando o Spark e o HDFS em uma central de administração.
Big Data Clusters – Virtualização de Dados
• Virtualização / Federação de Dados via engine Polybase.
• PushDown – External Table
• Para Hadoop (HDFS, YARN). Polybase envia a consulta via MapReduce.
• Pipeline ETL (Copiando massas de dados entre ambients).
• Atualizados – Conformidades com GDPR / LGPD.
Big Data Clusters - Arquitetura
Big Data Clusters - Arquitetura
Big Data Clusters – Control Plane
• Principais Serviços (Controller Services):
• Gerenciamento do Cluster
• SQL Server Master
• Hive Metadados
• Kubernetes Master
• Segurança
• Monitoração (Grafana, Kibana)
Big Data Clusters – Compute Plane
• Poder de “Computação” Processamento do Cluster.
• Escalabilidade gerenciados pelo Kubernetes
Big Data Clusters – Data Plane
Big Data Clusters
Big Data Clusters
Big Data Clusters – Data Pipeline
<<< Estrutura Demo >>
• Dados de Politicos e Partidos
tbl_Partido, tbl_Candidato, tbl_Candidatura
• Dados do Perfil Eleitorado
Collaction eleicoes.eleitorado
• Dados de Votação (simulando log da urna eletronica)
path /LogUrnaHDFS/files.csv
} Querys integrando os três mundos
<<< Demo >>
BDC + Você = Valor 
luizh.rosario@gmail.com
www.dataisbig.com.br
Contato:
Garetti:
leandro@clusterconsultoria.com
https://www.linkedin.com/in/leandro-
domingues/
Leandro:

SQL Saturday SP - SQL Server 2019 Big Data Clusters