Big Data Clusters & MongoDB
Leandro Domingues
Luiz Henrique Garetti
New
SQL Server 2019
Evolução para Plataforma de Dados
Mas antes...
Mas antes...
“Big data são dados com maior variedade que chegam em
volumes crescentes e com velocidade cada vez maior”
Gartner
Big Data Landscape
Hadoop
• Framework Open-source mantido pela Apache.
• Processamento e armazenamento massivo (MPP).
• Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo.
Hadoop - Infra
Big Data Landscape
Link Youtube
Doug Cutting
Docker e Kubernetes
Docker
• Empacota os binários, códigos, bibliotecas.
• Portavél para outros Hosts.
• Open-Source escrita em GO.
• Configure uma vez e replique N.
• Ótimo para criação de Micro serviços
• Escalável / Diminui tempo de Deploy
Kubernetes
• Orquestração e gerenciamento para Dockers
• Criado pelo Google e cedido para Apache.
• Elimina grande parte do processo manual, para
implantar ou escalar container.
Big Data Clusters
SQL Server 2019
Big Data gera mais valor, quando somado a dados do mundo transactional.
Motivação: Processamento e armazenamento massivo,ML,
Analise de dados e escalabilidade.
Big Data Clusters - Definições
• Plataforma de dados unificada para abranger dados estruturados e não estruturados.
• BDC Fornece a flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando,
armazenando (Hdfs) gerenciando via SQL por meio de um cluster.
• Criação de Pipelines (olhar do Ciêntista de dados).
• SQL Server não é mais somente um SGBD, é uma plataforma de dados escalável.
• O SQL Server 2019 - BDC estende sua plataforma de dados unificada para abranger Big data (SQL e NoSQL)
integrando o Spark e o HDFS em uma central de administração.
Big Data Clusters – Virtualização de Dados
• Virtualização / Federação de Dados via engine Polybase.
• PushDown – External Table
• Para Hadoop (HDFS, YARN). Polybase envia a consulta via MapReduce.
• Pipeline ETL (Copiando massas de dados entre ambients).
• Atualizados – Conformidades com GDPR / LGPD.
Big Data Clusters - Arquitetura
Big Data Clusters - Arquitetura
Big Data Clusters – Control Plane
• Principais Serviços (Controller Services):
• Gerenciamento do Cluster
• SQL Server Master
• Hive Metadados
• Kubernetes Master
• Segurança
• Monitoração (Grafana, Kibana)
Big Data Clusters – Compute Plane
• Poder de “Computação” Processamento do Cluster.
• Escalabilidade gerenciados pelo Kubernetes
Big Data Clusters – Data Plane
Big Data Clusters
Big Data Clusters
Big Data Clusters – Data Pipeline
BDC + Você = Valor 
<<< Demo >>
<<< Estrutura Demo >>
• Dados de Politicos e Partidos
tbl_Partido, tbl_Candidato, tbl_Candidatura
• Dados do Perfil Eleitorado
Collaction eleicoes.eleitorado
• Dados de Votação (simulando log da urna eletronica)
path /LogUrnaHDFS/files.csv
} Querys integrando os três mundos

Sql maniacs sql server 2019 Big Data Clusters

  • 1.
    Big Data Clusters& MongoDB Leandro Domingues Luiz Henrique Garetti
  • 2.
  • 3.
  • 4.
  • 5.
    Mas antes... “Big datasão dados com maior variedade que chegam em volumes crescentes e com velocidade cada vez maior” Gartner
  • 6.
  • 7.
    Hadoop • Framework Open-sourcemantido pela Apache. • Processamento e armazenamento massivo (MPP). • Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo.
  • 8.
  • 9.
    Big Data Landscape LinkYoutube Doug Cutting
  • 10.
    Docker e Kubernetes Docker •Empacota os binários, códigos, bibliotecas. • Portavél para outros Hosts. • Open-Source escrita em GO. • Configure uma vez e replique N. • Ótimo para criação de Micro serviços • Escalável / Diminui tempo de Deploy Kubernetes • Orquestração e gerenciamento para Dockers • Criado pelo Google e cedido para Apache. • Elimina grande parte do processo manual, para implantar ou escalar container.
  • 11.
    Big Data Clusters SQLServer 2019 Big Data gera mais valor, quando somado a dados do mundo transactional. Motivação: Processamento e armazenamento massivo,ML, Analise de dados e escalabilidade.
  • 12.
    Big Data Clusters- Definições • Plataforma de dados unificada para abranger dados estruturados e não estruturados. • BDC Fornece a flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando, armazenando (Hdfs) gerenciando via SQL por meio de um cluster. • Criação de Pipelines (olhar do Ciêntista de dados). • SQL Server não é mais somente um SGBD, é uma plataforma de dados escalável. • O SQL Server 2019 - BDC estende sua plataforma de dados unificada para abranger Big data (SQL e NoSQL) integrando o Spark e o HDFS em uma central de administração.
  • 13.
    Big Data Clusters– Virtualização de Dados • Virtualização / Federação de Dados via engine Polybase. • PushDown – External Table • Para Hadoop (HDFS, YARN). Polybase envia a consulta via MapReduce. • Pipeline ETL (Copiando massas de dados entre ambients). • Atualizados – Conformidades com GDPR / LGPD.
  • 14.
    Big Data Clusters- Arquitetura
  • 15.
    Big Data Clusters- Arquitetura
  • 16.
    Big Data Clusters– Control Plane • Principais Serviços (Controller Services): • Gerenciamento do Cluster • SQL Server Master • Hive Metadados • Kubernetes Master • Segurança • Monitoração (Grafana, Kibana)
  • 17.
    Big Data Clusters– Compute Plane • Poder de “Computação” Processamento do Cluster. • Escalabilidade gerenciados pelo Kubernetes
  • 18.
    Big Data Clusters– Data Plane
  • 19.
  • 20.
  • 21.
    Big Data Clusters– Data Pipeline
  • 22.
    BDC + Você= Valor 
  • 23.
  • 24.
    <<< Estrutura Demo>> • Dados de Politicos e Partidos tbl_Partido, tbl_Candidato, tbl_Candidatura • Dados do Perfil Eleitorado Collaction eleicoes.eleitorado • Dados de Votação (simulando log da urna eletronica) path /LogUrnaHDFS/files.csv } Querys integrando os três mundos