SlideShare uma empresa Scribd logo
1 de 24
Big Data Clusters & MongoDB
Leandro Domingues
Luiz Henrique Garetti
New
SQL Server 2019
Evolução para Plataforma de Dados
Mas antes...
Mas antes...
“Big data são dados com maior variedade que chegam em
volumes crescentes e com velocidade cada vez maior”
Gartner
Big Data Landscape
Hadoop
• Framework Open-source mantido pela Apache.
• Processamento e armazenamento massivo (MPP).
• Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo.
Hadoop - Infra
Big Data Landscape
Link Youtube
Doug Cutting
Docker e Kubernetes
Docker
• Empacota os binários, códigos, bibliotecas.
• Portavél para outros Hosts.
• Open-Source escrita em GO.
• Configure uma vez e replique N.
• Ótimo para criação de Micro serviços
• Escalável / Diminui tempo de Deploy
Kubernetes
• Orquestração e gerenciamento para Dockers
• Criado pelo Google e cedido para Apache.
• Elimina grande parte do processo manual, para
implantar ou escalar container.
Big Data Clusters
SQL Server 2019
Big Data gera mais valor, quando somado a dados do mundo transactional.
Motivação: Processamento e armazenamento massivo,ML,
Analise de dados e escalabilidade.
Big Data Clusters - Definições
• Plataforma de dados unificada para abranger dados estruturados e não estruturados.
• BDC Fornece a flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando,
armazenando (Hdfs) gerenciando via SQL por meio de um cluster.
• Criação de Pipelines (olhar do Ciêntista de dados).
• SQL Server não é mais somente um SGBD, é uma plataforma de dados escalável.
• O SQL Server 2019 - BDC estende sua plataforma de dados unificada para abranger Big data (SQL e NoSQL)
integrando o Spark e o HDFS em uma central de administração.
Big Data Clusters – Virtualização de Dados
• Virtualização / Federação de Dados via engine Polybase.
• PushDown – External Table
• Para Hadoop (HDFS, YARN). Polybase envia a consulta via MapReduce.
• Pipeline ETL (Copiando massas de dados entre ambients).
• Atualizados – Conformidades com GDPR / LGPD.
Big Data Clusters - Arquitetura
Big Data Clusters - Arquitetura
Big Data Clusters – Control Plane
• Principais Serviços (Controller Services):
• Gerenciamento do Cluster
• SQL Server Master
• Hive Metadados
• Kubernetes Master
• Segurança
• Monitoração (Grafana, Kibana)
Big Data Clusters – Compute Plane
• Poder de “Computação” Processamento do Cluster.
• Escalabilidade gerenciados pelo Kubernetes
Big Data Clusters – Data Plane
Big Data Clusters
Big Data Clusters
Big Data Clusters – Data Pipeline
BDC + Você = Valor 
<<< Demo >>
<<< Estrutura Demo >>
• Dados de Politicos e Partidos
tbl_Partido, tbl_Candidato, tbl_Candidatura
• Dados do Perfil Eleitorado
Collaction eleicoes.eleitorado
• Dados de Votação (simulando log da urna eletronica)
path /LogUrnaHDFS/files.csv
} Querys integrando os três mundos

Mais conteúdo relacionado

Mais procurados

Inove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com KafkaInove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com KafkaTechrom Tecnologia
 
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...PGDay Campinas
 
Uma Arquitetura para a Implantação Automática de Serviços em Infraestruturas ...
Uma Arquitetura para a Implantação Automática de Serviços em Infraestruturas ...Uma Arquitetura para a Implantação Automática de Serviços em Infraestruturas ...
Uma Arquitetura para a Implantação Automática de Serviços em Infraestruturas ...Lenin Abadie
 
Palestra Google Cloud Spanner
Palestra Google Cloud SpannerPalestra Google Cloud Spanner
Palestra Google Cloud SpannerFelipe Santos
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...Cicero Joasyo Mateus de Moura
 
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...Cicero Joasyo Mateus de Moura
 
Cenário das Plataformas de Dados 2017/2018
Cenário das Plataformas de Dados 2017/2018Cenário das Plataformas de Dados 2017/2018
Cenário das Plataformas de Dados 2017/2018Raul Oliveira
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
Rio Info 2015 – Computação em nuvem conceitos e motivação - Rodrigo Gazzaneo
Rio Info 2015 – Computação em nuvem conceitos e motivação - Rodrigo GazzaneoRio Info 2015 – Computação em nuvem conceitos e motivação - Rodrigo Gazzaneo
Rio Info 2015 – Computação em nuvem conceitos e motivação - Rodrigo GazzaneoRio Info
 
Windows Admin Center
Windows Admin CenterWindows Admin Center
Windows Admin CenterFabio Hara
 
Escalabilidade, Sharding, Paralelismo e Bigdata com PostgreSQL? Yes, we can!
Escalabilidade, Sharding, Paralelismo e Bigdata com PostgreSQL? Yes, we can!Escalabilidade, Sharding, Paralelismo e Bigdata com PostgreSQL? Yes, we can!
Escalabilidade, Sharding, Paralelismo e Bigdata com PostgreSQL? Yes, we can!Matheus Espanhol
 
Construção da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em EscalaConstrução da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em Escalarkwseijuurou
 
Queries em Big Data: Bancos de dados em GPU
Queries em Big Data: Bancos de dados em GPUQueries em Big Data: Bancos de dados em GPU
Queries em Big Data: Bancos de dados em GPUTiago Vinicius
 

Mais procurados (20)

Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
FLISOL 2017 - SQL Server no Linux
FLISOL 2017 - SQL Server no LinuxFLISOL 2017 - SQL Server no Linux
FLISOL 2017 - SQL Server no Linux
 
Inove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com KafkaInove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com Kafka
 
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
 
Uma Arquitetura para a Implantação Automática de Serviços em Infraestruturas ...
Uma Arquitetura para a Implantação Automática de Serviços em Infraestruturas ...Uma Arquitetura para a Implantação Automática de Serviços em Infraestruturas ...
Uma Arquitetura para a Implantação Automática de Serviços em Infraestruturas ...
 
Palestra Google Cloud Spanner
Palestra Google Cloud SpannerPalestra Google Cloud Spanner
Palestra Google Cloud Spanner
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
 
Cenário das Plataformas de Dados 2017/2018
Cenário das Plataformas de Dados 2017/2018Cenário das Plataformas de Dados 2017/2018
Cenário das Plataformas de Dados 2017/2018
 
Aws glue
Aws glueAws glue
Aws glue
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Windows Azure: PaaS e IaaS
Windows Azure: PaaS e IaaSWindows Azure: PaaS e IaaS
Windows Azure: PaaS e IaaS
 
Rio Info 2015 – Computação em nuvem conceitos e motivação - Rodrigo Gazzaneo
Rio Info 2015 – Computação em nuvem conceitos e motivação - Rodrigo GazzaneoRio Info 2015 – Computação em nuvem conceitos e motivação - Rodrigo Gazzaneo
Rio Info 2015 – Computação em nuvem conceitos e motivação - Rodrigo Gazzaneo
 
Windows Admin Center
Windows Admin CenterWindows Admin Center
Windows Admin Center
 
DynamoDB - Uma Introdução
DynamoDB - Uma IntroduçãoDynamoDB - Uma Introdução
DynamoDB - Uma Introdução
 
Escalabilidade, Sharding, Paralelismo e Bigdata com PostgreSQL? Yes, we can!
Escalabilidade, Sharding, Paralelismo e Bigdata com PostgreSQL? Yes, we can!Escalabilidade, Sharding, Paralelismo e Bigdata com PostgreSQL? Yes, we can!
Escalabilidade, Sharding, Paralelismo e Bigdata com PostgreSQL? Yes, we can!
 
Construção da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em EscalaConstrução da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em Escala
 
Docker.io:
Docker.io: Docker.io:
Docker.io:
 
Queries em Big Data: Bancos de dados em GPU
Queries em Big Data: Bancos de dados em GPUQueries em Big Data: Bancos de dados em GPU
Queries em Big Data: Bancos de dados em GPU
 

Semelhante a Sql maniacs sql server 2019 Big Data Clusters

[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricDenodo
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureQCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureFabrício Lopes Sanchez
 
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...Fabrízio Mello
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
DataLakers 2018 Qmeeting - São Paulo
DataLakers 2018 Qmeeting - São PauloDataLakers 2018 Qmeeting - São Paulo
DataLakers 2018 Qmeeting - São PauloEduardo Hahn
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Marcos William Valentini
 
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Marcos William Valentini
 
BigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage APIBigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage APIAlvaro Viebrantz
 

Semelhante a Sql maniacs sql server 2019 Big Data Clusters (20)

Sql server 2019 big data cluster
Sql server 2019 big data clusterSql server 2019 big data cluster
Sql server 2019 big data cluster
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Meetup - Data Lake
Meetup - Data LakeMeetup - Data Lake
Meetup - Data Lake
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureQCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
 
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
DataLakers 2018 Qmeeting - São Paulo
DataLakers 2018 Qmeeting - São PauloDataLakers 2018 Qmeeting - São Paulo
DataLakers 2018 Qmeeting - São Paulo
 
Datalakers 2018 Qmeeting
Datalakers 2018 QmeetingDatalakers 2018 Qmeeting
Datalakers 2018 Qmeeting
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
BrunoSQLSaturday424
BrunoSQLSaturday424BrunoSQLSaturday424
BrunoSQLSaturday424
 
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
 
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
Pgday Campinas 2015 - Uma visão do PPAS 9.4 e PEM 5.0
 
BigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage APIBigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage API
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
 

Mais de Luiz Henrique Garetti Rosário

Mais de Luiz Henrique Garetti Rosário (6)

Imasters - HA e DR como seguro de vida do DBA
Imasters - HA e DR como seguro de vida do DBAImasters - HA e DR como seguro de vida do DBA
Imasters - HA e DR como seguro de vida do DBA
 
Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016
 
High Availability and Disaster Recovery salvando vidas
High Availability and Disaster Recovery salvando vidasHigh Availability and Disaster Recovery salvando vidas
High Availability and Disaster Recovery salvando vidas
 
Otimizando a performance com in memory no sql 2016
Otimizando a performance com in memory no sql 2016Otimizando a performance com in memory no sql 2016
Otimizando a performance com in memory no sql 2016
 
High availability e Disaster Recovery é o seguro de vida de todo DBA
High availability e Disaster Recovery é o seguro de vida de todo DBAHigh availability e Disaster Recovery é o seguro de vida de todo DBA
High availability e Disaster Recovery é o seguro de vida de todo DBA
 
Escovando bit com alwayson sql server 2014
Escovando bit com alwayson sql server 2014Escovando bit com alwayson sql server 2014
Escovando bit com alwayson sql server 2014
 

Sql maniacs sql server 2019 Big Data Clusters

  • 1. Big Data Clusters & MongoDB Leandro Domingues Luiz Henrique Garetti
  • 5. Mas antes... “Big data são dados com maior variedade que chegam em volumes crescentes e com velocidade cada vez maior” Gartner
  • 7. Hadoop • Framework Open-source mantido pela Apache. • Processamento e armazenamento massivo (MPP). • Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo.
  • 9. Big Data Landscape Link Youtube Doug Cutting
  • 10. Docker e Kubernetes Docker • Empacota os binários, códigos, bibliotecas. • Portavél para outros Hosts. • Open-Source escrita em GO. • Configure uma vez e replique N. • Ótimo para criação de Micro serviços • Escalável / Diminui tempo de Deploy Kubernetes • Orquestração e gerenciamento para Dockers • Criado pelo Google e cedido para Apache. • Elimina grande parte do processo manual, para implantar ou escalar container.
  • 11. Big Data Clusters SQL Server 2019 Big Data gera mais valor, quando somado a dados do mundo transactional. Motivação: Processamento e armazenamento massivo,ML, Analise de dados e escalabilidade.
  • 12. Big Data Clusters - Definições • Plataforma de dados unificada para abranger dados estruturados e não estruturados. • BDC Fornece a flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando, armazenando (Hdfs) gerenciando via SQL por meio de um cluster. • Criação de Pipelines (olhar do Ciêntista de dados). • SQL Server não é mais somente um SGBD, é uma plataforma de dados escalável. • O SQL Server 2019 - BDC estende sua plataforma de dados unificada para abranger Big data (SQL e NoSQL) integrando o Spark e o HDFS em uma central de administração.
  • 13. Big Data Clusters – Virtualização de Dados • Virtualização / Federação de Dados via engine Polybase. • PushDown – External Table • Para Hadoop (HDFS, YARN). Polybase envia a consulta via MapReduce. • Pipeline ETL (Copiando massas de dados entre ambients). • Atualizados – Conformidades com GDPR / LGPD.
  • 14. Big Data Clusters - Arquitetura
  • 15. Big Data Clusters - Arquitetura
  • 16. Big Data Clusters – Control Plane • Principais Serviços (Controller Services): • Gerenciamento do Cluster • SQL Server Master • Hive Metadados • Kubernetes Master • Segurança • Monitoração (Grafana, Kibana)
  • 17. Big Data Clusters – Compute Plane • Poder de “Computação” Processamento do Cluster. • Escalabilidade gerenciados pelo Kubernetes
  • 18. Big Data Clusters – Data Plane
  • 21. Big Data Clusters – Data Pipeline
  • 22. BDC + Você = Valor 
  • 24. <<< Estrutura Demo >> • Dados de Politicos e Partidos tbl_Partido, tbl_Candidato, tbl_Candidatura • Dados do Perfil Eleitorado Collaction eleicoes.eleitorado • Dados de Votação (simulando log da urna eletronica) path /LogUrnaHDFS/files.csv } Querys integrando os três mundos