SlideShare uma empresa Scribd logo
1 de 24
Big Data Clusters & MongoDB
Leandro Domingues
Luiz Henrique Garetti
New
SQL Server 2019
Evolução para Plataforma de Dados
Mas antes...
Mas antes...
“Big data são dados com maior variedade que chegam em
volumes crescentes e com velocidade cada vez maior”
Gartner
Big Data Landscape
Hadoop
• Framework Open-source mantido pela Apache.
• Processamento e armazenamento massivo (MPP).
• Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo.
Hadoop - Infra
Big Data Landscape
Link Youtube
Doug Cutting
Docker e Kubernetes
Docker
• Empacota os binários, códigos, bibliotecas.
• Portavél para outros Hosts.
• Open-Source escrita em GO.
• Configure uma vez e replique N.
• Ótimo para criação de Micro serviços
• Escalável / Diminui tempo de Deploy
Kubernetes
• Orquestração e gerenciamento para Dockers
• Criado pelo Google e cedido para Apache.
• Elimina grande parte do processo manual, para
implantar ou escalar container.
Big Data Clusters
SQL Server 2019
Big Data gera mais valor, quando somado a dados do mundo transactional.
Motivação: Processamento e armazenamento massivo,ML,
Analise de dados e escalabilidade.
Big Data Clusters - Definições
• Plataforma de dados unificada para abranger dados estruturados e não estruturados.
• BDC Fornece a flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando,
armazenando (Hdfs) gerenciando via SQL por meio de um cluster.
• Criação de Pipelines (olhar do Ciêntista de dados).
• SQL Server não é mais somente um SGBD, é uma plataforma de dados escalável.
• O SQL Server 2019 - BDC estende sua plataforma de dados unificada para abranger Big data (SQL e NoSQL)
integrando o Spark e o HDFS em uma central de administração.
Big Data Clusters – Virtualização de Dados
• Virtualização / Federação de Dados via engine Polybase.
• PushDown – External Table
• Para Hadoop (HDFS, YARN). Polybase envia a consulta via MapReduce.
• Pipeline ETL (Copiando massas de dados entre ambients).
• Atualizados – Conformidades com GDPR / LGPD.
Big Data Clusters - Arquitetura
Big Data Clusters - Arquitetura
Big Data Clusters – Control Plane
• Principais Serviços (Controller Services):
• Gerenciamento do Cluster
• SQL Server Master
• Hive Metadados
• Kubernetes Master
• Segurança
• Monitoração (Grafana, Kibana)
Big Data Clusters – Compute Plane
• Poder de “Computação” Processamento do Cluster.
• Escalabilidade gerenciados pelo Kubernetes
Big Data Clusters – Data Plane
Big Data Clusters
Big Data Clusters
Big Data Clusters – Data Pipeline
BDC + Você = Valor 
<<< Demo >>
<<< Estrutura Demo >>
• Dados de Politicos e Partidos
tbl_Partido, tbl_Candidato, tbl_Candidatura
• Dados do Perfil Eleitorado
Collaction eleicoes.eleitorado
• Dados de Votação (simulando log da urna eletronica)
path /LogUrnaHDFS/files.csv
} Querys integrando os três mundos

Mais conteúdo relacionado

Mais procurados

Dicas para uma maior performance em APIs REST - Tech Meetup - Itaú Unibanco -...
Dicas para uma maior performance em APIs REST - Tech Meetup - Itaú Unibanco -...Dicas para uma maior performance em APIs REST - Tech Meetup - Itaú Unibanco -...
Dicas para uma maior performance em APIs REST - Tech Meetup - Itaú Unibanco -...Renato Groff
 
Microsoft 5 Cal Dispositivo Local P/ Windows Server 2019 Standard R18-05766
Microsoft 5 Cal Dispositivo Local P/ Windows Server 2019 Standard R18-05766Microsoft 5 Cal Dispositivo Local P/ Windows Server 2019 Standard R18-05766
Microsoft 5 Cal Dispositivo Local P/ Windows Server 2019 Standard R18-05766Stryhn49Ritter
 
Azure SQL DataWarehouse
Azure SQL DataWarehouseAzure SQL DataWarehouse
Azure SQL DataWarehouseVitor Fava
 
Criando um baseline de seu ambiente completo utilizando SSIS e SSRS
Criando um baseline de seu ambiente completo utilizando SSIS e SSRSCriando um baseline de seu ambiente completo utilizando SSIS e SSRS
Criando um baseline de seu ambiente completo utilizando SSIS e SSRSMarcos Freccia
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealDenodo
 
Palestra Google Cloud Spanner
Palestra Google Cloud SpannerPalestra Google Cloud Spanner
Palestra Google Cloud SpannerFelipe Santos
 
Cloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows AzureCloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows AzureLuciano Condé
 
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso SalesforceCloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso SalesforceFernando Carvalho
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisCicero Joasyo Mateus de Moura
 
Inter Dev Ops Conf 2016 - IaaS behind the scenes
Inter Dev Ops Conf 2016 - IaaS behind the scenesInter Dev Ops Conf 2016 - IaaS behind the scenes
Inter Dev Ops Conf 2016 - IaaS behind the scenesRoberto Gaiser
 
Introdução no sql mongodb java
Introdução no sql mongodb javaIntrodução no sql mongodb java
Introdução no sql mongodb javaFabiano Modos
 
STB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows AzureSTB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows AzureLuciano Condé
 
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosBanco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosJoão Helis Bernardo
 

Mais procurados (20)

Dicas para uma maior performance em APIs REST - Tech Meetup - Itaú Unibanco -...
Dicas para uma maior performance em APIs REST - Tech Meetup - Itaú Unibanco -...Dicas para uma maior performance em APIs REST - Tech Meetup - Itaú Unibanco -...
Dicas para uma maior performance em APIs REST - Tech Meetup - Itaú Unibanco -...
 
Microsoft 5 Cal Dispositivo Local P/ Windows Server 2019 Standard R18-05766
Microsoft 5 Cal Dispositivo Local P/ Windows Server 2019 Standard R18-05766Microsoft 5 Cal Dispositivo Local P/ Windows Server 2019 Standard R18-05766
Microsoft 5 Cal Dispositivo Local P/ Windows Server 2019 Standard R18-05766
 
Azure SQL DataWarehouse
Azure SQL DataWarehouseAzure SQL DataWarehouse
Azure SQL DataWarehouse
 
Criando um baseline de seu ambiente completo utilizando SSIS e SSRS
Criando um baseline de seu ambiente completo utilizando SSIS e SSRSCriando um baseline de seu ambiente completo utilizando SSIS e SSRS
Criando um baseline de seu ambiente completo utilizando SSIS e SSRS
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo Real
 
Mongo db
Mongo dbMongo db
Mongo db
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Apresentação
ApresentaçãoApresentação
Apresentação
 
Aws glue
Aws glueAws glue
Aws glue
 
Palestra Google Cloud Spanner
Palestra Google Cloud SpannerPalestra Google Cloud Spanner
Palestra Google Cloud Spanner
 
Cloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows AzureCloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows Azure
 
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso SalesforceCloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
 
Inter Dev Ops Conf 2016 - IaaS behind the scenes
Inter Dev Ops Conf 2016 - IaaS behind the scenesInter Dev Ops Conf 2016 - IaaS behind the scenes
Inter Dev Ops Conf 2016 - IaaS behind the scenes
 
Introdução no sql mongodb java
Introdução no sql mongodb javaIntrodução no sql mongodb java
Introdução no sql mongodb java
 
STB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows AzureSTB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows Azure
 
DynamoDB - Uma Introdução
DynamoDB - Uma IntroduçãoDynamoDB - Uma Introdução
DynamoDB - Uma Introdução
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
Windows Azure: PaaS e IaaS
Windows Azure: PaaS e IaaSWindows Azure: PaaS e IaaS
Windows Azure: PaaS e IaaS
 
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosBanco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
 

Semelhante a SQL Maniacs - SQL Server 2019 Big Data Clusters

[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Inove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com KafkaInove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com KafkaTechrom Tecnologia
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricDenodo
 
Queries em Big Data: Bancos de dados em GPU
Queries em Big Data: Bancos de dados em GPUQueries em Big Data: Bancos de dados em GPU
Queries em Big Data: Bancos de dados em GPUTiago Vinicius
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureQCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureFabrício Lopes Sanchez
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...Cicero Joasyo Mateus de Moura
 
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...Fabrízio Mello
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
DataLakers 2018 Qmeeting - São Paulo
DataLakers 2018 Qmeeting - São PauloDataLakers 2018 Qmeeting - São Paulo
DataLakers 2018 Qmeeting - São PauloEduardo Hahn
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 

Semelhante a SQL Maniacs - SQL Server 2019 Big Data Clusters (20)

Meetup Tivir - Big Data Clusters
Meetup Tivir - Big Data ClustersMeetup Tivir - Big Data Clusters
Meetup Tivir - Big Data Clusters
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Inove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com KafkaInove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com Kafka
 
Meetup - Data Lake
Meetup - Data LakeMeetup - Data Lake
Meetup - Data Lake
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
 
Queries em Big Data: Bancos de dados em GPU
Queries em Big Data: Bancos de dados em GPUQueries em Big Data: Bancos de dados em GPU
Queries em Big Data: Bancos de dados em GPU
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureQCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
 
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
URCAMP (Jun2017) - Como o papel e atividades de DBA ficam no contexto da cult...
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
DataLakers 2018 Qmeeting - São Paulo
DataLakers 2018 Qmeeting - São PauloDataLakers 2018 Qmeeting - São Paulo
DataLakers 2018 Qmeeting - São Paulo
 
Datalakers 2018 Qmeeting
Datalakers 2018 QmeetingDatalakers 2018 Qmeeting
Datalakers 2018 Qmeeting
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
BrunoSQLSaturday424
BrunoSQLSaturday424BrunoSQLSaturday424
BrunoSQLSaturday424
 

Mais de Luiz Henrique Garetti Rosário

Mais de Luiz Henrique Garetti Rosário (7)

Imasters - HA e DR como seguro de vida do DBA
Imasters - HA e DR como seguro de vida do DBAImasters - HA e DR como seguro de vida do DBA
Imasters - HA e DR como seguro de vida do DBA
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 
Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016
 
High Availability and Disaster Recovery salvando vidas
High Availability and Disaster Recovery salvando vidasHigh Availability and Disaster Recovery salvando vidas
High Availability and Disaster Recovery salvando vidas
 
Otimizando a performance com in memory no sql 2016
Otimizando a performance com in memory no sql 2016Otimizando a performance com in memory no sql 2016
Otimizando a performance com in memory no sql 2016
 
High availability e Disaster Recovery é o seguro de vida de todo DBA
High availability e Disaster Recovery é o seguro de vida de todo DBAHigh availability e Disaster Recovery é o seguro de vida de todo DBA
High availability e Disaster Recovery é o seguro de vida de todo DBA
 
Escovando bit com alwayson sql server 2014
Escovando bit com alwayson sql server 2014Escovando bit com alwayson sql server 2014
Escovando bit com alwayson sql server 2014
 

SQL Maniacs - SQL Server 2019 Big Data Clusters

  • 1. Big Data Clusters & MongoDB Leandro Domingues Luiz Henrique Garetti
  • 5. Mas antes... “Big data são dados com maior variedade que chegam em volumes crescentes e com velocidade cada vez maior” Gartner
  • 7. Hadoop • Framework Open-source mantido pela Apache. • Processamento e armazenamento massivo (MPP). • Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo.
  • 9. Big Data Landscape Link Youtube Doug Cutting
  • 10. Docker e Kubernetes Docker • Empacota os binários, códigos, bibliotecas. • Portavél para outros Hosts. • Open-Source escrita em GO. • Configure uma vez e replique N. • Ótimo para criação de Micro serviços • Escalável / Diminui tempo de Deploy Kubernetes • Orquestração e gerenciamento para Dockers • Criado pelo Google e cedido para Apache. • Elimina grande parte do processo manual, para implantar ou escalar container.
  • 11. Big Data Clusters SQL Server 2019 Big Data gera mais valor, quando somado a dados do mundo transactional. Motivação: Processamento e armazenamento massivo,ML, Analise de dados e escalabilidade.
  • 12. Big Data Clusters - Definições • Plataforma de dados unificada para abranger dados estruturados e não estruturados. • BDC Fornece a flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando, armazenando (Hdfs) gerenciando via SQL por meio de um cluster. • Criação de Pipelines (olhar do Ciêntista de dados). • SQL Server não é mais somente um SGBD, é uma plataforma de dados escalável. • O SQL Server 2019 - BDC estende sua plataforma de dados unificada para abranger Big data (SQL e NoSQL) integrando o Spark e o HDFS em uma central de administração.
  • 13. Big Data Clusters – Virtualização de Dados • Virtualização / Federação de Dados via engine Polybase. • PushDown – External Table • Para Hadoop (HDFS, YARN). Polybase envia a consulta via MapReduce. • Pipeline ETL (Copiando massas de dados entre ambients). • Atualizados – Conformidades com GDPR / LGPD.
  • 14. Big Data Clusters - Arquitetura
  • 15. Big Data Clusters - Arquitetura
  • 16. Big Data Clusters – Control Plane • Principais Serviços (Controller Services): • Gerenciamento do Cluster • SQL Server Master • Hive Metadados • Kubernetes Master • Segurança • Monitoração (Grafana, Kibana)
  • 17. Big Data Clusters – Compute Plane • Poder de “Computação” Processamento do Cluster. • Escalabilidade gerenciados pelo Kubernetes
  • 18. Big Data Clusters – Data Plane
  • 21. Big Data Clusters – Data Pipeline
  • 22. BDC + Você = Valor 
  • 24. <<< Estrutura Demo >> • Dados de Politicos e Partidos tbl_Partido, tbl_Candidato, tbl_Candidatura • Dados do Perfil Eleitorado Collaction eleicoes.eleitorado • Dados de Votação (simulando log da urna eletronica) path /LogUrnaHDFS/files.csv } Querys integrando os três mundos