SQL Server 2019
Big Data Cluster
Luiz Henrique Garetti
sys.stdout.write (“Luiz")
Bacharel em Ciências da Computação;
MBA em Big Data;
www.dataisbig.com.br
www.Imasters.com.br
‘s
“Ecossistema Big Data”
“SQL Server”
“Desenvolvimento”
Qual
nossa
missão
para hoje ?
New
SQL Server 2019
MS quebrando paradigmas
SQL Server 2014:
• AlwaysOn (desde o 2012)
• In-Memory (desde o 2012)
• Integração com Azure
SQL Server 2016:
• Polybase
• Json
• R Services
SQL Server 2017:
• Linux e Docker
• Python
https://www.sqlshack.com/history-sql-server-evolution-sql-server-features/
SQL Server 2019:
• Spark
• Kubernetes
• Polybase (expansão)
• Big Data Cluster
Mas antes…
Big Data
3 V’s
5 V’s
“Big data são dados com maior variedade que chegam em
volumes crescentes e com velocidade cada vez maior”
Gartner
Ecossistema Big Data
Ecossistema Hadoop
• Framework Open-source mantido pela Apache
• Processamento e armazenamento massivo
• Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo
-> Hadoop Common,
-> Hadoop HDFS,
-> Hadoop YARN,
-> Hadoop MapReduce
Hadoop
HDFS (Hadoop Distributed File System)
• Sistema de arquivos escalável e distribuído.
• Projeto Apache, Subprojeto do Hadoop.
• Baseado no GFS (Google File System).
• Processamento Massivo Paralelo (MPP).
Armazenamento e Blocos (64 mb) , múltiplas
réplicas.
MapReduce
• Modelo de programação desenhado para
processor grandes volumes de dados (Paralelo e
Distribuído.
• Map e Reduce
Hadoop – Infra Cluster
De onde veio o nome “Hadoop” ?
Docker e Kubernetes
Docker
• Empacota os binários, códigos, bibliotecas
• Open-Source escrita em GO
• Configure uma vez e replique N
• Diminui tempo de Deploy
• Ótimo para criação de Micro serviços
• Escala
Kubernetes
• Orquestração e gerenciamento para Dockers
• k8s (k + 8 caracteres + s) ou “kube”
• Criado pelo Google e cedido para a Apache
foundation
• Elimina grande parte do processo manual, para
implantar ou escalar container
Docker e Kubernetes
Docker Kubernetes
Big Data Cluster
SQL Server 2019
Proposito
Big Data gera mais valor, quando somado a dados do
mundo relacional.
É justamente esse o objetivo do BDC.
SQL Server 2019 - Big Data Cluster (BDC)
Conceitualmente:
• O BDC com aprimoramentos no PolyBase atuam como um hub de dados para
integrar dados estruturados e não estruturados - SQL Server, Oracle, Teradata,
MongoDB, HDFS.
• Permite implantar clusters escalonáveis de contêineres SQL Server, Spark e HDFS
em execução no Kubernetes.
• Os Clusters de Big Data do SQL Server unem o SQL Server às ferramentas de Big
Data padrão do setor em um pacote suportado pela Microsoft.
Big Data Cluster (BDC) – Arquitetura - Polybase
• PushDown – External Table
• Escalabilidade (elasticidade) no processamento dos dados na camada “Compute Plane”.
Big Data Cluster (BDC) – Arquitetura - Data Mart
• Scale-out Data Mart
• Polybase + BDC, External Table, Data Pool
• Combinando dados de vários origens
Big Data Cluster (BDC) - Arquitetura
Big Data Cluster (BDC) – Control Plane
• Controla o gerenciamento, segurança para o Cluster.
• Kubernetes Master
• SQL Server Master
• Hive Metadados
• Driver’s
• Grafana...
Big Data Cluster (BDC) – Compute Plane
• Fornece poder/recurso computacional para o cluster
• SQL Server em execução em Pods (Docker/Kubernetes)
• Conjuntos de Pods para processamento específicos (ex: Polybase)
• Scale-out para consultas distribuídas
Big Data Cluster (BDC) – Data Plane
• Persistência de dados e armazenamento em cache:
• SQL Data Pool:
• Pods SQL Server Linux
• Dados em Shared + Desempenho
• Data Marts (Retorno dos Polybases) – Joins com o mundo Relacional
• Storage Pool:
• Pods (SQL + Spark + HDFS)
• Ingestão de dados via Spark
• Acesso a dados por meio de Endpoints do HDFS e SQL Server
Big Data Cluster (BDC)
Big Data Cluster (BDC) - Gerenciamento
Big Data Cluster (BDC)
Minha visão de Futuro
BDC – Big Data
Big Data Cluster (BDC) – Links para estudo
• https://key2consulting.com/sql-server-2019-big-data-review/
• https://xaviergeerinck.com/sql-server-2019-big-data-clusters
• https://myignite.techcommunity.microsoft.com/sessions/65967?source=sessions
• https://onlineitguru.com/blog/highlights-of-sql-server-2019
• https://cloudblogs.microsoft.com/sqlserver/2018/09/25/introducing-microsoft-sql-server-2019-big-
data-clusters/
• https://github.com/Microsoft/sqlworkshops/blob/master/sqlserver2019bigdataclusters/SQL2019BDC
/01%20-%20The%20Big%20Data%20Landscape.md
• www.dataisbig.com.br
https://sqlservervnexteap.azurewebsites.net/
Valeu Galera
Luiz Henrique Garetti
@luizhgaretti
www.dataisbig.com.br
luizhrosario@gmail.com.br
Bom evento!!!

Sql server 2019 big data cluster

  • 1.
    SQL Server 2019 BigData Cluster Luiz Henrique Garetti
  • 3.
    sys.stdout.write (“Luiz") Bacharel emCiências da Computação; MBA em Big Data; www.dataisbig.com.br www.Imasters.com.br ‘s “Ecossistema Big Data” “SQL Server” “Desenvolvimento”
  • 4.
  • 5.
  • 7.
    MS quebrando paradigmas SQLServer 2014: • AlwaysOn (desde o 2012) • In-Memory (desde o 2012) • Integração com Azure SQL Server 2016: • Polybase • Json • R Services SQL Server 2017: • Linux e Docker • Python https://www.sqlshack.com/history-sql-server-evolution-sql-server-features/ SQL Server 2019: • Spark • Kubernetes • Polybase (expansão) • Big Data Cluster
  • 8.
  • 9.
    Big Data 3 V’s 5V’s “Big data são dados com maior variedade que chegam em volumes crescentes e com velocidade cada vez maior” Gartner
  • 10.
  • 11.
    Ecossistema Hadoop • FrameworkOpen-source mantido pela Apache • Processamento e armazenamento massivo • Escalabilidade, “Desempenho”, Flexibilidade, Baixo Custo -> Hadoop Common, -> Hadoop HDFS, -> Hadoop YARN, -> Hadoop MapReduce
  • 12.
    Hadoop HDFS (Hadoop DistributedFile System) • Sistema de arquivos escalável e distribuído. • Projeto Apache, Subprojeto do Hadoop. • Baseado no GFS (Google File System). • Processamento Massivo Paralelo (MPP). Armazenamento e Blocos (64 mb) , múltiplas réplicas. MapReduce • Modelo de programação desenhado para processor grandes volumes de dados (Paralelo e Distribuído. • Map e Reduce
  • 13.
  • 14.
    De onde veioo nome “Hadoop” ?
  • 15.
    Docker e Kubernetes Docker •Empacota os binários, códigos, bibliotecas • Open-Source escrita em GO • Configure uma vez e replique N • Diminui tempo de Deploy • Ótimo para criação de Micro serviços • Escala Kubernetes • Orquestração e gerenciamento para Dockers • k8s (k + 8 caracteres + s) ou “kube” • Criado pelo Google e cedido para a Apache foundation • Elimina grande parte do processo manual, para implantar ou escalar container
  • 16.
  • 17.
  • 18.
    Proposito Big Data geramais valor, quando somado a dados do mundo relacional. É justamente esse o objetivo do BDC.
  • 19.
    SQL Server 2019- Big Data Cluster (BDC) Conceitualmente: • O BDC com aprimoramentos no PolyBase atuam como um hub de dados para integrar dados estruturados e não estruturados - SQL Server, Oracle, Teradata, MongoDB, HDFS. • Permite implantar clusters escalonáveis de contêineres SQL Server, Spark e HDFS em execução no Kubernetes. • Os Clusters de Big Data do SQL Server unem o SQL Server às ferramentas de Big Data padrão do setor em um pacote suportado pela Microsoft.
  • 20.
    Big Data Cluster(BDC) – Arquitetura - Polybase • PushDown – External Table • Escalabilidade (elasticidade) no processamento dos dados na camada “Compute Plane”.
  • 21.
    Big Data Cluster(BDC) – Arquitetura - Data Mart • Scale-out Data Mart • Polybase + BDC, External Table, Data Pool • Combinando dados de vários origens
  • 22.
    Big Data Cluster(BDC) - Arquitetura
  • 23.
    Big Data Cluster(BDC) – Control Plane • Controla o gerenciamento, segurança para o Cluster. • Kubernetes Master • SQL Server Master • Hive Metadados • Driver’s • Grafana...
  • 24.
    Big Data Cluster(BDC) – Compute Plane • Fornece poder/recurso computacional para o cluster • SQL Server em execução em Pods (Docker/Kubernetes) • Conjuntos de Pods para processamento específicos (ex: Polybase) • Scale-out para consultas distribuídas
  • 25.
    Big Data Cluster(BDC) – Data Plane • Persistência de dados e armazenamento em cache: • SQL Data Pool: • Pods SQL Server Linux • Dados em Shared + Desempenho • Data Marts (Retorno dos Polybases) – Joins com o mundo Relacional • Storage Pool: • Pods (SQL + Spark + HDFS) • Ingestão de dados via Spark • Acesso a dados por meio de Endpoints do HDFS e SQL Server
  • 26.
  • 27.
    Big Data Cluster(BDC) - Gerenciamento
  • 28.
  • 29.
    Minha visão deFuturo BDC – Big Data
  • 30.
    Big Data Cluster(BDC) – Links para estudo • https://key2consulting.com/sql-server-2019-big-data-review/ • https://xaviergeerinck.com/sql-server-2019-big-data-clusters • https://myignite.techcommunity.microsoft.com/sessions/65967?source=sessions • https://onlineitguru.com/blog/highlights-of-sql-server-2019 • https://cloudblogs.microsoft.com/sqlserver/2018/09/25/introducing-microsoft-sql-server-2019-big- data-clusters/ • https://github.com/Microsoft/sqlworkshops/blob/master/sqlserver2019bigdataclusters/SQL2019BDC /01%20-%20The%20Big%20Data%20Landscape.md • www.dataisbig.com.br https://sqlservervnexteap.azurewebsites.net/
  • 31.
    Valeu Galera Luiz HenriqueGaretti @luizhgaretti www.dataisbig.com.br luizhrosario@gmail.com.br Bom evento!!!