SlideShare uma empresa Scribd logo
1 de 82
Baixar para ler offline
Engenharia de
Dados e Big Data
Carlos Viana
Formação
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Quais são os papéis no
ecossistema de Dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Papeis num projeto de Business intelligence (BI) / Big Data
Analista de Negócios Analista-desenvolvedor
de BI
Cientista de Dados Engenheiro de Dados Analista de Dados
Engenharia de Dados e Big Dados
Carlos Viana
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Definição
Refere-se ao processo de coleta, organização, análise, compartilhamento e
monitoramento de informações que oferecem suporte a gestão de negócios.
O objetivo do BI é permitir uma fácil interpretação do grande volume de dados.
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Definição
Big Data é o termo em Tecnologia da Informação (TI) que trata sobre grandes
conjuntos de dados que precisam ser processados e armazenados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Arquitetura de Big Data
Fonte: https://docs.microsoft.com/en-us/azure/architecture/guide/architecture-styles/big-data
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Ferramentas de Big Data da Azure
Data Factory
Pipelines
Orquestradores
ETL
Azure Synapse Analytics
Armazenamento de dados analíticos e
grande escala (Big Data)
Data Store
Data Lake
Blobs
Azure SQL
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Fundamento Teórico
+
Prática (Hands-On)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
(Hands-On) - Portal da
Azure
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Módulo 2 - Mapa do Curso
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Azure Data Lake
Storage Gen2
Azure Data Factory
Ingest
Azure Data Factory
Transform / Load
Azure SQL
Database Power BI
Pipeline
Mapping Data Flow
Transform / Load
Engenharia de Dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
1 - Buscar - Ingerir ----- Data Factory
2 - Guardar (Data Lake)
3 - Limpar (Data Flow)
4 - DW (Azure SQL)
5 - Relatórios (Power BI)
Encaixar a tecnologia correta!
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Big Data
Orchestration
Azure Data Factory
Pool de SQL
Serveless SQL Pool
Apache Spark Pool
Mapping Data Flow
Pool de SQL
Store
Computer
Data Lake
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Big Data
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Engenharia de Dados
Parte 1
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
(Hands-On) - Ferramentas
do DW Moderno
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Módulo 3 - Armazenamento
de dados na Azure
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Dados Estruturados
Dados Não-Estruturados
São aqueles organizados e representados com uma estrutura rígida, por exemplo um
banco de dados
São aqueles possuem estruturas flexíveis e dinâmicas ou, até mesmo, sem qualquer
estrutura. Ex. Imagem, arquivo de texto
Dados Semi-Estruturados
seria a combinação das duas estruturas, ou seja, não possuem estrutura totalmente rígida
nem estrutura totalmente flexível,
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Azure DataBase
Azure SQL Database
Azure Database para MySQL
Azure Database para PostgreSQL
Azure Cosmo DB
VM Images (Oracle, SQL Server etc)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Azure Storage Account
Blog Storage
Data Lake
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
O armazenamento de Blobs do Azure é a solução de armazenamento de objetos da Microsoft para
a nuvem.
O armazenamento de blob é otimizado para armazenar grandes quantidades de dados não
estruturados.
Blog Storage
Definição
Funcionalidades
Envio de imagens ou documentos diretamente para um navegador.
Armazenamento de arquivos para acesso distribuído.
Streaming de vídeo e áudio.
Gravando em arquivos de log.
Armazenamento de dados para backup e restauração, recuperação de desastres e arquivamento.
Armazenamento de dados para análise por um serviço local ou hospedado pelo Azure.
O armazenamento de blob é projetado para:
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Os usuários ou aplicativos clientes podem acessar objetos no armazenamento de Blob via HTTP /
HTTPS, de qualquer lugar do mundo por meio da API REST.
Blog Storage
Acesso aos dados
Organização
A conta de armazenamento
Um contêiner na conta de armazenamento
Um blob em um contêiner
O armazenamento de blob oferece três tipos de recursos:
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Uma solução de armazenamento projetada para análise de big data corporativa
O Azure Data Lake Storage Gen2 oferece um sistema de arquivos hierárquico, bem como as
vantagens do armazenamento de Blob, incluindo:
Definição
Funcionalidades
Projetado para análises corporativas de Big Data (na nuvem)
Armazenamento em camadas de baixo custo
Alta disponibilidade e segurança
Consistência forte
Recursos de recuperação de desastres
Solução de análise de big data (csv, json, parquet)
Data Lake
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Vantagens
Data Lake
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar Azure SQL DB e StoreAccount
Acessar (SSMS e Studio)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Módulo 4 - Azure Data
Factory
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
É o serviço de integração de dados e ETL baseado em nuvem que permite criar fluxos de trabalho
orientados a dados para orquestrar a movimentação de dados e transformá-los em escala
Data Factory
Definição
Pipelines
Activities
Datasets
Linked services
Data Flows
Integration Runtimes
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Azure Data Lake
Storage Gen2
Azure Data Factory
Ingest
Azure Data Factory
Transform / Load
Azure SQL
Database Power BI
Pipeline
Mapping Data Flow
Transform / Load
Engenharia de Dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Data Factory
Componentes
Pipelines
Activities
Datasets
Linked services
Data Flows
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar Data Factory
Mostrar os componentes
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Data Factory
Pipelines
Pipelines
Activities
Datasets
Linked services
Data Flows
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Data Factory
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Data Factory - Pipeline e Atividades
Um pipeline é um agrupamento lógico de atividades que, juntas, executam uma tarefa.
As atividades em um pipeline definem ações a serem executadas em seus dados.
Exemplo, você pode usar uma atividade de cópia de dados Armazenamento de Blob para Azure SQL Database
Definição
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Data Factory - Linked service e Dataset
Os linked service (serviços vinculados) são muito parecidos com cadeias de caracteres de conexão, que definem
as informações de conexão necessárias para o Data Factory se conectar a recursos externos.
Um Dataset (conjunto de dados) é uma visão nomeada de dados que simplesmente aponta ou faz referência aos
dados que você deseja usar em suas atividades como entradas e saídas.
Definição
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar Pipeline, Linked services,
Dataset, Ativicte
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
1 - Criar service (serviços vinculados) - Origem
2 - Criar service (serviços vinculados) - Destino
1 - Dataset - Origem
2 - Dataset - Destino
Pipeline Fluxo de dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Módulo 5 - Data Flow
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Data Flow
Os fluxos de dados de mapeamento são transformações de dados projetadas visualmente no Azure Data
Factory, que permitem que os engenheiros de dados desenvolvam lógica de transformação de dados sem
escrever código
Definição
https://docs.microsoft.com/en-us/azure/data-factory/data-flow-transformation-overview
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar Data Flow
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Azure Data Lake
Storage Gen2
Azure Data Factory
Ingest
Azure Data Factory
Transform / Load
Azure SQL
Database Power BI
Pipeline
Mapping Data Flow
Transform / Load
Engenharia de Dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Big Data
Parte 2
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Big Data
Orchestration
Azure Data Factory
Dedicated SQL Pool
Serveless SQL Pool
Apache Spark Pool
Mapping Data Flow
Dedicated SQL Pool
Store
Computer
Data Lake
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Azure
Synapse
Studio
Big
Data
Por que?
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Azure
Synapse
Studio
Processamento Analítico
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Módulo 6 - Azure Synapse
Analytics
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar ASA
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Azure Synapse Studio
É um serviço de análise corporativa que acelera o tempo de percepção em armazéns de dados (Data warehouse) e
sistemas de big data.
O Azure Synapse reúne o melhor das tecnologias SQL usadas em armazenamento de dados corporativos,
tecnologias Spark usadas para big data, Pipelines para integração de dados e ETL / ELT e integração profunda
com outros serviços do Azure, como Power BI , CosmosDB e AzureML .
Definição
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Componentes
Orchestration
Azure Data Factory
Dedicated SQL Pool
Serveless SQL Pool
Apache Spark Pool
Mapping Data Flow
Dedicated SQL Pool
Store
Computer
Data Lake
Azure Synapse Studio
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Azure Synapse Studio - Avançando
Resumindo
Azure Synapse Analytics é um serviço de análise que reúne
armazenamento de dados corporativos e análises de Big Data
1) Um serviço de análise - Usa alguma linguagem
2) Armazenamento de dados - Precisa de um local para guardar esses
dados
3) Análises de Big Data - Aquele fala do propósito do ASA
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Módulo 7 - Dedicated SQL
Pool (antigo Azure DW)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Dedicated SQL Pool
Pool de SQL dedicado (anteriormente SQL DW) refere-se aos recursos de
armazenamento de dados corporativos que estão disponíveis no ASA.
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Dedicated SQL Pool
Características
Você pode importar big data com consultas simples do PolyBase em T-SQL e,
em seguida, usar o poder do mecanismo de consulta distribuída para
executar análises de alto desempenho.
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Distribuiçoes
Distribuiçoes
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar PoolSQL,
Criar tabela dimensão e Inserir
dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
https://social.technet.microsoft.com/wiki/contents/a
rticles/40346.mpp-distribution-in-azure-sql-data-
warehouse.aspx
http://dinesql.blogspot.com/2017/08/azure-sql-data-
warehouse-part-ii.html
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Dedicated SQL Pool
Hash
Round-robin
Replication
Distribuição
Uma tabela distribuída aparece como uma única tabela, mas as linhas são, na
verdade, armazenadas em 60 distribuições
Index
Clustered columnstore index
Clustered index (Clustered Rowstore)
Non-clustered index (Heap)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
(usada com O tamanho da tabela no disco é inferior a 2 GB).
Hash
As tabelas distribuídas por hash melhoram o desempenho da consulta em grandes tabelas
de fatos
Round-robin
As tabelas round-robin são úteis para melhorar a velocidade de carregamento. Têm um
impacto significativo na melhoria do desempenho de consulta e carregamento.
Replication
Uma tabela replicada possui uma cópia completa da tabela acessível em cada nó Compute.
A replicação de uma tabela elimina a necessidade de transferir dados entre os nós
Distribuição de tabelas
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Para o treinamento maior
Tudo que pode ser feito em tabela (Criaçao de
tabela externa, Copy etc..)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Módulo 8 - Serveless SQL
Pool
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Serverless SQL Pool
Definição
O pool SQL sem servidor é um serviço de consulta sobre os dados em seu
data lake. Ele permite que você acesse seus dados por meio da linguagem
T-SQL
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Serverless SQL Pool
Função OPENROWSET - Bulk IN)
A OPENROWSET(BULK...)função permite que você acesse arquivos no
Armazenamento do Azure.
Essa função lê o conteúdo de uma fonte de dados remota (por exemplo,
arquivo) e retorna o conteúdo como um conjunto de linhas.
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Serverless SQL Pool
Sintaxe - OPENROWSET - Bulk )
SELECT
*
FROM OPENROWSET(
BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-
19/ecdc_cases/latest/ecdc_cases.csv',
FORMAT = 'CSV',
PARSER_VERSION = '2.0',
HEADER_ROW = TRUE) as [r]
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Consultas no Serverless PoolSQL,
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Módulo 9 - Apache Spark
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Apache Spark
Apache Spark é uma estrutura de processamento paralelo que oferece suporte ao processamento na memória para
impulsionar o desempenho de aplicativos analíticos de big data.
O Spark também se integra a várias linguagens de programação para permitir que você manipule conjuntos de dados
distribuídos como coleções locais
Definição
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Apache Spark
- Processamento paralelo
- Processamento na memória
- Utilizar múltiplas linguagens (C #, Scala, PySpark, Spark SQL)
- Ele agregava valor, principalmente para ML
Poder
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Trabalhar com Apache Spark
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Thank you!
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Obrigado!
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
O Projeto do Curso
Porque aprender com um
projeto prático e não com a
aulas teóricas tradicionais?
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
MARKETING STARS
DIGITAL SCHOOL
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
MARKETING STARS
DIGITAL SCHOOL
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
MARKETING STARS
DIGITAL SCHOOL
É importante para nós, sabermos o valor das vendas por certas dimensões
É importante para nós, sabermos o valor das vendas por certas dimensões
Saber quais os estados do Brasil que mais vendem?
Saber quais os estados do Brasil que mais vendem?
Quais os melhores afiliados (os que mais vendem)?
Quais os melhores afiliados (os que mais vendem)?
Os produtos mais rentáveis (os que tem maior faturamento)?
Os produtos mais rentáveis (os que tem maior faturamento)?
Controle de vendas por tipo de pagamento (à vista, parcelado e assinatura)?
Controle de vendas por tipo de pagamento (à vista, parcelado e assinatura)?
- Quantidade de Vendas
- Quantidade de Vendas
- Faturamento de Vendas
- Faturamento de Vendas
- Por Produto
- Por Produto
- Por Estado
- Por Estado
- Por Afiliado
- Por Afiliado
- Por Tempo
- Por Tempo
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
MARKETING STARS
DIGITAL SCHOOL
Bônus
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Andy Cruz
Founder
Phoenix Martin
Chief Executive Officer
Wyatt Meyer
Head of Engineering
Meet our Team
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Agenda da Formação
Introdução à Inteligência de Negócios (BI)
O Projeto do Curso - Marketing Starts
Modelagem do DW - Aplicado ao Projeto
Arquitetura do BI - Aplicado ao Projeto
da Marketing Starts
Parte 1
Parte 2
Parte 3
Parte 4
Desenvolvimento do Projeto ETL (SSIS)
Parte 5
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
Use these free recolorable
icons and illustrations in
your Canva design
Free
Resources
Page
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
contato@carlosviana.com.br
@carlosviana_
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22

Mais conteúdo relacionado

Semelhante a Formação Material Utilizado.pdf

Palestra Introdução ao Microsoft Azure - Senac Lapa
Palestra Introdução ao Microsoft Azure - Senac LapaPalestra Introdução ao Microsoft Azure - Senac Lapa
Palestra Introdução ao Microsoft Azure - Senac LapaFábio dos Reis
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
 
Integração: IoT Central + CosmosDB + Power BI - Dicas, desafios e boas práticas.
Integração: IoT Central + CosmosDB + Power BI - Dicas, desafios e boas práticas.Integração: IoT Central + CosmosDB + Power BI - Dicas, desafios e boas práticas.
Integração: IoT Central + CosmosDB + Power BI - Dicas, desafios e boas práticas.Walter Coan
 
Zabbix Conference LatAm 2016 - Paulo Deolindo - Case Study_BBTS and Zabbix
Zabbix Conference LatAm 2016 - Paulo Deolindo - Case Study_BBTS and ZabbixZabbix Conference LatAm 2016 - Paulo Deolindo - Case Study_BBTS and Zabbix
Zabbix Conference LatAm 2016 - Paulo Deolindo - Case Study_BBTS and ZabbixZabbix
 
Novidades da plataforma Azure IoT
Novidades da plataforma Azure IoTNovidades da plataforma Azure IoT
Novidades da plataforma Azure IoTWalter Coan
 
Funcionalidades de Acesso a Dados no 'Mango'
Funcionalidades de Acesso a Dados no 'Mango'Funcionalidades de Acesso a Dados no 'Mango'
Funcionalidades de Acesso a Dados no 'Mango'C. Augusto Proiete
 
Desenvolvendo para o Windows Azure e SQL Azure
Desenvolvendo para o Windows Azure e SQL AzureDesenvolvendo para o Windows Azure e SQL Azure
Desenvolvendo para o Windows Azure e SQL AzureLuciano Condé
 
Introdução à computação na nuvem e Windows Azure
Introdução à computação na nuvem e Windows AzureIntrodução à computação na nuvem e Windows Azure
Introdução à computação na nuvem e Windows AzureGiovanni Bassi
 
Deal_GS1_Sprint0_20190905.pptx
Deal_GS1_Sprint0_20190905.pptxDeal_GS1_Sprint0_20190905.pptx
Deal_GS1_Sprint0_20190905.pptxDoisbagus2bagus
 
Alta disponibilidade com bancos de dados relacionais no Azure
Alta disponibilidade com bancos de dados relacionais no AzureAlta disponibilidade com bancos de dados relacionais no Azure
Alta disponibilidade com bancos de dados relacionais no AzureRubens Guimarães - MTAC MVP
 
Proj storage&backups&consolidaservidores&as400&pcov3
Proj storage&backups&consolidaservidores&as400&pcov3Proj storage&backups&consolidaservidores&as400&pcov3
Proj storage&backups&consolidaservidores&as400&pcov3Francisco Gonçalves
 
Proj Storage&Backups&Consolida Servidores&As400&Pcov3
Proj Storage&Backups&Consolida Servidores&As400&Pcov3Proj Storage&Backups&Consolida Servidores&As400&Pcov3
Proj Storage&Backups&Consolida Servidores&As400&Pcov3Francisco Gonçalves
 

Semelhante a Formação Material Utilizado.pdf (20)

Palestra Introdução ao Microsoft Azure - Senac Lapa
Palestra Introdução ao Microsoft Azure - Senac LapaPalestra Introdução ao Microsoft Azure - Senac Lapa
Palestra Introdução ao Microsoft Azure - Senac Lapa
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
 
Microsoft Power BI
Microsoft Power BIMicrosoft Power BI
Microsoft Power BI
 
Microsoft Power BI
Microsoft Power BIMicrosoft Power BI
Microsoft Power BI
 
Integração: IoT Central + CosmosDB + Power BI - Dicas, desafios e boas práticas.
Integração: IoT Central + CosmosDB + Power BI - Dicas, desafios e boas práticas.Integração: IoT Central + CosmosDB + Power BI - Dicas, desafios e boas práticas.
Integração: IoT Central + CosmosDB + Power BI - Dicas, desafios e boas práticas.
 
DP-900-BR-01.pptx
DP-900-BR-01.pptxDP-900-BR-01.pptx
DP-900-BR-01.pptx
 
Zabbix Conference LatAm 2016 - Paulo Deolindo - Case Study_BBTS and Zabbix
Zabbix Conference LatAm 2016 - Paulo Deolindo - Case Study_BBTS and ZabbixZabbix Conference LatAm 2016 - Paulo Deolindo - Case Study_BBTS and Zabbix
Zabbix Conference LatAm 2016 - Paulo Deolindo - Case Study_BBTS and Zabbix
 
Novidades da plataforma Azure IoT
Novidades da plataforma Azure IoTNovidades da plataforma Azure IoT
Novidades da plataforma Azure IoT
 
Funcionalidades de Acesso a Dados no 'Mango'
Funcionalidades de Acesso a Dados no 'Mango'Funcionalidades de Acesso a Dados no 'Mango'
Funcionalidades de Acesso a Dados no 'Mango'
 
IDC Summit 2015 - DBaaS
IDC Summit 2015 - DBaaSIDC Summit 2015 - DBaaS
IDC Summit 2015 - DBaaS
 
Desenvolvendo para o Windows Azure e SQL Azure
Desenvolvendo para o Windows Azure e SQL AzureDesenvolvendo para o Windows Azure e SQL Azure
Desenvolvendo para o Windows Azure e SQL Azure
 
Introdução à computação na nuvem e Windows Azure
Introdução à computação na nuvem e Windows AzureIntrodução à computação na nuvem e Windows Azure
Introdução à computação na nuvem e Windows Azure
 
Construindo um data lake na nuvem aws
Construindo um data lake na nuvem awsConstruindo um data lake na nuvem aws
Construindo um data lake na nuvem aws
 
josecws
josecwsjosecws
josecws
 
Banco de Dados - NoSQL
Banco de Dados - NoSQLBanco de Dados - NoSQL
Banco de Dados - NoSQL
 
Deal_GS1_Sprint0_20190905.pptx
Deal_GS1_Sprint0_20190905.pptxDeal_GS1_Sprint0_20190905.pptx
Deal_GS1_Sprint0_20190905.pptx
 
Bancos de Dados no Azure - Arquiteturas
Bancos de Dados no Azure - ArquiteturasBancos de Dados no Azure - Arquiteturas
Bancos de Dados no Azure - Arquiteturas
 
Alta disponibilidade com bancos de dados relacionais no Azure
Alta disponibilidade com bancos de dados relacionais no AzureAlta disponibilidade com bancos de dados relacionais no Azure
Alta disponibilidade com bancos de dados relacionais no Azure
 
Proj storage&backups&consolidaservidores&as400&pcov3
Proj storage&backups&consolidaservidores&as400&pcov3Proj storage&backups&consolidaservidores&as400&pcov3
Proj storage&backups&consolidaservidores&as400&pcov3
 
Proj Storage&Backups&Consolida Servidores&As400&Pcov3
Proj Storage&Backups&Consolida Servidores&As400&Pcov3Proj Storage&Backups&Consolida Servidores&As400&Pcov3
Proj Storage&Backups&Consolida Servidores&As400&Pcov3
 

Formação Material Utilizado.pdf

  • 1. Engenharia de Dados e Big Data Carlos Viana Formação WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 2. Quais são os papéis no ecossistema de Dados WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 3. Papeis num projeto de Business intelligence (BI) / Big Data Analista de Negócios Analista-desenvolvedor de BI Cientista de Dados Engenheiro de Dados Analista de Dados Engenharia de Dados e Big Dados Carlos Viana WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 4. Definição Refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. O objetivo do BI é permitir uma fácil interpretação do grande volume de dados. WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 5. Definição Big Data é o termo em Tecnologia da Informação (TI) que trata sobre grandes conjuntos de dados que precisam ser processados e armazenados WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 6. Arquitetura de Big Data Fonte: https://docs.microsoft.com/en-us/azure/architecture/guide/architecture-styles/big-data WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 7. Ferramentas de Big Data da Azure Data Factory Pipelines Orquestradores ETL Azure Synapse Analytics Armazenamento de dados analíticos e grande escala (Big Data) Data Store Data Lake Blobs Azure SQL WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 8. Formação Engenharia da Dados e Big Data Fundamento Teórico + Prática (Hands-On) WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 9. Formação Engenharia da Dados e Big Data (Hands-On) - Portal da Azure WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 10. Formação Engenharia da Dados e Big Data Módulo 2 - Mapa do Curso WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 11. Azure Data Lake Storage Gen2 Azure Data Factory Ingest Azure Data Factory Transform / Load Azure SQL Database Power BI Pipeline Mapping Data Flow Transform / Load Engenharia de Dados WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 12. 1 - Buscar - Ingerir ----- Data Factory 2 - Guardar (Data Lake) 3 - Limpar (Data Flow) 4 - DW (Azure SQL) 5 - Relatórios (Power BI) Encaixar a tecnologia correta! WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 13. Big Data Orchestration Azure Data Factory Pool de SQL Serveless SQL Pool Apache Spark Pool Mapping Data Flow Pool de SQL Store Computer Data Lake WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 14. Big Data WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 15. Formação Engenharia da Dados e Big Data Engenharia de Dados Parte 1 WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 16. Formação Engenharia da Dados e Big Data (Hands-On) - Ferramentas do DW Moderno WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 17. Formação Engenharia da Dados e Big Data Módulo 3 - Armazenamento de dados na Azure WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 18. WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 19. Dados Estruturados Dados Não-Estruturados São aqueles organizados e representados com uma estrutura rígida, por exemplo um banco de dados São aqueles possuem estruturas flexíveis e dinâmicas ou, até mesmo, sem qualquer estrutura. Ex. Imagem, arquivo de texto Dados Semi-Estruturados seria a combinação das duas estruturas, ou seja, não possuem estrutura totalmente rígida nem estrutura totalmente flexível, WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 20. Azure DataBase Azure SQL Database Azure Database para MySQL Azure Database para PostgreSQL Azure Cosmo DB VM Images (Oracle, SQL Server etc) WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 21. Azure Storage Account Blog Storage Data Lake WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 22. O armazenamento de Blobs do Azure é a solução de armazenamento de objetos da Microsoft para a nuvem. O armazenamento de blob é otimizado para armazenar grandes quantidades de dados não estruturados. Blog Storage Definição Funcionalidades Envio de imagens ou documentos diretamente para um navegador. Armazenamento de arquivos para acesso distribuído. Streaming de vídeo e áudio. Gravando em arquivos de log. Armazenamento de dados para backup e restauração, recuperação de desastres e arquivamento. Armazenamento de dados para análise por um serviço local ou hospedado pelo Azure. O armazenamento de blob é projetado para: WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 23. Os usuários ou aplicativos clientes podem acessar objetos no armazenamento de Blob via HTTP / HTTPS, de qualquer lugar do mundo por meio da API REST. Blog Storage Acesso aos dados Organização A conta de armazenamento Um contêiner na conta de armazenamento Um blob em um contêiner O armazenamento de blob oferece três tipos de recursos: WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 24. Uma solução de armazenamento projetada para análise de big data corporativa O Azure Data Lake Storage Gen2 oferece um sistema de arquivos hierárquico, bem como as vantagens do armazenamento de Blob, incluindo: Definição Funcionalidades Projetado para análises corporativas de Big Data (na nuvem) Armazenamento em camadas de baixo custo Alta disponibilidade e segurança Consistência forte Recursos de recuperação de desastres Solução de análise de big data (csv, json, parquet) Data Lake WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 25. Vantagens Data Lake WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 26. Formação Engenharia da Dados e Big Data Prática (Hands-On) - Criar Azure SQL DB e StoreAccount Acessar (SSMS e Studio) WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 27. Formação Engenharia da Dados e Big Data Módulo 4 - Azure Data Factory WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 28. É o serviço de integração de dados e ETL baseado em nuvem que permite criar fluxos de trabalho orientados a dados para orquestrar a movimentação de dados e transformá-los em escala Data Factory Definição Pipelines Activities Datasets Linked services Data Flows Integration Runtimes WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 29. Azure Data Lake Storage Gen2 Azure Data Factory Ingest Azure Data Factory Transform / Load Azure SQL Database Power BI Pipeline Mapping Data Flow Transform / Load Engenharia de Dados WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 30. Data Factory Componentes Pipelines Activities Datasets Linked services Data Flows WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 31. Formação Engenharia da Dados e Big Data Prática (Hands-On) - Criar Data Factory Mostrar os componentes WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 32. Data Factory Pipelines Pipelines Activities Datasets Linked services Data Flows WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 33. Data Factory WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 34. Data Factory - Pipeline e Atividades Um pipeline é um agrupamento lógico de atividades que, juntas, executam uma tarefa. As atividades em um pipeline definem ações a serem executadas em seus dados. Exemplo, você pode usar uma atividade de cópia de dados Armazenamento de Blob para Azure SQL Database Definição WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 35. Data Factory - Linked service e Dataset Os linked service (serviços vinculados) são muito parecidos com cadeias de caracteres de conexão, que definem as informações de conexão necessárias para o Data Factory se conectar a recursos externos. Um Dataset (conjunto de dados) é uma visão nomeada de dados que simplesmente aponta ou faz referência aos dados que você deseja usar em suas atividades como entradas e saídas. Definição WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 36. Formação Engenharia da Dados e Big Data Prática (Hands-On) - Criar Pipeline, Linked services, Dataset, Ativicte WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 37. 1 - Criar service (serviços vinculados) - Origem 2 - Criar service (serviços vinculados) - Destino 1 - Dataset - Origem 2 - Dataset - Destino Pipeline Fluxo de dados WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 38. Formação Engenharia da Dados e Big Data Módulo 5 - Data Flow WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 39. Data Flow Os fluxos de dados de mapeamento são transformações de dados projetadas visualmente no Azure Data Factory, que permitem que os engenheiros de dados desenvolvam lógica de transformação de dados sem escrever código Definição https://docs.microsoft.com/en-us/azure/data-factory/data-flow-transformation-overview WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 40. Formação Engenharia da Dados e Big Data Prática (Hands-On) - Criar Data Flow WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 41. Azure Data Lake Storage Gen2 Azure Data Factory Ingest Azure Data Factory Transform / Load Azure SQL Database Power BI Pipeline Mapping Data Flow Transform / Load Engenharia de Dados WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 42. Formação Engenharia da Dados e Big Data Big Data Parte 2 WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 43. Big Data Orchestration Azure Data Factory Dedicated SQL Pool Serveless SQL Pool Apache Spark Pool Mapping Data Flow Dedicated SQL Pool Store Computer Data Lake WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 44. Azure Synapse Studio Big Data Por que? WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 45. Azure Synapse Studio Processamento Analítico WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 46. Formação Engenharia da Dados e Big Data Módulo 6 - Azure Synapse Analytics WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 47. Formação Engenharia da Dados e Big Data Prática (Hands-On) - Criar ASA WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 48. Azure Synapse Studio É um serviço de análise corporativa que acelera o tempo de percepção em armazéns de dados (Data warehouse) e sistemas de big data. O Azure Synapse reúne o melhor das tecnologias SQL usadas em armazenamento de dados corporativos, tecnologias Spark usadas para big data, Pipelines para integração de dados e ETL / ELT e integração profunda com outros serviços do Azure, como Power BI , CosmosDB e AzureML . Definição WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 49. WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 50. Componentes Orchestration Azure Data Factory Dedicated SQL Pool Serveless SQL Pool Apache Spark Pool Mapping Data Flow Dedicated SQL Pool Store Computer Data Lake Azure Synapse Studio WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 51. Azure Synapse Studio - Avançando Resumindo Azure Synapse Analytics é um serviço de análise que reúne armazenamento de dados corporativos e análises de Big Data 1) Um serviço de análise - Usa alguma linguagem 2) Armazenamento de dados - Precisa de um local para guardar esses dados 3) Análises de Big Data - Aquele fala do propósito do ASA WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 52. Formação Engenharia da Dados e Big Data Módulo 7 - Dedicated SQL Pool (antigo Azure DW) WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 53. Dedicated SQL Pool Pool de SQL dedicado (anteriormente SQL DW) refere-se aos recursos de armazenamento de dados corporativos que estão disponíveis no ASA. WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 54. Dedicated SQL Pool Características Você pode importar big data com consultas simples do PolyBase em T-SQL e, em seguida, usar o poder do mecanismo de consulta distribuída para executar análises de alto desempenho. WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 55. Distribuiçoes Distribuiçoes WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 56. WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 57. Formação Engenharia da Dados e Big Data Prática (Hands-On) - Criar PoolSQL, Criar tabela dimensão e Inserir dados WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 59. Dedicated SQL Pool Hash Round-robin Replication Distribuição Uma tabela distribuída aparece como uma única tabela, mas as linhas são, na verdade, armazenadas em 60 distribuições Index Clustered columnstore index Clustered index (Clustered Rowstore) Non-clustered index (Heap) WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 60. (usada com O tamanho da tabela no disco é inferior a 2 GB). Hash As tabelas distribuídas por hash melhoram o desempenho da consulta em grandes tabelas de fatos Round-robin As tabelas round-robin são úteis para melhorar a velocidade de carregamento. Têm um impacto significativo na melhoria do desempenho de consulta e carregamento. Replication Uma tabela replicada possui uma cópia completa da tabela acessível em cada nó Compute. A replicação de uma tabela elimina a necessidade de transferir dados entre os nós Distribuição de tabelas WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 61. Para o treinamento maior Tudo que pode ser feito em tabela (Criaçao de tabela externa, Copy etc..) WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 62. Formação Engenharia da Dados e Big Data Módulo 8 - Serveless SQL Pool WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 63. WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 64. Serverless SQL Pool Definição O pool SQL sem servidor é um serviço de consulta sobre os dados em seu data lake. Ele permite que você acesse seus dados por meio da linguagem T-SQL WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 65. Serverless SQL Pool Função OPENROWSET - Bulk IN) A OPENROWSET(BULK...)função permite que você acesse arquivos no Armazenamento do Azure. Essa função lê o conteúdo de uma fonte de dados remota (por exemplo, arquivo) e retorna o conteúdo como um conjunto de linhas. WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 66. Serverless SQL Pool Sintaxe - OPENROWSET - Bulk ) SELECT * FROM OPENROWSET( BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid- 19/ecdc_cases/latest/ecdc_cases.csv', FORMAT = 'CSV', PARSER_VERSION = '2.0', HEADER_ROW = TRUE) as [r] WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 67. Formação Engenharia da Dados e Big Data Prática (Hands-On) - Consultas no Serverless PoolSQL, WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 68. Formação Engenharia da Dados e Big Data Módulo 9 - Apache Spark WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 69. Apache Spark Apache Spark é uma estrutura de processamento paralelo que oferece suporte ao processamento na memória para impulsionar o desempenho de aplicativos analíticos de big data. O Spark também se integra a várias linguagens de programação para permitir que você manipule conjuntos de dados distribuídos como coleções locais Definição WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 70. Apache Spark - Processamento paralelo - Processamento na memória - Utilizar múltiplas linguagens (C #, Scala, PySpark, Spark SQL) - Ele agregava valor, principalmente para ML Poder WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 71. Formação Engenharia da Dados e Big Data Prática (Hands-On) - Trabalhar com Apache Spark WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 72. Thank you! WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 73. Obrigado! WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 74. O Projeto do Curso Porque aprender com um projeto prático e não com a aulas teóricas tradicionais? WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 75. MARKETING STARS DIGITAL SCHOOL WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 76. MARKETING STARS DIGITAL SCHOOL WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 77. MARKETING STARS DIGITAL SCHOOL É importante para nós, sabermos o valor das vendas por certas dimensões É importante para nós, sabermos o valor das vendas por certas dimensões Saber quais os estados do Brasil que mais vendem? Saber quais os estados do Brasil que mais vendem? Quais os melhores afiliados (os que mais vendem)? Quais os melhores afiliados (os que mais vendem)? Os produtos mais rentáveis (os que tem maior faturamento)? Os produtos mais rentáveis (os que tem maior faturamento)? Controle de vendas por tipo de pagamento (à vista, parcelado e assinatura)? Controle de vendas por tipo de pagamento (à vista, parcelado e assinatura)? - Quantidade de Vendas - Quantidade de Vendas - Faturamento de Vendas - Faturamento de Vendas - Por Produto - Por Produto - Por Estado - Por Estado - Por Afiliado - Por Afiliado - Por Tempo - Por Tempo WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 78. MARKETING STARS DIGITAL SCHOOL Bônus WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 79. Andy Cruz Founder Phoenix Martin Chief Executive Officer Wyatt Meyer Head of Engineering Meet our Team WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 80. Agenda da Formação Introdução à Inteligência de Negócios (BI) O Projeto do Curso - Marketing Starts Modelagem do DW - Aplicado ao Projeto Arquitetura do BI - Aplicado ao Projeto da Marketing Starts Parte 1 Parte 2 Parte 3 Parte 4 Desenvolvimento do Projeto ETL (SSIS) Parte 5 WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 81. Use these free recolorable icons and illustrations in your Canva design Free Resources Page WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
  • 82. contato@carlosviana.com.br @carlosviana_ WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22