1. Engenharia de
Dados e Big Data
Carlos Viana
Formação
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
2. Quais são os papéis no
ecossistema de Dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
3. Papeis num projeto de Business intelligence (BI) / Big Data
Analista de Negócios Analista-desenvolvedor
de BI
Cientista de Dados Engenheiro de Dados Analista de Dados
Engenharia de Dados e Big Dados
Carlos Viana
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
4. Definição
Refere-se ao processo de coleta, organização, análise, compartilhamento e
monitoramento de informações que oferecem suporte a gestão de negócios.
O objetivo do BI é permitir uma fácil interpretação do grande volume de dados.
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
5. Definição
Big Data é o termo em Tecnologia da Informação (TI) que trata sobre grandes
conjuntos de dados que precisam ser processados e armazenados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
6. Arquitetura de Big Data
Fonte: https://docs.microsoft.com/en-us/azure/architecture/guide/architecture-styles/big-data
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
7. Ferramentas de Big Data da Azure
Data Factory
Pipelines
Orquestradores
ETL
Azure Synapse Analytics
Armazenamento de dados analíticos e
grande escala (Big Data)
Data Store
Data Lake
Blobs
Azure SQL
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
8. Formação Engenharia da Dados e Big Data
Fundamento Teórico
+
Prática (Hands-On)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
9. Formação Engenharia da Dados e Big Data
(Hands-On) - Portal da
Azure
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
10. Formação Engenharia da Dados e Big Data
Módulo 2 - Mapa do Curso
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
11. Azure Data Lake
Storage Gen2
Azure Data Factory
Ingest
Azure Data Factory
Transform / Load
Azure SQL
Database Power BI
Pipeline
Mapping Data Flow
Transform / Load
Engenharia de Dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
13. Big Data
Orchestration
Azure Data Factory
Pool de SQL
Serveless SQL Pool
Apache Spark Pool
Mapping Data Flow
Pool de SQL
Store
Computer
Data Lake
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
15. Formação Engenharia da Dados e Big Data
Engenharia de Dados
Parte 1
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
16. Formação Engenharia da Dados e Big Data
(Hands-On) - Ferramentas
do DW Moderno
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
17. Formação Engenharia da Dados e Big Data
Módulo 3 - Armazenamento
de dados na Azure
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
19. Dados Estruturados
Dados Não-Estruturados
São aqueles organizados e representados com uma estrutura rígida, por exemplo um
banco de dados
São aqueles possuem estruturas flexíveis e dinâmicas ou, até mesmo, sem qualquer
estrutura. Ex. Imagem, arquivo de texto
Dados Semi-Estruturados
seria a combinação das duas estruturas, ou seja, não possuem estrutura totalmente rígida
nem estrutura totalmente flexível,
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
20. Azure DataBase
Azure SQL Database
Azure Database para MySQL
Azure Database para PostgreSQL
Azure Cosmo DB
VM Images (Oracle, SQL Server etc)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
21. Azure Storage Account
Blog Storage
Data Lake
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
22. O armazenamento de Blobs do Azure é a solução de armazenamento de objetos da Microsoft para
a nuvem.
O armazenamento de blob é otimizado para armazenar grandes quantidades de dados não
estruturados.
Blog Storage
Definição
Funcionalidades
Envio de imagens ou documentos diretamente para um navegador.
Armazenamento de arquivos para acesso distribuído.
Streaming de vídeo e áudio.
Gravando em arquivos de log.
Armazenamento de dados para backup e restauração, recuperação de desastres e arquivamento.
Armazenamento de dados para análise por um serviço local ou hospedado pelo Azure.
O armazenamento de blob é projetado para:
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
23. Os usuários ou aplicativos clientes podem acessar objetos no armazenamento de Blob via HTTP /
HTTPS, de qualquer lugar do mundo por meio da API REST.
Blog Storage
Acesso aos dados
Organização
A conta de armazenamento
Um contêiner na conta de armazenamento
Um blob em um contêiner
O armazenamento de blob oferece três tipos de recursos:
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
24. Uma solução de armazenamento projetada para análise de big data corporativa
O Azure Data Lake Storage Gen2 oferece um sistema de arquivos hierárquico, bem como as
vantagens do armazenamento de Blob, incluindo:
Definição
Funcionalidades
Projetado para análises corporativas de Big Data (na nuvem)
Armazenamento em camadas de baixo custo
Alta disponibilidade e segurança
Consistência forte
Recursos de recuperação de desastres
Solução de análise de big data (csv, json, parquet)
Data Lake
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
26. Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar Azure SQL DB e StoreAccount
Acessar (SSMS e Studio)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
27. Formação Engenharia da Dados e Big Data
Módulo 4 - Azure Data
Factory
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
28. É o serviço de integração de dados e ETL baseado em nuvem que permite criar fluxos de trabalho
orientados a dados para orquestrar a movimentação de dados e transformá-los em escala
Data Factory
Definição
Pipelines
Activities
Datasets
Linked services
Data Flows
Integration Runtimes
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
29. Azure Data Lake
Storage Gen2
Azure Data Factory
Ingest
Azure Data Factory
Transform / Load
Azure SQL
Database Power BI
Pipeline
Mapping Data Flow
Transform / Load
Engenharia de Dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
31. Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar Data Factory
Mostrar os componentes
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
34. Data Factory - Pipeline e Atividades
Um pipeline é um agrupamento lógico de atividades que, juntas, executam uma tarefa.
As atividades em um pipeline definem ações a serem executadas em seus dados.
Exemplo, você pode usar uma atividade de cópia de dados Armazenamento de Blob para Azure SQL Database
Definição
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
35. Data Factory - Linked service e Dataset
Os linked service (serviços vinculados) são muito parecidos com cadeias de caracteres de conexão, que definem
as informações de conexão necessárias para o Data Factory se conectar a recursos externos.
Um Dataset (conjunto de dados) é uma visão nomeada de dados que simplesmente aponta ou faz referência aos
dados que você deseja usar em suas atividades como entradas e saídas.
Definição
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
36. Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar Pipeline, Linked services,
Dataset, Ativicte
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
37. 1 - Criar service (serviços vinculados) - Origem
2 - Criar service (serviços vinculados) - Destino
1 - Dataset - Origem
2 - Dataset - Destino
Pipeline Fluxo de dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
38. Formação Engenharia da Dados e Big Data
Módulo 5 - Data Flow
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
39. Data Flow
Os fluxos de dados de mapeamento são transformações de dados projetadas visualmente no Azure Data
Factory, que permitem que os engenheiros de dados desenvolvam lógica de transformação de dados sem
escrever código
Definição
https://docs.microsoft.com/en-us/azure/data-factory/data-flow-transformation-overview
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
40. Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar Data Flow
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
41. Azure Data Lake
Storage Gen2
Azure Data Factory
Ingest
Azure Data Factory
Transform / Load
Azure SQL
Database Power BI
Pipeline
Mapping Data Flow
Transform / Load
Engenharia de Dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
42. Formação Engenharia da Dados e Big Data
Big Data
Parte 2
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
43. Big Data
Orchestration
Azure Data Factory
Dedicated SQL Pool
Serveless SQL Pool
Apache Spark Pool
Mapping Data Flow
Dedicated SQL Pool
Store
Computer
Data Lake
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
46. Formação Engenharia da Dados e Big Data
Módulo 6 - Azure Synapse
Analytics
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
47. Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar ASA
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
48. Azure Synapse Studio
É um serviço de análise corporativa que acelera o tempo de percepção em armazéns de dados (Data warehouse) e
sistemas de big data.
O Azure Synapse reúne o melhor das tecnologias SQL usadas em armazenamento de dados corporativos,
tecnologias Spark usadas para big data, Pipelines para integração de dados e ETL / ELT e integração profunda
com outros serviços do Azure, como Power BI , CosmosDB e AzureML .
Definição
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
50. Componentes
Orchestration
Azure Data Factory
Dedicated SQL Pool
Serveless SQL Pool
Apache Spark Pool
Mapping Data Flow
Dedicated SQL Pool
Store
Computer
Data Lake
Azure Synapse Studio
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
51. Azure Synapse Studio - Avançando
Resumindo
Azure Synapse Analytics é um serviço de análise que reúne
armazenamento de dados corporativos e análises de Big Data
1) Um serviço de análise - Usa alguma linguagem
2) Armazenamento de dados - Precisa de um local para guardar esses
dados
3) Análises de Big Data - Aquele fala do propósito do ASA
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
52. Formação Engenharia da Dados e Big Data
Módulo 7 - Dedicated SQL
Pool (antigo Azure DW)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
53. Dedicated SQL Pool
Pool de SQL dedicado (anteriormente SQL DW) refere-se aos recursos de
armazenamento de dados corporativos que estão disponíveis no ASA.
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
54. Dedicated SQL Pool
Características
Você pode importar big data com consultas simples do PolyBase em T-SQL e,
em seguida, usar o poder do mecanismo de consulta distribuída para
executar análises de alto desempenho.
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
57. Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Criar PoolSQL,
Criar tabela dimensão e Inserir
dados
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
59. Dedicated SQL Pool
Hash
Round-robin
Replication
Distribuição
Uma tabela distribuída aparece como uma única tabela, mas as linhas são, na
verdade, armazenadas em 60 distribuições
Index
Clustered columnstore index
Clustered index (Clustered Rowstore)
Non-clustered index (Heap)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
60. (usada com O tamanho da tabela no disco é inferior a 2 GB).
Hash
As tabelas distribuídas por hash melhoram o desempenho da consulta em grandes tabelas
de fatos
Round-robin
As tabelas round-robin são úteis para melhorar a velocidade de carregamento. Têm um
impacto significativo na melhoria do desempenho de consulta e carregamento.
Replication
Uma tabela replicada possui uma cópia completa da tabela acessível em cada nó Compute.
A replicação de uma tabela elimina a necessidade de transferir dados entre os nós
Distribuição de tabelas
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
61. Para o treinamento maior
Tudo que pode ser feito em tabela (Criaçao de
tabela externa, Copy etc..)
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
62. Formação Engenharia da Dados e Big Data
Módulo 8 - Serveless SQL
Pool
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
64. Serverless SQL Pool
Definição
O pool SQL sem servidor é um serviço de consulta sobre os dados em seu
data lake. Ele permite que você acesse seus dados por meio da linguagem
T-SQL
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
65. Serverless SQL Pool
Função OPENROWSET - Bulk IN)
A OPENROWSET(BULK...)função permite que você acesse arquivos no
Armazenamento do Azure.
Essa função lê o conteúdo de uma fonte de dados remota (por exemplo,
arquivo) e retorna o conteúdo como um conjunto de linhas.
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
66. Serverless SQL Pool
Sintaxe - OPENROWSET - Bulk )
SELECT
*
FROM OPENROWSET(
BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-
19/ecdc_cases/latest/ecdc_cases.csv',
FORMAT = 'CSV',
PARSER_VERSION = '2.0',
HEADER_ROW = TRUE) as [r]
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
67. Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Consultas no Serverless PoolSQL,
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
68. Formação Engenharia da Dados e Big Data
Módulo 9 - Apache Spark
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
69. Apache Spark
Apache Spark é uma estrutura de processamento paralelo que oferece suporte ao processamento na memória para
impulsionar o desempenho de aplicativos analíticos de big data.
O Spark também se integra a várias linguagens de programação para permitir que você manipule conjuntos de dados
distribuídos como coleções locais
Definição
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
70. Apache Spark
- Processamento paralelo
- Processamento na memória
- Utilizar múltiplas linguagens (C #, Scala, PySpark, Spark SQL)
- Ele agregava valor, principalmente para ML
Poder
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
71. Formação Engenharia da Dados e Big Data
Prática (Hands-On)
-
Trabalhar com Apache Spark
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
74. O Projeto do Curso
Porque aprender com um
projeto prático e não com a
aulas teóricas tradicionais?
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
77. MARKETING STARS
DIGITAL SCHOOL
É importante para nós, sabermos o valor das vendas por certas dimensões
É importante para nós, sabermos o valor das vendas por certas dimensões
Saber quais os estados do Brasil que mais vendem?
Saber quais os estados do Brasil que mais vendem?
Quais os melhores afiliados (os que mais vendem)?
Quais os melhores afiliados (os que mais vendem)?
Os produtos mais rentáveis (os que tem maior faturamento)?
Os produtos mais rentáveis (os que tem maior faturamento)?
Controle de vendas por tipo de pagamento (à vista, parcelado e assinatura)?
Controle de vendas por tipo de pagamento (à vista, parcelado e assinatura)?
- Quantidade de Vendas
- Quantidade de Vendas
- Faturamento de Vendas
- Faturamento de Vendas
- Por Produto
- Por Produto
- Por Estado
- Por Estado
- Por Afiliado
- Por Afiliado
- Por Tempo
- Por Tempo
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
79. Andy Cruz
Founder
Phoenix Martin
Chief Executive Officer
Wyatt Meyer
Head of Engineering
Meet our Team
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
80. Agenda da Formação
Introdução à Inteligência de Negócios (BI)
O Projeto do Curso - Marketing Starts
Modelagem do DW - Aplicado ao Projeto
Arquitetura do BI - Aplicado ao Projeto
da Marketing Starts
Parte 1
Parte 2
Parte 3
Parte 4
Desenvolvimento do Projeto ETL (SSIS)
Parte 5
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22
81. Use these free recolorable
icons and illustrations in
your Canva design
Free
Resources
Page
WELLIKIANDRE MARTINS BOSICH DE SOUZA - wellikiandre.souza@viannasempre.com.br - IP: 189.83.52.22