Pipeline da Engenharia de Dados

2019 © Copyright – Todos os direitos
reservados.
Uso
Externo
PIPELINE DA ENGENHARIA DE DADOS

reservados.
Uso
Externo
Moisés Pereira
Engenheiro de Dados - Semantix
https://www.linkedin.com/in/moisespereira

reservados.
Uso
Externo
O Engenheiro de dados é responsável por garantir que os dados estejam
disponíveis para a análise de forma segura.
Coleta: dados estruturados, semi-estruturados e não estruturados
Transformação: ETL, ELT, Batch e Stream
Armazenamento: HDFS
Disponibilidade: Garantir a disponibilidade dos dados
O que faz um Engenheiro de Dados?

reservados.
Uso
Externo
O que é um Pipeline?

reservados.
Uso
Externo
Tempo Gasto com Dados

reservados.
Uso
Externo
6
INGESTÃO DE DADOS

reservados.
Uso
Externo
Apache Sqoop - História

reservados.
Uso
Externo
O Apache Sqoop é uma ferramenta para transferir dados de um RDBMS para o
Hadoop / Hive ou vice versa. SQL-to-Hadoop
Apache Sqoop

reservados.
Uso
Externo
sqoop import
--connect jdbc:mysql://localhost:3306/teste_db
--username cloudera --password cloudera
--table vendas --hive-import
--hive-database sandbox
sqoop export
--connect jdbc:mysql://localhost:3306/teste_db
--username cloudera --password cloudera
--export-dir /user/hive/warehouse/
--table vendas
Apache Sqoop - Import / Export

reservados.
Uso
Externo
Em 2011 o Flume foi criado pela Cloudera, um sistema distribuído, confiável e
disponível para coletar, agregar e mover grandes quantidades de dados de muitas
fontes diferentes para um armazenamento centralizado.
O principal objetivo do Flume é enviar dados de aplicações para o Data Lake
"Hadoop HDFS", de forma simples e automatizada.
Porém seu uso não se restringe apenas ao HDFS, sendo possível enviar para
arquivos e base de dados.
O Flume tem a capacidade de transportar uma grande quantidade de dados gerados
por logs, redes sociais, e-mails, base de dados, arquivos e etc..
Flume foi desenvolvido em Java.
Apache Flume - História

reservados.
Uso
Externo
Um agente Flume roda na JVM (Java Virtual Machine) e possui os
seguintes componentes: Source, Channel e Sink.
Apache Flume - Agent

reservados.
Uso
Externo
O primeiro componentes do Flume é o Source: responsável pela entrada de dados.
A origem é onde o Flume recebe os dados. A interação é através de eventos
"mensagem". Quando chega uma mensagem ele consome.
O componente que gerencia a origem é o "Source Runner" que controla os modelos
de execução.
- Event-driven (Consome as Mensagem)
- Polling (Pesquisa as mensagens a serem consumidas)
Apache Flume - Source

reservados.
Uso
Externo
Um Channel é um processo do agent para transferir os dados da Origem para um
Sink "coletor". Os eventos são persistidos no channel até serem entregues e
removidos por um Sink. Essa persistência no Channel ajuda em caso de falha.
Existem 2 tipos de Channels:
- In-memory: Permite menor tempo de latência.
- Durável: Armazenado no Disco ou em cluster Kafka.
Apache Flume - Channel

reservados.
Uso
Externo
Componente que gera uma saída para um destino externo (fora do Flume).
Tipos de Sinks:
- HDFS
- HBase
- Hive
- Kafka
Apache Flume - 5 - Sink

reservados.
Uso
Externo
Apache Flume - Agent - Configuração

reservados.
Uso
Externo
Apache Kafka - História
O Apache Kafka foi originalmente desenvolvido pelo LinkedIn, e teve,
posteriormente, seu código aberto no início de 2011. Em novembro de 2014, Jun
Rao, Jay Kreps, e Neha Narkhede, que trabalharam com o Kafka no LinkedIn,
criaram uma nova empresa chamada Confluent

reservados.
Uso
Externo
Apache Kafka
▸ PUBLICAÇÃO
Leitura e escrita de stream de dados como
uma fila de mensagens
▸ PROCESSO
Possibilita criação de aplicações escaláveis
para processamento de eventos real-time
▸ ARMAZENAMENTO
Armazenamento de eventos em clusters de
forma segura e distribuída, com replicação e
tolerância a falha

reservados.
Uso
Externo
Apache Kafka - Tópico

reservados.
Uso
Externo
Apache Kafka - Producer

reservados.
Uso
Externo
Apache Kafka - Consumer

reservados.
Uso
Externo
Apache Kafka Connect

reservados.
Uso
Externo
Apache Spark - História
É um framework de código fonte aberto para computação distribuída. Foi
desenvolvido no AMPLab da Universidade da Califórnia e posteriormente
repassado para a Apache Software Foundation.
Spark provê uma interface para programação de clusters com paralelismo e
tolerância a falhas.

reservados.
Uso
Externo
Apache Spark - Core
- RDD (Estrutura de Dados)
- programação com scala, python e java
- execução em ambiente Hadoop, Mesos, Kubernetes ou standalone
- acesso a dados no HDFS, Hive, HBase, Cassandra, ...

reservados.
Uso
Externo
Apache Spark - Componentes

reservados.
Uso
Externo
Etapas Pipeline

reservados.
Uso
Externo
Ferramentas Pipelines

reservados.
Uso
Externo
Apache AirFlow
Os Pipelines são criados por codificação, mas é possível visualizar as etapas por uma interface
gráfica.
Dinâmico: Os Pipelines são criados em (Python), permitindo a geração de pipelines dinâmicos.
Extensível: Customização de acordo com o ambiente.
Visualização: Boa visualização dos pipelines e monitoramento.
Escalável: Arquitetura modular que permite a escalabilidade.

reservados.
Uso
Externo
Apache AirFlow

reservados.
Uso
Externo
Apache Nifi
O Apache NiFi foi criado para automatizar o fluxo de dados entre sistemas de
software.
Um sistema fácil de usar, poderoso, escalável e confiável para processar e distribuir
dados.

reservados.
Uso
Externo
Apache Nifi - DataFlow

reservados.
Uso
Externo
StreamSets
Criado por um ex-engenheiro da Cloudera.
Não tem codificação, Drag and Drop.
Ele é completo, tem diversos tipos de integrações como: Kafka, Flume, HBase, Bancos
Relacionais e etc.
Ele possui uma estrutura baseada em Origem, Processamento e Destino.
O SDC também permite a personalização das etapas de transformação de dados através
de programação em Jython.

reservados.
Uso
Externo
StreamSets - Data Flow
- Consegue monitorar os
Pipelines,
- verificar as estatísticas de dados
que estão sendo ingeridos em
tempo real.

reservados.
Uso
Externo

reservados.
Uso
Externo
Microsoft Azure - Data Factory
Serviço criado para todas as necessidades de integrações de dados.
Permite construir facilmente o ETL sem código dentro do ambiente visual intuitivo ou escreva
seu próprio código.
Integre fontes de dados visualmente usando mais de 80 conectores nativos

reservados.
Uso
Externo
Microsoft Azure - Data Factory

reservados.
Uso
Externo
Google Cloud Platform - DataFlow
Serviço gerenciado para executar uma grande variedade de dados com pipelines de
processamento em batch ou streaming.
O Apache Beam é um modelo de programação de código aberto que permite o
desenvolvimento de Pipelines.
Cria o fluxo no Apache Beam e depois executa no DataFlow.

reservados.
Uso
Externo
Google Cloud Platform - DataFlow

reservados.
Uso
Externo
Amazon Web Services - Glue
- Serviço de (ETL) que facilita a preparação e a carga de dados para análises pelos
clientes.
- Consegue criar e executar com apenas alguns cliques.
- Basta indicar ao AWS Glue os dados armazenados na AWS que ele se encarrega de
fazer o mapeamento, Data Catalog.

reservados.
Uso
Externo
Amazon Web Services - Glue

reservados.
Uso
Externo
Pipeline para Big Data
41
StreamSets Data Collector (SDC)
Com ele você consegue monitorar os Pipelines, verificar as
estatísticas de dados que estão sendo ingeridos em tempo
real.
TECNOLOGIAS BIG DATA

reservados.
Uso
Externo
DAMA - Data Management
É uma organização sem fins lucrativos e independente de
fornecedores.
Constituída pela associação de técnicos e profissionais dedicados
a promover os conceitos e melhores práticas da Gestão,
Governança, Qualidade de Dados e da Informação.
- Integridade;
- Acurácia;
- Consistência;
- Completude

reservados.
Uso
Externo
Integridade é a condição que existe quando todas as referências de dados em uma coluna de
uma tabela possui associação adequada em outra coluna ou tabela.
Quantidade de registros, quantidade de colunas.
Define as ações e estratégia para atingir e manter o nível na qualidade de dados, de acordo
com as metas da empresa.
Qualidade de Dados - Integridade

reservados.
Uso
Externo
Refere-se a proximidade entre o objeto representado no sistema e o valor do
objeto real, veracidade quando comparado a uma fonte padrão.
Em muitos casos, mede a acuracidade por como os valores concordam com uma
identificada fonte correta de informação.
- Formato de datas,
- Valores,
- Totais,
- Textos,
Qualidade de Dados - Acurácia

reservados.
Uso
Externo
Critério relacionado à aderência (compliance) com os modelos (patterns) requeridos e
regras de uniformidade.
- Padronização de campos,
- Padronização de categorias,
- Revisão de cálculos.
Qualidade de Dados - Consistência

reservados.
Uso
Externo
Completude indica se certos atributos tem sempre os mesmos valores assinalados
no conjunto de dados. Outra informação é se a quantidade certa de linhas está
presente no conjunto de dados.
- Enriquecimento de dados.
Qualidade de Dados - Completude

reservados.
Uso
Externo
Dados Duplicados: Universidade São Paulo, Universidade São Paulo, Universidade São Paulo
Formatos Inconsistentes: PT-BR, DD/MM/YYYY, MM/DD/YYYY
Informação Incompleta: Produto estoque
Múltiplas unidades e idiomas: Motor / Engine
Dados Incorretos: Usuário, Cliente, Fornecedor
Qualidade de Dados - Problemas Comuns

reservados.
Uso
Externo
Ederson Corbari
Engenheiro de Dados - Semantix
https://www.linkedin.com/in/ecorbari

reservados.
Uso
Externo
Impactar bilhões de vidas
com Dados.
sejaumsemantico@semantix.com.br

reservados.
Uso
Externo
Agenda
❖ Machine Learning no Big Data.
❖ Arquitetura Lambda.
❖ Caso de uso real: 1.
❖ Caso de uso real: 2.

reservados.
Uso
Externo
Machine Learning no Big Data
53
❖ Machine Learning no Big Data.
❖ O que faz um Machine Learning Engineer?
❖ Quais os conhecimentos necessários?
❖ Como usar Big Data e Machine Learning em
conjunto?

reservados.
Uso
Externo
Spark - Core
54

reservados.
Uso
Externo
Spark Machine Learning - Flow
55

reservados.
Uso
Externo
Spark Machine Learning - Development
56
❖ Desafios para escalar modelos.
❖ Transformação de dados.
❖ Velocidade nas agregações.
❖ SQLContext / Catalyst Engine.
❖ API Spark / API Scala / API Python.

reservados.
Uso
Externo
Exemplos de Aplicabilidade
57
❖ Análise preditiva.
❖ Previsão de demanda.
❖ Sistemas de recomendação.
❖ Precificação dinâmica.

reservados.
Uso
Externo
58

reservados.
Uso
Externo
Arquitetura Lambda - Modelo
59

reservados.
Uso
Externo
Arquitetura Lambda – Cloudera Distribution
60
❖ Batch Layer
❖ Speed Layer
❖ Service Layer

reservados.
Uso
Externo
61

reservados.
Uso
Externo
Caso de uso real 1: Algoritmos
62
❖ 1. Medir satisfação de um cliente.
❖ 2. Enriquecimento de categorias.
❖ 3. Melhor momento de compra.
❖ 1.1 TF-IDF
❖ 2.2 KNN
❖ 3.3 Linear Regression

reservados.
Uso
Externo
63

reservados.
Uso
Externo
64

reservados.
Uso
Externo
Caso de uso real 2: AIOps

reservados.
Uso
Externo
Caso de uso real 2: Algoritmos
❖ Linear regression.
❖ Regime change detection.
❖ Seasonality decomposition.
❖ Box and Jenkins method.
Forecasting: Dynamic Baselining:
Clustering: Cloud Migration:
❖ Levenshtein (logs).
❖ Latent Dirichlet Allocation (events).
❖ Poisson.
❖ Normal linear.
❖ Greedy decision trees.

reservados.
Uso
Externo
Caso de uso real 2: Dashboard

reservados.
Uso
Externo
Caso de uso real 2: Ferramentas utilizadas
68

reservados.
Uso
Externo
Obrigado
ederson.corbari@semantix.com.br
In/ecorbari
Moisés PereiraEderson Corbari
moises.mendes@semantix.com.br
In/moisespereira

Pipeline da Engenharia de Dados

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Pipeline da Engenharia de Dados

Semelhante a Pipeline da Engenharia de Dados (20)

Pipeline da Engenharia de Dados