1. A Solutial oferece um serviço SaaS de ETL para tratamento, validação, padronização e identificação de marcas e produtos em dados de importações, automatizando este processo.
2. O serviço lê e-mails com arquivos anexos, processa os dados realizando vários tratamentos e devolve o resultado ao cliente por e-mail ou em outro formato escolhido.
3. Os resultados incluem métricas como número de registros processados, marcas e modelos identificados, permitindo análises avançadas nos dados tratados.
1. Solutial as SaaS - ETL
Thiago Lúcio Brigagão
Tratamento, Validação, Padronização
e Identificação de Valores para o BI
2. Quem sou eu?
Thiago Lúcio Brigagão
Spatial ETL Analyst
• Mais de 10 anos de experiência em tecnologia,
com foco em migração e manipulação de dados
tabulares e espaciais;
• Especialista na plataforma de Spatial ETL FME,
desenvolvendo projetos de Automatização e
projetos de Business Intelligence;
• Certificações FME Professional, FME Server e
Trainer.
3. ...60% do tempo de um cientista de dados
está relacionado a limpeza e organização dos
dados... https://www.forbes.com/sites/gilpress/2016/03/23/data-
preparation-most-time-consuming-least-enjoyable-data-
science-task-survey-says/#186ab7d56f63
Quais são os meios que temos para nos auxiliar nessa atividade?
5. Solutial SaaS
Tratamento, Validação,
Padronização e Identificação de
Valores para o BI
(com FME)
Desafio
Automatização no tratamento, validação
padronização e idenficação de MARCAS e
PRODUTOS de interesse para
ANÁLISES RELACIONADAS A IMPORTAÇÕES.
6. O Desafio
https://siscori.receita.fazenda.gov.br/
O QUE É SISCORI?
Sistema com o objetivo de disponibilizar um
determinado conjunto de informações referentes às
importações e exportações brasileiras, respeitando
o sigilo fiscal, para apoio a outros sistemas e
análises estatísticas em geral.
7. O Desafio
DESAFIOS
❑ VALIDAÇÃO e PADRONIZAÇÃO do texto. Devido a entrada
de dados ser de input aberto os dados encontram-se fora
de padronização;
❑ Identificação de MARCAS , MODELOS de forma eficiente
e apontamento de novos valores não mapeados;
❑ Alimentar base de dados de MARCAS, MODELOS, fazendo
que a PRÓXIMA EXECUÇÃO os novos objetos
identificados sejam localizados automaticamente;
❑ A contratação como serviço.
8. A Solução
Serviço provido pela SOLUTIAL para a execução de atividades
de ETL, retorno do processamento e identificação de palavras
chave.
SERVIÇO: Leitura da caixa de e-mail com a validação do
assunto | domínio.
PROCESSAMENTO: Tratamentos, validações e resposta
automática ao solicitante.
9.
10. Usuário dispara
E-mail com assunto
específico para a
SOLUTIAL
O E-mail é filtrado por
assunto|domínio
Descompactação do
arquivo SISCORI e
validação iniciais p/
processamento
Leitura das bases de
dados de Apoio
Tratamentos Iniciais do ETL
• Acentuação
• Caracteres especiais
• Substituição de Caracteres;
• Remoção de Duplicados;
Algoritmo inteligente de
busca das MARCAS
Algoritmo inteligente de
busca das MODELOS
Algoritmo inteligente de
busca das TIPOS
Mapeamento dos valores
encontrados e criação dos
atributos de saída
Tratamentos finais dentro
do modelo template
Saída no formato que
definido pelo cliente
Usuário recebe o output
tratado para utilização
no BI
1 2
3
4
SOLUTIAL provê o retorno
para o cliente por E-mail.
ou ( FTP, Google Drive ou
Json ).
12. Alguns Números...
1. TOTAL REGISTROS do Arquivo
2. TOTAL REGISTROS FILTRADOS pelo NCM
3. Quantidade de MARCAS Identificadas
4. Quantidade de MARCAS Identificadas (não mapeadas)
5. Quantidade de MODELOS Identificados
6. Quantidade de MODELOS Identificados (não mapeados)
420.429 mil registros
8.409 mil registros
29 Marcas
17 Marcas
56 Modelos
76 Modelos
13.
14. 1. Trigger | Gatilho: Envio de e-mail com assunto
específico.
2. Tratamento Inicial ( pré-processamento) : Ganho de
tempo informando erros antes do processamento ao
requisitante;
3. Base de Dados e Processamento: utiliza a própria
base de dados encontrada para os próximos
processamentos;
4. Saída | Output: Retorno do processamento por e-mail,
inclusão em diretório ou pelo formato esperado pelo
requisitante.
Resumindo...