SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
Solutial as SaaS - ETL
Thiago Lúcio Brigagão
Tratamento, Validação, Padronização
e Identificação de Valores para o BI
Quem sou eu?
Thiago Lúcio Brigagão
Spatial ETL Analyst
• Mais de 10 anos de experiência em tecnologia,
com foco em migração e manipulação de dados
tabulares e espaciais;
• Especialista na plataforma de Spatial ETL FME,
desenvolvendo projetos de Automatização e
projetos de Business Intelligence;
• Certificações FME Professional, FME Server e
Trainer.
...60% do tempo de um cientista de dados
está relacionado a limpeza e organização dos
dados... https://www.forbes.com/sites/gilpress/2016/03/23/data-
preparation-most-time-consuming-least-enjoyable-data-
science-task-survey-says/#186ab7d56f63
Quais são os meios que temos para nos auxiliar nessa atividade?
Ingredientes
1. Tema
2. Desafio
3. Solução
4. Resultados obtidos Data Detox
Solutial SaaS
Tratamento, Validação,
Padronização e Identificação de
Valores para o BI
(com FME)
Desafio
Automatização no tratamento, validação
padronização e idenficação de MARCAS e
PRODUTOS de interesse para
ANÁLISES RELACIONADAS A IMPORTAÇÕES.
O Desafio
https://siscori.receita.fazenda.gov.br/
O QUE É SISCORI?
Sistema com o objetivo de disponibilizar um
determinado conjunto de informações referentes às
importações e exportações brasileiras, respeitando
o sigilo fiscal, para apoio a outros sistemas e
análises estatísticas em geral.
O Desafio
DESAFIOS
❑ VALIDAÇÃO e PADRONIZAÇÃO do texto. Devido a entrada
de dados ser de input aberto os dados encontram-se fora
de padronização;
❑ Identificação de MARCAS , MODELOS de forma eficiente
e apontamento de novos valores não mapeados;
❑ Alimentar base de dados de MARCAS, MODELOS, fazendo
que a PRÓXIMA EXECUÇÃO os novos objetos
identificados sejam localizados automaticamente;
❑ A contratação como serviço.
A Solução
Serviço provido pela SOLUTIAL para a execução de atividades
de ETL, retorno do processamento e identificação de palavras
chave.
SERVIÇO: Leitura da caixa de e-mail com a validação do
assunto | domínio.
PROCESSAMENTO: Tratamentos, validações e resposta
automática ao solicitante.
Usuário dispara
E-mail com assunto
específico para a
SOLUTIAL
O E-mail é filtrado por
assunto|domínio
Descompactação do
arquivo SISCORI e
validação iniciais p/
processamento
Leitura das bases de
dados de Apoio
Tratamentos Iniciais do ETL
• Acentuação
• Caracteres especiais
• Substituição de Caracteres;
• Remoção de Duplicados;
Algoritmo inteligente de
busca das MARCAS
Algoritmo inteligente de
busca das MODELOS
Algoritmo inteligente de
busca das TIPOS
Mapeamento dos valores
encontrados e criação dos
atributos de saída
Tratamentos finais dentro
do modelo template
Saída no formato que
definido pelo cliente
Usuário recebe o output
tratado para utilização
no BI
1 2
3
4
SOLUTIAL provê o retorno
para o cliente por E-mail.
ou ( FTP, Google Drive ou
Json ).
O Resultado | Output
http://WIN-
7GEPF7HN444:8080/fmedatastreaming/SaaS/saas.fmw?in_delimitador=%40&in_csv_ncm=%24(FME_MF_DIR)CAPI87
1912.CSV&in_xls_marcas_modelos=%24(FME_MF_DIR)marca_modelo.xlsx&MAX_FEATURES=&LOG_FILE=D%3A%
5CSolutial%5C5-
Servi%C3%A7os%20e%20Suporte%5CFMEWT%5Cfmw%5CETLSaaS%5Cworkspace%5Cteste.log&in_xls_regra1=%
24(FME_MF_DIR)regra1.xlsx&DestDataset_TEXTLINE=D%3A%5CSolutial%5C5-
Servi%C3%A7os%20e%20Suporte%5CFMEWT%5Cfmw%5CETLSaaS%5Cworkspace%5Csaida%5Cout.txt&token=8f
be26953a4454431140724f25c5291ef2033c74
Alguns Números...
1. TOTAL REGISTROS do Arquivo
2. TOTAL REGISTROS FILTRADOS pelo NCM
3. Quantidade de MARCAS Identificadas
4. Quantidade de MARCAS Identificadas (não mapeadas)
5. Quantidade de MODELOS Identificados
6. Quantidade de MODELOS Identificados (não mapeados)
420.429 mil registros
8.409 mil registros
29 Marcas
17 Marcas
56 Modelos
76 Modelos
1. Trigger | Gatilho: Envio de e-mail com assunto
específico.
2. Tratamento Inicial ( pré-processamento) : Ganho de
tempo informando erros antes do processamento ao
requisitante;
3. Base de Dados e Processamento: utiliza a própria
base de dados encontrada para os próximos
processamentos;
4. Saída | Output: Retorno do processamento por e-mail,
inclusão em diretório ou pelo formato esperado pelo
requisitante.
Resumindo...
O Problema A Solução (Com FME) O Resultado
Obrigado!
thiago@solutial.com.br

Mais conteúdo relacionado

Semelhante a Saas com FME

T@rget trust business intelligence bi - etl - fundamentos e aplicações
T@rget trust   business intelligence bi - etl - fundamentos e aplicaçõesT@rget trust   business intelligence bi - etl - fundamentos e aplicações
T@rget trust business intelligence bi - etl - fundamentos e aplicações
Targettrust
 
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Mauricio Cesar Santos da Purificação
 
Portais Corporativos e Marketing Digital - Consultoria WebCarioca
Portais Corporativos e Marketing Digital - Consultoria WebCariocaPortais Corporativos e Marketing Digital - Consultoria WebCarioca
Portais Corporativos e Marketing Digital - Consultoria WebCarioca
WebCarioca
 

Semelhante a Saas com FME (20)

Webcast certificacao microsoft
Webcast certificacao microsoftWebcast certificacao microsoft
Webcast certificacao microsoft
 
Robotic Process Automation (RPA) - Apresentação Conceitual
Robotic Process Automation (RPA) - Apresentação ConceitualRobotic Process Automation (RPA) - Apresentação Conceitual
Robotic Process Automation (RPA) - Apresentação Conceitual
 
Carreira e oportunidades com a plataforma de dados da microsoft
Carreira e oportunidades com a plataforma de dados da microsoftCarreira e oportunidades com a plataforma de dados da microsoft
Carreira e oportunidades com a plataforma de dados da microsoft
 
Migração ou Conexão dos mundos (Varejo - E-commerce) - Palestra SEBRAE GO
Migração ou Conexão dos mundos (Varejo - E-commerce) - Palestra SEBRAE GOMigração ou Conexão dos mundos (Varejo - E-commerce) - Palestra SEBRAE GO
Migração ou Conexão dos mundos (Varejo - E-commerce) - Palestra SEBRAE GO
 
T@rget trust business intelligence bi - etl - fundamentos e aplicações
T@rget trust   business intelligence bi - etl - fundamentos e aplicaçõesT@rget trust   business intelligence bi - etl - fundamentos e aplicações
T@rget trust business intelligence bi - etl - fundamentos e aplicações
 
EasyPoints Incentivo e Fidelidade
EasyPoints Incentivo e FidelidadeEasyPoints Incentivo e Fidelidade
EasyPoints Incentivo e Fidelidade
 
Easy points Incentivo e Fidelidade
Easy points Incentivo e FidelidadeEasy points Incentivo e Fidelidade
Easy points Incentivo e Fidelidade
 
Otimizando seu e-Commerce - ACIL
Otimizando seu e-Commerce - ACILOtimizando seu e-Commerce - ACIL
Otimizando seu e-Commerce - ACIL
 
Webinar FME e BI
Webinar FME e BIWebinar FME e BI
Webinar FME e BI
 
Carreiras Em Computacao E Ti
Carreiras Em Computacao E TiCarreiras Em Computacao E Ti
Carreiras Em Computacao E Ti
 
Webinar Elastic Search
Webinar Elastic SearchWebinar Elastic Search
Webinar Elastic Search
 
Certificações
CertificaçõesCertificações
Certificações
 
Prêmio Intranet Portal 2011 - Vencedores
Prêmio Intranet Portal 2011 - VencedoresPrêmio Intranet Portal 2011 - Vencedores
Prêmio Intranet Portal 2011 - Vencedores
 
How to be successfull in Tech - Floripa Tech Day
How to be successfull in Tech - Floripa Tech DayHow to be successfull in Tech - Floripa Tech Day
How to be successfull in Tech - Floripa Tech Day
 
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
TechEd 2011: Raio-X do SQL Server: Arquitetura Interna do Gerenciador de Ban...
 
Curso gestao servicos modulo 1 - v1
Curso gestao servicos   modulo 1 - v1Curso gestao servicos   modulo 1 - v1
Curso gestao servicos modulo 1 - v1
 
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
Uma Experiência de Solução de Business Intelligence com Software Livre na UFB...
 
Ecosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoftEcosistema de data warehouse com ferramentas microsoft
Ecosistema de data warehouse com ferramentas microsoft
 
Back Log User Stories
Back Log User StoriesBack Log User Stories
Back Log User Stories
 
Portais Corporativos e Marketing Digital - Consultoria WebCarioca
Portais Corporativos e Marketing Digital - Consultoria WebCariocaPortais Corporativos e Marketing Digital - Consultoria WebCarioca
Portais Corporativos e Marketing Digital - Consultoria WebCarioca
 

Mais de Solutial OFICIAL

Mais de Solutial OFICIAL (19)

Limpeza de dados
Limpeza de dadosLimpeza de dados
Limpeza de dados
 
Indicadores de Aderência
Indicadores de AderênciaIndicadores de Aderência
Indicadores de Aderência
 
Aplicando Geocodificação em seus Dados
Aplicando Geocodificação em seus DadosAplicando Geocodificação em seus Dados
Aplicando Geocodificação em seus Dados
 
FME DATA EXPRESS
FME DATA EXPRESSFME DATA EXPRESS
FME DATA EXPRESS
 
Mergulhando no FME Desktop 2019
Mergulhando no FME Desktop 2019Mergulhando no FME Desktop 2019
Mergulhando no FME Desktop 2019
 
Webinar "Conhecendo FME Cloud".
Webinar "Conhecendo FME Cloud".Webinar "Conhecendo FME Cloud".
Webinar "Conhecendo FME Cloud".
 
Novidades FME 2019
Novidades FME 2019Novidades FME 2019
Novidades FME 2019
 
FME e Amazon Web Services
FME e Amazon Web ServicesFME e Amazon Web Services
FME e Amazon Web Services
 
Webinar "Banco de Dados e FME"
Webinar "Banco de Dados e FME"Webinar "Banco de Dados e FME"
Webinar "Banco de Dados e FME"
 
Criando Mapa de Calor (Heatmap) no FME Desktop
Criando Mapa de Calor (Heatmap) no FME DesktopCriando Mapa de Calor (Heatmap) no FME Desktop
Criando Mapa de Calor (Heatmap) no FME Desktop
 
Empregando Machine Learning na Agricultura com o FME
Empregando Machine Learning na Agricultura com o FMEEmpregando Machine Learning na Agricultura com o FME
Empregando Machine Learning na Agricultura com o FME
 
Webinar "FME e BIM"
Webinar "FME e BIM"Webinar "FME e BIM"
Webinar "FME e BIM"
 
Webinar - FME para Agronegócio
Webinar - FME para Agronegócio Webinar - FME para Agronegócio
Webinar - FME para Agronegócio
 
Explore o uso de Dados LiDAR no FME
Explore o uso de Dados LiDAR no FMEExplore o uso de Dados LiDAR no FME
Explore o uso de Dados LiDAR no FME
 
Webinar Raster
Webinar RasterWebinar Raster
Webinar Raster
 
Webinar Automatizando com FME Server
Webinar Automatizando com FME ServerWebinar Automatizando com FME Server
Webinar Automatizando com FME Server
 
Solutial FME
Solutial FMESolutial FME
Solutial FME
 
O que é FME
O que é FMEO que é FME
O que é FME
 
Novidades FME 2018
Novidades FME 2018Novidades FME 2018
Novidades FME 2018
 

Último

Último (9)

ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 

Saas com FME

  • 1. Solutial as SaaS - ETL Thiago Lúcio Brigagão Tratamento, Validação, Padronização e Identificação de Valores para o BI
  • 2. Quem sou eu? Thiago Lúcio Brigagão Spatial ETL Analyst • Mais de 10 anos de experiência em tecnologia, com foco em migração e manipulação de dados tabulares e espaciais; • Especialista na plataforma de Spatial ETL FME, desenvolvendo projetos de Automatização e projetos de Business Intelligence; • Certificações FME Professional, FME Server e Trainer.
  • 3. ...60% do tempo de um cientista de dados está relacionado a limpeza e organização dos dados... https://www.forbes.com/sites/gilpress/2016/03/23/data- preparation-most-time-consuming-least-enjoyable-data- science-task-survey-says/#186ab7d56f63 Quais são os meios que temos para nos auxiliar nessa atividade?
  • 4. Ingredientes 1. Tema 2. Desafio 3. Solução 4. Resultados obtidos Data Detox
  • 5. Solutial SaaS Tratamento, Validação, Padronização e Identificação de Valores para o BI (com FME) Desafio Automatização no tratamento, validação padronização e idenficação de MARCAS e PRODUTOS de interesse para ANÁLISES RELACIONADAS A IMPORTAÇÕES.
  • 6. O Desafio https://siscori.receita.fazenda.gov.br/ O QUE É SISCORI? Sistema com o objetivo de disponibilizar um determinado conjunto de informações referentes às importações e exportações brasileiras, respeitando o sigilo fiscal, para apoio a outros sistemas e análises estatísticas em geral.
  • 7. O Desafio DESAFIOS ❑ VALIDAÇÃO e PADRONIZAÇÃO do texto. Devido a entrada de dados ser de input aberto os dados encontram-se fora de padronização; ❑ Identificação de MARCAS , MODELOS de forma eficiente e apontamento de novos valores não mapeados; ❑ Alimentar base de dados de MARCAS, MODELOS, fazendo que a PRÓXIMA EXECUÇÃO os novos objetos identificados sejam localizados automaticamente; ❑ A contratação como serviço.
  • 8. A Solução Serviço provido pela SOLUTIAL para a execução de atividades de ETL, retorno do processamento e identificação de palavras chave. SERVIÇO: Leitura da caixa de e-mail com a validação do assunto | domínio. PROCESSAMENTO: Tratamentos, validações e resposta automática ao solicitante.
  • 9.
  • 10. Usuário dispara E-mail com assunto específico para a SOLUTIAL O E-mail é filtrado por assunto|domínio Descompactação do arquivo SISCORI e validação iniciais p/ processamento Leitura das bases de dados de Apoio Tratamentos Iniciais do ETL • Acentuação • Caracteres especiais • Substituição de Caracteres; • Remoção de Duplicados; Algoritmo inteligente de busca das MARCAS Algoritmo inteligente de busca das MODELOS Algoritmo inteligente de busca das TIPOS Mapeamento dos valores encontrados e criação dos atributos de saída Tratamentos finais dentro do modelo template Saída no formato que definido pelo cliente Usuário recebe o output tratado para utilização no BI 1 2 3 4 SOLUTIAL provê o retorno para o cliente por E-mail. ou ( FTP, Google Drive ou Json ).
  • 11. O Resultado | Output http://WIN- 7GEPF7HN444:8080/fmedatastreaming/SaaS/saas.fmw?in_delimitador=%40&in_csv_ncm=%24(FME_MF_DIR)CAPI87 1912.CSV&in_xls_marcas_modelos=%24(FME_MF_DIR)marca_modelo.xlsx&MAX_FEATURES=&LOG_FILE=D%3A% 5CSolutial%5C5- Servi%C3%A7os%20e%20Suporte%5CFMEWT%5Cfmw%5CETLSaaS%5Cworkspace%5Cteste.log&in_xls_regra1=% 24(FME_MF_DIR)regra1.xlsx&DestDataset_TEXTLINE=D%3A%5CSolutial%5C5- Servi%C3%A7os%20e%20Suporte%5CFMEWT%5Cfmw%5CETLSaaS%5Cworkspace%5Csaida%5Cout.txt&token=8f be26953a4454431140724f25c5291ef2033c74
  • 12. Alguns Números... 1. TOTAL REGISTROS do Arquivo 2. TOTAL REGISTROS FILTRADOS pelo NCM 3. Quantidade de MARCAS Identificadas 4. Quantidade de MARCAS Identificadas (não mapeadas) 5. Quantidade de MODELOS Identificados 6. Quantidade de MODELOS Identificados (não mapeados) 420.429 mil registros 8.409 mil registros 29 Marcas 17 Marcas 56 Modelos 76 Modelos
  • 13.
  • 14. 1. Trigger | Gatilho: Envio de e-mail com assunto específico. 2. Tratamento Inicial ( pré-processamento) : Ganho de tempo informando erros antes do processamento ao requisitante; 3. Base de Dados e Processamento: utiliza a própria base de dados encontrada para os próximos processamentos; 4. Saída | Output: Retorno do processamento por e-mail, inclusão em diretório ou pelo formato esperado pelo requisitante. Resumindo...
  • 15. O Problema A Solução (Com FME) O Resultado