A Secretaria de Estado de Fazenda do Mato Grosso implementou uma solução baseada em Cloudera para combater fraudes fiscais de forma mais rápida e efetiva. A solução permite cruzar e analisar grandes volumes de dados de notas fiscais eletrônicas para identificar empresas com faturamento incompatível ou que emitem notas frias. Isso possibilita que auditores fiscais localizem suspeitos de fraude em poucos minutos, em vez de semanas.
Combate a fraude com Cloudera - Estado do Mato Grosso
1. Combate a Fraude com Cloudera
Everton Fernandes
Gerente de Soluções Emergentes
everton.fernandes@compwire.com.br
Paulo Contopoulos
Especialista em Big Data
paulo.contopoulos@compwire.com.br
2. Sobre
Estado do Mato Grosso
Localizado no Centro Oeste do Brasil
População de 3,4 Milhões de Habitantes
141 Municípios
Economia baseada na Agropecuário principalmente na Produção de Soja e Criação de Gado
Secretaria de Estado de Fazenda do Mato Grosso
Localizada na Capital em Cuiabá
Área de Atuação e Atribuição: Gestão Operacional de
Mercadorias em trânsito, através do controle de
fronteiras e da fiscalização de mercadorias, bens e
serviços.
3. Volume de Dados de NFe
Volume Atual
NF-e
1 Milhão Diário
30 Milhões Mensais
Histórico
NF-e
18 Milhões
50 Bilhões de
Itens de NFe
4. Problema: Relatório de Agregação
Tabelas
Oracle
Bilhões de itens de NFe e
NFc armazendos em tabelas
na Database Relacional do
AmbienteRelatórios de
agregação Anual
Relatórios de
Agregação Mensal
5. Cluster para POC
• Hardware do Cluster Hadoop de POC;
3 Servidores x86;
24 Cores no Total do Cluster;
96GB de Memória no Total do Cluster;
12 Discos SATA no Total do Cluster;
Rede Ethernet Gigabit;
Grajaú 01
DN 02 DN 03Ethernet Gigabit
DN 01
9. Resultados da POC
Tabelas
Relatório Anual
Relatório Mensal
2 Horas
1 Hora
Mensal
25 Milhões de XML
125 Milhões de Itens
Anual
300 Milhões de XML
1,5 Bilhões de Itens
11. Cluster de Produção
NN1 NN2 HA Edge
Rede 1Gbp/s
DN1 DN2 DN3 DN4 DN5 DN6
• Hardware do Cluster Hadoop de POC;
10 Servidores x86 (4 Manager Nodes);
72 Cores no Total do Cluster;
768GB de Memória no Total do Cluster;
72 Discos SATA no Total no Total do Cluster;
Rede Ethernet Gigabit;
12. Cluster de Produção
• Agora podemos usar o Impala!
• Carregamos e ingerimos todo o Histórico 2007 – 2017 em 3 dias!
13. Resultados em Produção
Tabelas
Relatório Anual
Relatório Mensal
Mensais de todas as
Nfes de 2007 a 2017
9 Minutos
1 Minuto
25 Milhões de XML
125 Milhões de Itens
15. Case 1 Prevenção de Fraude: Identificar Empresas contribuintes com
faturamento incompatível
Enquadramento do
Simples Nacional
R$ 3.6 Milhões
Empresas fora do
Enquadramento do
Simples Nacional
Benefícios do
Simples Nacional
Acima de R$ 3.6 Milhões
16. Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias
Empresas Falsas Documentos
Fraudados
17. Empresa Falsa 1 Empresa Falsa 2 Empresa Falsa N
...
Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias
18. Problema: Fraudadores mais ágeis do que a análise!
Suspeita de Fraude! Análise
Quais?
Onde?
Auditor Fiscal
19. Suspeita de Fraude! Análise
Auditor Fiscal
Problema: Fraudadores mais ágeis do que a análise!
20. Suspeita de Fraude! Análise
Auditor Fiscal
Mudança Física de Endereço
Problema: Fraudadores mais ágeis do que a análise!
21. Solução Implementada
NFe Item
Ref1 Ref2 RefN
Tabelas Database Relacional Tabelas Impala MPP
DB
NFe Item
Ref1 Ref2 RefN
• Carregamento inicial de Nfe de 2002 a 2017
• Entrada diária de dados, via sqoop incremental, duração de poucos minutos
22. Case 1: Calculo de Enquadramento Resolvido!
Base de Dados NFCe
Consolidada na Plataforma
de Analytics
Calculos rápidos do
Enquadramento de
Faturamento+ = Controle de Faturamento
das Empresas
Auditor Fiscal
23. Como Localizar Fraudadores
• Quais Nfes São Fraudes?
• Ação Manual com Heurísitica Fuzzy (feeling do auditor) + Análise de dados via
queries dos casos suspeitos.
24. Como Localizar Fraudadores
• Onde?
• Informações da NFe
• Nome Empresa = Donos Fakes!
• Endereço = Fake!
• Hora da Emissão – Via Sistema, OK!
25. Ingerindo outros dados de outras origens…
NFe Item
Ref1 Ref2 RefN
Tabelas Database Relacional Tabelas Impala MPP
DB
NFe Item
Ref1 Ref2 RefN
Tabelas Hive
AcessosLogs Acessos
26. Case 2: Fraudadores Localizados em poucos minutos!
Base de Dados NFe
Acessos do log Tomcat
NFe Suspeitas
Endereço IPs Suspeitos+ = Empresas Fraudulentas
Busca e Apreensão
Auditor Fiscal
27. Próximos Passos
• Implementar a lógica de separação de casos via Machine Learning
utilizando Spark Mlib.
• Implementar análises de fraude em Streaming utilizando Spark + Flume.
28. Resumo
• Ganhos Reais em Analytics
• Cruzamento de dados em um Data Lake permitiu viabilizar novas
estratégias de Analytics
• Agilidade que o Data Lake trouxe permitiu controlar os faturamentos
e surpreender fruadadores de NFe
29. Relato do Cliente
“Com o poder de processamento e cruzamento dos dados da solução cloudera
foi possível ajudar os auditores fiscais da SEFAZ a identificar contribuintes com
faturamento incompatível ao seu enquadramento de Microempresa de forma
muito rápida. Uma atividade que demorava semanas para ser finalizada, agora
pode ser executada em menos de 10 minutos.”
Ricardo Crudo
Coordenador de Tecnologia da Informação
Secretária da Fazendo do Mato Grosso
30. Contatos
• Especialista Big Data – Compwire – Paulo Contopoulos:
paulo.contopoulos@compwire.com.br
• Gerente Novas Iniciativas – Compwire – Everton Fernandes:
everton.fernantes@compwire.com.br
• Especialista Cloudera - Claudio Takamiya
ct@cloudera.com