SlideShare uma empresa Scribd logo
1 de 30
Combate a Fraude com Cloudera
Everton Fernandes
Gerente de Soluções Emergentes
everton.fernandes@compwire.com.br
Paulo Contopoulos
Especialista em Big Data
paulo.contopoulos@compwire.com.br
Sobre
Estado do Mato Grosso
Localizado no Centro Oeste do Brasil
População de 3,4 Milhões de Habitantes
141 Municípios
Economia baseada na Agropecuário principalmente na Produção de Soja e Criação de Gado
Secretaria de Estado de Fazenda do Mato Grosso
Localizada na Capital em Cuiabá
Área de Atuação e Atribuição: Gestão Operacional de
Mercadorias em trânsito, através do controle de
fronteiras e da fiscalização de mercadorias, bens e
serviços.
Volume de Dados de NFe
Volume Atual
NF-e
1 Milhão Diário
30 Milhões Mensais
Histórico
NF-e
18 Milhões
50 Bilhões de
Itens de NFe
Problema: Relatório de Agregação
Tabelas
Oracle
Bilhões de itens de NFe e
NFc armazendos em tabelas
na Database Relacional do
AmbienteRelatórios de
agregação Anual
Relatórios de
Agregação Mensal
Cluster para POC
• Hardware do Cluster Hadoop de POC;
3 Servidores x86;
24 Cores no Total do Cluster;
96GB de Memória no Total do Cluster;
12 Discos SATA no Total do Cluster;
Rede Ethernet Gigabit;
Grajaú 01
DN 02 DN 03Ethernet Gigabit
DN 01
Ferramentas Utilizadas na POC
Carregamento 1 Ano ~ 5hs
Produto_servico t_Produto_servico
Consumidor
Oracle
Sqoop
t_Consumidor
Normalização/Ingestão ~ 24 hs
Consumidor
Produto_servico
t_Consumidor
t_Produto_servico
HQL
HQL
Resultados da POC
Tabelas
Relatório Anual
Relatório Mensal
2 Horas
1 Hora
Mensal
25 Milhões de XML
125 Milhões de Itens
Anual
300 Milhões de XML
1,5 Bilhões de Itens
Agora, em Produção...
Cluster de Produção
NN1 NN2 HA Edge
Rede 1Gbp/s
DN1 DN2 DN3 DN4 DN5 DN6
• Hardware do Cluster Hadoop de POC;
10 Servidores x86 (4 Manager Nodes);
72 Cores no Total do Cluster;
768GB de Memória no Total do Cluster;
72 Discos SATA no Total no Total do Cluster;
Rede Ethernet Gigabit;
Cluster de Produção
• Agora podemos usar o Impala!
• Carregamos e ingerimos todo o Histórico 2007 – 2017 em 3 dias!
Resultados em Produção
Tabelas
Relatório Anual
Relatório Mensal
Mensais de todas as
Nfes de 2007 a 2017
9 Minutos
1 Minuto
25 Milhões de XML
125 Milhões de Itens
Aprofundando a Utilização da Solucão para Prevenção e Combate a
Fraudes…
Case 1 Prevenção de Fraude: Identificar Empresas contribuintes com
faturamento incompatível
Enquadramento do
Simples Nacional
R$ 3.6 Milhões
Empresas fora do
Enquadramento do
Simples Nacional
Benefícios do
Simples Nacional
Acima de R$ 3.6 Milhões
Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias
Empresas Falsas Documentos
Fraudados
Empresa Falsa 1 Empresa Falsa 2 Empresa Falsa N
...
Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias
Problema: Fraudadores mais ágeis do que a análise!
Suspeita de Fraude! Análise
Quais?
Onde?
Auditor Fiscal
Suspeita de Fraude! Análise
Auditor Fiscal
Problema: Fraudadores mais ágeis do que a análise!
Suspeita de Fraude! Análise
Auditor Fiscal
Mudança Física de Endereço
Problema: Fraudadores mais ágeis do que a análise!
Solução Implementada
NFe Item
Ref1 Ref2 RefN
Tabelas Database Relacional Tabelas Impala MPP
DB
NFe Item
Ref1 Ref2 RefN
• Carregamento inicial de Nfe de 2002 a 2017
• Entrada diária de dados, via sqoop incremental, duração de poucos minutos
Case 1: Calculo de Enquadramento Resolvido!
Base de Dados NFCe
Consolidada na Plataforma
de Analytics
Calculos rápidos do
Enquadramento de
Faturamento+ = Controle de Faturamento
das Empresas
Auditor Fiscal
Como Localizar Fraudadores
• Quais Nfes São Fraudes?
• Ação Manual com Heurísitica Fuzzy (feeling do auditor) + Análise de dados via
queries dos casos suspeitos.
Como Localizar Fraudadores
• Onde?
• Informações da NFe
• Nome Empresa = Donos Fakes!
• Endereço = Fake!
• Hora da Emissão – Via Sistema, OK!
Ingerindo outros dados de outras origens…
NFe Item
Ref1 Ref2 RefN
Tabelas Database Relacional Tabelas Impala MPP
DB
NFe Item
Ref1 Ref2 RefN
Tabelas Hive
AcessosLogs Acessos
Case 2: Fraudadores Localizados em poucos minutos!
Base de Dados NFe
Acessos do log Tomcat
NFe Suspeitas
Endereço IPs Suspeitos+ = Empresas Fraudulentas
Busca e Apreensão
Auditor Fiscal
Próximos Passos
• Implementar a lógica de separação de casos via Machine Learning
utilizando Spark Mlib.
• Implementar análises de fraude em Streaming utilizando Spark + Flume.
Resumo
• Ganhos Reais em Analytics
• Cruzamento de dados em um Data Lake permitiu viabilizar novas
estratégias de Analytics
• Agilidade que o Data Lake trouxe permitiu controlar os faturamentos
e surpreender fruadadores de NFe
Relato do Cliente
“Com o poder de processamento e cruzamento dos dados da solução cloudera
foi possível ajudar os auditores fiscais da SEFAZ a identificar contribuintes com
faturamento incompatível ao seu enquadramento de Microempresa de forma
muito rápida. Uma atividade que demorava semanas para ser finalizada, agora
pode ser executada em menos de 10 minutos.”
Ricardo Crudo
Coordenador de Tecnologia da Informação
Secretária da Fazendo do Mato Grosso
Contatos
• Especialista Big Data – Compwire – Paulo Contopoulos:
paulo.contopoulos@compwire.com.br
• Gerente Novas Iniciativas – Compwire – Everton Fernandes:
everton.fernantes@compwire.com.br
• Especialista Cloudera - Claudio Takamiya
ct@cloudera.com

Mais conteúdo relacionado

Semelhante a Combate a fraude com Cloudera - Estado do Mato Grosso

Readsoft Universo TOTVS
Readsoft Universo TOTVSReadsoft Universo TOTVS
Readsoft Universo TOTVSFluig
 
Ciência de Dados em Governo
Ciência de Dados em GovernoCiência de Dados em Governo
Ciência de Dados em GovernoSérgio Dias
 
Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Splunk
 
VTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloVTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloFábio Caldas
 
Big Data Analytics em Governo
Big Data Analytics em GovernoBig Data Analytics em Governo
Big Data Analytics em GovernoSérgio Dias
 
Amazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo RealAmazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo RealAmazon Web Services LATAM
 
Grv Software NFe Moldes ABM Fev2010
Grv Software NFe Moldes ABM Fev2010Grv Software NFe Moldes ABM Fev2010
Grv Software NFe Moldes ABM Fev2010guest341c8bb
 
Sistema Autenticador e Transmissor (SAT): modelo tecnológico de automação e c...
Sistema Autenticador e Transmissor (SAT): modelo tecnológico de automação e c...Sistema Autenticador e Transmissor (SAT): modelo tecnológico de automação e c...
Sistema Autenticador e Transmissor (SAT): modelo tecnológico de automação e c...TECSI FEA USP
 
Active - Apresentação NetSuite 2015
Active - Apresentação NetSuite 2015Active - Apresentação NetSuite 2015
Active - Apresentação NetSuite 2015José Aurélio
 
Apresentação_NFCepack
Apresentação_NFCepackApresentação_NFCepack
Apresentação_NFCepackInventti
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Palestra Mauro Negruni - UFRGS
Palestra Mauro Negruni - UFRGSPalestra Mauro Negruni - UFRGS
Palestra Mauro Negruni - UFRGSdecision-it
 

Semelhante a Combate a fraude com Cloudera - Estado do Mato Grosso (20)

Readsoft Universo TOTVS
Readsoft Universo TOTVSReadsoft Universo TOTVS
Readsoft Universo TOTVS
 
Ciência de Dados em Governo
Ciência de Dados em GovernoCiência de Dados em Governo
Ciência de Dados em Governo
 
Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo Vtex - Splunk live! 2014 São Paulo
Vtex - Splunk live! 2014 São Paulo
 
VTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São PauloVTEX @ Splunk Live! São Paulo
VTEX @ Splunk Live! São Paulo
 
MXM-SPED
MXM-SPEDMXM-SPED
MXM-SPED
 
iBOLT NFe - Manoel Frederico Silva
iBOLT NFe - Manoel Frederico SilvaiBOLT NFe - Manoel Frederico Silva
iBOLT NFe - Manoel Frederico Silva
 
Big Data Analytics em Governo
Big Data Analytics em GovernoBig Data Analytics em Governo
Big Data Analytics em Governo
 
Nota Fiscal Eletrônica e a Revolução da Cloud Fiscal
Nota Fiscal Eletrônica e a Revolução da Cloud FiscalNota Fiscal Eletrônica e a Revolução da Cloud Fiscal
Nota Fiscal Eletrônica e a Revolução da Cloud Fiscal
 
Amazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo RealAmazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo Real
 
Grv Software NFe Moldes ABM Fev2010
Grv Software NFe Moldes ABM Fev2010Grv Software NFe Moldes ABM Fev2010
Grv Software NFe Moldes ABM Fev2010
 
Sistema Autenticador e Transmissor (SAT): modelo tecnológico de automação e c...
Sistema Autenticador e Transmissor (SAT): modelo tecnológico de automação e c...Sistema Autenticador e Transmissor (SAT): modelo tecnológico de automação e c...
Sistema Autenticador e Transmissor (SAT): modelo tecnológico de automação e c...
 
Active - Apresentação NetSuite 2015
Active - Apresentação NetSuite 2015Active - Apresentação NetSuite 2015
Active - Apresentação NetSuite 2015
 
Apresentação TCC
Apresentação TCCApresentação TCC
Apresentação TCC
 
NFe e cloud fiscal - Apresentação FIEB
NFe e cloud fiscal - Apresentação FIEBNFe e cloud fiscal - Apresentação FIEB
NFe e cloud fiscal - Apresentação FIEB
 
Apresentação_NFCepack
Apresentação_NFCepackApresentação_NFCepack
Apresentação_NFCepack
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
1ª Batalha - Problemas na entrada de NF-e
1ª Batalha - Problemas na entrada de NF-e1ª Batalha - Problemas na entrada de NF-e
1ª Batalha - Problemas na entrada de NF-e
 
Oobj Recebe MD-e DF-e
Oobj Recebe MD-e DF-eOobj Recebe MD-e DF-e
Oobj Recebe MD-e DF-e
 
Palestra Mauro Negruni - UFRGS
Palestra Mauro Negruni - UFRGSPalestra Mauro Negruni - UFRGS
Palestra Mauro Negruni - UFRGS
 

Mais de Cloudera, Inc.

Partner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptxPartner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptxCloudera, Inc.
 
Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists Cloudera, Inc.
 
2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards Finalists2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards FinalistsCloudera, Inc.
 
Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019Cloudera, Inc.
 
Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19Cloudera, Inc.
 
Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19Cloudera, Inc.
 
Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19Cloudera, Inc.
 
Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19Cloudera, Inc.
 
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19Cloudera, Inc.
 
Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19Cloudera, Inc.
 
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19Cloudera, Inc.
 
Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18Cloudera, Inc.
 
Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3Cloudera, Inc.
 
Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2Cloudera, Inc.
 
Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1Cloudera, Inc.
 
Extending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the PlatformExtending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the PlatformCloudera, Inc.
 
Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18Cloudera, Inc.
 
Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360Cloudera, Inc.
 
Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18Cloudera, Inc.
 
Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18Cloudera, Inc.
 

Mais de Cloudera, Inc. (20)

Partner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptxPartner Briefing_January 25 (FINAL).pptx
Partner Briefing_January 25 (FINAL).pptx
 
Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists Cloudera Data Impact Awards 2021 - Finalists
Cloudera Data Impact Awards 2021 - Finalists
 
2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards Finalists2020 Cloudera Data Impact Awards Finalists
2020 Cloudera Data Impact Awards Finalists
 
Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019Edc event vienna presentation 1 oct 2019
Edc event vienna presentation 1 oct 2019
 
Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19Machine Learning with Limited Labeled Data 4/3/19
Machine Learning with Limited Labeled Data 4/3/19
 
Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19Data Driven With the Cloudera Modern Data Warehouse 3.19.19
Data Driven With the Cloudera Modern Data Warehouse 3.19.19
 
Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19Introducing Cloudera DataFlow (CDF) 2.13.19
Introducing Cloudera DataFlow (CDF) 2.13.19
 
Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19Introducing Cloudera Data Science Workbench for HDP 2.12.19
Introducing Cloudera Data Science Workbench for HDP 2.12.19
 
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
Shortening the Sales Cycle with a Modern Data Warehouse 1.30.19
 
Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19Leveraging the cloud for analytics and machine learning 1.29.19
Leveraging the cloud for analytics and machine learning 1.29.19
 
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
Modernizing the Legacy Data Warehouse – What, Why, and How 1.23.19
 
Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18Leveraging the Cloud for Big Data Analytics 12.11.18
Leveraging the Cloud for Big Data Analytics 12.11.18
 
Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3Modern Data Warehouse Fundamentals Part 3
Modern Data Warehouse Fundamentals Part 3
 
Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2Modern Data Warehouse Fundamentals Part 2
Modern Data Warehouse Fundamentals Part 2
 
Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1Modern Data Warehouse Fundamentals Part 1
Modern Data Warehouse Fundamentals Part 1
 
Extending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the PlatformExtending Cloudera SDX beyond the Platform
Extending Cloudera SDX beyond the Platform
 
Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18Federated Learning: ML with Privacy on the Edge 11.15.18
Federated Learning: ML with Privacy on the Edge 11.15.18
 
Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360Analyst Webinar: Doing a 180 on Customer 360
Analyst Webinar: Doing a 180 on Customer 360
 
Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18Build a modern platform for anti-money laundering 9.19.18
Build a modern platform for anti-money laundering 9.19.18
 
Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18Introducing the data science sandbox as a service 8.30.18
Introducing the data science sandbox as a service 8.30.18
 

Último

AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfAULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfhistonfilho
 
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfmaanuarruda
 
Relatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteRelatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteDaniloMatos36
 
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfmaanuarruda
 
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfmaanuarruda
 
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...9z64mgz4kf
 

Último (6)

AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdfAULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
AULA_02_-_SISTEMA_DE_NUMERACAO2023/2.pdf
 
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS HIB (1).pdf
 
Relatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste NordesteRelatório de Gestão 2022-2023 Intra Leste Nordeste
Relatório de Gestão 2022-2023 Intra Leste Nordeste
 
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS VJ (1).pdf
 
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdfSelling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
Selling Story Max Excellence DIS - Q2'24 DIS TD (1).pdf
 
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
EM-3ª-SERIE-SLIDE-DE-BIOLOGIA-os-principios-das-leis-da-genetica-ou-mendelian...
 

Combate a fraude com Cloudera - Estado do Mato Grosso

  • 1. Combate a Fraude com Cloudera Everton Fernandes Gerente de Soluções Emergentes everton.fernandes@compwire.com.br Paulo Contopoulos Especialista em Big Data paulo.contopoulos@compwire.com.br
  • 2. Sobre Estado do Mato Grosso Localizado no Centro Oeste do Brasil População de 3,4 Milhões de Habitantes 141 Municípios Economia baseada na Agropecuário principalmente na Produção de Soja e Criação de Gado Secretaria de Estado de Fazenda do Mato Grosso Localizada na Capital em Cuiabá Área de Atuação e Atribuição: Gestão Operacional de Mercadorias em trânsito, através do controle de fronteiras e da fiscalização de mercadorias, bens e serviços.
  • 3. Volume de Dados de NFe Volume Atual NF-e 1 Milhão Diário 30 Milhões Mensais Histórico NF-e 18 Milhões 50 Bilhões de Itens de NFe
  • 4. Problema: Relatório de Agregação Tabelas Oracle Bilhões de itens de NFe e NFc armazendos em tabelas na Database Relacional do AmbienteRelatórios de agregação Anual Relatórios de Agregação Mensal
  • 5. Cluster para POC • Hardware do Cluster Hadoop de POC; 3 Servidores x86; 24 Cores no Total do Cluster; 96GB de Memória no Total do Cluster; 12 Discos SATA no Total do Cluster; Rede Ethernet Gigabit; Grajaú 01 DN 02 DN 03Ethernet Gigabit DN 01
  • 7. Carregamento 1 Ano ~ 5hs Produto_servico t_Produto_servico Consumidor Oracle Sqoop t_Consumidor
  • 8. Normalização/Ingestão ~ 24 hs Consumidor Produto_servico t_Consumidor t_Produto_servico HQL HQL
  • 9. Resultados da POC Tabelas Relatório Anual Relatório Mensal 2 Horas 1 Hora Mensal 25 Milhões de XML 125 Milhões de Itens Anual 300 Milhões de XML 1,5 Bilhões de Itens
  • 11. Cluster de Produção NN1 NN2 HA Edge Rede 1Gbp/s DN1 DN2 DN3 DN4 DN5 DN6 • Hardware do Cluster Hadoop de POC; 10 Servidores x86 (4 Manager Nodes); 72 Cores no Total do Cluster; 768GB de Memória no Total do Cluster; 72 Discos SATA no Total no Total do Cluster; Rede Ethernet Gigabit;
  • 12. Cluster de Produção • Agora podemos usar o Impala! • Carregamos e ingerimos todo o Histórico 2007 – 2017 em 3 dias!
  • 13. Resultados em Produção Tabelas Relatório Anual Relatório Mensal Mensais de todas as Nfes de 2007 a 2017 9 Minutos 1 Minuto 25 Milhões de XML 125 Milhões de Itens
  • 14. Aprofundando a Utilização da Solucão para Prevenção e Combate a Fraudes…
  • 15. Case 1 Prevenção de Fraude: Identificar Empresas contribuintes com faturamento incompatível Enquadramento do Simples Nacional R$ 3.6 Milhões Empresas fora do Enquadramento do Simples Nacional Benefícios do Simples Nacional Acima de R$ 3.6 Milhões
  • 16. Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias Empresas Falsas Documentos Fraudados
  • 17. Empresa Falsa 1 Empresa Falsa 2 Empresa Falsa N ... Case 2 Fraude de NFe: Localizar Empresas que emitem NFe frias
  • 18. Problema: Fraudadores mais ágeis do que a análise! Suspeita de Fraude! Análise Quais? Onde? Auditor Fiscal
  • 19. Suspeita de Fraude! Análise Auditor Fiscal Problema: Fraudadores mais ágeis do que a análise!
  • 20. Suspeita de Fraude! Análise Auditor Fiscal Mudança Física de Endereço Problema: Fraudadores mais ágeis do que a análise!
  • 21. Solução Implementada NFe Item Ref1 Ref2 RefN Tabelas Database Relacional Tabelas Impala MPP DB NFe Item Ref1 Ref2 RefN • Carregamento inicial de Nfe de 2002 a 2017 • Entrada diária de dados, via sqoop incremental, duração de poucos minutos
  • 22. Case 1: Calculo de Enquadramento Resolvido! Base de Dados NFCe Consolidada na Plataforma de Analytics Calculos rápidos do Enquadramento de Faturamento+ = Controle de Faturamento das Empresas Auditor Fiscal
  • 23. Como Localizar Fraudadores • Quais Nfes São Fraudes? • Ação Manual com Heurísitica Fuzzy (feeling do auditor) + Análise de dados via queries dos casos suspeitos.
  • 24. Como Localizar Fraudadores • Onde? • Informações da NFe • Nome Empresa = Donos Fakes! • Endereço = Fake! • Hora da Emissão – Via Sistema, OK!
  • 25. Ingerindo outros dados de outras origens… NFe Item Ref1 Ref2 RefN Tabelas Database Relacional Tabelas Impala MPP DB NFe Item Ref1 Ref2 RefN Tabelas Hive AcessosLogs Acessos
  • 26. Case 2: Fraudadores Localizados em poucos minutos! Base de Dados NFe Acessos do log Tomcat NFe Suspeitas Endereço IPs Suspeitos+ = Empresas Fraudulentas Busca e Apreensão Auditor Fiscal
  • 27. Próximos Passos • Implementar a lógica de separação de casos via Machine Learning utilizando Spark Mlib. • Implementar análises de fraude em Streaming utilizando Spark + Flume.
  • 28. Resumo • Ganhos Reais em Analytics • Cruzamento de dados em um Data Lake permitiu viabilizar novas estratégias de Analytics • Agilidade que o Data Lake trouxe permitiu controlar os faturamentos e surpreender fruadadores de NFe
  • 29. Relato do Cliente “Com o poder de processamento e cruzamento dos dados da solução cloudera foi possível ajudar os auditores fiscais da SEFAZ a identificar contribuintes com faturamento incompatível ao seu enquadramento de Microempresa de forma muito rápida. Uma atividade que demorava semanas para ser finalizada, agora pode ser executada em menos de 10 minutos.” Ricardo Crudo Coordenador de Tecnologia da Informação Secretária da Fazendo do Mato Grosso
  • 30. Contatos • Especialista Big Data – Compwire – Paulo Contopoulos: paulo.contopoulos@compwire.com.br • Gerente Novas Iniciativas – Compwire – Everton Fernandes: everton.fernantes@compwire.com.br • Especialista Cloudera - Claudio Takamiya ct@cloudera.com