SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
Detecção Preventiva de Fracionamento de Compras
Brasil 100% Digital: 1º Seminário sobre Análise de Dados na Administração Pública | 11/09/2015 @ TCU
Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
2
USING BAYESIAN NETWORKS TO IDENTIFY
AND PREVENT SPLIT PURCHASES IN BRAZIL
Rommel N. Carvalho, Leonardo J. Sales, Henrique A. da Rocha, and Gilson L. Mendes
Coordenador-Geral do ODP / Cientista de Dados / Professor
https://about.me/rommelnc
Departamento de Pesquisas e Informações Estratégicas (DIE) / Departamento de Ciência da Computação (CIC)
Controladoria-Geral da União (CGU) / Universidade de Brasília (UnB)
BMAW workshop @ UAI 2014
Quebec City, Quebec, Canada - 07/27/2014
Artigo: http://ceur-ws.org/Vol-1218/bmaw2014_paper_7.pdf
Slides: http://pt.slideshare.net/rommelnc/bmaw-2014-using-bayesian-networks-to-identify-and-prevent-split-purchases-in-brazil
Apresentação: https://www.youtube.com/watch?v=UVOsztdSQ3A
Baseado no Artigo
Introdução
Metodologia
Entendimento e Preparação dos Dados
Modelagem e Avaliação
Implantação
Conclusão
Agenda
3
Introdução
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
4
Trilha de Fracionamento
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
R$ 9.890,00
5
Será que vai fracionar?
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
?
6
Metodologia
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
7
CRISP-DM
CRoss Industry Standard Process for Data Mining
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
8
Entendimento e Preparação
dos Dados
Entendimento para levantar hipóteses sobre
o melhor uso dos dados e preparação para
transformar os dados brutos em um conjunto
de dados utilizados para criação do modelo
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
9
Dados Utilizados
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
SIASG CPF CNPJ CNAE
2005 a
2010
Compras de materiais e
serviços de TI
42 atributos ~ 70 mil registros
‘
?
IDs ?
26 atributos
~ 50 mil registros
centavos e bilhões
análise do especialista
10
Modelagem e Avaliação
Aprendizagem de modelos a partir dos conjunto
de dados finais, ajuste de parâmetros para
melhorar performance, escolha do melhor
modelo baseado na validação e teste com
conjunto desconhecido de dados
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
11
Será que vai fracionar?
?
12Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
De Volta à Preparaçao
13Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
Naïve Bayes vs Bayes Net (K2) –
com e sem Resampling
14Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
Mudando algoritmos e
número de pais
15Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
Tem como melhorar?
16Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
Implantação
Descoberta de novas regras, validação das regras
existentes, documentação e elaboração de
relatório com resultados finais, e implantação do
modelo final em produção
17Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
Possível Fracionamento
O sistema identificou que há outras
compras semelhantes a essa, que
podem caracterizar um fracionamento.
Usuário XXXX, matrícula YYYY, tem
certeza que deseja continuar?
Confirmar operação?
18Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
?
Conclusão
19Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
Conclusões
É possível usar Mineração de Dados para prevenção
Resultados satisfatórios
Todos fracionamentos foram classificados corretamente
AUROC bastante alta (.999)
Acurácia bastante alta (99.197%)
É preciso fortalecer integração entre diferentes Órgãos
Entender e avaliar resultados com dados mais atuais
Avaliar tabelas de probabilidades da rede
Cuidado com overfitting
Aplicar técnicas em novos problemas governamentais
20Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
Detecção de Fracionamento

Mais conteúdo relacionado

Semelhante a Detecção de Fracionamento

Apresentação Software as a Service
Apresentação Software as a ServiceApresentação Software as a Service
Apresentação Software as a ServiceMarcelo Tavares
 
Palestra sobre Métricas para Performance
Palestra sobre Métricas para PerformancePalestra sobre Métricas para Performance
Palestra sobre Métricas para PerformanceRicardo T. Dias
 
Haroldo salgado araujo cv tp1
Haroldo salgado araujo cv tp1Haroldo salgado araujo cv tp1
Haroldo salgado araujo cv tp1Haroldo Salgado
 
Status Report dos TCCs (SIN-NA8)
Status Report dos TCCs (SIN-NA8)Status Report dos TCCs (SIN-NA8)
Status Report dos TCCs (SIN-NA8)Alessandro Almeida
 
Reimplantação de Sistema ERP
Reimplantação de Sistema ERPReimplantação de Sistema ERP
Reimplantação de Sistema ERPWillian Berriel
 
Métricas - Maratona Digital
Métricas - Maratona DigitalMétricas - Maratona Digital
Métricas - Maratona DigitalMaratona Digital
 
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...TECSI FEA USP
 
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status ReportAlessandro Almeida
 
Congresso AE Rio 2011 - Petrobras Francisco Aquino
Congresso AE Rio 2011 - Petrobras Francisco AquinoCongresso AE Rio 2011 - Petrobras Francisco Aquino
Congresso AE Rio 2011 - Petrobras Francisco AquinoFernando Botafogo
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopIntrodução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopUniversidade de São Paulo
 
Um Passo além da Implantação do BI
Um Passo além da Implantação do BIUm Passo além da Implantação do BI
Um Passo além da Implantação do BITutorpro Treinamentos
 

Semelhante a Detecção de Fracionamento (20)

Apresentação Software as a Service
Apresentação Software as a ServiceApresentação Software as a Service
Apresentação Software as a Service
 
MS Datazen.v.0.0.1 from 2015
MS Datazen.v.0.0.1 from 2015MS Datazen.v.0.0.1 from 2015
MS Datazen.v.0.0.1 from 2015
 
Projetos Digitais v.1.13 from 2013
Projetos Digitais v.1.13 from 2013Projetos Digitais v.1.13 from 2013
Projetos Digitais v.1.13 from 2013
 
Projetos Digitais v.1.8 from 2010
Projetos Digitais v.1.8 from 2010Projetos Digitais v.1.8 from 2010
Projetos Digitais v.1.8 from 2010
 
Palestra sobre Métricas para Performance
Palestra sobre Métricas para PerformancePalestra sobre Métricas para Performance
Palestra sobre Métricas para Performance
 
Projetos Digitais v.1.16 from 14/03/2015
Projetos Digitais v.1.16 from 14/03/2015Projetos Digitais v.1.16 from 14/03/2015
Projetos Digitais v.1.16 from 14/03/2015
 
Haroldo salgado araujo cv tp1
Haroldo salgado araujo cv tp1Haroldo salgado araujo cv tp1
Haroldo salgado araujo cv tp1
 
Apresentação Pentacorp Group
Apresentação Pentacorp GroupApresentação Pentacorp Group
Apresentação Pentacorp Group
 
Status Report dos TCCs (SIN-NA8)
Status Report dos TCCs (SIN-NA8)Status Report dos TCCs (SIN-NA8)
Status Report dos TCCs (SIN-NA8)
 
Reimplantação de Sistema ERP
Reimplantação de Sistema ERPReimplantação de Sistema ERP
Reimplantação de Sistema ERP
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Ementa curso de dados
Ementa curso de dadosEmenta curso de dados
Ementa curso de dados
 
Métricas - Maratona Digital
Métricas - Maratona DigitalMétricas - Maratona Digital
Métricas - Maratona Digital
 
CV Ednaldo José Pinheiro - TI - Vendas
CV Ednaldo José Pinheiro - TI -  VendasCV Ednaldo José Pinheiro - TI -  Vendas
CV Ednaldo José Pinheiro - TI - Vendas
 
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
Auditoria Eletrônica: Automatização de procedimentos de auditoria através do ...
 
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
[SIN-NA7] Gestão de Projetos e Empreendedorismo - Atividade: Status Report
 
Congresso AE Rio 2011 - Petrobras Francisco Aquino
Congresso AE Rio 2011 - Petrobras Francisco AquinoCongresso AE Rio 2011 - Petrobras Francisco Aquino
Congresso AE Rio 2011 - Petrobras Francisco Aquino
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema HadoopIntrodução às ferramentas de Business Intelligence do ecossistema Hadoop
Introdução às ferramentas de Business Intelligence do ecossistema Hadoop
 
Um Passo além da Implantação do BI
Um Passo além da Implantação do BIUm Passo além da Implantação do BI
Um Passo além da Implantação do BI
 

Mais de Rommel Carvalho

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataRommel Carvalho
 
Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Rommel Carvalho
 
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Rommel Carvalho
 
Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Rommel Carvalho
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIRommel Carvalho
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...Rommel Carvalho
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inRommel Carvalho
 
Integração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado FederalIntegração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado FederalRommel Carvalho
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos GovernamentaisRommel Carvalho
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessRommel Carvalho
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyRommel Carvalho
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageRommel Carvalho
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsRommel Carvalho
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsRommel Carvalho
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...Rommel Carvalho
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsRommel Carvalho
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsRommel Carvalho
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Rommel Carvalho
 
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLUniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLRommel Carvalho
 

Mais de Rommel Carvalho (20)

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
 
Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...
 
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
 
Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAI
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
 
A GUI for MLN
A GUI for MLNA GUI for MLN
A GUI for MLN
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-in
 
Integração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado FederalIntegração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado Federal
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos Governamentais
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain Awareness
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling Methodology
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial Axioms
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semantics
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational Models
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
 
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLUniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
 

Detecção de Fracionamento

  • 1. Detecção Preventiva de Fracionamento de Compras Brasil 100% Digital: 1º Seminário sobre Análise de Dados na Administração Pública | 11/09/2015 @ TCU Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
  • 2. 2 USING BAYESIAN NETWORKS TO IDENTIFY AND PREVENT SPLIT PURCHASES IN BRAZIL Rommel N. Carvalho, Leonardo J. Sales, Henrique A. da Rocha, and Gilson L. Mendes Coordenador-Geral do ODP / Cientista de Dados / Professor https://about.me/rommelnc Departamento de Pesquisas e Informações Estratégicas (DIE) / Departamento de Ciência da Computação (CIC) Controladoria-Geral da União (CGU) / Universidade de Brasília (UnB) BMAW workshop @ UAI 2014 Quebec City, Quebec, Canada - 07/27/2014 Artigo: http://ceur-ws.org/Vol-1218/bmaw2014_paper_7.pdf Slides: http://pt.slideshare.net/rommelnc/bmaw-2014-using-bayesian-networks-to-identify-and-prevent-split-purchases-in-brazil Apresentação: https://www.youtube.com/watch?v=UVOsztdSQ3A Baseado no Artigo
  • 3. Introdução Metodologia Entendimento e Preparação dos Dados Modelagem e Avaliação Implantação Conclusão Agenda 3
  • 4. Introdução Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão 4
  • 5. Trilha de Fracionamento Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão R$ 9.890,00 5
  • 6. Será que vai fracionar? Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão ? 6
  • 7. Metodologia Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão 7
  • 8. CRISP-DM CRoss Industry Standard Process for Data Mining Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão 8
  • 9. Entendimento e Preparação dos Dados Entendimento para levantar hipóteses sobre o melhor uso dos dados e preparação para transformar os dados brutos em um conjunto de dados utilizados para criação do modelo Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão 9
  • 10. Dados Utilizados Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão SIASG CPF CNPJ CNAE 2005 a 2010 Compras de materiais e serviços de TI 42 atributos ~ 70 mil registros ‘ ? IDs ? 26 atributos ~ 50 mil registros centavos e bilhões análise do especialista 10
  • 11. Modelagem e Avaliação Aprendizagem de modelos a partir dos conjunto de dados finais, ajuste de parâmetros para melhorar performance, escolha do melhor modelo baseado na validação e teste com conjunto desconhecido de dados Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão 11
  • 12. Será que vai fracionar? ? 12Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão
  • 13. De Volta à Preparaçao 13Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão
  • 14. Naïve Bayes vs Bayes Net (K2) – com e sem Resampling 14Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão
  • 15. Mudando algoritmos e número de pais 15Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão
  • 16. Tem como melhorar? 16Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão
  • 17. Implantação Descoberta de novas regras, validação das regras existentes, documentação e elaboração de relatório com resultados finais, e implantação do modelo final em produção 17Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão
  • 18. Possível Fracionamento O sistema identificou que há outras compras semelhantes a essa, que podem caracterizar um fracionamento. Usuário XXXX, matrícula YYYY, tem certeza que deseja continuar? Confirmar operação? 18Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão ?
  • 19. Conclusão 19Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão
  • 20. Conclusões É possível usar Mineração de Dados para prevenção Resultados satisfatórios Todos fracionamentos foram classificados corretamente AUROC bastante alta (.999) Acurácia bastante alta (99.197%) É preciso fortalecer integração entre diferentes Órgãos Entender e avaliar resultados com dados mais atuais Avaliar tabelas de probabilidades da rede Cuidado com overfitting Aplicar técnicas em novos problemas governamentais 20Introdução – Metodologia – Entendimento e Preparação dos Dados – Modelagem e Avaliação – Implantação – Conclusão