O documento descreve um estudo sobre a detecção preventiva de fracionamento de compras no Brasil usando redes bayesianas. O estudo utilizou dados de compras do governo para criar um modelo capaz de identificar possíveis fracionamentos. Após a preparação dos dados, diferentes algoritmos de modelagem foram testados e avaliados, resultando em um modelo com alta acurácia e capacidade de classificação. O modelo foi implantado para alertar sobre possíveis fracionamentos em novas compras governamentais.
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
Detecção de Fracionamento
1. Detecção Preventiva de Fracionamento de Compras
Brasil 100% Digital: 1º Seminário sobre Análise de Dados na Administração Pública | 11/09/2015 @ TCU
Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
2. 2
USING BAYESIAN NETWORKS TO IDENTIFY
AND PREVENT SPLIT PURCHASES IN BRAZIL
Rommel N. Carvalho, Leonardo J. Sales, Henrique A. da Rocha, and Gilson L. Mendes
Coordenador-Geral do ODP / Cientista de Dados / Professor
https://about.me/rommelnc
Departamento de Pesquisas e Informações Estratégicas (DIE) / Departamento de Ciência da Computação (CIC)
Controladoria-Geral da União (CGU) / Universidade de Brasília (UnB)
BMAW workshop @ UAI 2014
Quebec City, Quebec, Canada - 07/27/2014
Artigo: http://ceur-ws.org/Vol-1218/bmaw2014_paper_7.pdf
Slides: http://pt.slideshare.net/rommelnc/bmaw-2014-using-bayesian-networks-to-identify-and-prevent-split-purchases-in-brazil
Apresentação: https://www.youtube.com/watch?v=UVOsztdSQ3A
Baseado no Artigo
5. Trilha de Fracionamento
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
R$ 9.890,00
5
6. Será que vai fracionar?
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
?
6
8. CRISP-DM
CRoss Industry Standard Process for Data Mining
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
8
9. Entendimento e Preparação
dos Dados
Entendimento para levantar hipóteses sobre
o melhor uso dos dados e preparação para
transformar os dados brutos em um conjunto
de dados utilizados para criação do modelo
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
9
10. Dados Utilizados
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
SIASG CPF CNPJ CNAE
2005 a
2010
Compras de materiais e
serviços de TI
42 atributos ~ 70 mil registros
‘
?
IDs ?
26 atributos
~ 50 mil registros
centavos e bilhões
análise do especialista
10
11. Modelagem e Avaliação
Aprendizagem de modelos a partir dos conjunto
de dados finais, ajuste de parâmetros para
melhorar performance, escolha do melhor
modelo baseado na validação e teste com
conjunto desconhecido de dados
Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
11
12. Será que vai fracionar?
?
12Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
13. De Volta à Preparaçao
13Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
14. Naïve Bayes vs Bayes Net (K2) –
com e sem Resampling
14Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
15. Mudando algoritmos e
número de pais
15Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
16. Tem como melhorar?
16Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
17. Implantação
Descoberta de novas regras, validação das regras
existentes, documentação e elaboração de
relatório com resultados finais, e implantação do
modelo final em produção
17Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
18. Possível Fracionamento
O sistema identificou que há outras
compras semelhantes a essa, que
podem caracterizar um fracionamento.
Usuário XXXX, matrícula YYYY, tem
certeza que deseja continuar?
Confirmar operação?
18Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão
?
20. Conclusões
É possível usar Mineração de Dados para prevenção
Resultados satisfatórios
Todos fracionamentos foram classificados corretamente
AUROC bastante alta (.999)
Acurácia bastante alta (99.197%)
É preciso fortalecer integração entre diferentes Órgãos
Entender e avaliar resultados com dados mais atuais
Avaliar tabelas de probabilidades da rede
Cuidado com overfitting
Aplicar técnicas em novos problemas governamentais
20Introdução – Metodologia – Entendimento e Preparação dos Dados –
Modelagem e Avaliação – Implantação – Conclusão