Filiação Partidária e Risco de Corrupção
de Servidores Públicos Federais
Ricardo Silva Carvalho – CGU/SE/DIE/CGIE
Brasil 1...
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliaç...
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliaç...
Introdução
INTERESSES
ILEGÍTIMOS
CORRUPÇÃO FILIAÇÃO
Partido
Político
4
Introdução
Objetivo
5
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliaç...
Entendimento do Negócio
DIE
PREVENÇÃO E COMBATE À CORRUPÇÃO
Diretoria de
Pesquisas e
Informações
Estratégicas
Servidores p...
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliaç...
Entendimento dos Dados
SIAPE TSE
BD PRINCIPAL
SERVIDORES
FILIADOS
TCU
RFB
CGU
CEAFCORRUPTOS
FILIADOS
NÃO-CORRUPTOS
FILIADO...
Entendimento dos Dados
SIAPE TSE
CORRUPTOS
FILIADOS
NÃO-CORRUPTOS
FILIADOS
 
2
1 12
k l
ij ij
i j
ij
O E
E
  


...
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliaç...
Preparação dos Dados
CORRUPTOS
FILIADOS
NÃO-CORRUPTOS
FILIADOS
LIMPEZA DE DADOS
 Valores inválidos
Total de dias filiado
...
Preparação dos Dados
DISCRETIZAÇÃO
 Multi-interval (MI)
 Equal-Freq. (EQ)
 Prop. K-int. (PKI)
9
NORMALIZAÇÃO
Média 0
Va...
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliaç...
Modelagem
TREINAMENTO = 90%
TESTE = 10%
Bayesian Networks (BN)
Random Forest (RF)
Support Vector Machines (SVM)
Artificial...
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliaç...
Avaliação
DATASET 4
 Atrib. 1 = MI
 Atrib. 2 = PKI
RESULTADO MÉDIO DOS 4 ALGORITMOS PARA CADA DATASET
17
Avaliação
RANDOM FOREST
RESULTADO FINAL POR ALGORITMO PARA DATASET 4
18
Avaliação
86%
15% +
13% +
12% -
 7% +
COMPARAÇÃO FINAL ENTRE
MODELO DE ESPECIALISTAS
E MODELO GERADO PELO RANDOM FORE...
Avaliação
CONFIRMOU
+ COD_MAIOR_MOTIV_CANC
+ RISCO DE CORRUPÇÃO
IGNOROU
NR_PARTIDOS_FILIADO
GANHO DE CONHECIMENTO
+ NR_DI...
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliaç...
Conclusão
1) Dados apoiam hipótese (Filiação Partidária  Corrupção)
2) Resultados justificam uso de aprendizagem de máqu...
Obrigado!
Ricardo Silva Carvalho – CGU/SE/DIE/CGIE
ricardo.carvalho@cgu.gov.br
ricardosc@gmail.com
LinkedIn: br.linkedin.c...
Próximos SlideShares
Carregando em…5
×

Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção de Servidores Públicos Federais

210 visualizações

Publicada em

Brasil 100% Digital - O evento teve como principal objetivo a troca de experiências relacionadas ao uso de técnicas avançadas de análise de dados como instrumento para melhoria da gestão e do controle de entidades e políticas públicas. Espera-se que os debates contribuam para que as instituições participantes possam iniciar ou intensificar a adoção de tais técnicas, de modo a obter maior eficiência e efetividade em suas atividades.

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
210
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Painel 05 01 - ricardo carvalho - Filiação Partidária e Risco de Corrupção de Servidores Públicos Federais

  1. 1. Filiação Partidária e Risco de Corrupção de Servidores Públicos Federais Ricardo Silva Carvalho – CGU/SE/DIE/CGIE Brasil 100% Digital: 1º Seminário sobre Análise de Dados na Administração Pública | 11/09/2015 @ TCU
  2. 2. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 2
  3. 3. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 3
  4. 4. Introdução INTERESSES ILEGÍTIMOS CORRUPÇÃO FILIAÇÃO Partido Político 4
  5. 5. Introdução Objetivo 5
  6. 6. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 6
  7. 7. Entendimento do Negócio DIE PREVENÇÃO E COMBATE À CORRUPÇÃO Diretoria de Pesquisas e Informações Estratégicas Servidores públicos federais alocados em todos os estados PRIORIZAÇÃO EFETIVA EM LARGA ESCALA SERVIDOR PÚBLICO FEDERAL Equipe Reduzida 7
  8. 8. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 8
  9. 9. Entendimento dos Dados SIAPE TSE BD PRINCIPAL SERVIDORES FILIADOS TCU RFB CGU CEAFCORRUPTOS FILIADOS NÃO-CORRUPTOS FILIADOS CORRUPTO NÃO-CORRUPTO SERVIDOR PÚBLICO Cadastro de servidores Dados de filiação partidária 9
  10. 10. Entendimento dos Dados SIAPE TSE CORRUPTOS FILIADOS NÃO-CORRUPTOS FILIADOS   2 1 12 k l ij ij i j ij O E E       2 1 158  H0: Variáveis são independentes H0 não pode ser aceita 10
  11. 11. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 11
  12. 12. Preparação dos Dados CORRUPTOS FILIADOS NÃO-CORRUPTOS FILIADOS LIMPEZA DE DADOS  Valores inválidos Total de dias filiado Número máximo de dias filiado a um partido Maior código de motivo de cancelamento SELEÇÃO DE ATRIBUTOS  Correlation-Based  3 atributos selecionados UNDERSAMPLING  Não-Corruptos filiados AGREGAÇÃO  6 Atributos ATRIBUTOS FINAIS 12
  13. 13. Preparação dos Dados DISCRETIZAÇÃO  Multi-interval (MI)  Equal-Freq. (EQ)  Prop. K-int. (PKI) 9 NORMALIZAÇÃO Média 0 Variância 1 1 10 datasets Total de dias filiado Número máximo de dias filiado a um partido Maior código de motivo de cancelamento ATRIBUTOS FINAIS 13
  14. 14. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 14
  15. 15. Modelagem TREINAMENTO = 90% TESTE = 10% Bayesian Networks (BN) Random Forest (RF) Support Vector Machines (SVM) Artificial Neural Networks (ANN) MetaCost WRAPPER [0.0 1.0] [5.0 0.0] CUSTO de FALSOS POSITIVOS 15 Modelagem  4 algoritmos x 10 datasets = 40 modelos
  16. 16. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 16
  17. 17. Avaliação DATASET 4  Atrib. 1 = MI  Atrib. 2 = PKI RESULTADO MÉDIO DOS 4 ALGORITMOS PARA CADA DATASET 17
  18. 18. Avaliação RANDOM FOREST RESULTADO FINAL POR ALGORITMO PARA DATASET 4 18
  19. 19. Avaliação 86% 15% + 13% + 12% -  7% + COMPARAÇÃO FINAL ENTRE MODELO DE ESPECIALISTAS E MODELO GERADO PELO RANDOM FOREST (DADOS DE TESTE) 19
  20. 20. Avaliação CONFIRMOU + COD_MAIOR_MOTIV_CANC + RISCO DE CORRUPÇÃO IGNOROU NR_PARTIDOS_FILIADO GANHO DE CONHECIMENTO + NR_DIAS_FILIADO  - RISCO DE CORRUPÇÃO VISUALIZAÇÃO DE UMA DAS ÁRVORES DO MODELO 20
  21. 21. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 21
  22. 22. Conclusão 1) Dados apoiam hipótese (Filiação Partidária  Corrupção) 2) Resultados justificam uso de aprendizagem de máquina 3) Análise piloto de risco de corrupção na DIE / CGU 4) Trabalho gerou artigo aceito em conferência internacional  BRACIS 2014 – Brazilian Conference on Intelligent Systems  Using Political Party Affiliation Data to Measure Civil Servants’ Risk of Corruption  http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6984825 22
  23. 23. Obrigado! Ricardo Silva Carvalho – CGU/SE/DIE/CGIE ricardo.carvalho@cgu.gov.br ricardosc@gmail.com LinkedIn: br.linkedin.com/in/ricardoscr 23

×