Filiação partidária e risco de corrupção de servidores públicos federais

439 visualizações

Publicada em

Esta palestra apresenta o trabalho referente a um estudo de caso de aprendizagem de máquina aplicada para mensurar o risco de corrupção de servidores públicos federais usando dados de filiação partidária. Inicialmente, um teste de hipótese verifica a dependência entre corrupção e filiação partidária. Em seguida, são preparados três conjuntos de dados com normalização e três técnicas diferentes de discretização. Usando o ambiente Weka, este trabalho mostra a aplicação de quatro algoritmos de classificação para construir modelos de previsão de risco de corrupção: Redes Bayesianas, Support Vector Machines, Random Forest e Redes Neurais Artificiais com backpropagation.

Para avaliar os modelos, são usadas métricas como precisão, sensibilidade, kappa e acurácia. Por último, o estudo de caso compara o modelo de melhor desempenho construído com um modelo dos especialistas em combate à corrupção. A comparação não apenas confirma afirmações dos especialistas, como também fornece novas visões sobre a relação filiação-corrupção.

Ricardo Silva Carvalho - Controladoria-Geral da União

Graduado em Engenharia da Computação pelo Instituto Tecnológico de Aeronáutica (ITA). Atualmente está finalizando Mestrado em Computação Aplicada na Universidade de Brasília (UnB) trabalhando com projeto na área de Aprendizagem de Máquina. Ocupa cargo de Analista de Finanças e Controle na Controladoria-Geral da União (CGU) com foco na construção de modelos preditivos para mapeamento de risco de corrupção usando mineração de dados. Tem experiência na área de Ciência da Computação, com ênfase em Inteligência Artificial, Aprendizagem de Máquina, Mineração de Dados, Análise de Algoritmos e Engenharia de Software

Publicada em: Governo e ONGs
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
439
No SlideShare
0
A partir de incorporações
0
Número de incorporações
9
Ações
Compartilhamentos
0
Downloads
11
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Filiação partidária e risco de corrupção de servidores públicos federais

  1. 1. Filiação Partidária e Risco de Corrupção de Servidores Públicos Federais Ricardo Silva Carvalho – CGU/SE/DIE/CGIE Brasil 100% Digital: 1º Seminário sobre Análise de Dados na Administração Pública | 11/09/2015 @ TCU
  2. 2. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 2
  3. 3. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 3
  4. 4. Introdução INTERESSES ILEGÍTIMOS CORRUPÇÃO FILIAÇÃO Partido Político 4
  5. 5. Introdução Objetivo 5
  6. 6. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 6
  7. 7. Entendimento do Negócio DIE PREVENÇÃO E COMBATE À CORRUPÇÃO Diretoria de Pesquisas e Informações Estratégicas Servidores públicos federais alocados em todos os estados PRIORIZAÇÃO EFETIVA EM LARGA ESCALA SERVIDOR PÚBLICO FEDERAL Equipe Reduzida 7
  8. 8. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 8
  9. 9. Entendimento dos Dados SIAPE TSE BD PRINCIPAL SERVIDORES FILIADOS TCU RFB CGU CEAFCORRUPTOS FILIADOS NÃO-CORRUPTOS FILIADOS CORRUPTO NÃO-CORRUPTO SERVIDOR PÚBLICO Cadastro de servidores Dados de filiação partidária 9
  10. 10. Entendimento dos Dados SIAPE TSE CORRUPTOS FILIADOS NÃO-CORRUPTOS FILIADOS   2 1 12 k l ij ij i j ij O E E       2 1 158  H0: Variáveis são independentes H0 não pode ser aceita 10
  11. 11. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 11
  12. 12. Preparação dos Dados CORRUPTOS FILIADOS NÃO-CORRUPTOS FILIADOS LIMPEZA DE DADOS  Valores inválidos Total de dias filiado Número máximo de dias filiado a um partido Maior código de motivo de cancelamento SELEÇÃO DE ATRIBUTOS  Correlation-Based  3 atributos selecionados UNDERSAMPLING  Não-Corruptos filiados AGREGAÇÃO  6 Atributos ATRIBUTOS FINAIS 12
  13. 13. Preparação dos Dados DISCRETIZAÇÃO  Multi-interval (MI)  Equal-Freq. (EQ)  Prop. K-int. (PKI) 9 NORMALIZAÇÃO Média 0 Variância 1 1 10 datasets Total de dias filiado Número máximo de dias filiado a um partido Maior código de motivo de cancelamento ATRIBUTOS FINAIS 13
  14. 14. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 14
  15. 15. Modelagem TREINAMENTO = 90% TESTE = 10% Bayesian Networks (BN) Random Forest (RF) Support Vector Machines (SVM) Artificial Neural Networks (ANN) MetaCost WRAPPER [0.0 1.0] [5.0 0.0] CUSTO de FALSOS POSITIVOS 15 Modelagem  4 algoritmos x 10 datasets = 40 modelos
  16. 16. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 16
  17. 17. Avaliação DATASET 4  Atrib. 1 = MI  Atrib. 2 = PKI RESULTADO MÉDIO DOS 4 ALGORITMOS PARA CADA DATASET 17
  18. 18. Avaliação RANDOM FOREST RESULTADO FINAL POR ALGORITMO PARA DATASET 4 18
  19. 19. Avaliação 86% 15% + 13% + 12% -  7% + COMPARAÇÃO FINAL ENTRE MODELO DE ESPECIALISTAS E MODELO GERADO PELO RANDOM FOREST (DADOS DE TESTE) 19
  20. 20. Avaliação CONFIRMOU + COD_MAIOR_MOTIV_CANC + RISCO DE CORRUPÇÃO IGNOROU NR_PARTIDOS_FILIADO GANHO DE CONHECIMENTO + NR_DIAS_FILIADO  - RISCO DE CORRUPÇÃO VISUALIZAÇÃO DE UMA DAS ÁRVORES DO MODELO 20
  21. 21. Roteiro 1) Introdução 2) Entendimento do Negócio 3) Entendimento dos Dados 4) Preparação dos Dados 5) Modelagem 6) Avaliação 7) Conclusão CRISP-DM 21
  22. 22. Conclusão 1) Dados apoiam hipótese (Filiação Partidária  Corrupção) 2) Resultados justificam uso de aprendizagem de máquina 3) Análise piloto de risco de corrupção na DIE / CGU 4) Trabalho gerou artigo aceito em conferência internacional  BRACIS 2014 – Brazilian Conference on Intelligent Systems  Using Political Party Affiliation Data to Measure Civil Servants’ Risk of Corruption  http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6984825 22
  23. 23. Obrigado! Ricardo Silva Carvalho – CGU/SE/DIE/CGIE ricardo.carvalho@cgu.gov.br ricardosc@gmail.com LinkedIn: br.linkedin.com/in/ricardoscr 23

×