SlideShare uma empresa Scribd logo
1 de 15
Mapeamento de Risco de Corrupção na
Administração Pública Federal
Brasil 100% Digital: 2º Seminário sobre Análise de Dados na Administração Pública | 25/08/2016 @ TCU
Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
Mapeamento de Risco de Corrupção
na Administração Pública Federal
Identificação de risco de corrupção
através da análise cadastral, histórica
e comportamental do servidor público
Mapeamento de Risco de Corrupção na APF
Mapeamento de Risco de Corrupção na APF
Mapeamento de Risco de Corrupção na APF
Mapeamento de Risco de Corrupção na APF
Mapeamento de Risco de Corrupção na APF
Introdução
Mapeamento de Risco de Corrupção na APF
2014 2017
RISCO
MÉDIO
RISCO
ALTO
DIRIGENTE UNIDADE
Introdução
Introdução
Desafio: Transformar dados em indicadores confiáveis
Como?
Mineração
de Dados
Estatística Conhecimento
Especializado dos
Analistas da DIE
Computação em
Larga Escala
Cor
Vínculos
Societários
Auditorias
Cargo
Função
Punições
Filiações
/Referência de Corrupção:
Cadastro de Expulsões (CEAF)
Dirigentes:
Servidores com Naturezas de
Responsabilidade
Unidades:
UGs não-virtuais
responsáveis por dotação
PARÂMETROS
ATRIBUTOS
Introdução
2012
Problema: Falta visão de corrupção
 Poder decisório, dotação e histórico
Mapa de um ministério construído manualmente
em 6 meses
2013
Problema: Falta de automatização
 Indicadores arbitrados e integração de bases
Mapa para dois ministérios automatizado
2014
Problema: Excesso de subjetividade
 Abordagem estatística
Modelos estatísticos intermediários sendo
validados
2015
Problema: Falta de método científico
 Mineração de dados
Metodologia desenvolvida e Versão Beta
construída
ENVOLVIDOS NO PROJETO
4 doutores, 6 mestres
Artigos relacionados publicados e a publicar
Dissertações defendidas na parte técnica
Introdução
Servidor
Cargo Técnico
Demitido em 2010 por valer-se do cargo para
lograr proveito pessoal ou de outrem
INVESTIGAÇÃO MARA
 Sem vínculos com empresas
 Uma filiação partidária
 Proprietário de um carro comum
 Risco do Servidor:
MUITO
ALTO
Cenários
Cenários
Servidora
Analista aposentada
Responsável pela conformidade contábil
 Condenada pelo TCU a
devolver recursos para União
 Contas julgadas irregulares
INVESTIGAÇÃO MARA
 Risco da Servidora:
MUITO
ALTO
Suporte Estatístico Inicial
 
2
1 12
k l
ij ij
i j
ij
O E
E
  



Embasamento Teórico
Agregação
Pivoteamento
Padronização
Atualização
Tratamento Básico
de Dados
Discretização
Normalização
Sampling
Datasets
Pré-Processamento
de Dados
Seleção de Atributos
Relevantes
Aprendizagem de Máquina
Validação de Modelos
Ajuste de Modelos
Teste de
Modelo Final
Implantação
de Modelo
no Sistema
Modelo
Final
Confiável?
SIM
Mineração de Dados
Exemplo: “7) Análise Intermediária” inclui Análise de Correlação
Dados de 242.000 linhas por 12.000 colunas
Código vetorizado  20 cores full = 2 horas
Mineração de Dados
1º Loop (5000 iterações) = 200.000 modelos
12+ cores = Sem memória
10 cores = 7 horas full
2º Loop (1000 iterações) = 11.000 modelos
20 cores = 30 minutos full
Amostra dos dados: 305.569 linhas de 2.287 variáveis = 5 GB
1º Loop = 5000 iter.
2º Loop = 1000 iter.
Mineração de Dados
Mais que Minerar
Alguns dados da construção da versão Beta:
18 bases de dados utilizadas (+500 GB)
5.000 horas de trabalho
4.376 atributos elaborados
62.204 atributos de interação
76 atributos selecionados > 1022 possibilidades
Godzilhões de cálculos estatísticos
10 produtos descritos, sendo 3 implementados
296 páginas de Wiki
150 arquivos produzidos
23.000 linhas de código
31.476 dirigentes e 5.186 UGs abordados
 Transforma DADOS em CONHECIMENTO ESTRATÉGICO
 Vasta gama de técnicas e tecnologias de ponta utilizadas
 Possibilita atualização constante
 Produto sempre em desenvolvimento
 Incentiva atuação a priori – e isso é HOJE!
 Inúmeros desafios
 Infraestrutura x Escalabilidade x Equipe capacitada
 Atividades rotineiras x Dedicação ao projeto x Equipe disponível
Conclusão
Mapeamento de Risco de Corrupção na
Administração Pública Federal
Brasil 100% Digital: 2º Seminário sobre Análise de Dados na Administração Pública | 25/08/2016 @ TCU
Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
data-science-gov-br

Mais conteúdo relacionado

Semelhante a Mapeamento de risco de corrupção na administração pública federal

Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Wosley Arruda
 
IPT defesa Wagner F Canto v6
IPT defesa Wagner F Canto v6IPT defesa Wagner F Canto v6
IPT defesa Wagner F Canto v6wfcanto
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
Teste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeterTeste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeterJuliano Santos
 
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Thiago Rocha
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningJosias Oliveira
 
Solução contra fraudes via Internet.
Solução contra fraudes via Internet.Solução contra fraudes via Internet.
Solução contra fraudes via Internet.ssvaldemir
 
Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Rodrigo Dornel
 
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digitalPesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digitalFelipe Pereira
 
Biweek Mineração de Dados com SQL Server
Biweek   Mineração de Dados com SQL ServerBiweek   Mineração de Dados com SQL Server
Biweek Mineração de Dados com SQL ServerRodrigo Dornel
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comFabrício Barth
 
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2João Gabriel Lima
 
Examples of lean six sigma applied to IT management
Examples of lean six sigma applied to IT managementExamples of lean six sigma applied to IT management
Examples of lean six sigma applied to IT managementjlkugler
 

Semelhante a Mapeamento de risco de corrupção na administração pública federal (20)

Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6
 
Data mining
Data miningData mining
Data mining
 
IPT defesa Wagner F Canto v6
IPT defesa Wagner F Canto v6IPT defesa Wagner F Canto v6
IPT defesa Wagner F Canto v6
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
Webinar: Amazon Machine Learning
Webinar: Amazon Machine LearningWebinar: Amazon Machine Learning
Webinar: Amazon Machine Learning
 
Teste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeterTeste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeter
 
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
Aumentando a taxa de qualificação do Processo de Vendas através do Predictive...
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Data science
Data scienceData science
Data science
 
Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consult...
Painel 01   01 - tiago hillermam - Análise de Cobranças Suspeitas  de Consult...Painel 01   01 - tiago hillermam - Análise de Cobranças Suspeitas  de Consult...
Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consult...
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
Solução contra fraudes via Internet.
Solução contra fraudes via Internet.Solução contra fraudes via Internet.
Solução contra fraudes via Internet.
 
Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Mineração com sql server 2008 r2
Mineração com sql server 2008 r2
 
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digitalPesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
Pesquisa, paineis, cobrança e mensuração de outras ações de marketing digital
 
Biweek Mineração de Dados com SQL Server
Biweek   Mineração de Dados com SQL ServerBiweek   Mineração de Dados com SQL Server
Biweek Mineração de Dados com SQL Server
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
 
Análise de desempenho
Análise de desempenhoAnálise de desempenho
Análise de desempenho
 
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
 
Examples of lean six sigma applied to IT management
Examples of lean six sigma applied to IT managementExamples of lean six sigma applied to IT management
Examples of lean six sigma applied to IT management
 
Campus Party2010
Campus Party2010Campus Party2010
Campus Party2010
 

Mais de Rommel Carvalho

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataRommel Carvalho
 
Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Rommel Carvalho
 
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Rommel Carvalho
 
Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Rommel Carvalho
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIRommel Carvalho
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...Rommel Carvalho
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inRommel Carvalho
 
Integração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado FederalIntegração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado FederalRommel Carvalho
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos GovernamentaisRommel Carvalho
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessRommel Carvalho
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyRommel Carvalho
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageRommel Carvalho
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsRommel Carvalho
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsRommel Carvalho
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...Rommel Carvalho
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsRommel Carvalho
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsRommel Carvalho
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Rommel Carvalho
 
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLUniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLRommel Carvalho
 

Mais de Rommel Carvalho (20)

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
 
Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...
 
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
 
Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAI
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
 
A GUI for MLN
A GUI for MLNA GUI for MLN
A GUI for MLN
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-in
 
Integração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado FederalIntegração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado Federal
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos Governamentais
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain Awareness
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling Methodology
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial Axioms
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semantics
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational Models
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
 
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLUniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
 

Mapeamento de risco de corrupção na administração pública federal

  • 1. Mapeamento de Risco de Corrupção na Administração Pública Federal Brasil 100% Digital: 2º Seminário sobre Análise de Dados na Administração Pública | 25/08/2016 @ TCU Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc
  • 2. Mapeamento de Risco de Corrupção na Administração Pública Federal Identificação de risco de corrupção através da análise cadastral, histórica e comportamental do servidor público
  • 3. Mapeamento de Risco de Corrupção na APF Mapeamento de Risco de Corrupção na APF Mapeamento de Risco de Corrupção na APF Mapeamento de Risco de Corrupção na APF Mapeamento de Risco de Corrupção na APF Introdução
  • 4. Mapeamento de Risco de Corrupção na APF 2014 2017 RISCO MÉDIO RISCO ALTO DIRIGENTE UNIDADE Introdução
  • 5. Introdução Desafio: Transformar dados em indicadores confiáveis Como? Mineração de Dados Estatística Conhecimento Especializado dos Analistas da DIE Computação em Larga Escala
  • 6. Cor Vínculos Societários Auditorias Cargo Função Punições Filiações /Referência de Corrupção: Cadastro de Expulsões (CEAF) Dirigentes: Servidores com Naturezas de Responsabilidade Unidades: UGs não-virtuais responsáveis por dotação PARÂMETROS ATRIBUTOS Introdução
  • 7. 2012 Problema: Falta visão de corrupção  Poder decisório, dotação e histórico Mapa de um ministério construído manualmente em 6 meses 2013 Problema: Falta de automatização  Indicadores arbitrados e integração de bases Mapa para dois ministérios automatizado 2014 Problema: Excesso de subjetividade  Abordagem estatística Modelos estatísticos intermediários sendo validados 2015 Problema: Falta de método científico  Mineração de dados Metodologia desenvolvida e Versão Beta construída ENVOLVIDOS NO PROJETO 4 doutores, 6 mestres Artigos relacionados publicados e a publicar Dissertações defendidas na parte técnica Introdução
  • 8. Servidor Cargo Técnico Demitido em 2010 por valer-se do cargo para lograr proveito pessoal ou de outrem INVESTIGAÇÃO MARA  Sem vínculos com empresas  Uma filiação partidária  Proprietário de um carro comum  Risco do Servidor: MUITO ALTO Cenários
  • 9. Cenários Servidora Analista aposentada Responsável pela conformidade contábil  Condenada pelo TCU a devolver recursos para União  Contas julgadas irregulares INVESTIGAÇÃO MARA  Risco da Servidora: MUITO ALTO
  • 10. Suporte Estatístico Inicial   2 1 12 k l ij ij i j ij O E E       Embasamento Teórico Agregação Pivoteamento Padronização Atualização Tratamento Básico de Dados Discretização Normalização Sampling Datasets Pré-Processamento de Dados Seleção de Atributos Relevantes Aprendizagem de Máquina Validação de Modelos Ajuste de Modelos Teste de Modelo Final Implantação de Modelo no Sistema Modelo Final Confiável? SIM Mineração de Dados
  • 11. Exemplo: “7) Análise Intermediária” inclui Análise de Correlação Dados de 242.000 linhas por 12.000 colunas Código vetorizado  20 cores full = 2 horas Mineração de Dados
  • 12. 1º Loop (5000 iterações) = 200.000 modelos 12+ cores = Sem memória 10 cores = 7 horas full 2º Loop (1000 iterações) = 11.000 modelos 20 cores = 30 minutos full Amostra dos dados: 305.569 linhas de 2.287 variáveis = 5 GB 1º Loop = 5000 iter. 2º Loop = 1000 iter. Mineração de Dados
  • 13. Mais que Minerar Alguns dados da construção da versão Beta: 18 bases de dados utilizadas (+500 GB) 5.000 horas de trabalho 4.376 atributos elaborados 62.204 atributos de interação 76 atributos selecionados > 1022 possibilidades Godzilhões de cálculos estatísticos 10 produtos descritos, sendo 3 implementados 296 páginas de Wiki 150 arquivos produzidos 23.000 linhas de código 31.476 dirigentes e 5.186 UGs abordados
  • 14.  Transforma DADOS em CONHECIMENTO ESTRATÉGICO  Vasta gama de técnicas e tecnologias de ponta utilizadas  Possibilita atualização constante  Produto sempre em desenvolvimento  Incentiva atuação a priori – e isso é HOJE!  Inúmeros desafios  Infraestrutura x Escalabilidade x Equipe capacitada  Atividades rotineiras x Dedicação ao projeto x Equipe disponível Conclusão
  • 15. Mapeamento de Risco de Corrupção na Administração Pública Federal Brasil 100% Digital: 2º Seminário sobre Análise de Dados na Administração Pública | 25/08/2016 @ TCU Dr. Rommel Novaes Carvalho – Coordenador-Geral do ODP/DIE/CGU | https://about.me/rommelnc data-science-gov-br

Notas do Editor

  1. Guia