SlideShare uma empresa Scribd logo
1 de 16
Categorização de achados em auditorias de TI com
modelos supervisionados e não supervisionados
Desafio
Descobrir os assuntos mais recorrentes em auditorias
Abordagens:
Classificação - supervisionada
Modelagem de Tópicos – não supervisionada
Dados:
Textos de constatações
Auditorias de TI
R Studio
Entendimento dos dados
1) Identificação da origem
dos dados
2) Identificação do formato
Pré-Processamento
Remoção de Acentuação
Criação do Corpus
Tratamento do Texto
Tokenização
Definição do Escopo Nova Modelagem
Validação do Modelo Final
Primeira Modelagem
Validação do Modelo e Ajustes
de Parâmetros
Implantação
Metodologia de Modelagem de Tópicos
Abordagem Supervisionda - LDA
Distribuição dentro do Tópico
Primeiros Testes:
50 tópicos
Todas as palavras
Todos os dados
Testes por estados
Resultados:
Tópicos com muita proximidade, sobrepostos, palavras desnecessárias.
LDA – Modelagem de Tópicos
• Ajuste de parâmetros em conjunto em conjunto com especialistas:
Exclusão das palavras desnecessárias.
Validação das quantidades de tópicos
• Tópicos: 15,10,7,6,5,4
• Melhor resultado: 5 tópicos
Novos Testes
Melhor Resultado LDA: 5 Tópicos
Aprendizagem Supervisionada
• Classificação manual de 300 constatações
• Random Forest
• Acurácia: 73%
Aprendizagem Supervisionada
Classe de Constatação Quantidade de registros na amostra
Planejamento e Gestão de TI 104
Contratos em geral 72
Política de Pessoal 42
Política de Segurança da Informação 41
Desenvolvimento e Manutenção de Software 31
Não especificado 26
Controles Internos 10
Contrato de mão-de-obra 9
Total 335
LDA (não supervisionada) X Classificação
(supervisionada)
Conclusões
• Parceria com Especialistas
• Modelo não supervisionado – LDA
• Aplicado em novos contextos:
Recursos Externos
Saúde
Bolsa Família
Categorização de achados em auditorias de TI com
modelos supervisionados e não supervisionados

Mais conteúdo relacionado

Destaque

Особенности развития стран "третьего мира"
Особенности развития стран "третьего мира"Особенности развития стран "третьего мира"
Особенности развития стран "третьего мира"Пётр Ситник
 
Visual Culture Group: Keep Calm and Carry On Book Overview
Visual Culture Group: Keep Calm and Carry On Book OverviewVisual Culture Group: Keep Calm and Carry On Book Overview
Visual Culture Group: Keep Calm and Carry On Book OverviewBex Lewis
 
supply chain fundamentals trainign
supply chain fundamentals trainignsupply chain fundamentals trainign
supply chain fundamentals trainignSadia Siddiqui
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos GovernamentaisRommel Carvalho
 
Documentation and procedure in international trade and business of rupali ban...
Documentation and procedure in international trade and business of rupali ban...Documentation and procedure in international trade and business of rupali ban...
Documentation and procedure in international trade and business of rupali ban...Md. Mostahidur Rahman, CDCS
 
Experience Letter Saudioger ltd
Experience Letter Saudioger ltdExperience Letter Saudioger ltd
Experience Letter Saudioger ltdSaqib Arif
 
Presentation1 stressss
Presentation1 stressssPresentation1 stressss
Presentation1 stressssifrah syed
 
Detecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasDetecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasRommel Carvalho
 
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos PúblicosProposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos PúblicosRommel Carvalho
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIRommel Carvalho
 
Ciência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoCiência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoRommel Carvalho
 
Mapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalMapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalRommel Carvalho
 
Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Rommel Carvalho
 
Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Rommel Carvalho
 
Особенности развития стран "третьего мира"
Особенности развития стран "третьего мира"Особенности развития стран "третьего мира"
Особенности развития стран "третьего мира"Пётр Ситник
 

Destaque (20)

Особенности развития стран "третьего мира"
Особенности развития стран "третьего мира"Особенности развития стран "третьего мира"
Особенности развития стран "третьего мира"
 
CV_RHMANE
CV_RHMANECV_RHMANE
CV_RHMANE
 
Visual Culture Group: Keep Calm and Carry On Book Overview
Visual Culture Group: Keep Calm and Carry On Book OverviewVisual Culture Group: Keep Calm and Carry On Book Overview
Visual Culture Group: Keep Calm and Carry On Book Overview
 
Profinet system design - Andy Verwer
Profinet system design - Andy VerwerProfinet system design - Andy Verwer
Profinet system design - Andy Verwer
 
supply chain fundamentals trainign
supply chain fundamentals trainignsupply chain fundamentals trainign
supply chain fundamentals trainign
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos Governamentais
 
Documentation and procedure in international trade and business of rupali ban...
Documentation and procedure in international trade and business of rupali ban...Documentation and procedure in international trade and business of rupali ban...
Documentation and procedure in international trade and business of rupali ban...
 
Introduction to PROFINET - Derek Lane
Introduction to PROFINET - Derek LaneIntroduction to PROFINET - Derek Lane
Introduction to PROFINET - Derek Lane
 
Experience Letter Saudioger ltd
Experience Letter Saudioger ltdExperience Letter Saudioger ltd
Experience Letter Saudioger ltd
 
Presentation1 stressss
Presentation1 stressssPresentation1 stressss
Presentation1 stressss
 
Detecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasDetecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de compras
 
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos PúblicosProposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAI
 
Ciência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoCiência de Dados no Combate à Corrupção
Ciência de Dados no Combate à Corrupção
 
Mapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalMapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federal
 
Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...Como transformar servidores em cientistas de dados e diminuir a distância ent...
Como transformar servidores em cientistas de dados e diminuir a distância ent...
 
Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...Aplicação de técnicas de mineração de textos para classificação automática de...
Aplicação de técnicas de mineração de textos para classificação automática de...
 
PSC
PSCPSC
PSC
 
Китай в 1945-1978 гг.
Китай в 1945-1978 гг.Китай в 1945-1978 гг.
Китай в 1945-1978 гг.
 
Особенности развития стран "третьего мира"
Особенности развития стран "третьего мира"Особенности развития стран "третьего мира"
Особенности развития стран "третьего мира"
 

Semelhante a Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Introdução à Revisão Sistemática de Literatura (RSL)
Introdução à Revisão Sistemática de Literatura (RSL)Introdução à Revisão Sistemática de Literatura (RSL)
Introdução à Revisão Sistemática de Literatura (RSL)Mariana de Azevedo Santos
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebFernando Hideo Fukuda
 
Qualificação - Mestrado
Qualificação - MestradoQualificação - Mestrado
Qualificação - Mestradoyanaisama
 
Um Algoritmo De Busca Utilizando Tesauros
Um Algoritmo De Busca Utilizando TesaurosUm Algoritmo De Busca Utilizando Tesauros
Um Algoritmo De Busca Utilizando TesaurosDaniel Ferreira
 
Engenharia de Requisitos - Aula 2
Engenharia de Requisitos - Aula 2Engenharia de Requisitos - Aula 2
Engenharia de Requisitos - Aula 2Tiago Barros
 
02/12 Referencial Teórico - Processo de Codificação
02/12 Referencial Teórico - Processo de Codificação 02/12 Referencial Teórico - Processo de Codificação
02/12 Referencial Teórico - Processo de Codificação Cícera Malheiro
 
Tecnicas de projeto design especificacao modelagem de casos de testes
Tecnicas de projeto design especificacao modelagem de casos de testesTecnicas de projeto design especificacao modelagem de casos de testes
Tecnicas de projeto design especificacao modelagem de casos de testesCristiano Caetano
 
Planode Aula
Planode AulaPlanode Aula
Planode Aulasofteam
 
T@rget trust metodologias ágeis - técnicas para gerar código de qualidade - xp
T@rget trust   metodologias ágeis - técnicas para gerar código de qualidade - xpT@rget trust   metodologias ágeis - técnicas para gerar código de qualidade - xp
T@rget trust metodologias ágeis - técnicas para gerar código de qualidade - xpTargettrust
 
4 engenharia de software
4   engenharia de software4   engenharia de software
4 engenharia de softwareFelipe Bugov
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
 

Semelhante a Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados (20)

Aula4 TEES UFS: Orientação a Objetos
Aula4 TEES UFS: Orientação a ObjetosAula4 TEES UFS: Orientação a Objetos
Aula4 TEES UFS: Orientação a Objetos
 
Introdução à Revisão Sistemática de Literatura (RSL)
Introdução à Revisão Sistemática de Literatura (RSL)Introdução à Revisão Sistemática de Literatura (RSL)
Introdução à Revisão Sistemática de Literatura (RSL)
 
Aula3 TEES UFS: Engenharia de Requisitos
Aula3 TEES UFS: Engenharia de RequisitosAula3 TEES UFS: Engenharia de Requisitos
Aula3 TEES UFS: Engenharia de Requisitos
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
 
Mapping Study
Mapping StudyMapping Study
Mapping Study
 
Webmedia2007 V4
Webmedia2007 V4Webmedia2007 V4
Webmedia2007 V4
 
Introdução ao TDD
Introdução ao TDDIntrodução ao TDD
Introdução ao TDD
 
Análise de desempenho
Análise de desempenhoAnálise de desempenho
Análise de desempenho
 
Qualificação - Mestrado
Qualificação - MestradoQualificação - Mestrado
Qualificação - Mestrado
 
Um Algoritmo De Busca Utilizando Tesauros
Um Algoritmo De Busca Utilizando TesaurosUm Algoritmo De Busca Utilizando Tesauros
Um Algoritmo De Busca Utilizando Tesauros
 
Wgp09 Apresentacao Italo
Wgp09   Apresentacao ItaloWgp09   Apresentacao Italo
Wgp09 Apresentacao Italo
 
Engenharia de Requisitos - Aula 2
Engenharia de Requisitos - Aula 2Engenharia de Requisitos - Aula 2
Engenharia de Requisitos - Aula 2
 
02/12 Referencial Teórico - Processo de Codificação
02/12 Referencial Teórico - Processo de Codificação 02/12 Referencial Teórico - Processo de Codificação
02/12 Referencial Teórico - Processo de Codificação
 
Tecnicas de projeto design especificacao modelagem de casos de testes
Tecnicas de projeto design especificacao modelagem de casos de testesTecnicas de projeto design especificacao modelagem de casos de testes
Tecnicas de projeto design especificacao modelagem de casos de testes
 
Testes Funcionais
Testes FuncionaisTestes Funcionais
Testes Funcionais
 
Planode Aula
Planode AulaPlanode Aula
Planode Aula
 
T@rget trust metodologias ágeis - técnicas para gerar código de qualidade - xp
T@rget trust   metodologias ágeis - técnicas para gerar código de qualidade - xpT@rget trust   metodologias ágeis - técnicas para gerar código de qualidade - xp
T@rget trust metodologias ágeis - técnicas para gerar código de qualidade - xp
 
4 engenharia de software
4   engenharia de software4   engenharia de software
4 engenharia de software
 
TDD - Test Driven Development
TDD - Test Driven DevelopmentTDD - Test Driven Development
TDD - Test Driven Development
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
 

Mais de Rommel Carvalho

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataRommel Carvalho
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...Rommel Carvalho
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inRommel Carvalho
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessRommel Carvalho
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyRommel Carvalho
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageRommel Carvalho
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsRommel Carvalho
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsRommel Carvalho
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...Rommel Carvalho
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsRommel Carvalho
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsRommel Carvalho
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Rommel Carvalho
 
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLUniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLRommel Carvalho
 
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...Rommel Carvalho
 
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...Rommel Carvalho
 
UnBBayes Plugin Framework
UnBBayes Plugin FrameworkUnBBayes Plugin Framework
UnBBayes Plugin FrameworkRommel Carvalho
 

Mais de Rommel Carvalho (18)

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
 
A GUI for MLN
A GUI for MLNA GUI for MLN
A GUI for MLN
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-in
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain Awareness
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling Methodology
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial Axioms
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semantics
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational Models
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
 
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWLUniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
UniDL 2010 - Compatibility Formalization Between PR-OWL and OWL
 
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
AFCEA 2010 - High Level Fusion and Predictive Situational Awareness with Prob...
 
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
URSW 2009 - Probabilistic Ontology and Knowledge Fusion for Procurement Fraud...
 
UnBBayes Overview
UnBBayes OverviewUnBBayes Overview
UnBBayes Overview
 
UnBBayes Plugin Framework
UnBBayes Plugin FrameworkUnBBayes Plugin Framework
UnBBayes Plugin Framework
 

Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

  • 1. Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados
  • 2. Desafio Descobrir os assuntos mais recorrentes em auditorias Abordagens: Classificação - supervisionada Modelagem de Tópicos – não supervisionada Dados: Textos de constatações Auditorias de TI R Studio
  • 3. Entendimento dos dados 1) Identificação da origem dos dados 2) Identificação do formato Pré-Processamento Remoção de Acentuação Criação do Corpus Tratamento do Texto Tokenização Definição do Escopo Nova Modelagem Validação do Modelo Final Primeira Modelagem Validação do Modelo e Ajustes de Parâmetros Implantação Metodologia de Modelagem de Tópicos
  • 6. Primeiros Testes: 50 tópicos Todas as palavras Todos os dados Testes por estados Resultados: Tópicos com muita proximidade, sobrepostos, palavras desnecessárias. LDA – Modelagem de Tópicos
  • 7. • Ajuste de parâmetros em conjunto em conjunto com especialistas: Exclusão das palavras desnecessárias. Validação das quantidades de tópicos • Tópicos: 15,10,7,6,5,4 • Melhor resultado: 5 tópicos Novos Testes
  • 9.
  • 10.
  • 11.
  • 12. Aprendizagem Supervisionada • Classificação manual de 300 constatações • Random Forest • Acurácia: 73%
  • 13. Aprendizagem Supervisionada Classe de Constatação Quantidade de registros na amostra Planejamento e Gestão de TI 104 Contratos em geral 72 Política de Pessoal 42 Política de Segurança da Informação 41 Desenvolvimento e Manutenção de Software 31 Não especificado 26 Controles Internos 10 Contrato de mão-de-obra 9 Total 335
  • 14. LDA (não supervisionada) X Classificação (supervisionada)
  • 15. Conclusões • Parceria com Especialistas • Modelo não supervisionado – LDA • Aplicado em novos contextos: Recursos Externos Saúde Bolsa Família
  • 16. Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados