Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Categorização de achados em auditorias de TI com
modelos supervisionados e não supervisionados

Desafio
Descobrir os assuntos mais recorrentes em auditorias
Abordagens:
Classificação - supervisionada
Modelagem de Tópicos – não supervisionada
Dados:
Textos de constatações
Auditorias de TI
R Studio

Entendimento dos dados
1) Identificação da origem
dos dados
2) Identificação do formato
Pré-Processamento
Remoção de Acentuação
Criação do Corpus
Tratamento do Texto
Tokenização
Definição do Escopo Nova Modelagem
Validação do Modelo Final
Primeira Modelagem
Validação do Modelo e Ajustes
de Parâmetros
Implantação
Metodologia de Modelagem de Tópicos

Distribuição dentro do Tópico

Primeiros Testes:
50 tópicos
Todas as palavras
Todos os dados
Testes por estados
Resultados:
Tópicos com muita proximidade, sobrepostos, palavras desnecessárias.
LDA – Modelagem de Tópicos

• Ajuste de parâmetros em conjunto em conjunto com especialistas:
Exclusão das palavras desnecessárias.
Validação das quantidades de tópicos
• Tópicos: 15,10,7,6,5,4
• Melhor resultado: 5 tópicos
Novos Testes

Melhor Resultado LDA: 5 Tópicos

Aprendizagem Supervisionada
• Classificação manual de 300 constatações
• Random Forest
• Acurácia: 73%

Aprendizagem Supervisionada
Classe de Constatação Quantidade de registros na amostra
Planejamento e Gestão de TI 104
Contratos em geral 72
Política de Pessoal 42
Política de Segurança da Informação 41
Desenvolvimento e Manutenção de Software 31
Não especificado 26
Controles Internos 10
Contrato de mão-de-obra 9
Total 335

LDA (não supervisionada) X Classificação
(supervisionada)

Conclusões
• Parceria com Especialistas
• Modelo não supervisionado – LDA
• Aplicado em novos contextos:
Recursos Externos
Saúde
Bolsa Família

Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

Mais conteúdo relacionado

Destaque

Mais de Rommel Carvalho

Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados