Categorização de achados em auditorias de TI com
modelos supervisionados e não supervisionados
Desafio
Descobrir os assuntos mais recorrentes em auditorias
Abordagens:
Classificação - supervisionada
Modelagem de Tópicos – não supervisionada
Dados:
Textos de constatações
Auditorias de TI
R Studio
Entendimento dos dados
1) Identificação da origem
dos dados
2) Identificação do formato
Pré-Processamento
Remoção de Acentuação
Criação do Corpus
Tratamento do Texto
Tokenização
Definição do Escopo Nova Modelagem
Validação do Modelo Final
Primeira Modelagem
Validação do Modelo e Ajustes
de Parâmetros
Implantação
Metodologia de Modelagem de Tópicos
Abordagem Supervisionda - LDA
Distribuição dentro do Tópico
Primeiros Testes:
50 tópicos
Todas as palavras
Todos os dados
Testes por estados
Resultados:
Tópicos com muita proximidade, sobrepostos, palavras desnecessárias.
LDA – Modelagem de Tópicos
• Ajuste de parâmetros em conjunto em conjunto com especialistas:
Exclusão das palavras desnecessárias.
Validação das quantidades de tópicos
• Tópicos: 15,10,7,6,5,4
• Melhor resultado: 5 tópicos
Novos Testes
Melhor Resultado LDA: 5 Tópicos
Aprendizagem Supervisionada
• Classificação manual de 300 constatações
• Random Forest
• Acurácia: 73%
Aprendizagem Supervisionada
Classe de Constatação Quantidade de registros na amostra
Planejamento e Gestão de TI 104
Contratos em geral 72
Política de Pessoal 42
Política de Segurança da Informação 41
Desenvolvimento e Manutenção de Software 31
Não especificado 26
Controles Internos 10
Contrato de mão-de-obra 9
Total 335
LDA (não supervisionada) X Classificação
(supervisionada)
Conclusões
• Parceria com Especialistas
• Modelo não supervisionado – LDA
• Aplicado em novos contextos:
Recursos Externos
Saúde
Bolsa Família
Categorização de achados em auditorias de TI com
modelos supervisionados e não supervisionados

Categorização de achados em auditorias de TI com modelos supervisionados e não supervisionados

  • 1.
    Categorização de achadosem auditorias de TI com modelos supervisionados e não supervisionados
  • 2.
    Desafio Descobrir os assuntosmais recorrentes em auditorias Abordagens: Classificação - supervisionada Modelagem de Tópicos – não supervisionada Dados: Textos de constatações Auditorias de TI R Studio
  • 3.
    Entendimento dos dados 1)Identificação da origem dos dados 2) Identificação do formato Pré-Processamento Remoção de Acentuação Criação do Corpus Tratamento do Texto Tokenização Definição do Escopo Nova Modelagem Validação do Modelo Final Primeira Modelagem Validação do Modelo e Ajustes de Parâmetros Implantação Metodologia de Modelagem de Tópicos
  • 4.
  • 5.
  • 6.
    Primeiros Testes: 50 tópicos Todasas palavras Todos os dados Testes por estados Resultados: Tópicos com muita proximidade, sobrepostos, palavras desnecessárias. LDA – Modelagem de Tópicos
  • 7.
    • Ajuste deparâmetros em conjunto em conjunto com especialistas: Exclusão das palavras desnecessárias. Validação das quantidades de tópicos • Tópicos: 15,10,7,6,5,4 • Melhor resultado: 5 tópicos Novos Testes
  • 8.
  • 12.
    Aprendizagem Supervisionada • Classificaçãomanual de 300 constatações • Random Forest • Acurácia: 73%
  • 13.
    Aprendizagem Supervisionada Classe deConstatação Quantidade de registros na amostra Planejamento e Gestão de TI 104 Contratos em geral 72 Política de Pessoal 42 Política de Segurança da Informação 41 Desenvolvimento e Manutenção de Software 31 Não especificado 26 Controles Internos 10 Contrato de mão-de-obra 9 Total 335
  • 14.
    LDA (não supervisionada)X Classificação (supervisionada)
  • 15.
    Conclusões • Parceria comEspecialistas • Modelo não supervisionado – LDA • Aplicado em novos contextos: Recursos Externos Saúde Bolsa Família
  • 16.
    Categorização de achadosem auditorias de TI com modelos supervisionados e não supervisionados