Uso de Técnicas de Mineração de Textos
Aplicado à triagem automática de denúncias
TEXT MINING
TRIAGEM DE DENÚNCIAS DA
CGU
Denúncia: comunicação de prática de
ato ilícito cuja solução dependa da
atuação de órgão de co...
Habilitadas
Inabilitadas
Denúncias
PROTOCOLO Ouvidoria
(35 mil)
Lixo
Eletrônico
(17 mil )
Fluxo da Triagem de Denúncias
DS...
Exemplo de Texto de Denúncia com
Erros de Ortografia
Exemplo de Lixo Eletrônico
Porque a triagem manual é um problema?
 O estoque de denúncias aumenta a cada dia
Poucos servidores
Processo de triage...
Objetivo
Propor um modelo de triagem
eletrônica baseada em mineração de
textos e aprendizagem de máquina.
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem
eletrônica
Lixo
Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áre...
Denúncias Repetidas – como tratar?
 Similaridades de cossenos: encontra semelhanças através dos
cossenos do ângulo formad...
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem
eletrônica
Lixo
Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áre...
Matriz termo documento
Remoção de StopWords
Remoção de Pontuação,
números e espaços
Conversão de letras
Maiúsculas para mi...
Resultados
• POC com 4 categorias
• Precisão de 0.82
• 58 categorias – precisão de 0.554
Classificação multi-label
Resultados
Conclusões
- POC com 58 categorias (unidades da CGU) e cerca
de 40 mil denúncias
- Identificação automática de denúncias s...
patricia.maia@cgu.gov.br
Artigo ENIAC 2014: Application of text mining techniques
for classification of documents: a stud...
Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatizaçã...
Próximos SlideShares
Carregando em…5
×

Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

713 visualizações

Publicada em

O uso de classificação automática de textos tem se tornado cada vez mais comum nos últimos anos. Contudo, ao se trabalhar com classificação em larga escala, a complexidade aumenta consideravelmente. Foi realizado um estudo de caso, aplicado à triagem de denúncias na Controladoria Geral da União, utilizando uma grande quantidade de categorias a serem classificadas. A solução proposta empregou aprendizagem de máquina e classificação multilabel. Essas técnicas tiveram como objetivo a construção de um modelo capaz de solucionar adversidades inerentes a este contexto, apresentando ganhos significativos

Patrícia Helena Maia Alves de Andrade - Controladoria-Geral da União

Analista de Finanças e Controle da CGU, atuando na área de mineração de textos e análise de dados, na Diretoria de Pesquisa e Informações Estratégicas. Atualmente está finalizando o Mestrado Profissional em Computação Aplicada na Universidade de Brasília

Publicada em: Governo e ONGs
0 comentários
3 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
713
No SlideShare
0
A partir de incorporações
0
Número de incorporações
22
Ações
Compartilhamentos
0
Downloads
14
Comentários
0
Gostaram
3
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

  1. 1. Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias
  2. 2. TEXT MINING
  3. 3. TRIAGEM DE DENÚNCIAS DA CGU Denúncia: comunicação de prática de ato ilícito cuja solução dependa da atuação de órgão de controle interno ou externo.
  4. 4. Habilitadas Inabilitadas Denúncias PROTOCOLO Ouvidoria (35 mil) Lixo Eletrônico (17 mil ) Fluxo da Triagem de Denúncias DSSAU DSEDU DRDAG 91 diferentes áreas da CGU ... Dados insuficientes Não é competência CGU Já foi Ficalizada Arquivadas...
  5. 5. Exemplo de Texto de Denúncia com Erros de Ortografia
  6. 6. Exemplo de Lixo Eletrônico
  7. 7. Porque a triagem manual é um problema?  O estoque de denúncias aumenta a cada dia Poucos servidores Processo de triagem baseado em palavras chaves  Denúncia é feita com campo texto em formato livre  91 áreas da CGU para as quais as denúncias devem ser encaminhadas
  8. 8. Objetivo Propor um modelo de triagem eletrônica baseada em mineração de textos e aprendizagem de máquina.
  9. 9. Proposta de triagem eletrônica Denúncias PROTOCOLOo Triagem eletrônica Lixo Eletrônico DSSAU DSEDU DRDAG 91 diferentes áreas da CGU ... Arquivadas Elimina similares Dados insuficientes Não é competência CGU Já foi Ficalizada ...
  10. 10. Denúncias Repetidas – como tratar?  Similaridades de cossenos: encontra semelhanças através dos cossenos do ângulo formado entre 2 vetores.  Valida antes da triagem.  1 = denúncias idênticas!
  11. 11. Proposta de triagem eletrônica Denúncias PROTOCOLOo Triagem eletrônica Lixo Eletrônico DSSAU DSEDU DRDAG 91 diferentes áreas da CGU ... Arquivadas Elimina similares Dados insuficientes Não é competência CGU Já foi Ficalizada ...
  12. 12. Matriz termo documento Remoção de StopWords Remoção de Pontuação, números e espaços Conversão de letras Maiúsculas para minúsculas Uso de stemming Base de dados Denúncia denunc escolc fraud ... 1 1 0 0 1 0 1 0 Classificador
  13. 13. Resultados • POC com 4 categorias • Precisão de 0.82 • 58 categorias – precisão de 0.554
  14. 14. Classificação multi-label Resultados
  15. 15. Conclusões - POC com 58 categorias (unidades da CGU) e cerca de 40 mil denúncias - Identificação automática de denúncias similares - A triagem pode ser feita de forma automática, em menor tempo e sem perda de qualidade! - Triagem pode indicar mais de uma unidade da CGU - O processo é escalável e pode triar maior volume de denúncias e menor tempo
  16. 16. patricia.maia@cgu.gov.br Artigo ENIAC 2014: Application of text mining techniques for classification of documents: a study of automation of complaints screening in a Brazilian Federal Agency http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf Obrigada!

×