SlideShare uma empresa Scribd logo
Uso de Técnicas de Mineração de Textos
Aplicado à triagem automática de denúncias
TEXT MINING
TRIAGEM DE DENÚNCIAS DA
CGU
Denúncia: comunicação de prática de
ato ilícito cuja solução dependa da
atuação de órgão de controle interno
ou externo.
Habilitadas
Inabilitadas
Denúncias
PROTOCOLO Ouvidoria
(35 mil)
Lixo
Eletrônico
(17 mil )
Fluxo da Triagem de Denúncias
DSSAU
DSEDU
DRDAG
91
diferentes
áreas da
CGU
...
Dados
insuficientes
Não é
competência
CGU
Já foi
Ficalizada
Arquivadas...
Exemplo de Texto de Denúncia com
Erros de Ortografia
Exemplo de Lixo Eletrônico
Porque a triagem manual é um problema?
 O estoque de denúncias aumenta a cada dia
Poucos servidores
Processo de triagem baseado em palavras chaves
 Denúncia é feita com campo texto em formato livre
 91 áreas da CGU para as quais as denúncias devem
ser encaminhadas
Objetivo
Propor um modelo de triagem
eletrônica baseada em mineração de
textos e aprendizagem de máquina.
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem
eletrônica
Lixo
Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU
...
Arquivadas
Elimina
similares
Dados
insuficientes
Não é
competência
CGU
Já foi
Ficalizada
...
Denúncias Repetidas – como tratar?
 Similaridades de cossenos: encontra semelhanças através dos
cossenos do ângulo formado entre 2 vetores.
 Valida antes da triagem.
 1 = denúncias idênticas!
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem
eletrônica
Lixo
Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU
...
Arquivadas
Elimina
similares
Dados
insuficientes
Não é
competência
CGU
Já foi
Ficalizada
...
Matriz termo documento
Remoção de StopWords
Remoção de Pontuação,
números e espaços
Conversão de letras
Maiúsculas para minúsculas
Uso de stemming
Base de dados
Denúncia
denunc escolc fraud ...
1 1 0 0
1 0 1 0
Classificador
Resultados
• POC com 4 categorias
• Precisão de 0.82
• 58 categorias – precisão de 0.554
Classificação multi-label
Resultados
Conclusões
- POC com 58 categorias (unidades da CGU) e cerca
de 40 mil denúncias
- Identificação automática de denúncias similares
- A triagem pode ser feita de forma automática, em
menor tempo e sem perda de qualidade!
- Triagem pode indicar mais de uma unidade da CGU
- O processo é escalável e pode triar maior volume de
denúncias e menor tempo
patricia.maia@cgu.gov.br
Artigo ENIAC 2014: Application of text mining techniques
for classification of documents: a study of automation of
complaints screening in a Brazilian Federal Agency
http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf
Obrigada!

Mais conteúdo relacionado

Destaque

Cmc encaminhamento- solicitando e agendando
Cmc  encaminhamento- solicitando e agendandoCmc  encaminhamento- solicitando e agendando
Cmc encaminhamento- solicitando e agendando
Leonardo Alves
 
L) médico pesquisando medicações
L) médico   pesquisando medicaçõesL) médico   pesquisando medicações
L) médico pesquisando medicações
Leonardo Alves
 
Turbinando sua aplicação com Lucene, Solr e Hibernate Search
Turbinando sua aplicação com Lucene, Solr e Hibernate SearchTurbinando sua aplicação com Lucene, Solr e Hibernate Search
Turbinando sua aplicação com Lucene, Solr e Hibernate Search
Paulo César M Jeveaux
 
Text mining mengmeng & jack_lsu
Text mining mengmeng & jack_lsuText mining mengmeng & jack_lsu
Text mining mengmeng & jack_lsu
jjdai
 
K) médico histórico de consultas, retornos, consultas antigas
K) médico   histórico de consultas, retornos, consultas antigasK) médico   histórico de consultas, retornos, consultas antigas
K) médico histórico de consultas, retornos, consultas antigas
Leonardo Alves
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
Wesley Seidel
 
Prontuário Eletrônico - Prefeituras
Prontuário Eletrônico - PrefeiturasProntuário Eletrônico - Prefeituras
Prontuário Eletrônico - Prefeituras
Leonardo Alves
 
Tome Decisões + Inteligentes!
Tome Decisões + Inteligentes!Tome Decisões + Inteligentes!
Tome Decisões + Inteligentes!
Leonardo Couto
 
Extração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache LuceneExtração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache Lucene
André Luis Schwerz
 
Bpa importando txt da produção mensal2
Bpa   importando txt da produção mensal2Bpa   importando txt da produção mensal2
Bpa importando txt da produção mensal2
Leonardo Alves
 
Text Mining with Node.js - Philipp Burckhardt, Carnegie Mellon University
Text Mining with Node.js - Philipp Burckhardt, Carnegie Mellon UniversityText Mining with Node.js - Philipp Burckhardt, Carnegie Mellon University
Text Mining with Node.js - Philipp Burckhardt, Carnegie Mellon University
NodejsFoundation
 
Relatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta WekaRelatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta Weka
Universidade Federal do Maranhão
 
Text Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no TableauText Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no Tableau
Leandro Guerra
 
Weka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosWeka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de Dados
Rubem Ventura Alves
 
Weka em aplicações java
Weka em aplicações javaWeka em aplicações java
Weka em aplicações java
Marcio Palheta
 
14.03.23 livro sobre pentaho
14.03.23   livro sobre pentaho14.03.23   livro sobre pentaho
14.03.23 livro sobre pentaho
Talita Lima
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Caio Moreno
 

Destaque (17)

Cmc encaminhamento- solicitando e agendando
Cmc  encaminhamento- solicitando e agendandoCmc  encaminhamento- solicitando e agendando
Cmc encaminhamento- solicitando e agendando
 
L) médico pesquisando medicações
L) médico   pesquisando medicaçõesL) médico   pesquisando medicações
L) médico pesquisando medicações
 
Turbinando sua aplicação com Lucene, Solr e Hibernate Search
Turbinando sua aplicação com Lucene, Solr e Hibernate SearchTurbinando sua aplicação com Lucene, Solr e Hibernate Search
Turbinando sua aplicação com Lucene, Solr e Hibernate Search
 
Text mining mengmeng & jack_lsu
Text mining mengmeng & jack_lsuText mining mengmeng & jack_lsu
Text mining mengmeng & jack_lsu
 
K) médico histórico de consultas, retornos, consultas antigas
K) médico   histórico de consultas, retornos, consultas antigasK) médico   histórico de consultas, retornos, consultas antigas
K) médico histórico de consultas, retornos, consultas antigas
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
Prontuário Eletrônico - Prefeituras
Prontuário Eletrônico - PrefeiturasProntuário Eletrônico - Prefeituras
Prontuário Eletrônico - Prefeituras
 
Tome Decisões + Inteligentes!
Tome Decisões + Inteligentes!Tome Decisões + Inteligentes!
Tome Decisões + Inteligentes!
 
Extração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache LuceneExtração de informações de texto e cálculo de similaridade usando Apache Lucene
Extração de informações de texto e cálculo de similaridade usando Apache Lucene
 
Bpa importando txt da produção mensal2
Bpa   importando txt da produção mensal2Bpa   importando txt da produção mensal2
Bpa importando txt da produção mensal2
 
Text Mining with Node.js - Philipp Burckhardt, Carnegie Mellon University
Text Mining with Node.js - Philipp Burckhardt, Carnegie Mellon UniversityText Mining with Node.js - Philipp Burckhardt, Carnegie Mellon University
Text Mining with Node.js - Philipp Burckhardt, Carnegie Mellon University
 
Relatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta WekaRelatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta Weka
 
Text Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no TableauText Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no Tableau
 
Weka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosWeka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de Dados
 
Weka em aplicações java
Weka em aplicações javaWeka em aplicações java
Weka em aplicações java
 
14.03.23 livro sobre pentaho
14.03.23   livro sobre pentaho14.03.23   livro sobre pentaho
14.03.23 livro sobre pentaho
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 

Semelhante a Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

Planejamento de Capacidade em infra-estruturas suportadas por serviço terceir...
Planejamento de Capacidade em infra-estruturas suportadas por serviço terceir...Planejamento de Capacidade em infra-estruturas suportadas por serviço terceir...
Planejamento de Capacidade em infra-estruturas suportadas por serviço terceir...
Joao Galdino Mello de Souza
 
Apresentação Institucional
Apresentação InstitucionalApresentação Institucional
Apresentação Institucional
e-novar
 
Siap 2009 4 Familias Tecnologicas
Siap 2009 4 Familias TecnologicasSiap 2009 4 Familias Tecnologicas
Siap 2009 4 Familias Tecnologicas
Luis Vidigal
 
Teste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeterTeste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeter
Juliano Santos
 
Apresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOAApresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOA
paulosampei
 
ECMShow 2014 - Implantando Projetos de ECM
ECMShow 2014 - Implantando Projetos de ECMECMShow 2014 - Implantando Projetos de ECM
ECMShow 2014 - Implantando Projetos de ECM
Marcio Teschima
 
DISCIPLINA REDES 1 TRABALHO A1
 DISCIPLINA REDES 1 TRABALHO A1 DISCIPLINA REDES 1 TRABALHO A1
DISCIPLINA REDES 1 TRABALHO A1
Marcus Java
 
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
TI Safe
 
AutomationEdge Quality Nextech
AutomationEdge Quality NextechAutomationEdge Quality Nextech
AutomationEdge Quality Nextech
Jorge Biesczad Jr.
 
Qualidade de Software no século XXI
Qualidade de Software no século XXIQualidade de Software no século XXI
Qualidade de Software no século XXI
Bruno Penteado
 
Analise Algoritmos
Analise AlgoritmosAnalise Algoritmos
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
Joao Galdino Mello de Souza
 
Teste de Software - Especialização Univem
Teste de Software - Especialização UnivemTeste de Software - Especialização Univem
Teste de Software - Especialização Univem
André Abe Vicente
 
2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações
Leandro de Castro
 

Semelhante a Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU (14)

Planejamento de Capacidade em infra-estruturas suportadas por serviço terceir...
Planejamento de Capacidade em infra-estruturas suportadas por serviço terceir...Planejamento de Capacidade em infra-estruturas suportadas por serviço terceir...
Planejamento de Capacidade em infra-estruturas suportadas por serviço terceir...
 
Apresentação Institucional
Apresentação InstitucionalApresentação Institucional
Apresentação Institucional
 
Siap 2009 4 Familias Tecnologicas
Siap 2009 4 Familias TecnologicasSiap 2009 4 Familias Tecnologicas
Siap 2009 4 Familias Tecnologicas
 
Teste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeterTeste de Desempenho, muito além do JMeter
Teste de Desempenho, muito além do JMeter
 
Apresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOAApresentando CEP - TDC2011 / Trilha SOA
Apresentando CEP - TDC2011 / Trilha SOA
 
ECMShow 2014 - Implantando Projetos de ECM
ECMShow 2014 - Implantando Projetos de ECMECMShow 2014 - Implantando Projetos de ECM
ECMShow 2014 - Implantando Projetos de ECM
 
DISCIPLINA REDES 1 TRABALHO A1
 DISCIPLINA REDES 1 TRABALHO A1 DISCIPLINA REDES 1 TRABALHO A1
DISCIPLINA REDES 1 TRABALHO A1
 
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
[CLASS 2014] Palestra Técnica - Marcelo Branquinho e Jan Seidl
 
AutomationEdge Quality Nextech
AutomationEdge Quality NextechAutomationEdge Quality Nextech
AutomationEdge Quality Nextech
 
Qualidade de Software no século XXI
Qualidade de Software no século XXIQualidade de Software no século XXI
Qualidade de Software no século XXI
 
Analise Algoritmos
Analise AlgoritmosAnalise Algoritmos
Analise Algoritmos
 
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
A Automação dos Processos na Gestão de Performance das Aplicações por Gilbert...
 
Teste de Software - Especialização Univem
Teste de Software - Especialização UnivemTeste de Software - Especialização Univem
Teste de Software - Especialização Univem
 
2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações
 

Mais de Rommel Carvalho

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Rommel Carvalho
 
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos PúblicosProposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
Rommel Carvalho
 
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Rommel Carvalho
 
Mapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalMapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federal
Rommel Carvalho
 
Ciência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoCiência de Dados no Combate à Corrupção
Ciência de Dados no Combate à Corrupção
Rommel Carvalho
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAI
Rommel Carvalho
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
Rommel Carvalho
 
A GUI for MLN
A GUI for MLNA GUI for MLN
A GUI for MLN
Rommel Carvalho
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-in
Rommel Carvalho
 
Integração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado FederalIntegração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado Federal
Rommel Carvalho
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos Governamentais
Rommel Carvalho
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Rommel Carvalho
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling Methodology
Rommel Carvalho
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
Rommel Carvalho
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial Axioms
Rommel Carvalho
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Rommel Carvalho
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
Rommel Carvalho
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semantics
Rommel Carvalho
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational Models
Rommel Carvalho
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Rommel Carvalho
 

Mais de Rommel Carvalho (20)

Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big DataOuvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
Ouvidoria de Balcão vs Ouvidoria Digital: Desafios na Era Big Data
 
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos PúblicosProposta de Modelo de Classificação de Riscos de Contratos Públicos
Proposta de Modelo de Classificação de Riscos de Contratos Públicos
 
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...Categorização de achados em auditorias de TI com modelos supervisionados e nã...
Categorização de achados em auditorias de TI com modelos supervisionados e nã...
 
Mapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalMapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federal
 
Ciência de Dados no Combate à Corrupção
Ciência de Dados no Combate à CorrupçãoCiência de Dados no Combate à Corrupção
Ciência de Dados no Combate à Corrupção
 
Identificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAIIdentificação automática de tipos de pedidos mais frequentes da LAI
Identificação automática de tipos de pedidos mais frequentes da LAI
 
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
BMAW 2014 - Using Bayesian Networks to Identify and Prevent Split Purchases i...
 
A GUI for MLN
A GUI for MLNA GUI for MLN
A GUI for MLN
 
URSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-inURSW 2013 - UMP-ST plug-in
URSW 2013 - UMP-ST plug-in
 
Integração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado FederalIntegração do Portal da Copa @ Comissão CMA do Senado Federal
Integração do Portal da Copa @ Comissão CMA do Senado Federal
 
Dados Abertos Governamentais
Dados Abertos GovernamentaisDados Abertos Governamentais
Dados Abertos Governamentais
 
Modeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain AwarenessModeling a Probabilistic Ontology for Maritime Domain Awareness
Modeling a Probabilistic Ontology for Maritime Domain Awareness
 
Probabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling MethodologyProbabilistic Ontology: Representation and Modeling Methodology
Probabilistic Ontology: Representation and Modeling Methodology
 
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule LanguageSWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
SWRL-F - A Fuzzy Logic Extension of the Semantic Web Rule Language
 
Default Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial AxiomsDefault Logics for Plausible Reasoning with Controversial Axioms
Default Logics for Plausible Reasoning with Controversial Axioms
 
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description LogicsTractability of the Crisp Representations of Tractable Fuzzy Description Logics
Tractability of the Crisp Representations of Tractable Fuzzy Description Logics
 
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
PrOntoLearn: Unsupervised Lexico-Semantic Ontology Generation using Probabili...
 
PR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semanticsPR-OWL 2.0 - Bridging the gap to OWL semantics
PR-OWL 2.0 - Bridging the gap to OWL semantics
 
UnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational ModelsUnBBayes-PRM - On Implementing Probabilistic Relational Models
UnBBayes-PRM - On Implementing Probabilistic Relational Models
 
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
Fusion 2010 - PROGNOS: Predictive Situational Awareness with Probabilistic On...
 

Aplicação de técnicas de mineração de textos para classificação automática de denúncias: um estudo de caso da automatização da triagem de denúncias na CGU

  • 1. Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias
  • 3. TRIAGEM DE DENÚNCIAS DA CGU Denúncia: comunicação de prática de ato ilícito cuja solução dependa da atuação de órgão de controle interno ou externo.
  • 4. Habilitadas Inabilitadas Denúncias PROTOCOLO Ouvidoria (35 mil) Lixo Eletrônico (17 mil ) Fluxo da Triagem de Denúncias DSSAU DSEDU DRDAG 91 diferentes áreas da CGU ... Dados insuficientes Não é competência CGU Já foi Ficalizada Arquivadas...
  • 5. Exemplo de Texto de Denúncia com Erros de Ortografia
  • 6. Exemplo de Lixo Eletrônico
  • 7. Porque a triagem manual é um problema?  O estoque de denúncias aumenta a cada dia Poucos servidores Processo de triagem baseado em palavras chaves  Denúncia é feita com campo texto em formato livre  91 áreas da CGU para as quais as denúncias devem ser encaminhadas
  • 8. Objetivo Propor um modelo de triagem eletrônica baseada em mineração de textos e aprendizagem de máquina.
  • 9. Proposta de triagem eletrônica Denúncias PROTOCOLOo Triagem eletrônica Lixo Eletrônico DSSAU DSEDU DRDAG 91 diferentes áreas da CGU ... Arquivadas Elimina similares Dados insuficientes Não é competência CGU Já foi Ficalizada ...
  • 10. Denúncias Repetidas – como tratar?  Similaridades de cossenos: encontra semelhanças através dos cossenos do ângulo formado entre 2 vetores.  Valida antes da triagem.  1 = denúncias idênticas!
  • 11. Proposta de triagem eletrônica Denúncias PROTOCOLOo Triagem eletrônica Lixo Eletrônico DSSAU DSEDU DRDAG 91 diferentes áreas da CGU ... Arquivadas Elimina similares Dados insuficientes Não é competência CGU Já foi Ficalizada ...
  • 12. Matriz termo documento Remoção de StopWords Remoção de Pontuação, números e espaços Conversão de letras Maiúsculas para minúsculas Uso de stemming Base de dados Denúncia denunc escolc fraud ... 1 1 0 0 1 0 1 0 Classificador
  • 13.
  • 14. Resultados • POC com 4 categorias • Precisão de 0.82 • 58 categorias – precisão de 0.554
  • 16. Conclusões - POC com 58 categorias (unidades da CGU) e cerca de 40 mil denúncias - Identificação automática de denúncias similares - A triagem pode ser feita de forma automática, em menor tempo e sem perda de qualidade! - Triagem pode indicar mais de uma unidade da CGU - O processo é escalável e pode triar maior volume de denúncias e menor tempo
  • 17. patricia.maia@cgu.gov.br Artigo ENIAC 2014: Application of text mining techniques for classification of documents: a study of automation of complaints screening in a Brazilian Federal Agency http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf Obrigada!