Introdução
Objetivo
Estrutura de Prevenção a Fraude
Metodologia de Análise
Resultados Preliminares
Considerações
Objetivo
Este estudo tem o objetivo de demonstrar as potencialidades das
metodologias e tecnologias em análise de dados para suportar processos
inteligentes nas áreas reguladoras do cliente (órgão do Governo Federal).
Sendo assim, foi definido o seguinte cenário de análise de modelagem
estatística:
Identificar, a partir de denúncias de
irregularidade em processos de
benefício social, o potencial de
fraude que resultem em operação
da Polícia Federal.
Estrutura de Prevenção a Fraude
Os Instrumentos na Prevenção a Fraude
Processos
Procedimentos
Políticas
Indicadores
Modelagem
Estatística
MIS
Management Information System
Metodologia de Análise
Metodologia de Análise
Quantidade Total de Dados Trabalhados na Operação Analítica
Denúncias arquivadas
Denúncias que geraram
Operação da PF
Denúncias em aberto
Metodologia de Análise
Tomamos todas as denúncias desde 2006, cerca 12.900, e definimos:
Success
Denúncias que geraram operação da Polícia Federal;
Unsuccess
Denúncias arquivadas que não geraram operação da Polícia Federal; e
Excluded
Denúncias não-arquivadas e que não gerou conhecimento.
Separamos todas as
denúncias Excluded,
ignorando-as para efeito de
modelagem estatística por
um instante.
Buscamos criar um modelo
que interprete o fenômeno
“Denúncia que gera uma
Operação” a partir de todos
os casos de Success e
Unsuccess.
Metodologia de Análise
Fase 1 – Preparação da Base de Dados
Trainning
Separamos 60% da base dos anos de 2006 a 2010 para construir os
modelos estatísticos.
Test
Separamos 40% da base dos anos de 2006 a 2010 para testar a
qualidade e acurácia dos modelos estatísticos.
Forecast Controlled Base
Separamos todas as denúncias Success e Unsuccess de 2011, na
intenção de prever o resultado de ocorrências arquivadas.
Forecast Uncontrolled Base
Por fim, aplicamos o melhor modelo nas denúncias não-arquivadas
(Excluded) de 2011. Geramos uma amostra de 33 denúncias que foram
classificadas como Success e Unsuccess para avaliação das equipes de
investigação.
Metodologia de Análise
Fase 2 – Metodologia de Modelagem Estatística
Text Mining
Gerar um conjunto de Palavras significantes para interpretar o conteúdo dos textos
de denúncias. O resultado é uma tabela com Palavras comuns e importantes e
suas quantidades em cada denúncia. A solução STATISTICA Text Mining
identificou cerca de 340 palavras importantes. A equipe de negócio selecionou
152 palavras relevantes para análise.
Metodologia de Análise
Fase 2 – Metodologia de Modelagem Estatística
Tipos de Modelos
Os modelos utilizados focam Classificação, desta forma, eles buscam a melhor
função, algoritmo ou conjunto de regras matemáticas que discriminem Success e
Unsuccess. Se esse modelo existir, ele deve ser capaz de separar, a partir das
variáveis (Palavras contidas nas denúncias), com forte acurácia (acima de 75%)
Statistical Modelling
Discriminant Analysis
Logistic Regression
Decision Trees
C&RT
Random Forest
Machine Learning
Suport Vector Machine
Artificial Intelligence
Neural Network
Resultados Preliminares
Resultados Preliminares
O algoritmo matemático que melhor classificou o fenômeno foi C&RT Decision
Tree, uma opção de machine learning.
Training
Forecast
2011
Testing
2011
Testing
68,5%
69,4%
72,9%
Conclusão
Conclusão
O modelo não considera ajustes finos na construção do léxico deste
trabalho ou, ainda, uma estrutura semântica; portanto, tais ajustes
poderiam incorporar melhoria significativa na acurácia do modelo.
Além disso, não foi considerado: segmentação de gerências com mais
impacto de processos fraudulentos; correlações entre denúncias; limpeza
de informações contendo denúncias infundadas; blending models.
Considerando o curto espaço de tempo, decidiu-se focar em resultados de
impacto direto na performance de operações; no entanto, as
possibilidades de soluções inteligentes nos processos internos constituem
ganhos significativos no melhor desempenho da área gestora do processo.
Os modelos estatísticos (Regressão Logística, Análise Discriminante,
Análise de Componentes Principais, Análise de Agrupamentos e outros)
poderiam sugerir outros caminhos analíticos e fomentar novos insights.
Facebook.com/iminersolutions
twitter.com/iminersolutions
iminer@iminer.com.br
+55 11 3996 4226

Aplicação de text mining

  • 2.
    Introdução Objetivo Estrutura de Prevençãoa Fraude Metodologia de Análise Resultados Preliminares Considerações
  • 3.
    Objetivo Este estudo temo objetivo de demonstrar as potencialidades das metodologias e tecnologias em análise de dados para suportar processos inteligentes nas áreas reguladoras do cliente (órgão do Governo Federal). Sendo assim, foi definido o seguinte cenário de análise de modelagem estatística: Identificar, a partir de denúncias de irregularidade em processos de benefício social, o potencial de fraude que resultem em operação da Polícia Federal.
  • 4.
  • 5.
    Os Instrumentos naPrevenção a Fraude Processos Procedimentos Políticas Indicadores Modelagem Estatística MIS Management Information System
  • 6.
  • 7.
    Metodologia de Análise QuantidadeTotal de Dados Trabalhados na Operação Analítica Denúncias arquivadas Denúncias que geraram Operação da PF Denúncias em aberto
  • 8.
    Metodologia de Análise Tomamostodas as denúncias desde 2006, cerca 12.900, e definimos: Success Denúncias que geraram operação da Polícia Federal; Unsuccess Denúncias arquivadas que não geraram operação da Polícia Federal; e Excluded Denúncias não-arquivadas e que não gerou conhecimento. Separamos todas as denúncias Excluded, ignorando-as para efeito de modelagem estatística por um instante. Buscamos criar um modelo que interprete o fenômeno “Denúncia que gera uma Operação” a partir de todos os casos de Success e Unsuccess.
  • 9.
    Metodologia de Análise Fase1 – Preparação da Base de Dados Trainning Separamos 60% da base dos anos de 2006 a 2010 para construir os modelos estatísticos. Test Separamos 40% da base dos anos de 2006 a 2010 para testar a qualidade e acurácia dos modelos estatísticos. Forecast Controlled Base Separamos todas as denúncias Success e Unsuccess de 2011, na intenção de prever o resultado de ocorrências arquivadas. Forecast Uncontrolled Base Por fim, aplicamos o melhor modelo nas denúncias não-arquivadas (Excluded) de 2011. Geramos uma amostra de 33 denúncias que foram classificadas como Success e Unsuccess para avaliação das equipes de investigação.
  • 10.
    Metodologia de Análise Fase2 – Metodologia de Modelagem Estatística Text Mining Gerar um conjunto de Palavras significantes para interpretar o conteúdo dos textos de denúncias. O resultado é uma tabela com Palavras comuns e importantes e suas quantidades em cada denúncia. A solução STATISTICA Text Mining identificou cerca de 340 palavras importantes. A equipe de negócio selecionou 152 palavras relevantes para análise.
  • 11.
    Metodologia de Análise Fase2 – Metodologia de Modelagem Estatística Tipos de Modelos Os modelos utilizados focam Classificação, desta forma, eles buscam a melhor função, algoritmo ou conjunto de regras matemáticas que discriminem Success e Unsuccess. Se esse modelo existir, ele deve ser capaz de separar, a partir das variáveis (Palavras contidas nas denúncias), com forte acurácia (acima de 75%) Statistical Modelling Discriminant Analysis Logistic Regression Decision Trees C&RT Random Forest Machine Learning Suport Vector Machine Artificial Intelligence Neural Network
  • 12.
  • 13.
    Resultados Preliminares O algoritmomatemático que melhor classificou o fenômeno foi C&RT Decision Tree, uma opção de machine learning. Training Forecast 2011 Testing 2011 Testing 68,5% 69,4% 72,9%
  • 14.
  • 15.
    Conclusão O modelo nãoconsidera ajustes finos na construção do léxico deste trabalho ou, ainda, uma estrutura semântica; portanto, tais ajustes poderiam incorporar melhoria significativa na acurácia do modelo. Além disso, não foi considerado: segmentação de gerências com mais impacto de processos fraudulentos; correlações entre denúncias; limpeza de informações contendo denúncias infundadas; blending models. Considerando o curto espaço de tempo, decidiu-se focar em resultados de impacto direto na performance de operações; no entanto, as possibilidades de soluções inteligentes nos processos internos constituem ganhos significativos no melhor desempenho da área gestora do processo. Os modelos estatísticos (Regressão Logística, Análise Discriminante, Análise de Componentes Principais, Análise de Agrupamentos e outros) poderiam sugerir outros caminhos analíticos e fomentar novos insights.
  • 16.