Aplicação de text mining

452 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
452
No SlideShare
0
A partir de incorporações
0
Número de incorporações
36
Ações
Compartilhamentos
0
Downloads
3
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Aplicação de text mining

  1. 1. Introdução Objetivo Estrutura de Prevenção a Fraude Metodologia de Análise Resultados Preliminares Considerações
  2. 2. Objetivo Este estudo tem o objetivo de demonstrar as potencialidades das metodologias e tecnologias em análise de dados para suportar processos inteligentes nas áreas reguladoras do cliente (órgão do Governo Federal). Sendo assim, foi definido o seguinte cenário de análise de modelagem estatística: Identificar, a partir de denúncias de irregularidade em processos de benefício social, o potencial de fraude que resultem em operação da Polícia Federal.
  3. 3. Estrutura de Prevenção a Fraude
  4. 4. Os Instrumentos na Prevenção a Fraude Processos Procedimentos Políticas Indicadores Modelagem Estatística MIS Management Information System
  5. 5. Metodologia de Análise
  6. 6. Metodologia de Análise Quantidade Total de Dados Trabalhados na Operação Analítica Denúncias arquivadas Denúncias que geraram Operação da PF Denúncias em aberto
  7. 7. Metodologia de Análise Tomamos todas as denúncias desde 2006, cerca 12.900, e definimos: Success Denúncias que geraram operação da Polícia Federal; Unsuccess Denúncias arquivadas que não geraram operação da Polícia Federal; e Excluded Denúncias não-arquivadas e que não gerou conhecimento. Separamos todas as denúncias Excluded, ignorando-as para efeito de modelagem estatística por um instante. Buscamos criar um modelo que interprete o fenômeno “Denúncia que gera uma Operação” a partir de todos os casos de Success e Unsuccess.
  8. 8. Metodologia de Análise Fase 1 – Preparação da Base de Dados Trainning Separamos 60% da base dos anos de 2006 a 2010 para construir os modelos estatísticos. Test Separamos 40% da base dos anos de 2006 a 2010 para testar a qualidade e acurácia dos modelos estatísticos. Forecast Controlled Base Separamos todas as denúncias Success e Unsuccess de 2011, na intenção de prever o resultado de ocorrências arquivadas. Forecast Uncontrolled Base Por fim, aplicamos o melhor modelo nas denúncias não-arquivadas (Excluded) de 2011. Geramos uma amostra de 33 denúncias que foram classificadas como Success e Unsuccess para avaliação das equipes de investigação.
  9. 9. Metodologia de Análise Fase 2 – Metodologia de Modelagem Estatística Text Mining Gerar um conjunto de Palavras significantes para interpretar o conteúdo dos textos de denúncias. O resultado é uma tabela com Palavras comuns e importantes e suas quantidades em cada denúncia. A solução STATISTICA Text Mining identificou cerca de 340 palavras importantes. A equipe de negócio selecionou 152 palavras relevantes para análise.
  10. 10. Metodologia de Análise Fase 2 – Metodologia de Modelagem Estatística Tipos de Modelos Os modelos utilizados focam Classificação, desta forma, eles buscam a melhor função, algoritmo ou conjunto de regras matemáticas que discriminem Success e Unsuccess. Se esse modelo existir, ele deve ser capaz de separar, a partir das variáveis (Palavras contidas nas denúncias), com forte acurácia (acima de 75%) Statistical Modelling Discriminant Analysis Logistic Regression Decision Trees C&RT Random Forest Machine Learning Suport Vector Machine Artificial Intelligence Neural Network
  11. 11. Resultados Preliminares
  12. 12. Resultados Preliminares O algoritmo matemático que melhor classificou o fenômeno foi C&RT Decision Tree, uma opção de machine learning. Training Forecast 2011 Testing 2011 Testing 68,5% 69,4% 72,9%
  13. 13. Conclusão
  14. 14. Conclusão O modelo não considera ajustes finos na construção do léxico deste trabalho ou, ainda, uma estrutura semântica; portanto, tais ajustes poderiam incorporar melhoria significativa na acurácia do modelo. Além disso, não foi considerado: segmentação de gerências com mais impacto de processos fraudulentos; correlações entre denúncias; limpeza de informações contendo denúncias infundadas; blending models. Considerando o curto espaço de tempo, decidiu-se focar em resultados de impacto direto na performance de operações; no entanto, as possibilidades de soluções inteligentes nos processos internos constituem ganhos significativos no melhor desempenho da área gestora do processo. Os modelos estatísticos (Regressão Logística, Análise Discriminante, Análise de Componentes Principais, Análise de Agrupamentos e outros) poderiam sugerir outros caminhos analíticos e fomentar novos insights.
  15. 15. Facebook.com/iminersolutions twitter.com/iminersolutions iminer@iminer.com.br +55 11 3996 4226

×