SlideShare uma empresa Scribd logo
1 de 14
Baixar para ler offline
Mineração de Dados para Detecção de Fraudes
em Ligações de Água
Sílvia Regina Reginato Passini (Sanasa)
sist.técnicos@sanasa.com.br
Carlos Miguel Tobar Toledo (PUC–Campinas)
tobar@ii.puc-campinas.br
Resumo. A tecnologia de mineração de dados (Data Mining) pode ser aplicada
em diversas áreas, inclusive na de saneamento básico. Um projeto piloto
desenvolvido na Sanasa, em Campinas, é apresentado, a fim de se detectar
fraudes em ligações de água, tendo como principal motivação a questão do
combate às perdas físicas e o enfoque ao crescente número de ligações
irregulares, um dos fatores responsáveis pelo fenômeno das perdas. Modelos
foram elaborados, visando traçar o perfil do consumidor que faz ligações
clandestinas, para que medidas corretivas e preventivas pudessem ser tomadas,
objetivando a redução dessa não conformidade. Problemas foram encontrados
durante o desenvolvimento deste trabalho, tanto a nível de configuração de
equipamentos como a nível de participação efetiva do usuário na elaboração dos
modelos. Isso tudo confirma que mineração de dados não é mágica e que, para
sua realização eficaz, é necessário ter muita persistência, além de se ter dados
confiáveis, pois muitas vezes, ao final de um processo, chega-se à conclusão
que deve-se retornar a um determinado ponto prévio e começar novamente.
Palavras-chave: Mineração de Dados, Modelo Descritivo, Modelo Preditivo,
Intelligent Miner, Ligação Clandestina, Fraude, Controle de Perdas.
1 Introdução
Detectar fraudes tem sido de grande interesse para empresas de
telecomunicações, agências governamentais, companhias de cartões de crédito e de
seguros, uma vez que as perdas geradas representam um fator negativo. Uma forma
para se evitar fraudes é através da descoberta das mesmas, antes que ocorram. Mas,
mesmo que a informação necessária para essa detecção não esteja disponível a
tempo, ainda assim é muito útil que essa detecção ocorra, para que se possa tentar
prevenir futuros atos fraudulentos ou mesmo tentar obter restituição dos prejuízos.
Weatherford (2002) cita que várias empresas utilizam técnicas de redes
neurais e associações para detectar fraudes em cartões de crédito, além de outras
aplicações, como aquela que o FBI anunciou que pretende utilizar para descobrir
padrões de comportamento de terroristas, com técnicas de sistemas inteligentes.
Acredita-se que seja possível detectar fraudes através da análise do comportamento
do consumidor e que a tecnologia de mineração de dados é adequada para o que se
deseja alcançar, mas a falta de experiência com esse processo, com estatística e
com a ferramenta escolhida pode ser o motivo de insucesso.
O objetivo da mineração de dados é gerar novos conhecimentos, através de
Mineração de dados para detecção de fraudes em ligações de água 229
um modelo do mundo real. O resultado do uso do modelo pode ser uma descrição
de padrões e relacionamentos nos dados que podem ser usados para predições.
Mineração de dados, segundo Chen et al. (1996) e Frawley et al. (1992), é
uma atividade não trivial de extração de informação a partir de bancos de dados,
potencialmente útil, implícita e não conhecida previamente. Enquanto Fayyad et al.
(1996, p.41) definem que na mineração de dados aplicam-se uma análise sobre os
dados e algoritmos que, sob limitações de eficiência computacional aceitáveis,
produzem uma certa quantidade de padrões a partir dos dados analisados. Esta
atividade, onde modelos são desenvolvidos e testados, é apenas uma fase do
processo de Extração de Conhecimento de Banco de Dados (ECBD) que é um
processo que raramente pode ser totalmente automatizado porque requer
participação humana. Tem por finalidade auxiliar o usuário na tomada de decisões,
conduzindo-o a novas ações inteligentes (Martins, 1998).
ECBD é um processo não trivial de identificação de padrões válidos, novos,
potencialmente úteis e de fácil entendimento, a partir de grandes volumes de dados
históricos armazenados. Fayyad (1997, p.5) vê o crescimento de uma montanha de
dados como resultado de um grande sucesso da engenharia, que permitiu que se
construíssem equipamentos para gerar, coletar e armazenar dados digitais. Com
avanços cada vez maiores na tecnologia de banco de dados, veio a criação de
mecanismos eficientes para o armazenamento deste grande volume de dados. É um
processo interativo que envolve um conjunto de atividades composto pelas etapas:
identificação do objetivo; seleção de dados; pré-processamento e limpeza;
transformação (redução e projeção de novos dados necessários, dependendo do
objetivo estabelecido); mineração de dados (faz parte desta etapa: identificar o
método de mineração que mais se adapta ao objetivo identificado, análise
exploratória dos dados, escolha dos algoritmos necessários e mineração
propriamente dita); interpretação e ação baseada nos resultados analisados
(Fayyad, 1996). Esse processo objetiva criar automaticamente uma descrição
sintética de um sistema estratégico e sua saída final é o conhecimento (Lehn et al.,
1997). Para Roiger et al. (1997, p.100), este processo pode ser visto como uma
metodologia a ser utilizada no desenvolvimento de modelos.
Na tentativa de reduzir perdas, empresas concessionárias têm investido em
automação, na implantação de sistemas informatizados integrados, na instalação de
válvulas redutoras de pressão nas redes de distribuição e no combate às fraudes. Na
Sanasa, em Campinas, as fraudes contribuíram em 5% dos 26,6% (no ano de 2000)
de perdas na distribuição. O uso da mineração de dados para identificar fraudes
surgiu por existirem dados históricos armazenados há mais de dez anos, que podem
ser investigados a fim de se descobrir informação válida e desconhecida, e porque
se acredita que fraudadores podem ter um perfil de comportamento típico.
A criação de um projeto piloto objetivou encontrar uma resposta para: quem
são os consumidores que apresentam irregularidades nas suas ligações e a
empresa desconhece? É claro, que a simples aplicação de um modelo não iria
responder a esta questão de forma explícita, mas poderia apresentar quem eram os
consumidores em potencial, que apresentaram algumas ou todas as características
230 XI SEMINCO - Seminário de computação - 2002
daqueles que já cometeram algum tipo de fraude na sua ligação, e que valeria a
pena investigar em campo, através de uma visita de vistoria técnica na ligação.
A seguir, apresentam-se as principais funções de modelagem do software
utilizado, DB2 Intelligent Miner (IM) da IBM, as etapas iniciais realizadas na
elaboração do projeto, como cada um de três modelos de mineração propostos foi
construído, uma análise dos resultados dos modelos e conclusões.
2 ECBD no Intelligent Miner
Todas as etapas do ECBD podem ser realizadas diretamente sobre o banco de
dados (BD) corporativo através do IM, mas isso não é recomendável, pois vai
concorrer com os demais sistemas e isso pode afetar a performance de execução de
todos os processos. O mais indicado é gerar um BD específico para se trabalhar
com os dados extraídos. Se esse BD for gerado com todas as transformações
necessárias, pode-se partir direto para a mineração, mas geralmente isso não ocorre
porque as transformações, muitas vezes, são decorrentes das análises realizadas nos
dados extraídos através da própria ferramenta.
Deve-se fazer a especificação dos dados de entrada (seleção dos dados) que se
deseja minerar e analisar, que podem estar em um ou mais bancos, tabelas, visões,
etc. Após esse passo, os dados de entrada podem ser transformados utilizando as
funções de processamento do IM, tais como: cálculo, filtragem ou
compartilhamento, que permitem que os dados sejam organizados de forma que
possam ser minerados efetivamente. Pode-se também utilizar a função de remover
campos com valores nulos, para não afetar os resultados da mineração, eliminar
registros duplicados ou convertê-los de um formato para outro (IBM, 1999).
No IM, pode-se a qualquer momento do processo, utilizar funções estatísticas
(bivariada, análise fatorial, etc.) para investigar e analisar os dados, a fim de se
criar os campos de entrada para mineração, e também utilizá-las para a
transformação e criação de novos dados de entrada. Com isso, pode-se avaliar a
quantidade de campos encontrados com valores nulos, zeros, brancos ou com
valores muito altos, que podem distorcer a amostra e decidir o que fazer com eles:
transformá-los, eliminá-los do modelo ou mantê-los na forma como estão. Além
disso, funções estatísticas podem ser úteis para avaliação e trabalho com os dados
de saída, gerados após a execução das funções de mineração (IBM, 1999).
Os dados transformados podem ser minerados em seguida, utilizando as
funções de mineração. Freqüentemente, a informação obtida da primeira mineração
ainda é obscura devido ao ruído nos dados. Para se obter resultados claros e
significativos, deve-se transformar os dados repetidas vezes, ajustando as funções
antes de minerá-los novamente. Deve-se especificar previamente os parâmetros da
função ou técnica adotada para a mineração. O IM tem as seguintes funções de
mineração: associação, classificação por árvore de decisão, classificação neural,
agrupamento demográfico, agrupamento neural, predição RBF (Radial-Basis-
Function), predição neural, padrões seqüenciais e seqüências similares.
Mineração de dados para detecção de fraudes em ligações de água 231
Associações acontecem quando ocorrências estão ligadas a um único evento.
O objetivo de se descobrir associações é de encontrar itens em uma transação que
impliquem na presença de outros itens na mesma transação, contidos num
determinado conjunto de dados (IBM, 1999).
Utiliza-se classificação na predição para criar um modelo baseado em dados já
conhecidos, para analisar o porquê de uma certa classificação ter sido feita ou para
realizar a classificação de novos dados. A análise de dados, que já foram
classificados previamente, pode revelar as características que induziram à
classificação anterior (IBM, 1999). No IM, a construção de um modelo baseado em
classificação passa por três fases: treinamento, teste e aplicação. Na fase de
treinamento, uma mineração no BD permite a descoberta dos atributos de cada
cliente definido nas classes de risco. Nesta fase, definem-se os parâmetros para se
treinar o modelo: número de vezes que vai repassar em cada nó, número mínimo e
máximo de ramificações de uma árvore (no caso de se optar pela técnica de árvore
de decisão), etc. No modo de teste, pode-se testar a acuracidade do modelo criado,
aplicando dados diferentes dos do treinamento, para verificar se o modelo
classifica corretamente aqueles dados que reconhecidamente pertencem à classe de
risco. Na fase de aplicação, pode-se usar o modelo criado para predições.
Thearling (1999, p.9) define agrupamento como o processo de se dividir o BD
em vários grupos diferentes, de tal forma que os membros no mesmo grupo ou
segmento estejam o mais perto possível e os diferentes grupos, o mais longe
possível uns dos outros. O objetivo é achar segmentos que são muito diferentes uns
dos outros e cujos membros sejam muito similares. Diferente de classificação, não
se sabe quais grupos serão formados quando se inicia o processo ou quais atributos
agruparão os dados, dessa forma, alguém terá que analisar os grupos formados.
Como na classificação, o objetivo da função de predição é construir um
modelo utilizando dados existentes. Entretanto, a diferença é que o objetivo não é
uma classificação e sim a descoberta de um novo valor, predizendo como outros
fatores se comportarão (Reinschmidt et al., 1999). Esta função é subdividida em
outras duas funções de predição que utilizam diferentes algoritmos: RBF e
backpropagation. Para Orr (1996), funções radiais constituem uma simples classe
de funções que podem ser empregadas a princípio, em qualquer modelo (linear ou
não linear) e em qualquer tipo de rede neural (camadas simples ou múltiplas), mas
têm sido utilizadas associadas com funções radiais em redes de camadas simples.
O IM apresenta também a função de seqüências similares, com o propósito de
se encontrar todas as ocorrências similares subseqüentes em um BD de seqüências.
Essa técnica pode ser utilizada para detectar ondas sísmicas não similares e
identificar irregularidades geológicas (IBM, 1999).
3 ECBD no projeto piloto proposto
A primeira coisa a ser feita quando se deseja trabalhar com mineração de
dados é a definição do objetivo estratégico do trabalho, ou seja, a questão para a
qual se busca uma resposta. A escolha da ferramenta mais adequada vem a seguir.
232 XI SEMINCO - Seminário de computação - 2002
Existem algumas metodologias que, se aplicadas com critério, podem auxiliar
na escolha da ferramenta mais indicada. A definição dos recursos humanos e
computacionais disponíveis para a mineração também é um fator importante, pois
muitas vezes este item é deixado de lado e descobre-se tardiamente que a equipe
não está suficientemente treinada com o software, nem tem preocupação voltada
para o problema que se deseja solucionar, não tem consciência do fato de existirem
dados históricos armazenados há anos, não conhece a empresa a fundo ou mesmo o
problema que se está estudando. Deve-se dar especial atenção à configuração do
equipamento, que não estando dimensionado adequadamente, faz com que os
processos demorem mais para serem executados. Outro fator importante é a
escolha de uma metodologia de trabalho. Isso facilita o trabalho do grupo, pois se
trabalha de uma forma organizada. No projeto piloto proposto, adotou-se a
metodologia de documentação proposta por Edelstein (1999).
Para este trabalho, os dados foram extraídos através de programas escritos na
linguagem Cobol, a partir de 10 arquivos com dados históricos. Esses dados
tiveram que ser analisados e transformados. Redundâncias tiveram que ser
eliminadas. Erros e valores nulos foram descartados ou transformados. Estas ações
foram repetidas até que se chegasse a um consenso de que os dados já estavam
bons para serem minerados. Essa etapa tomou mais de 80% do tempo, porque, para
cada arquivo, fez-se uma descrição e seleção dos dados, levando-se em conta se os
mesmos eram considerados relevantes para o objetivo em questão: fraudes. Na
prática, observou-se que, mesmo com todos esses cuidados, ao longo do processo
houve necessidade se voltar a esta etapa e fazer novas extrações, análises e
transformações. Após esta etapa, os metadados foram especificados em DB2 e foi
feita a carga no BD de mineração. O equipamento destinado para este trabalho não
foi dimensionado inicialmente para se trabalhar com 100% dos dados e, por isso,
trabalhou-se com uma amostra de 15%. O processo de extração da amostra foi
baseado em critérios estatísticos de proporcionalidade, que garantiram que a
amostra representasse a realidade de todos os dados do BD.
Após a carga ter sido feita, foram realizadas análises descritivas, nas quais
observou-se que alguns dados importantes não haviam sido extraídos e foi
necessária uma nova extração. Estas análises são importantes porque nesta etapa já
é possível detectar informações importantes e tomar alguma decisão. Por exemplo,
no projeto piloto proposto, detectaram-se nesta fase algumas falhas nos serviços de
campo que foram corrigidas através de treinamento da equipe responsável.
Duas análises foram feitas na seleção das variáveis. Na primeira, os campos
das tabelas foram classificados em três categorias: informações cadastrais ou
domiciliares, que são estáticas ou variam muito pouco, mas que são específicas do
cliente (do tipo endereço e bairro); informações sobre o relacionamento do cliente
com a empresa (do tipo idade da ligação, idade do hidrômetro, padrão da ligação e
vazão do hidrômetro instalado); e finalmente as informações sobre o
comportamento do cliente ao longo do tempo (do tipo consumo mensal, percentual
de variação de consumo a maior e a menor, e multas aplicadas). Para o modelo,
selecionaram-se as variáveis de comportamento, pois o que se pretendia era achar
Mineração de dados para detecção de fraudes em ligações de água 233
um padrão de comportamento que identificasse fraudes. As demais classificações
serviram para ajudar na interpretação dos resultados.
Na segunda análise foi feita a correlação linear das variáveis classificadas
como comportamentais, realizada através da função estatística análise fatorial, a
fim de se validar se haviam campos que estavam redundantes e que poderiam ser
descartados na hora de se preparar o vetor de entrada do modelo.
O resultado da função análise fatorial, usada na seleção de variáveis, apresenta
uma tabela com a correlação linear das variáveis selecionadas, cujos valores
variam entre um e menos um. Os valores mais altos e mais baixos foram
analisados, observando-se que valores mais próximos de um indicam uma forte
relação entre as variáveis, isto é, elas podem estar explicando a mesma coisa, sendo
diretamente proporcionais. Considerou-se relevante para esta análise os valores
superiores ou iguais a 0,5. Cada caso foi analisado para se verificar se uma delas
poderia ser descartada e, se fosse o caso, qual delas. Os valores mais distantes de
um e mais próximos de menos um indicam uma relação inversamente proporcional
entre as variáveis. Foram mantidas todas as variáveis com valores inferiores a 0,5.
4 Construção dos modelos de mineração
Foram desenvolvidos ao todo três modelos, sendo dois deles baseados em
agrupamento neural e um em classificação por árvore de decisão. Desejava-se
verificar, com os agrupamentos, se existia um perfil de fraudes bem definido, que
pudesse ser qualificado pelo tipo de consumo, categoria, etc. e, desta forma,
identificar quais consumidores considerados não fraudadores pertenciam a este
grupo e fazer as vistorias em campo. Com o modelo baseado em classificação,
desejava-se predizer em qual tipo de fraude os consumidores fraudadores se
enquadrariam. Pensou-se inicialmente em elaborar um modelo simples que
classificasse fraudadores e não fraudadores, mas desistiu-se da idéia, por não se
saber com certeza quais consumidores realmente não eram fraudadores, uma vez
que todos eram candidatos a fraudador em potencial. Havia o risco de estar
treinando o modelo com um suposto não fraudador, quando o mesmo poderia estar
cometendo alguma fraude que a empresa desconhecesse.
Para a construção dos modelos, os consumidores que já tinham alguma fraude
identificada foram separados dos que nunca tinham tido fraudes identificadas.
Foram geradas duas tabelas contendo 100% dos fraudadores e 100% dos não
fraudadores. Além desses, foram separados 4.000 fraudadores e a mesma
quantidade de consumidores não fraudadores. Foram feitos diversos testes nos
modelos alterando-se as variáveis selecionadas, o número de passos de
treinamento, a quantidade de grupos a serem gerados, etc. Cada um dos testes foi
documentado em uma tabela que continha também o erro calculado pelo modelo1
.
1
Este material encontra-se disponível em: PASSINI, Sílvia R.R. Mineração de dados para detecção e
fraudes em ligações de água. Dissertação de Mestrado, PUC-Campinas, março de 2002.
234 XI SEMINCO - Seminário de computação - 2002
4.1 Modelo baseado em agrupamento - estudos com 100% dos
fraudadores
O processamento do modelo baseado em agrupamento com 100% dos
fraudadores gerou um resultado com nove grupos, com erro de 15%. A tabela 1
apresenta os resultados da maioria significativa de cada grupo.
Grupo % da
amostra
Tipo de
fraude
Parce-
lamento
Status
ligação
Corte Cate-
goria
Média
consumo
Contas
retificadas
Idade
ligação
1 15,44% HV NÃO Ativa SIM Resid 40 m3
SIM > 12
ANOS
2 11,93% HV,
LC,LS
NÃO Ativa SIM Resid 20 m3
NÃO > 5
ANOS
3 11,40% HV,LC NÃO Ativa SIM Resid 25 m3
NÃO > 5
ANOS
4 10,79% HV SIM Ativa SIM Resid 80 m3
SIM > 5
ANOS
5 10,53% HV NÃO Ativa NÃO Resid 40 m3
NÃO >= 5
ANOS
6 10,51% HV SIM Ativa SIM Resid 40 m3
SIM >= 22
ANOS
7 10,09% LC SIM Ativa SIM Resid 60 m3
SIM >= 6
ANOS
8 9,91% HV,LC SIM Ativa SIM Resid 40 m3
SIM >= 21
ANOS
9 9,40% HV,
LC,LS
NÃO Ativa
Extinta
SIM Resid 40 m3
NÃO >= 6
ANOS
Tabela 1 – Resultado do modelo de agrupamento com 100% dos fraudadores
O primeiro grupo contemplou consumidores identificados como fraudadores
de um dos tipos HV (Hidrômetro Violado), HC (Hidrômetro instalado ao
Contrário), LC (Ligação Clandestina de água), ou LS (Ligação Sem hidrômetro). A
predominância foram fraudes relativas à HV. A maioria dos consumidores deste
grupo nunca parcelou dívidas, não estava com a ligação cortada, mas já tinha
passado pelo corte e eram predominantemente consumidores residenciais.
Os demais grupos também contemplaram consumidores fraudadores, tendo o
segundo predominância de fraudes de todos os tipos e a maioria com a ligação
cortada; o terceiro, predominância do tipo HV e LC, sendo que nenhum
consumidor estava com a ligação cortada, embora a grande maioria já tinha entrado
para o processo de corte pelo menos uma vez; o quarto, predominância do tipo HV,
sendo que 100% estavam com a ligação cortada, quase 30% estavam com a ligação
inativa no cadastro, pois tinham sido extintas em campo, e a média do volume de
consumo em m3
foi mais elevada do que nos demais grupos; o quinto,
Mineração de dados para detecção de fraudes em ligações de água 235
predominância do tipo HV, cuja maioria nunca passou pelo corte. Constituiu um
grupo tipicamente residencial; o sexto, predominância do tipo HV e 100% já
tinham passado pelo corte; o sétimo, predominância do tipo LC, sendo que 91%
estavam com a ligação cortada e mais de 50% tinham tido retificações nas contas;
o oitavo, predominância dos tipos HV e LC, sendo que a maioria já tinha passado
pelo corte, mas regularizou a situação até a data da extração dos dados; e o nono,
predominância de consumidores extintos (quase a metade) e fraudes do tipo LS, o
que pode justificar tantas extinções.
Após a aplicação do modelo aos não fraudadores, com índice de erro igual a
11%, todos os grupos foram analisados, em especial o quarto grupo, que era
caracterizado por ter um consumo mais alto, e o sétimo, que teve 42% de ligações
clandestinas como característica. Além disso, analisou-se o grau de confiança de se
ter um consumidor num determinado grupo em relação aos demais, grau este
calculado pelo IM. O único grupo que apresentou um grau de confiança
diferenciado dos demais e acima de 0,85 foi o segundo. Nos demais grupos, o grau
de confiança ficou entre 0,5 e 0,6. Portanto, considerou-se que o grupo que melhor
caracterizava fraudes era o segundo.
Essa foi uma conclusão precipitada, pois deveria ter sido analisado
primeiramente o grau do score. Este deve ter sido um dos fatores possíveis que
levou a um resultado negativo na primeira tentativa, falha esta devida à
inexperiência do grupo com relação ao IM, ao desconhecimento de como
interpretar resultados e devido a estas informações não estarem claras nos manuais.
Neste caso, foi necessário recorrer ao suporte do laboratório do fornecedor para
que essas dúvidas fossem esclarecidas e isso tomou algum tempo.
O score indica o quão bem um registro se enquadra no grupo em que foi
melhor classificado. Registros com baixo grau de score não se enquadram bem em
nenhum grupo (no caso de agrupamento neural do IM). Após análise dos registros
com o maior score, deve-se olhar para o grau de confiança, para verificar se este
registro se enquadra bem apenas em um grupo (grau de confiança maior) ou se ele
se enquadra em mais de um grupo (grau de confiança menor).
Análises posteriores mostraram que, dos consumidores selecionados para ir a
campo verificar fraudes apontadas pelo modelo, 60% apresentaram um grau de
score acima de 0,6. Para os demais os score foi baixo.
Foi executada a função estatística bivariada a fim de se selecionar apenas
consumidores cujo grau de confiança ficasse acima de 0,9 e, como resultado,
apresentaram-se 632 candidatos. Desejou-se um número menor de candidatos para
ir a campo e selecionaram-se consumidores com grau de confiança maior que 0,94.
Como resultado, apresentaram-se 12 candidatos.
Uma tabela com estes candidatos foi utilizada no modelo baseado em
classificação, para predizer que tipo de fraude seria encontrada em campo
(PASSINI, 2002). Os resultados são apresentados na seqüência, após o modelo
baseado em classificação por árvore de decisão.
236 XI SEMINCO - Seminário de computação - 2002
4.2 Modelo baseado em agrupamento - Estudo com 50% de
fraudadores e não fraudadores
O modelo baseado em agrupamento com 50% de fraudadores e 50% de não
fraudadores gerou nove grupos, com índice de erro de 20%. A tabela 2 apresenta os
resultados da maioria significativa de cada grupo.
Do primeiro ao quarto grupo não foi encontrada nenhuma característica que
indicasse fraude de forma predominante. Enquanto, o quinto, sexto, oitavo e nono
grupos foram considerados diferenciados por caracterizarem fraudes.
Grupo % da
amostra
Tipo de
fraude
Parce-
lamento
Status
ligação
Corte Cate-
goria
Média
consumo
Contas
retificadas
Idade
ligação
1 19% NÃO NÃO Ativa NÃO Resid 40 m3
NÃO > 22
ANOS
2 18,5% NÃO NÃO Ativa NÃO Resid 50 m3
NÃO > 17
ANOS
3 14% NÃO NÃO Ativa SIM Resid
Com
20 m3
NÃO NULA
4 8,77% NÃO NÃO Ativa SIM Resid 40 m3
NÃO < 5
ANOS
5 8,63% LC SIM Ativa SIM Resid 60 m3
SIM > 4
ANOS
6 8,5% LC SIM Ativa SIM Resid 30 m3
SIM > 5
ANOS
7 8,2% HV NÃO Ativa NÃO Resid 25 m3
NÃO < 8
ANOS
8 8% LC SIM Ativa SIM Resid 20 m3
SIM < 7
ANOS
9 6,4% HV SIM Ativa SIM Resid 50 m3
SIM > 19
ANOS
Tabela 2 – Resultado do modelo de agrupamento com 50% de fraudadores e não
fraudadores
No primeiro grupo predominaram consumidores sem parcelamento, ligações
antigas, sendo que a maioria não tinha tido retificação nas contas. No segundo
grupo predominaram consumidores residenciais, sem parcelamentos, consumo de
até 50m3
, a maioria ativa no cadastro. No terceiro grupo predominaram
consumidores que não estavam em processo de corte, mas já tinham sido cortados
alguma vez, a maioria nas categorias residencial e comercial, com consumo baixo
(até 20 m3
). No quarto grupo predominaram ligações mais recentes, categoria
residencial, sendo que 53% já tinham passado pelo processo de corte.
No quinto grupo predominaram fraudes, em especial ligações clandestinas;
consumidores com muitas ocorrências de leitura e retificações nas contas, a
maioria já tinha passado pelo processo de corte e tinha tido pelo menos um
Mineração de dados para detecção de fraudes em ligações de água 237
parcelamento. No sexto grupo predominaram fraudes do tipo LC, todas com
parcelamentos de contas, muitas ocorrências de leitura e a maioria com retificações
na conta. No sétimo grupo predominaram muitas ocorrências de leitura e nenhum
parcelamento. Pouco mais da metade do grupo era fraudador. No oitavo grupo
predominaram fraudes do tipo LC, todos com parcelamentos de contas e muitas
ocorrências de leitura. No nono grupo predominou uma grande quantidade de
ocorrências de leitura e de retificações, a maioria já tinha passado por alguma fase
de corte, tinha tido um parcelamento e era fraudadora.
Após a aplicação do modelo aos não fraudadores, os grupos 5o
, 6o
, 8o
e 9o
foram selecionados para serem analisados separadamente, por caracterizarem mais
fraudes do que os demais. Esses grupos tinham em comum um número de
fraudadores superior a 60%, muitas ocorrências de leitura, retificações nas contas,
parcelamentos, cortes e mais de 50% de variações de consumo.
Destes quatro grupos, foram selecionados os consumidores com grau de
confiança maior ou igual a 0,64 e foram encontrados 30 candidatos. Foi gerada
uma tabela contendo este resultado, que foi utilizada no modelo baseado em
classificação para predizer que tipo de fraude seria encontrada em campo
(PASSINI, 2002). Os resultados são apresentados na seqüência, após a
apresentação do modelo baseado em classificação por árvore de decisão.
4.3 Modelo baseado em classificação por árvore de decisão
Para o treinamento do modelo baseado em classificação, foram selecionados
80% dos consumidores fraudadores já conhecidos, sendo que as fraudes diferentes
de LC e HV foram identificadas com o algarismo zero; do tipo HV, com o
algarismo um; do tipo tanto HV e LC simultaneamente, com o algarismo dois; e
somente do tipo LC, com o algarismo três. É possível que uma fraude possa estar
em duas categorias, isto é, o consumidor além de violar o próprio hidrômetro,
mantém uma ligação com derivação clandestina, difícil de ocorrer, mas possível.
Existe também a possibilidade de um consumidor ter os dois tipos de fraudes
cometidas em tempos diferentes, o que é mais comum acontecer.
Foram realizados vários testes, alterando-se os parâmetros de entrada do
modelo selecionado e número de passos de treinamento. Não foram atribuídos
pesos diferenciados para as variáveis, permanecendo o valor default associado pelo
IM. Para cada teste, verificava-se o percentual de erros e acertos. Foi escolhido o
modelo que apresentou o menor erro na matriz de confusão.
A matriz de confusão, ferramenta para análise de modelos resultantes de
classificação, apresentada na Tabela 3 é um exemplo onde aparece o real versus o
estimado com o modelo. As colunas mostram os valores reais, já conhecidos
previamente, e as linhas, os valores estimados. As células cujos números estão na
diagonal principal apresentam o resultado onde o real é igual ao estimado. Quanto
maior o valor dessas células e próximo do total, maior o grau de acerto do modelo.
Dos consumidores selecionados e treinados, o modelo acertou a classificação
de 69,18% e o erro global foi de 30,82%.
238 XI SEMINCO - Seminário de computação - 2002
A Tabela 3 apresenta o resultado da árvore de decisão após os testes com 80%
dos fraudadores.
Tabela 3 – Matriz de confusão – resultado do treinamento com 80% dos fraudadores
A árvore resultante apresentou muitas ramificações (sem podas) e continha
todas as regras que o modelo gerou. Neste contexto, é uma árvore muito difícil de
ser interpretada e, por isso, alguns ramos foram cortados.
A partir do treinamento realizado, fez-se o teste aplicando-se os 20% de
fraudadores restantes. Desses consumidores, o modelo acertou 58% e errou 42%,
conforme é apresentado na Tabela 4. Das fraudes do tipo 0 (diferentes de LC e
HV), o modelo acertou apenas 4,8%; das fraudes do tipo HV (1), acertou 85%; das
fraudes do tipo LC e HV (2), não acertou nenhuma, classificando os consumidores
nas demais categorias; das fraudes do tipo LC (3), acertou 51%.
Tabela 4 – Matriz de confusão – resultado do teste com 20% dos fraudadores
O erro de 42% foi considerado ruim, porém de todos os testes realizados
anteriormente, foi considerado o melhor, pois a quantidade de acertos para as
colunas 1 e 3 foi maior. O modelo não estava bom e novas transformações, e até
mesmo extrações, seriam necessárias, mas, como o índice de acertos chegou
Mineração de dados para detecção de fraudes em ligações de água 239
próximo ao desejado (60%), decidiu-se fazer a aplicação aos não fraudadores e
observar os resultados. Após os estudos citados anteriormente, aplicou-se o modelo
aos consumidores não fraudadores de três maneiras:
1) Candidatos do primeiro modelo baseado em agrupamento, que foram
classificados 50% em fraudes do tipo LC e 50% do tipo HV. Os 12 consumidores
escolhidos foram investigados em campo e o resultado foi o seguinte: um estava
com HI, sendo notificado a liberar o acesso para futuras leituras (o que pode
indicar que existe uma fraude, pois não permite vistoria, mas isso tem que ser
verificado). Este mesmo consumidor teve predição de HV no modelo baseado em
classificação, o que pode significar que existe a possibilidade do hidrômetro estar
violado e isto justificar o impedimento do acesso ao mesmo. Dois foram
identificados em campo como HC, mas não eram fraudes, foram instalações
erradas executadas pela própria empresa. Nos demais casos, não foram constatadas
irregularidades. Esse resultado foi considerado insatisfatório e o modelo deve ser
melhorado antes que novas investigações em campo sejam feitas.
3) Candidatos do segundo modelo baseado em agrupamento, que após a
aplicação foram classificados com 73% como fraude do tipo HV, 23% do tipo LC
e 4% como outros tipos de fraudes. Foram selecionados dez consumidores para
investigação em campo, com o seguinte critério: 7 consumidores classificados
como LC e 3, escolhidos aleatoriamente, dos classificados como HV. Após as
vistorias técnicas em campo, nenhuma fraude foi identificada (PASSINI, 2002).
4) Aplicação do modelo baseado em classificação por árvore de decisão a
100% dos não fraudadores. Aproximadamente 66% da população foi classificada
com tendência a fraude do tipo HV, 29% com tendência a fraudes do tipo LC e 5%
com tendência a fraudes diferentes de LC e HV. Em cada uma destas classes foi
analisado o grau de confiança para a seleção de consumidores com o grau de
confiança maior que 0,95. O sistema selecionou consumidores classificados com
outros tipos de fraudes (49 consumidores), LC (41 consumidores) e HV (15
consumidores), todos com grau de confiança igual a 1, ou seja 100% enquadrado
no perfil. Dos 105 candidatos foram selecionados 25 aleatoriamente para se
fazerem vistorias em campo: 100% retornaram com denúncia não confirmada.
5 Conclusões
É necessário deixar claro que este primeiro projeto foi elaborado por
profissionais da empresa que não tinham experiência na área de estatística, nem
com a tecnologia de mineração de dados, e nem com o IM, ferramenta utilizada no
projeto, e que já se encontrava disponível, o que ocasionou muitas falhas. Além
disso, para se fazer mineração de dados não se aperta um botão e fica-se na
expectativa que resultados irão aparecer. É imprescindível o envolvimento e a
dedicação de todos os integrantes da equipe.
A utilização da tecnologia de mineração de dados em um projeto piloto, tendo
como motivação a questão do combate às perdas físicas de água, enfocadas nas
crescentes irregularidades nas ligações de água, visava a redução inicialmente de
240 XI SEMINCO - Seminário de computação - 2002
51% para 41% das visitas infrutíferas para detecção de fraudes. Este objetivo do
trabalho não foi atingido. Porém, houve um ganho em relação ao conhecimento
adquirido da tecnologia, à experiência na utilização de uma ferramenta de
mineração (IM) e ao processo ECBD. Além disso, houve também um ganho
relativo ao maior conhecimento tanto da organização como dos seus clientes. Em
mineração de dados não há garantia de que os resultados serão satisfatórios.
Verificou-se que os resultados não tinham sido os esperados, mas sabia-se que
o modelo ainda precisava ser melhorado e que 42% de erro ainda era um índice
alto. Esperava-se, no entanto, que uma quantia significativa de irregularidades
fosse encontrada em campo, o que não ocorreu. Não se esperava que os resultados
atingissem 100% do objetivo proposto, mas também não se esperava um resultado
tão longe do esperado. Neste sentido, entende-se porque alguns autores citam que,
para se fazer mineração de dados, além dos pré-requisitos já mencionados durante
o trabalho, é necessário persistência, para que não se desista do projeto nas
primeiras tentativas frustrantes. Muitas vezes é necessário voltar atrás, começar de
um determinado ponto novamente e priorizar novos passos para melhoria dos
resultados, acrescentando novos dados aos modelos.
Ocorreram falhas no processo de escolha das variáveis do modelo, por
exemplo, foi analisada a variação de consumo a maior e a menor, o que pode ter
representado um erro quando se analisa sob o ponto de vista que quem frauda, o
faz para consumir menos. Desta forma, num próximo estudo, deve-se analisar o
modelo sob o ponto de vista de variação de consumo a menor. Outros modelos
podem ser testados, como o modelo de padrões seqüenciais ou associação,
observando-se em que situações históricas a fraude ocorreu e verificar se entre
todos os fraudadores estas situações são semelhantes. Outro estudo que pode ser
elaborado é o de um modelo baseado em classificação por árvore de decisão onde
se considera o histórico de visitas em campo para classificar entre fraudadores e
não fraudadores. Desta forma, decidiu-se que o projeto deve ser revisto, as falhas
apontadas devem ser corrigidas e os ajustes necessários para melhorar o modelo
devem ser realizados.
Referências bibliográficas
CHEN, M.; HAN, J.; YU, P. Data mining: an overview from a database
perspective. IEEE Transactions on knowledge and data engineering, v. 8, n. 6,
p. 866-883, Dec. 1996.
EDELSTEIN, H. Introduction to data mining and knowlodge discovery. Two
Crows Corporation. 3. ed. 1999. p. 1-36. - Disponível em:
<http://www.twocrows.com>. Acesso em: 27 dez. 2001.
FAYYAD, U.M. ;PIATESTSKY-SHAPIRO, G. ; SMYTH, P. From data mining
to knowledge discovery in data bases. AI Magazine. v. 17, n. 3, p. 37-54, Fall
1996. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-
1996-Fayyad.pdf>. Acesso em: 27 dez. 2001.
Mineração de dados para detecção de fraudes em ligações de água 241
FAYYAD, U.M. Data mining and knowledge discovery. Boston: Kluwer. 1997.
<http://www.research.microsoft.com/research/datamine/vol1-1/editorial3.htm>.
Acesso em: 02 jan. 2002.
FRAWLEY, W.J., PIATESTSKY-SHAPIRO, G.; MATHEUS, C. Knowledge
discovery in data bases: an overview. AI Magazine. Fall 1992, p. 57- 70.
Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-
1992.pdf>. Acesso em: 27 dez. 2001.
IBM. Manual do Intelligent Miner: versão 6.1. 1999. p. – 65-247.
LEHN, R.; LAMBERT, V.; NACHOUKI, M. Data warehousing tool’s
architecture: from muldimensional analysis to data mining. In: Proceedings of the
8th
International Workshop on Database and Expert Systems - Applications
(DEXA’97) S.l.: IEEE. 1997. p. 1-8.
MARTINS, C. Utilização da extração do conhecimento de bases de dados para
identificar padrões de evasão de alunos de graduação da Unicamp. Dissertação
(Mestrado em Informática) - PUC-Campinas. 1998. p. 16-17.
ORR, M. Introduction to radial basis function networks. Centre for Cognitive
Science. University of Edinburgh, April 1996. Disponível em:
<http://www.anc.ed.ac.uk/~mjo/intro/intro.html>. Acesso em: 27 dez. 2001.
PASSINI, Sílvia R.R. Mineração de dados para detecção de fraudes em
ligações de água. Dissertação de Mestrado, PUC-Campinas, março de 2002.
REINSCHMIDT, J.; GOTTSCHALK, H.; KIM, H.; ZWIETERING, D. –
“Intelligent Miner for Data: Enhance your business Intelligence”. IBM
International Technical Support Organization. IBM REDBOOKS. June 1999.
Disponível em <http://publib-b.boulder.ibm.com/Redbooks.nsf/
9445fa5b416f6e32852569ae006bb65f/a0ffbc3431e43465852566db0078558b?Ope
nDocument>. Acesso em fev. 2002.
ROIGER, R.; AZARBOD, C.; SANT, R. A majority rule approach to data mining.
In: Proceedings of the 1997 IASTED International Conference on Intelligent
Information - Systems (IIS’97) S.l.: IEEE. 1997. p. 100-107.
THEARLING, K. Data mining and CRM. Dec. 1999. p. 1-6. Disponível em:
<http://www3.primushost.com/~kht/index.htm>. Acesso em: 27 dez. 2001.
WEATHERFORD, M. Mining for fraud. IEEE Distributed Systems OnLine.
Intelligent Systems. July-August 2002. Disponível em:
<http://dsonline.computer.org/0207/departments/news_IS.htm>. Acesso em: 28
ago. 2002.
242 XI SEMINCO - Seminário de computação - 2002

Mais conteúdo relacionado

Semelhante a Artigo 1-fraudes-agua-passini-seminco2002-6

WEB 3.0 - Trabalho Sistemas da Informação - FEI, 2013
WEB 3.0 - Trabalho Sistemas da Informação - FEI, 2013WEB 3.0 - Trabalho Sistemas da Informação - FEI, 2013
WEB 3.0 - Trabalho Sistemas da Informação - FEI, 2013
diego_gondim
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
Talita Lima
 
Aula 02 giovanni --dcbd
Aula 02   giovanni --dcbdAula 02   giovanni --dcbd
Aula 02 giovanni --dcbd
gtiprotec
 

Semelhante a Artigo 1-fraudes-agua-passini-seminco2002-6 (20)

Data mining
Data miningData mining
Data mining
 
Data Mining
Data Mining Data Mining
Data Mining
 
Data mining
Data miningData mining
Data mining
 
247 artigo
247 artigo247 artigo
247 artigo
 
Mineração
MineraçãoMineração
Mineração
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
WEB 3.0 - Trabalho Sistemas da Informação - FEI, 2013
WEB 3.0 - Trabalho Sistemas da Informação - FEI, 2013WEB 3.0 - Trabalho Sistemas da Informação - FEI, 2013
WEB 3.0 - Trabalho Sistemas da Informação - FEI, 2013
 
Aspectos teóricos do data mining e aplicação das redes neurais
Aspectos teóricos do data mining e aplicação das redes neuraisAspectos teóricos do data mining e aplicação das redes neurais
Aspectos teóricos do data mining e aplicação das redes neurais
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
Aula 02 giovanni --dcbd
Aula 02   giovanni --dcbdAula 02   giovanni --dcbd
Aula 02 giovanni --dcbd
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Tcc segurança da informação
Tcc segurança da informaçãoTcc segurança da informação
Tcc segurança da informação
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Tsg web mining
Tsg web miningTsg web mining
Tsg web mining
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 

Artigo 1-fraudes-agua-passini-seminco2002-6

  • 1. Mineração de Dados para Detecção de Fraudes em Ligações de Água Sílvia Regina Reginato Passini (Sanasa) sist.técnicos@sanasa.com.br Carlos Miguel Tobar Toledo (PUC–Campinas) tobar@ii.puc-campinas.br Resumo. A tecnologia de mineração de dados (Data Mining) pode ser aplicada em diversas áreas, inclusive na de saneamento básico. Um projeto piloto desenvolvido na Sanasa, em Campinas, é apresentado, a fim de se detectar fraudes em ligações de água, tendo como principal motivação a questão do combate às perdas físicas e o enfoque ao crescente número de ligações irregulares, um dos fatores responsáveis pelo fenômeno das perdas. Modelos foram elaborados, visando traçar o perfil do consumidor que faz ligações clandestinas, para que medidas corretivas e preventivas pudessem ser tomadas, objetivando a redução dessa não conformidade. Problemas foram encontrados durante o desenvolvimento deste trabalho, tanto a nível de configuração de equipamentos como a nível de participação efetiva do usuário na elaboração dos modelos. Isso tudo confirma que mineração de dados não é mágica e que, para sua realização eficaz, é necessário ter muita persistência, além de se ter dados confiáveis, pois muitas vezes, ao final de um processo, chega-se à conclusão que deve-se retornar a um determinado ponto prévio e começar novamente. Palavras-chave: Mineração de Dados, Modelo Descritivo, Modelo Preditivo, Intelligent Miner, Ligação Clandestina, Fraude, Controle de Perdas. 1 Introdução Detectar fraudes tem sido de grande interesse para empresas de telecomunicações, agências governamentais, companhias de cartões de crédito e de seguros, uma vez que as perdas geradas representam um fator negativo. Uma forma para se evitar fraudes é através da descoberta das mesmas, antes que ocorram. Mas, mesmo que a informação necessária para essa detecção não esteja disponível a tempo, ainda assim é muito útil que essa detecção ocorra, para que se possa tentar prevenir futuros atos fraudulentos ou mesmo tentar obter restituição dos prejuízos. Weatherford (2002) cita que várias empresas utilizam técnicas de redes neurais e associações para detectar fraudes em cartões de crédito, além de outras aplicações, como aquela que o FBI anunciou que pretende utilizar para descobrir padrões de comportamento de terroristas, com técnicas de sistemas inteligentes. Acredita-se que seja possível detectar fraudes através da análise do comportamento do consumidor e que a tecnologia de mineração de dados é adequada para o que se deseja alcançar, mas a falta de experiência com esse processo, com estatística e com a ferramenta escolhida pode ser o motivo de insucesso. O objetivo da mineração de dados é gerar novos conhecimentos, através de Mineração de dados para detecção de fraudes em ligações de água 229
  • 2. um modelo do mundo real. O resultado do uso do modelo pode ser uma descrição de padrões e relacionamentos nos dados que podem ser usados para predições. Mineração de dados, segundo Chen et al. (1996) e Frawley et al. (1992), é uma atividade não trivial de extração de informação a partir de bancos de dados, potencialmente útil, implícita e não conhecida previamente. Enquanto Fayyad et al. (1996, p.41) definem que na mineração de dados aplicam-se uma análise sobre os dados e algoritmos que, sob limitações de eficiência computacional aceitáveis, produzem uma certa quantidade de padrões a partir dos dados analisados. Esta atividade, onde modelos são desenvolvidos e testados, é apenas uma fase do processo de Extração de Conhecimento de Banco de Dados (ECBD) que é um processo que raramente pode ser totalmente automatizado porque requer participação humana. Tem por finalidade auxiliar o usuário na tomada de decisões, conduzindo-o a novas ações inteligentes (Martins, 1998). ECBD é um processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e de fácil entendimento, a partir de grandes volumes de dados históricos armazenados. Fayyad (1997, p.5) vê o crescimento de uma montanha de dados como resultado de um grande sucesso da engenharia, que permitiu que se construíssem equipamentos para gerar, coletar e armazenar dados digitais. Com avanços cada vez maiores na tecnologia de banco de dados, veio a criação de mecanismos eficientes para o armazenamento deste grande volume de dados. É um processo interativo que envolve um conjunto de atividades composto pelas etapas: identificação do objetivo; seleção de dados; pré-processamento e limpeza; transformação (redução e projeção de novos dados necessários, dependendo do objetivo estabelecido); mineração de dados (faz parte desta etapa: identificar o método de mineração que mais se adapta ao objetivo identificado, análise exploratória dos dados, escolha dos algoritmos necessários e mineração propriamente dita); interpretação e ação baseada nos resultados analisados (Fayyad, 1996). Esse processo objetiva criar automaticamente uma descrição sintética de um sistema estratégico e sua saída final é o conhecimento (Lehn et al., 1997). Para Roiger et al. (1997, p.100), este processo pode ser visto como uma metodologia a ser utilizada no desenvolvimento de modelos. Na tentativa de reduzir perdas, empresas concessionárias têm investido em automação, na implantação de sistemas informatizados integrados, na instalação de válvulas redutoras de pressão nas redes de distribuição e no combate às fraudes. Na Sanasa, em Campinas, as fraudes contribuíram em 5% dos 26,6% (no ano de 2000) de perdas na distribuição. O uso da mineração de dados para identificar fraudes surgiu por existirem dados históricos armazenados há mais de dez anos, que podem ser investigados a fim de se descobrir informação válida e desconhecida, e porque se acredita que fraudadores podem ter um perfil de comportamento típico. A criação de um projeto piloto objetivou encontrar uma resposta para: quem são os consumidores que apresentam irregularidades nas suas ligações e a empresa desconhece? É claro, que a simples aplicação de um modelo não iria responder a esta questão de forma explícita, mas poderia apresentar quem eram os consumidores em potencial, que apresentaram algumas ou todas as características 230 XI SEMINCO - Seminário de computação - 2002
  • 3. daqueles que já cometeram algum tipo de fraude na sua ligação, e que valeria a pena investigar em campo, através de uma visita de vistoria técnica na ligação. A seguir, apresentam-se as principais funções de modelagem do software utilizado, DB2 Intelligent Miner (IM) da IBM, as etapas iniciais realizadas na elaboração do projeto, como cada um de três modelos de mineração propostos foi construído, uma análise dos resultados dos modelos e conclusões. 2 ECBD no Intelligent Miner Todas as etapas do ECBD podem ser realizadas diretamente sobre o banco de dados (BD) corporativo através do IM, mas isso não é recomendável, pois vai concorrer com os demais sistemas e isso pode afetar a performance de execução de todos os processos. O mais indicado é gerar um BD específico para se trabalhar com os dados extraídos. Se esse BD for gerado com todas as transformações necessárias, pode-se partir direto para a mineração, mas geralmente isso não ocorre porque as transformações, muitas vezes, são decorrentes das análises realizadas nos dados extraídos através da própria ferramenta. Deve-se fazer a especificação dos dados de entrada (seleção dos dados) que se deseja minerar e analisar, que podem estar em um ou mais bancos, tabelas, visões, etc. Após esse passo, os dados de entrada podem ser transformados utilizando as funções de processamento do IM, tais como: cálculo, filtragem ou compartilhamento, que permitem que os dados sejam organizados de forma que possam ser minerados efetivamente. Pode-se também utilizar a função de remover campos com valores nulos, para não afetar os resultados da mineração, eliminar registros duplicados ou convertê-los de um formato para outro (IBM, 1999). No IM, pode-se a qualquer momento do processo, utilizar funções estatísticas (bivariada, análise fatorial, etc.) para investigar e analisar os dados, a fim de se criar os campos de entrada para mineração, e também utilizá-las para a transformação e criação de novos dados de entrada. Com isso, pode-se avaliar a quantidade de campos encontrados com valores nulos, zeros, brancos ou com valores muito altos, que podem distorcer a amostra e decidir o que fazer com eles: transformá-los, eliminá-los do modelo ou mantê-los na forma como estão. Além disso, funções estatísticas podem ser úteis para avaliação e trabalho com os dados de saída, gerados após a execução das funções de mineração (IBM, 1999). Os dados transformados podem ser minerados em seguida, utilizando as funções de mineração. Freqüentemente, a informação obtida da primeira mineração ainda é obscura devido ao ruído nos dados. Para se obter resultados claros e significativos, deve-se transformar os dados repetidas vezes, ajustando as funções antes de minerá-los novamente. Deve-se especificar previamente os parâmetros da função ou técnica adotada para a mineração. O IM tem as seguintes funções de mineração: associação, classificação por árvore de decisão, classificação neural, agrupamento demográfico, agrupamento neural, predição RBF (Radial-Basis- Function), predição neural, padrões seqüenciais e seqüências similares. Mineração de dados para detecção de fraudes em ligações de água 231
  • 4. Associações acontecem quando ocorrências estão ligadas a um único evento. O objetivo de se descobrir associações é de encontrar itens em uma transação que impliquem na presença de outros itens na mesma transação, contidos num determinado conjunto de dados (IBM, 1999). Utiliza-se classificação na predição para criar um modelo baseado em dados já conhecidos, para analisar o porquê de uma certa classificação ter sido feita ou para realizar a classificação de novos dados. A análise de dados, que já foram classificados previamente, pode revelar as características que induziram à classificação anterior (IBM, 1999). No IM, a construção de um modelo baseado em classificação passa por três fases: treinamento, teste e aplicação. Na fase de treinamento, uma mineração no BD permite a descoberta dos atributos de cada cliente definido nas classes de risco. Nesta fase, definem-se os parâmetros para se treinar o modelo: número de vezes que vai repassar em cada nó, número mínimo e máximo de ramificações de uma árvore (no caso de se optar pela técnica de árvore de decisão), etc. No modo de teste, pode-se testar a acuracidade do modelo criado, aplicando dados diferentes dos do treinamento, para verificar se o modelo classifica corretamente aqueles dados que reconhecidamente pertencem à classe de risco. Na fase de aplicação, pode-se usar o modelo criado para predições. Thearling (1999, p.9) define agrupamento como o processo de se dividir o BD em vários grupos diferentes, de tal forma que os membros no mesmo grupo ou segmento estejam o mais perto possível e os diferentes grupos, o mais longe possível uns dos outros. O objetivo é achar segmentos que são muito diferentes uns dos outros e cujos membros sejam muito similares. Diferente de classificação, não se sabe quais grupos serão formados quando se inicia o processo ou quais atributos agruparão os dados, dessa forma, alguém terá que analisar os grupos formados. Como na classificação, o objetivo da função de predição é construir um modelo utilizando dados existentes. Entretanto, a diferença é que o objetivo não é uma classificação e sim a descoberta de um novo valor, predizendo como outros fatores se comportarão (Reinschmidt et al., 1999). Esta função é subdividida em outras duas funções de predição que utilizam diferentes algoritmos: RBF e backpropagation. Para Orr (1996), funções radiais constituem uma simples classe de funções que podem ser empregadas a princípio, em qualquer modelo (linear ou não linear) e em qualquer tipo de rede neural (camadas simples ou múltiplas), mas têm sido utilizadas associadas com funções radiais em redes de camadas simples. O IM apresenta também a função de seqüências similares, com o propósito de se encontrar todas as ocorrências similares subseqüentes em um BD de seqüências. Essa técnica pode ser utilizada para detectar ondas sísmicas não similares e identificar irregularidades geológicas (IBM, 1999). 3 ECBD no projeto piloto proposto A primeira coisa a ser feita quando se deseja trabalhar com mineração de dados é a definição do objetivo estratégico do trabalho, ou seja, a questão para a qual se busca uma resposta. A escolha da ferramenta mais adequada vem a seguir. 232 XI SEMINCO - Seminário de computação - 2002
  • 5. Existem algumas metodologias que, se aplicadas com critério, podem auxiliar na escolha da ferramenta mais indicada. A definição dos recursos humanos e computacionais disponíveis para a mineração também é um fator importante, pois muitas vezes este item é deixado de lado e descobre-se tardiamente que a equipe não está suficientemente treinada com o software, nem tem preocupação voltada para o problema que se deseja solucionar, não tem consciência do fato de existirem dados históricos armazenados há anos, não conhece a empresa a fundo ou mesmo o problema que se está estudando. Deve-se dar especial atenção à configuração do equipamento, que não estando dimensionado adequadamente, faz com que os processos demorem mais para serem executados. Outro fator importante é a escolha de uma metodologia de trabalho. Isso facilita o trabalho do grupo, pois se trabalha de uma forma organizada. No projeto piloto proposto, adotou-se a metodologia de documentação proposta por Edelstein (1999). Para este trabalho, os dados foram extraídos através de programas escritos na linguagem Cobol, a partir de 10 arquivos com dados históricos. Esses dados tiveram que ser analisados e transformados. Redundâncias tiveram que ser eliminadas. Erros e valores nulos foram descartados ou transformados. Estas ações foram repetidas até que se chegasse a um consenso de que os dados já estavam bons para serem minerados. Essa etapa tomou mais de 80% do tempo, porque, para cada arquivo, fez-se uma descrição e seleção dos dados, levando-se em conta se os mesmos eram considerados relevantes para o objetivo em questão: fraudes. Na prática, observou-se que, mesmo com todos esses cuidados, ao longo do processo houve necessidade se voltar a esta etapa e fazer novas extrações, análises e transformações. Após esta etapa, os metadados foram especificados em DB2 e foi feita a carga no BD de mineração. O equipamento destinado para este trabalho não foi dimensionado inicialmente para se trabalhar com 100% dos dados e, por isso, trabalhou-se com uma amostra de 15%. O processo de extração da amostra foi baseado em critérios estatísticos de proporcionalidade, que garantiram que a amostra representasse a realidade de todos os dados do BD. Após a carga ter sido feita, foram realizadas análises descritivas, nas quais observou-se que alguns dados importantes não haviam sido extraídos e foi necessária uma nova extração. Estas análises são importantes porque nesta etapa já é possível detectar informações importantes e tomar alguma decisão. Por exemplo, no projeto piloto proposto, detectaram-se nesta fase algumas falhas nos serviços de campo que foram corrigidas através de treinamento da equipe responsável. Duas análises foram feitas na seleção das variáveis. Na primeira, os campos das tabelas foram classificados em três categorias: informações cadastrais ou domiciliares, que são estáticas ou variam muito pouco, mas que são específicas do cliente (do tipo endereço e bairro); informações sobre o relacionamento do cliente com a empresa (do tipo idade da ligação, idade do hidrômetro, padrão da ligação e vazão do hidrômetro instalado); e finalmente as informações sobre o comportamento do cliente ao longo do tempo (do tipo consumo mensal, percentual de variação de consumo a maior e a menor, e multas aplicadas). Para o modelo, selecionaram-se as variáveis de comportamento, pois o que se pretendia era achar Mineração de dados para detecção de fraudes em ligações de água 233
  • 6. um padrão de comportamento que identificasse fraudes. As demais classificações serviram para ajudar na interpretação dos resultados. Na segunda análise foi feita a correlação linear das variáveis classificadas como comportamentais, realizada através da função estatística análise fatorial, a fim de se validar se haviam campos que estavam redundantes e que poderiam ser descartados na hora de se preparar o vetor de entrada do modelo. O resultado da função análise fatorial, usada na seleção de variáveis, apresenta uma tabela com a correlação linear das variáveis selecionadas, cujos valores variam entre um e menos um. Os valores mais altos e mais baixos foram analisados, observando-se que valores mais próximos de um indicam uma forte relação entre as variáveis, isto é, elas podem estar explicando a mesma coisa, sendo diretamente proporcionais. Considerou-se relevante para esta análise os valores superiores ou iguais a 0,5. Cada caso foi analisado para se verificar se uma delas poderia ser descartada e, se fosse o caso, qual delas. Os valores mais distantes de um e mais próximos de menos um indicam uma relação inversamente proporcional entre as variáveis. Foram mantidas todas as variáveis com valores inferiores a 0,5. 4 Construção dos modelos de mineração Foram desenvolvidos ao todo três modelos, sendo dois deles baseados em agrupamento neural e um em classificação por árvore de decisão. Desejava-se verificar, com os agrupamentos, se existia um perfil de fraudes bem definido, que pudesse ser qualificado pelo tipo de consumo, categoria, etc. e, desta forma, identificar quais consumidores considerados não fraudadores pertenciam a este grupo e fazer as vistorias em campo. Com o modelo baseado em classificação, desejava-se predizer em qual tipo de fraude os consumidores fraudadores se enquadrariam. Pensou-se inicialmente em elaborar um modelo simples que classificasse fraudadores e não fraudadores, mas desistiu-se da idéia, por não se saber com certeza quais consumidores realmente não eram fraudadores, uma vez que todos eram candidatos a fraudador em potencial. Havia o risco de estar treinando o modelo com um suposto não fraudador, quando o mesmo poderia estar cometendo alguma fraude que a empresa desconhecesse. Para a construção dos modelos, os consumidores que já tinham alguma fraude identificada foram separados dos que nunca tinham tido fraudes identificadas. Foram geradas duas tabelas contendo 100% dos fraudadores e 100% dos não fraudadores. Além desses, foram separados 4.000 fraudadores e a mesma quantidade de consumidores não fraudadores. Foram feitos diversos testes nos modelos alterando-se as variáveis selecionadas, o número de passos de treinamento, a quantidade de grupos a serem gerados, etc. Cada um dos testes foi documentado em uma tabela que continha também o erro calculado pelo modelo1 . 1 Este material encontra-se disponível em: PASSINI, Sílvia R.R. Mineração de dados para detecção e fraudes em ligações de água. Dissertação de Mestrado, PUC-Campinas, março de 2002. 234 XI SEMINCO - Seminário de computação - 2002
  • 7. 4.1 Modelo baseado em agrupamento - estudos com 100% dos fraudadores O processamento do modelo baseado em agrupamento com 100% dos fraudadores gerou um resultado com nove grupos, com erro de 15%. A tabela 1 apresenta os resultados da maioria significativa de cada grupo. Grupo % da amostra Tipo de fraude Parce- lamento Status ligação Corte Cate- goria Média consumo Contas retificadas Idade ligação 1 15,44% HV NÃO Ativa SIM Resid 40 m3 SIM > 12 ANOS 2 11,93% HV, LC,LS NÃO Ativa SIM Resid 20 m3 NÃO > 5 ANOS 3 11,40% HV,LC NÃO Ativa SIM Resid 25 m3 NÃO > 5 ANOS 4 10,79% HV SIM Ativa SIM Resid 80 m3 SIM > 5 ANOS 5 10,53% HV NÃO Ativa NÃO Resid 40 m3 NÃO >= 5 ANOS 6 10,51% HV SIM Ativa SIM Resid 40 m3 SIM >= 22 ANOS 7 10,09% LC SIM Ativa SIM Resid 60 m3 SIM >= 6 ANOS 8 9,91% HV,LC SIM Ativa SIM Resid 40 m3 SIM >= 21 ANOS 9 9,40% HV, LC,LS NÃO Ativa Extinta SIM Resid 40 m3 NÃO >= 6 ANOS Tabela 1 – Resultado do modelo de agrupamento com 100% dos fraudadores O primeiro grupo contemplou consumidores identificados como fraudadores de um dos tipos HV (Hidrômetro Violado), HC (Hidrômetro instalado ao Contrário), LC (Ligação Clandestina de água), ou LS (Ligação Sem hidrômetro). A predominância foram fraudes relativas à HV. A maioria dos consumidores deste grupo nunca parcelou dívidas, não estava com a ligação cortada, mas já tinha passado pelo corte e eram predominantemente consumidores residenciais. Os demais grupos também contemplaram consumidores fraudadores, tendo o segundo predominância de fraudes de todos os tipos e a maioria com a ligação cortada; o terceiro, predominância do tipo HV e LC, sendo que nenhum consumidor estava com a ligação cortada, embora a grande maioria já tinha entrado para o processo de corte pelo menos uma vez; o quarto, predominância do tipo HV, sendo que 100% estavam com a ligação cortada, quase 30% estavam com a ligação inativa no cadastro, pois tinham sido extintas em campo, e a média do volume de consumo em m3 foi mais elevada do que nos demais grupos; o quinto, Mineração de dados para detecção de fraudes em ligações de água 235
  • 8. predominância do tipo HV, cuja maioria nunca passou pelo corte. Constituiu um grupo tipicamente residencial; o sexto, predominância do tipo HV e 100% já tinham passado pelo corte; o sétimo, predominância do tipo LC, sendo que 91% estavam com a ligação cortada e mais de 50% tinham tido retificações nas contas; o oitavo, predominância dos tipos HV e LC, sendo que a maioria já tinha passado pelo corte, mas regularizou a situação até a data da extração dos dados; e o nono, predominância de consumidores extintos (quase a metade) e fraudes do tipo LS, o que pode justificar tantas extinções. Após a aplicação do modelo aos não fraudadores, com índice de erro igual a 11%, todos os grupos foram analisados, em especial o quarto grupo, que era caracterizado por ter um consumo mais alto, e o sétimo, que teve 42% de ligações clandestinas como característica. Além disso, analisou-se o grau de confiança de se ter um consumidor num determinado grupo em relação aos demais, grau este calculado pelo IM. O único grupo que apresentou um grau de confiança diferenciado dos demais e acima de 0,85 foi o segundo. Nos demais grupos, o grau de confiança ficou entre 0,5 e 0,6. Portanto, considerou-se que o grupo que melhor caracterizava fraudes era o segundo. Essa foi uma conclusão precipitada, pois deveria ter sido analisado primeiramente o grau do score. Este deve ter sido um dos fatores possíveis que levou a um resultado negativo na primeira tentativa, falha esta devida à inexperiência do grupo com relação ao IM, ao desconhecimento de como interpretar resultados e devido a estas informações não estarem claras nos manuais. Neste caso, foi necessário recorrer ao suporte do laboratório do fornecedor para que essas dúvidas fossem esclarecidas e isso tomou algum tempo. O score indica o quão bem um registro se enquadra no grupo em que foi melhor classificado. Registros com baixo grau de score não se enquadram bem em nenhum grupo (no caso de agrupamento neural do IM). Após análise dos registros com o maior score, deve-se olhar para o grau de confiança, para verificar se este registro se enquadra bem apenas em um grupo (grau de confiança maior) ou se ele se enquadra em mais de um grupo (grau de confiança menor). Análises posteriores mostraram que, dos consumidores selecionados para ir a campo verificar fraudes apontadas pelo modelo, 60% apresentaram um grau de score acima de 0,6. Para os demais os score foi baixo. Foi executada a função estatística bivariada a fim de se selecionar apenas consumidores cujo grau de confiança ficasse acima de 0,9 e, como resultado, apresentaram-se 632 candidatos. Desejou-se um número menor de candidatos para ir a campo e selecionaram-se consumidores com grau de confiança maior que 0,94. Como resultado, apresentaram-se 12 candidatos. Uma tabela com estes candidatos foi utilizada no modelo baseado em classificação, para predizer que tipo de fraude seria encontrada em campo (PASSINI, 2002). Os resultados são apresentados na seqüência, após o modelo baseado em classificação por árvore de decisão. 236 XI SEMINCO - Seminário de computação - 2002
  • 9. 4.2 Modelo baseado em agrupamento - Estudo com 50% de fraudadores e não fraudadores O modelo baseado em agrupamento com 50% de fraudadores e 50% de não fraudadores gerou nove grupos, com índice de erro de 20%. A tabela 2 apresenta os resultados da maioria significativa de cada grupo. Do primeiro ao quarto grupo não foi encontrada nenhuma característica que indicasse fraude de forma predominante. Enquanto, o quinto, sexto, oitavo e nono grupos foram considerados diferenciados por caracterizarem fraudes. Grupo % da amostra Tipo de fraude Parce- lamento Status ligação Corte Cate- goria Média consumo Contas retificadas Idade ligação 1 19% NÃO NÃO Ativa NÃO Resid 40 m3 NÃO > 22 ANOS 2 18,5% NÃO NÃO Ativa NÃO Resid 50 m3 NÃO > 17 ANOS 3 14% NÃO NÃO Ativa SIM Resid Com 20 m3 NÃO NULA 4 8,77% NÃO NÃO Ativa SIM Resid 40 m3 NÃO < 5 ANOS 5 8,63% LC SIM Ativa SIM Resid 60 m3 SIM > 4 ANOS 6 8,5% LC SIM Ativa SIM Resid 30 m3 SIM > 5 ANOS 7 8,2% HV NÃO Ativa NÃO Resid 25 m3 NÃO < 8 ANOS 8 8% LC SIM Ativa SIM Resid 20 m3 SIM < 7 ANOS 9 6,4% HV SIM Ativa SIM Resid 50 m3 SIM > 19 ANOS Tabela 2 – Resultado do modelo de agrupamento com 50% de fraudadores e não fraudadores No primeiro grupo predominaram consumidores sem parcelamento, ligações antigas, sendo que a maioria não tinha tido retificação nas contas. No segundo grupo predominaram consumidores residenciais, sem parcelamentos, consumo de até 50m3 , a maioria ativa no cadastro. No terceiro grupo predominaram consumidores que não estavam em processo de corte, mas já tinham sido cortados alguma vez, a maioria nas categorias residencial e comercial, com consumo baixo (até 20 m3 ). No quarto grupo predominaram ligações mais recentes, categoria residencial, sendo que 53% já tinham passado pelo processo de corte. No quinto grupo predominaram fraudes, em especial ligações clandestinas; consumidores com muitas ocorrências de leitura e retificações nas contas, a maioria já tinha passado pelo processo de corte e tinha tido pelo menos um Mineração de dados para detecção de fraudes em ligações de água 237
  • 10. parcelamento. No sexto grupo predominaram fraudes do tipo LC, todas com parcelamentos de contas, muitas ocorrências de leitura e a maioria com retificações na conta. No sétimo grupo predominaram muitas ocorrências de leitura e nenhum parcelamento. Pouco mais da metade do grupo era fraudador. No oitavo grupo predominaram fraudes do tipo LC, todos com parcelamentos de contas e muitas ocorrências de leitura. No nono grupo predominou uma grande quantidade de ocorrências de leitura e de retificações, a maioria já tinha passado por alguma fase de corte, tinha tido um parcelamento e era fraudadora. Após a aplicação do modelo aos não fraudadores, os grupos 5o , 6o , 8o e 9o foram selecionados para serem analisados separadamente, por caracterizarem mais fraudes do que os demais. Esses grupos tinham em comum um número de fraudadores superior a 60%, muitas ocorrências de leitura, retificações nas contas, parcelamentos, cortes e mais de 50% de variações de consumo. Destes quatro grupos, foram selecionados os consumidores com grau de confiança maior ou igual a 0,64 e foram encontrados 30 candidatos. Foi gerada uma tabela contendo este resultado, que foi utilizada no modelo baseado em classificação para predizer que tipo de fraude seria encontrada em campo (PASSINI, 2002). Os resultados são apresentados na seqüência, após a apresentação do modelo baseado em classificação por árvore de decisão. 4.3 Modelo baseado em classificação por árvore de decisão Para o treinamento do modelo baseado em classificação, foram selecionados 80% dos consumidores fraudadores já conhecidos, sendo que as fraudes diferentes de LC e HV foram identificadas com o algarismo zero; do tipo HV, com o algarismo um; do tipo tanto HV e LC simultaneamente, com o algarismo dois; e somente do tipo LC, com o algarismo três. É possível que uma fraude possa estar em duas categorias, isto é, o consumidor além de violar o próprio hidrômetro, mantém uma ligação com derivação clandestina, difícil de ocorrer, mas possível. Existe também a possibilidade de um consumidor ter os dois tipos de fraudes cometidas em tempos diferentes, o que é mais comum acontecer. Foram realizados vários testes, alterando-se os parâmetros de entrada do modelo selecionado e número de passos de treinamento. Não foram atribuídos pesos diferenciados para as variáveis, permanecendo o valor default associado pelo IM. Para cada teste, verificava-se o percentual de erros e acertos. Foi escolhido o modelo que apresentou o menor erro na matriz de confusão. A matriz de confusão, ferramenta para análise de modelos resultantes de classificação, apresentada na Tabela 3 é um exemplo onde aparece o real versus o estimado com o modelo. As colunas mostram os valores reais, já conhecidos previamente, e as linhas, os valores estimados. As células cujos números estão na diagonal principal apresentam o resultado onde o real é igual ao estimado. Quanto maior o valor dessas células e próximo do total, maior o grau de acerto do modelo. Dos consumidores selecionados e treinados, o modelo acertou a classificação de 69,18% e o erro global foi de 30,82%. 238 XI SEMINCO - Seminário de computação - 2002
  • 11. A Tabela 3 apresenta o resultado da árvore de decisão após os testes com 80% dos fraudadores. Tabela 3 – Matriz de confusão – resultado do treinamento com 80% dos fraudadores A árvore resultante apresentou muitas ramificações (sem podas) e continha todas as regras que o modelo gerou. Neste contexto, é uma árvore muito difícil de ser interpretada e, por isso, alguns ramos foram cortados. A partir do treinamento realizado, fez-se o teste aplicando-se os 20% de fraudadores restantes. Desses consumidores, o modelo acertou 58% e errou 42%, conforme é apresentado na Tabela 4. Das fraudes do tipo 0 (diferentes de LC e HV), o modelo acertou apenas 4,8%; das fraudes do tipo HV (1), acertou 85%; das fraudes do tipo LC e HV (2), não acertou nenhuma, classificando os consumidores nas demais categorias; das fraudes do tipo LC (3), acertou 51%. Tabela 4 – Matriz de confusão – resultado do teste com 20% dos fraudadores O erro de 42% foi considerado ruim, porém de todos os testes realizados anteriormente, foi considerado o melhor, pois a quantidade de acertos para as colunas 1 e 3 foi maior. O modelo não estava bom e novas transformações, e até mesmo extrações, seriam necessárias, mas, como o índice de acertos chegou Mineração de dados para detecção de fraudes em ligações de água 239
  • 12. próximo ao desejado (60%), decidiu-se fazer a aplicação aos não fraudadores e observar os resultados. Após os estudos citados anteriormente, aplicou-se o modelo aos consumidores não fraudadores de três maneiras: 1) Candidatos do primeiro modelo baseado em agrupamento, que foram classificados 50% em fraudes do tipo LC e 50% do tipo HV. Os 12 consumidores escolhidos foram investigados em campo e o resultado foi o seguinte: um estava com HI, sendo notificado a liberar o acesso para futuras leituras (o que pode indicar que existe uma fraude, pois não permite vistoria, mas isso tem que ser verificado). Este mesmo consumidor teve predição de HV no modelo baseado em classificação, o que pode significar que existe a possibilidade do hidrômetro estar violado e isto justificar o impedimento do acesso ao mesmo. Dois foram identificados em campo como HC, mas não eram fraudes, foram instalações erradas executadas pela própria empresa. Nos demais casos, não foram constatadas irregularidades. Esse resultado foi considerado insatisfatório e o modelo deve ser melhorado antes que novas investigações em campo sejam feitas. 3) Candidatos do segundo modelo baseado em agrupamento, que após a aplicação foram classificados com 73% como fraude do tipo HV, 23% do tipo LC e 4% como outros tipos de fraudes. Foram selecionados dez consumidores para investigação em campo, com o seguinte critério: 7 consumidores classificados como LC e 3, escolhidos aleatoriamente, dos classificados como HV. Após as vistorias técnicas em campo, nenhuma fraude foi identificada (PASSINI, 2002). 4) Aplicação do modelo baseado em classificação por árvore de decisão a 100% dos não fraudadores. Aproximadamente 66% da população foi classificada com tendência a fraude do tipo HV, 29% com tendência a fraudes do tipo LC e 5% com tendência a fraudes diferentes de LC e HV. Em cada uma destas classes foi analisado o grau de confiança para a seleção de consumidores com o grau de confiança maior que 0,95. O sistema selecionou consumidores classificados com outros tipos de fraudes (49 consumidores), LC (41 consumidores) e HV (15 consumidores), todos com grau de confiança igual a 1, ou seja 100% enquadrado no perfil. Dos 105 candidatos foram selecionados 25 aleatoriamente para se fazerem vistorias em campo: 100% retornaram com denúncia não confirmada. 5 Conclusões É necessário deixar claro que este primeiro projeto foi elaborado por profissionais da empresa que não tinham experiência na área de estatística, nem com a tecnologia de mineração de dados, e nem com o IM, ferramenta utilizada no projeto, e que já se encontrava disponível, o que ocasionou muitas falhas. Além disso, para se fazer mineração de dados não se aperta um botão e fica-se na expectativa que resultados irão aparecer. É imprescindível o envolvimento e a dedicação de todos os integrantes da equipe. A utilização da tecnologia de mineração de dados em um projeto piloto, tendo como motivação a questão do combate às perdas físicas de água, enfocadas nas crescentes irregularidades nas ligações de água, visava a redução inicialmente de 240 XI SEMINCO - Seminário de computação - 2002
  • 13. 51% para 41% das visitas infrutíferas para detecção de fraudes. Este objetivo do trabalho não foi atingido. Porém, houve um ganho em relação ao conhecimento adquirido da tecnologia, à experiência na utilização de uma ferramenta de mineração (IM) e ao processo ECBD. Além disso, houve também um ganho relativo ao maior conhecimento tanto da organização como dos seus clientes. Em mineração de dados não há garantia de que os resultados serão satisfatórios. Verificou-se que os resultados não tinham sido os esperados, mas sabia-se que o modelo ainda precisava ser melhorado e que 42% de erro ainda era um índice alto. Esperava-se, no entanto, que uma quantia significativa de irregularidades fosse encontrada em campo, o que não ocorreu. Não se esperava que os resultados atingissem 100% do objetivo proposto, mas também não se esperava um resultado tão longe do esperado. Neste sentido, entende-se porque alguns autores citam que, para se fazer mineração de dados, além dos pré-requisitos já mencionados durante o trabalho, é necessário persistência, para que não se desista do projeto nas primeiras tentativas frustrantes. Muitas vezes é necessário voltar atrás, começar de um determinado ponto novamente e priorizar novos passos para melhoria dos resultados, acrescentando novos dados aos modelos. Ocorreram falhas no processo de escolha das variáveis do modelo, por exemplo, foi analisada a variação de consumo a maior e a menor, o que pode ter representado um erro quando se analisa sob o ponto de vista que quem frauda, o faz para consumir menos. Desta forma, num próximo estudo, deve-se analisar o modelo sob o ponto de vista de variação de consumo a menor. Outros modelos podem ser testados, como o modelo de padrões seqüenciais ou associação, observando-se em que situações históricas a fraude ocorreu e verificar se entre todos os fraudadores estas situações são semelhantes. Outro estudo que pode ser elaborado é o de um modelo baseado em classificação por árvore de decisão onde se considera o histórico de visitas em campo para classificar entre fraudadores e não fraudadores. Desta forma, decidiu-se que o projeto deve ser revisto, as falhas apontadas devem ser corrigidas e os ajustes necessários para melhorar o modelo devem ser realizados. Referências bibliográficas CHEN, M.; HAN, J.; YU, P. Data mining: an overview from a database perspective. IEEE Transactions on knowledge and data engineering, v. 8, n. 6, p. 866-883, Dec. 1996. EDELSTEIN, H. Introduction to data mining and knowlodge discovery. Two Crows Corporation. 3. ed. 1999. p. 1-36. - Disponível em: <http://www.twocrows.com>. Acesso em: 27 dez. 2001. FAYYAD, U.M. ;PIATESTSKY-SHAPIRO, G. ; SMYTH, P. From data mining to knowledge discovery in data bases. AI Magazine. v. 17, n. 3, p. 37-54, Fall 1996. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview- 1996-Fayyad.pdf>. Acesso em: 27 dez. 2001. Mineração de dados para detecção de fraudes em ligações de água 241
  • 14. FAYYAD, U.M. Data mining and knowledge discovery. Boston: Kluwer. 1997. <http://www.research.microsoft.com/research/datamine/vol1-1/editorial3.htm>. Acesso em: 02 jan. 2002. FRAWLEY, W.J., PIATESTSKY-SHAPIRO, G.; MATHEUS, C. Knowledge discovery in data bases: an overview. AI Magazine. Fall 1992, p. 57- 70. Disponível em: <http://www.kdnuggets.com/gpspubs/aimag-kdd-overview- 1992.pdf>. Acesso em: 27 dez. 2001. IBM. Manual do Intelligent Miner: versão 6.1. 1999. p. – 65-247. LEHN, R.; LAMBERT, V.; NACHOUKI, M. Data warehousing tool’s architecture: from muldimensional analysis to data mining. In: Proceedings of the 8th International Workshop on Database and Expert Systems - Applications (DEXA’97) S.l.: IEEE. 1997. p. 1-8. MARTINS, C. Utilização da extração do conhecimento de bases de dados para identificar padrões de evasão de alunos de graduação da Unicamp. Dissertação (Mestrado em Informática) - PUC-Campinas. 1998. p. 16-17. ORR, M. Introduction to radial basis function networks. Centre for Cognitive Science. University of Edinburgh, April 1996. Disponível em: <http://www.anc.ed.ac.uk/~mjo/intro/intro.html>. Acesso em: 27 dez. 2001. PASSINI, Sílvia R.R. Mineração de dados para detecção de fraudes em ligações de água. Dissertação de Mestrado, PUC-Campinas, março de 2002. REINSCHMIDT, J.; GOTTSCHALK, H.; KIM, H.; ZWIETERING, D. – “Intelligent Miner for Data: Enhance your business Intelligence”. IBM International Technical Support Organization. IBM REDBOOKS. June 1999. Disponível em <http://publib-b.boulder.ibm.com/Redbooks.nsf/ 9445fa5b416f6e32852569ae006bb65f/a0ffbc3431e43465852566db0078558b?Ope nDocument>. Acesso em fev. 2002. ROIGER, R.; AZARBOD, C.; SANT, R. A majority rule approach to data mining. In: Proceedings of the 1997 IASTED International Conference on Intelligent Information - Systems (IIS’97) S.l.: IEEE. 1997. p. 100-107. THEARLING, K. Data mining and CRM. Dec. 1999. p. 1-6. Disponível em: <http://www3.primushost.com/~kht/index.htm>. Acesso em: 27 dez. 2001. WEATHERFORD, M. Mining for fraud. IEEE Distributed Systems OnLine. Intelligent Systems. July-August 2002. Disponível em: <http://dsonline.computer.org/0207/departments/news_IS.htm>. Acesso em: 28 ago. 2002. 242 XI SEMINCO - Seminário de computação - 2002