1. DATA MINING
Jaziel C. Silva
Estamos afogados em informação, mas
famintos por conhecimento! (John Naisbitt).
2. Histórico
Década de 60: Tem inicio as primeiras coleções de dados, surgem os primeiros DB’s.
Década de 70: A tecnologia da Informação (TI) muda seu foco do processamento de
dados (DB) para o processamento de informação, surgem os DSS e MIS.
Década de 80: O processamento do conhecimento está cada vez mais incorporado nos
recursos oferecidos, com os KBS’s e os Expert Systems. Esses sistemas eram orientados
à aplicações especificas (espaciais, científicos, de engenharia etc).
Década de 90: Surgimento de Data Mining, bases de dados multimídia, tecnologia Web,
grande capacidade de armazenamento e processamento.
3. Data Mining
Data Mining faz parte de um processo maior chamado KDD, e consiste em extrair
informação válida, previamente desconhecida e de máxima abrangência a partir de
grandes bases de dados.
Por que realizar Data Mining?
Abundância de dados nos mais diferentes setores;
Grande poder de processamento disponível atualmente;
Aumento de performance dentro de uma empresa;
Grande variedade de ferramentas e tecnologia disponível;
Transformar dados disponíveis em informação e conhecimento de valor agregado.
5. O Processo de Data Mining
A extração de conhecimento a partir de grande quantidade de dados é vista como um
processo interativo (baseado no conhecimento dos especialistas e dos usuários) e iterativo
(para melhor ajuste dos parâmetros a cada iteração).
Figura 2: Etapas do processo de Mineração de Dados (Rezende, Pugliesi, Melanda, & Paula 2003).
6. Etapas do Processo de DM
Conhecimento do Domínio: inicia-se com o entendimento do domínio da aplicação,
considerando aspectos como os objetivos dessa aplicação e as fontes de dados das quais
se pretende extrair conhecimento.
Pré-Processamento: Etapa onde é realizada uma seleção de dados a partir dessas
fontes, de acordo com os objetivos do processo.
Extração de Padrões: A etapa de extração de padrões tem o objetivo de encontrar
modelos (conhecimento) a partir de dados.
Pós- Processamento: Essa é a etapa na qual o conhecimento é avaliado quanto a
sua qualidade e/ou utilidade para que, em caso positivo, seja utilizado para apoio a algum
processo de tomada de decisão.
7. Áreas de Aplicação
Área de Marketing;
Manufatura;
Finanças;
Saúde;
Telecomunicações;
Exploração de Petróleo.
Exemplo Prático de Aplicação, (Walmart).
A rede americana de Supermercados Walmart, identificou um hábito curioso dos
consumidores. Há cinco anos, ao procurar eventuais relações entre o volume de vendas e
os dias da semana, o software de Data Mining apontou que, às sextas-feiras, as vendas de
cervejas cresciam na mesma proporção que as de fraldas. Crianças bebendo cerveja? Não,
uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebês, os pais
aproveitavam para abastecer o estoque de cerveja para o final de semana.
8. Vantagens e Desvantagens de Data Mining
Vantagens:
Modelo de fácil compreensão;
Analisar grandes bases de dados e encontrar padrões válidos;
Variáveis que não necessitam de recodificação;
Os Modelos são precisos;
Os Modelos são construídos e atualizados rapidamente.
Desvantagens:
Alto custo;
Necessidades de grandes bases de dados;
Novidade e complexidade;
Criar ambientes ideais;
Interação muito forte com analistas humanos.
9. Referências Bibliográficas
Rezende, S. O. (2003). Sistemas Inteligentes: Fundamentos e Aplicações (1ª ed.).
Barueri, SP: Manole.
Cortês, Sérgio. C; Porcaro, Rosa. M; Lifschitz, Sérgio. Mineração de dados –
Funcionalidades, Técnicas e Abordagens. PUC-RioInf.MCC 02/Maio, 2002.
Carvalho, L. A. V. (2005) . Data Mining – A Mineração de Dados no Marketing, Medicina,
Economia, Engenharia e Administração. 2005
Sferra, Heloísa. H; Corrêa, Ângela, M. C; Conceitos e Aplicações de Data Mining.
Revista de Ciência & Tecnologia Vol. 11, Nº 22 – pp. 19-34, (2003).