DATA MINING
Jaziel C. Silva
Estamos afogados em informação, mas
famintos por conhecimento! (John Naisbitt).
Histórico
 Década de 60: Tem inicio as primeiras coleções de dados, surgem os primeiros DB’s.
 Década de 70: A tecnologia da Informação (TI) muda seu foco do processamento de
dados (DB) para o processamento de informação, surgem os DSS e MIS.
 Década de 80: O processamento do conhecimento está cada vez mais incorporado nos
recursos oferecidos, com os KBS’s e os Expert Systems. Esses sistemas eram orientados
à aplicações especificas (espaciais, científicos, de engenharia etc).
 Década de 90: Surgimento de Data Mining, bases de dados multimídia, tecnologia Web,
grande capacidade de armazenamento e processamento.
Data Mining
Data Mining faz parte de um processo maior chamado KDD, e consiste em extrair
informação válida, previamente desconhecida e de máxima abrangência a partir de
grandes bases de dados.
Por que realizar Data Mining?
 Abundância de dados nos mais diferentes setores;
 Grande poder de processamento disponível atualmente;
 Aumento de performance dentro de uma empresa;
 Grande variedade de ferramentas e tecnologia disponível;
 Transformar dados disponíveis em informação e conhecimento de valor agregado.
Processos do KDD
Figura 1: Etapas do Processo de KDD (Fayyad et al (1996).
O Processo de Data Mining
A extração de conhecimento a partir de grande quantidade de dados é vista como um
processo interativo (baseado no conhecimento dos especialistas e dos usuários) e iterativo
(para melhor ajuste dos parâmetros a cada iteração).
Figura 2: Etapas do processo de Mineração de Dados (Rezende, Pugliesi, Melanda, & Paula 2003).
Etapas do Processo de DM
 Conhecimento do Domínio: inicia-se com o entendimento do domínio da aplicação,
considerando aspectos como os objetivos dessa aplicação e as fontes de dados das quais
se pretende extrair conhecimento.
 Pré-Processamento: Etapa onde é realizada uma seleção de dados a partir dessas
fontes, de acordo com os objetivos do processo.
 Extração de Padrões: A etapa de extração de padrões tem o objetivo de encontrar
modelos (conhecimento) a partir de dados.
 Pós- Processamento: Essa é a etapa na qual o conhecimento é avaliado quanto a
sua qualidade e/ou utilidade para que, em caso positivo, seja utilizado para apoio a algum
processo de tomada de decisão.
Áreas de Aplicação
 Área de Marketing;
 Manufatura;
 Finanças;
 Saúde;
 Telecomunicações;
 Exploração de Petróleo.
Exemplo Prático de Aplicação, (Walmart).
A rede americana de Supermercados Walmart, identificou um hábito curioso dos
consumidores. Há cinco anos, ao procurar eventuais relações entre o volume de vendas e
os dias da semana, o software de Data Mining apontou que, às sextas-feiras, as vendas de
cervejas cresciam na mesma proporção que as de fraldas. Crianças bebendo cerveja? Não,
uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebês, os pais
aproveitavam para abastecer o estoque de cerveja para o final de semana.
Vantagens e Desvantagens de Data Mining
Vantagens:
 Modelo de fácil compreensão;
 Analisar grandes bases de dados e encontrar padrões válidos;
 Variáveis que não necessitam de recodificação;
 Os Modelos são precisos;
 Os Modelos são construídos e atualizados rapidamente.
Desvantagens:
 Alto custo;
 Necessidades de grandes bases de dados;
 Novidade e complexidade;
 Criar ambientes ideais;
 Interação muito forte com analistas humanos.
Referências Bibliográficas
Rezende, S. O. (2003). Sistemas Inteligentes: Fundamentos e Aplicações (1ª ed.).
Barueri, SP: Manole.
Cortês, Sérgio. C; Porcaro, Rosa. M; Lifschitz, Sérgio. Mineração de dados –
Funcionalidades, Técnicas e Abordagens. PUC-RioInf.MCC 02/Maio, 2002.
Carvalho, L. A. V. (2005) . Data Mining – A Mineração de Dados no Marketing, Medicina,
Economia, Engenharia e Administração. 2005
Sferra, Heloísa. H; Corrêa, Ângela, M. C; Conceitos e Aplicações de Data Mining.
Revista de Ciência & Tecnologia Vol. 11, Nº 22 – pp. 19-34, (2003).

Data Mining

  • 1.
    DATA MINING Jaziel C.Silva Estamos afogados em informação, mas famintos por conhecimento! (John Naisbitt).
  • 2.
    Histórico  Década de60: Tem inicio as primeiras coleções de dados, surgem os primeiros DB’s.  Década de 70: A tecnologia da Informação (TI) muda seu foco do processamento de dados (DB) para o processamento de informação, surgem os DSS e MIS.  Década de 80: O processamento do conhecimento está cada vez mais incorporado nos recursos oferecidos, com os KBS’s e os Expert Systems. Esses sistemas eram orientados à aplicações especificas (espaciais, científicos, de engenharia etc).  Década de 90: Surgimento de Data Mining, bases de dados multimídia, tecnologia Web, grande capacidade de armazenamento e processamento.
  • 3.
    Data Mining Data Miningfaz parte de um processo maior chamado KDD, e consiste em extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados. Por que realizar Data Mining?  Abundância de dados nos mais diferentes setores;  Grande poder de processamento disponível atualmente;  Aumento de performance dentro de uma empresa;  Grande variedade de ferramentas e tecnologia disponível;  Transformar dados disponíveis em informação e conhecimento de valor agregado.
  • 4.
    Processos do KDD Figura1: Etapas do Processo de KDD (Fayyad et al (1996).
  • 5.
    O Processo deData Mining A extração de conhecimento a partir de grande quantidade de dados é vista como um processo interativo (baseado no conhecimento dos especialistas e dos usuários) e iterativo (para melhor ajuste dos parâmetros a cada iteração). Figura 2: Etapas do processo de Mineração de Dados (Rezende, Pugliesi, Melanda, & Paula 2003).
  • 6.
    Etapas do Processode DM  Conhecimento do Domínio: inicia-se com o entendimento do domínio da aplicação, considerando aspectos como os objetivos dessa aplicação e as fontes de dados das quais se pretende extrair conhecimento.  Pré-Processamento: Etapa onde é realizada uma seleção de dados a partir dessas fontes, de acordo com os objetivos do processo.  Extração de Padrões: A etapa de extração de padrões tem o objetivo de encontrar modelos (conhecimento) a partir de dados.  Pós- Processamento: Essa é a etapa na qual o conhecimento é avaliado quanto a sua qualidade e/ou utilidade para que, em caso positivo, seja utilizado para apoio a algum processo de tomada de decisão.
  • 7.
    Áreas de Aplicação Área de Marketing;  Manufatura;  Finanças;  Saúde;  Telecomunicações;  Exploração de Petróleo. Exemplo Prático de Aplicação, (Walmart). A rede americana de Supermercados Walmart, identificou um hábito curioso dos consumidores. Há cinco anos, ao procurar eventuais relações entre o volume de vendas e os dias da semana, o software de Data Mining apontou que, às sextas-feiras, as vendas de cervejas cresciam na mesma proporção que as de fraldas. Crianças bebendo cerveja? Não, uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebês, os pais aproveitavam para abastecer o estoque de cerveja para o final de semana.
  • 8.
    Vantagens e Desvantagensde Data Mining Vantagens:  Modelo de fácil compreensão;  Analisar grandes bases de dados e encontrar padrões válidos;  Variáveis que não necessitam de recodificação;  Os Modelos são precisos;  Os Modelos são construídos e atualizados rapidamente. Desvantagens:  Alto custo;  Necessidades de grandes bases de dados;  Novidade e complexidade;  Criar ambientes ideais;  Interação muito forte com analistas humanos.
  • 9.
    Referências Bibliográficas Rezende, S.O. (2003). Sistemas Inteligentes: Fundamentos e Aplicações (1ª ed.). Barueri, SP: Manole. Cortês, Sérgio. C; Porcaro, Rosa. M; Lifschitz, Sérgio. Mineração de dados – Funcionalidades, Técnicas e Abordagens. PUC-RioInf.MCC 02/Maio, 2002. Carvalho, L. A. V. (2005) . Data Mining – A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Administração. 2005 Sferra, Heloísa. H; Corrêa, Ângela, M. C; Conceitos e Aplicações de Data Mining. Revista de Ciência & Tecnologia Vol. 11, Nº 22 – pp. 19-34, (2003).