SlideShare uma empresa Scribd logo
1 de 403
Baixar para ler offline
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Introdução à Mineração de Dados
Slides do Curso Completo
Copyright©
2008 by Leandro Nunes de Castro
Este material foi desenvolvido com base em diversas referências da literatura, incluindo:
WITTEN, I.H.; FRANK, E. Data Mining: Practical Machine Learning Tools and
Techniques. Morgan Kauffman, 2005. HAN, J.; KAMBER, M. Data Mining, Concepts and
Techniques. Morgan Kauffman, 2001. DE CASTRO, L. N., Fundamentals of Natural
Computing: Basic Concepts, Algorithms, and Applications. CRC Press, 2006. WESTPHAL,
C.; BLAXTON, T. Data Mining Solutions: Methods and Tools for Solving Real World
Problems, John Wiley & Sons, 1998. TRIOLA, M. F. Introdução à Estatística. 7. ed. LTC
Livros Técnicos e Científicos Editora S.A., 1999. Cluster Analysis. 4th Ed., Arnold.
HRUSCHKA ET AL., “A Survey of Evolutionary Algorithms for Clustering”, IEEE Trans.
On Syst., Man, and Cyb. – Part C, 39(2), pp. 133-155, 2009. Hodge, V. J.; Austin, J. (2004),
“A Survey of Outlier Detection Methodologies”, Artificial Intelligence Review, 22, pp. 85-126.
Há também contribuições obtidas a partir de trabalhos do Prof. Dr. Eduardo Raul Hruschka. E
partes retiradas da empresa TUILUX da qual fui co-fundador e de dissertações e teses
orientadas por mim nas instituições às quais estive vinculado até hoje.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
A primeira versão destes slides foi gerada em 2008 quando introduzi a disciplina Mineração de
Dados no Programa de Pós-Graduação em Engenharia Elétrica da Universidade Mackenzie,
instituição à qual estou vinculado atualmente. Desde 2008 esse material vem sendo aprimorado
e atualizado para se adequar às necessidades dos alunos e incluir algumas das novidades da
área. O uso deste material para fins acadêmicos é livre e gratuito, desde que sejam mantidas as
informações originais de autoria. A sugestão de citação é: “L. N. de Castro, Introdução à
Mineração de Dados, Material de Apoio do Curso Mineração de Dados do PPGEE-
Universidade Mackenzie, Disponível online em http://www.slideshare.net/lndecastro, p. 403,
Baixado em XX/XX/XXXX”. Outros cursos do autor, como “Fundamentos de Computação
Natural”, “Introdução às Redes Neurais Artificiais” e “A Nova Escola do Empreendedorismo”
estão disponíveis no mesmo Slideshare. Mais informações sobre o tema podem ser encontradas
no site do Laboratório de Computação Natural (LCoN): http://www.mackenzie.br/lcon.html.
Uma versão significativamente estendida, melhorada e corrigida deste material também será
publicada sob a forma de livro entre o final de 2015 e início de 2016 com a parceria do Dr.
Daniel Ferrari.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Sumário
Sumário ...................................................................................................................... 3
Introdução................................................................................................................. 10
1. Introdução......................................................................................................... 10
1.1. As Diferentes Nomenclaturas ................................................................... 10
2. Motivação e Conceitos Básicos........................................................................ 20
2.1. A Mineração de Dados como um Processo............................................... 27
2.2. Dicas para uma Análise Eficiente e Eficaz ............................................... 32
3. Algumas Aplicações Práticas ........................................................................... 36
3.1. Predição de Pagamento de Empréstimos e Análise de Crédito................. 38
3.2. Classificação e Agrupamento de Clientes................................................. 38
3.3. Prevenção à Lavagem de Dinheiro e outros Crimes Financeiros.............. 39
3.4. Combate a Perdas Não-Técnicas de Energia Elétrica ............................... 40
3.5. Segmentação de Curvas de Carga em Sistemas de Energia Elétrica......... 43
3.6. Análise de Dados e Recomendação de Primeiro e Segundo Cursos ......... 45
3.7. Direito Ambiental..................................................................................... 46
4. Principais Tarefas ............................................................................................. 47
4.1. Descrição de Classes/Conceitos: Caracterização e Discriminação ........... 48
4.2. Associação................................................................................................ 50
4.3. Predição: Classificação e Estimação......................................................... 52
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
4.4. Agrupamento ............................................................................................ 54
4.5. Detecção de Anomalias ............................................................................ 56
5. Paradigmas de Aprendizagem .......................................................................... 57
5.1. Aprendizagem Supervisionada ................................................................. 61
5.2. Aprendizagem Não-Supervisionada ......................................................... 62
5.3. Aprendizagem Por Reforço ...................................................................... 63
Pré-Processamento de Dados.................................................................................... 64
1. Introdução......................................................................................................... 64
2. Nomenclatura e Tipos de Dados....................................................................... 66
2.1. Exemplos de Bases de Dados ................................................................... 68
2.2. Sobre os Atributos .................................................................................... 76
3. Pré-Processamento dos Dados.......................................................................... 79
3.1. Limpeza dos Dados................................................................................... 81
3.2. Integração dos Dados................................................................................ 85
3.3. Redução dos Dados................................................................................... 89
3.4. Transformação dos Dados ...................................................................... 115
3.5. Discretização .......................................................................................... 122
Credibilidade do Processo de Aprendizagem ......................................................... 127
4. Introdução....................................................................................................... 127
5. Treinamento e Teste ....................................................................................... 132
5.1. Aprendizagem Supervisionada como Aproximação de Funções ............ 133
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
5.2. Validação Cruzada como Critério de Parada .......................................... 137
6. Validação Cruzada.......................................................................................... 139
7. Avaliação de Desempenho ............................................................................. 144
7.1. Tarefas de Classificação ......................................................................... 145
7.2. Tarefas de Estimação.............................................................................. 158
7.3. Tarefas de Agrupamento......................................................................... 163
7.4. Tarefas de Associação ............................................................................ 170
Conceitos em Estatística Descritiva........................................................................ 173
8. Introdução....................................................................................................... 173
9. Distribuições de Frequência ........................................................................... 176
9.1. Construção da Distribuição de Frequência ............................................. 178
9.2. Distribuição de Frequência Relativa e Acumulada................................. 180
10. Visualização de Dados.................................................................................... 181
10.1. Histogramas............................................................................................ 182
10.2. Polígono de Frequências......................................................................... 184
10.3. Ogiva ...................................................................................................... 184
10.4. Gráfico de Pareto.................................................................................... 185
10.5. Gráfico de Setores .................................................................................. 187
10.6. Gráfico de Dispersão .............................................................................. 188
11. Medidas de Centro.......................................................................................... 190
12. Medidas de Variação ...................................................................................... 194
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
13. Medidas de Posição Relativa.......................................................................... 199
14. Medidas de Associação .................................................................................. 202
14.1. Covariância............................................................................................. 202
14.2. Correlação............................................................................................... 203
Análise de Grupos .................................................................................................. 211
15. Introdução....................................................................................................... 211
15.1. Componentes da Tarefa de Agrupamento............................................... 215
15.2. Complexidade da Tarefa de Agrupamento ............................................. 219
15.3. Agrupamento x Classificação ................................................................. 221
16. Medidas de Proximidade ................................................................................ 222
16.1. Medidas de Similaridade para Dados Categóricos.................................. 224
16.2. Medidas de Dissimilaridade e Distância para Dados Contínuos............. 231
17. Tipos de Métodos de Agrupamento................................................................ 234
18. Algoritmos de Agrupamento .......................................................................... 238
18.1. Algoritmos Particionais .......................................................................... 238
18.2. Algoritmos Hierárquicos......................................................................... 253
19. Agrupamento Ótimo de Dados ....................................................................... 263
19.1. Codificação............................................................................................. 266
19.2. Operadores.............................................................................................. 269
19.3. Funções de Fitness.................................................................................. 275
Predição: Classificação e Estimação....................................................................... 280
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
20. Introdução....................................................................................................... 280
21. Classificador k-NN ......................................................................................... 281
22. Árvores de Decisão......................................................................................... 282
22.1. Construção de Árvores de Decisão......................................................... 290
23. Regras de Classificação.................................................................................. 306
24. Classificador One-Rule (1R) .......................................................................... 307
25. Classificação Bayesiana ................................................................................. 310
25.1. Teorema de Bayes .................................................................................. 312
25.2. Construção do Classificador Bayesiano.................................................. 313
26. Estimação ....................................................................................................... 324
26.1. Regressão Linear .................................................................................... 325
Regras de Associação............................................................................................. 331
27. Introdução....................................................................................................... 331
27.1. Definição do Problema ........................................................................... 334
28. Minerando Regras de Associação................................................................... 339
28.1. Conceitos Básicos................................................................................... 339
28.2. Algoritmo Apriori de Mineração de Regras de Associação.................... 343
28.3. Funcionamento do Algoritmo................................................................. 347
Detecção de Anomalias .......................................................................................... 354
29. Introdução....................................................................................................... 354
30. Abordagens para Detecção de Anomalias ...................................................... 359
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
30.1. Tipo 1: Aprendizagem Não-Supervisionada........................................... 359
30.2. Tipo 2: Aprendizagem Supervisionada................................................... 361
30.3. Tipo 3: Aprendizagem Semi-Supervisionada ......................................... 362
31. Áreas de Detecção de Anomalias ................................................................... 362
31.1. Métodos Estatísticos............................................................................... 363
31.2. Redes Neurais......................................................................................... 371
31.3. Aprendizagem de Máquina..................................................................... 375
31.4. Métodos Híbridos ................................................................................... 376
Mineração de Textos e Recomendação .................................................................. 377
32. Pré-Processamento e Análise de Textos ......................................................... 377
32.1. Introdução............................................................................................... 377
32.2. Análise Léxica ou Tokenização.............................................................. 378
32.3. Eliminação de Palavras Frequentes (Stopwords).................................... 379
32.4. Stemming................................................................................................ 380
32.5. Geração de Vetores e Armazenamento................................................... 381
32.6. Seleção de Características (Termos)....................................................... 384
32.7. Comparação de Documentos .................................................................. 386
32.8. Análise dos Textos.................................................................................. 387
33. Sistemas de Recomendação............................................................................ 389
33.1. Introdução............................................................................................... 389
33.2. Motivação............................................................................................... 391
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
33.3. Tipos de Sistemas de Recomendação ..................................................... 393
33.4. Formalização do Problema de Recomendação ....................................... 394
33.4.1. Recomendação Colaborativa .............................................................. 399
33.4.2. Abordagens Híbridas .......................................................................... 403
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Introdução
1. Introdução
 Este material apresenta uma introdução ao processo de mineração de dados, com
ênfase nas técnicas de análise de dados e suas aplicações.
 Os métodos a serem implementados são particularmente orientados ao
desenvolvimento de ferramentas escalonáveis e eficientes.
1.1. As Diferentes Nomenclaturas
 A literatura está permeada de diferentes nomenclaturas para as muitas técnicas de
solução de problemas e algoritmos computacionais que surgiram nas últimas
décadas.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Este arsenal de métodos vem sendo desenvolvido por diferentes grupos de
pesquisa ou empresas utilizando os mais variados recursos teóricos, práticos ou
fontes de inspiração, desde a estatística até fenômenos só observados na natureza.
 O objetivo desta seção é listar as principais nomenclaturas e situar os alunos em
relação a estas nomenclaturas, quando elas surgiram, por que e o que as diferencia
das demais.
IA Clássica
 As técnicas mais tradicionais de inteligência artificial eram simbólicas, ou seja,
propunham que uma manipulação algorítmica de estruturas simbólicas é
necessária e suficiente para o desenvolvimento de sistemas inteligentes.
 Esta tradição simbólica também engloba as abordagens baseadas em lógica, nas
quais os símbolos são utilizados para representar objetos e relações entre objetos,
e estruturas simbólicas são utilizadas para representar fatos conhecidos.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Uma característica marcante da IA clássica era a forma utilizada para construir o
sistema inteligente.
 Existia uma visão procedural sugerindo que sistemas inteligentes poderiam ser
projetados codificando-se conhecimentos especialistas em algoritmos específicos.
Estes sistemas foram denominados genericamente de sistemas baseados em
conhecimento (knowledge-based systems) ou sistemas especialistas (expert
systems).
 Exemplo: sistema para diagnóstico médico.
 Atualmente a IA clássica envolve basicamente os sistemas especialistas, diversos
métodos de busca, alguns sistemas baseados em agentes, e sistemas de raciocínio
ou inferência baseados em lógica.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Divórcio entre IA e Inteligência Computacional
 Em meados dos anos 1960, novos sistemas começaram a ser desenvolvidos
através da observação de outros fenômenos inteligentes naturais além da
inteligência humana.
 Quem classificaria o mecanismo utilizado pelos cupins para a construção de seus
ninhos como um comportamento inteligente?
 Vários outros exemplos existem na natureza: evolução das espécies, construção de
colméias de abelhas, coleta de comida por formigas, etc.
 A dificuldade encontrada pela IA clássica em prover suas promessas (robôs
inteligentes, etc.), geraram várias discordâncias entre ela e as abordagens mais
recentes como redes neurais artificiais. Um dos motivos principais era, é claro, a
disputa por financiamentos.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Houve então uma necessidade de dissociar redes neurais das técnicas de IA
clássica, e, para isso, criou-se uma nova linha de pesquisa denominada de
inteligência computacional.
 A inteligência computacional engloba principalmente as redes neurais artificiais, a
computação evolutiva, os sistemas nebulosos, e mais recentemente, a inteligência
coletiva e os sistemas imunológicos artificiais.
Aprendizagem de Máquina
 Adaptação pode ser definida como a habilidade de um sistema ajustar sua resposta
a estímulos ambientais. Adaptação é um sinônimo de mudança, variação. Um
agente que sofre modificação, de forma a se tornar melhor preparado para uma
situação ou aplicação, torna-se mais adaptado a este novo cenário.
 Existem muitas palavras que podem ser interpretadas como sinônimos da palavra
adaptação, por exemplo, evolução, aprendizagem e auto-organização.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Entretanto, estes conceitos também podem ser vistos como sendo resultantes de um
processo adaptativo.
 A aprendizagem corresponde ao ato, processo ou experiência de adquirir
conhecimento, compreensão, capacidade ou abilidade, através de experiência,
estudo ou interações.
 Sistemas que sofrem aprendizagem são geralmente aqueles capazes de se adaptar
ou mudar seu comportamento baseado em exemplos, de forma a manipular
informações.
 Uma virtude importante da aprendizagem baseada em adaptação é a possibilidade
de resolver tarefas de processamento de informação e a capacidade de operar em
ambientes dinâmicos.
 A maioria dos processos de aprendizagem é gradativa, ou seja, a aprendizagem não
ocorre instantaneamente, mas requer um processo interativo e/ou iterativo de
adaptação e interação com o ambiente.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Quando um sistema aprende alguma coisa, ele altera seu padrão comportamental
ou alguma outra de suas características.
 Existem formas de aprendizagem que não são gradativas, por exemplo, a
memorização.
 É importante salientar que a aprendizagem não requer consciência e nem
inteligência. Animais e insetos aprendem os caminhos que devem seguir para obter
comida, se reproduzir, etc.
 A aprendizagem de máquina pode ser entendida como uma sub-área da
inteligência artificial voltada para o projeto e desenvolvimento de algoritmos e
técnicas que permitam aos computadores aprenderem ou, melhor dizendo, se
adaptarem.
 Ela surgiu no início da década 1990 e seu principal foco é extrair informação a
partir de dados automaticamente, usando métodos computacionais ou estatísticos.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Portanto, a aprendizagem de máquina está intimamente relacionada à mineração de
dados, estatística, inteligência artificial e teoria da computação, além de a outras
áreas como computação natural, sistemas complexos adaptativos e computação
flexível, como será visto a seguir.
 Os principais métodos investigados nesta área são aqueles que trabalham com
dados nominais como, por exemplo, árvores de decisão, regras de associação e
classificação, tabelas de decisão e outros. Além destes destacam-se os algoritmos
baseados na teoria de Bayes, alguns métodos estatísticos e métodos de
agrupamento de dados.
Outras Nomenclaturas
 Diversas outras nomenclaturas existem, como computação flexível (soft
computing) e sistemas complexos.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 A computação flexível foi um termo introduzido por L. Zadeh para descrever uma
nova metodologia de computação que permitiu a manipulação de variáveis
linguísticas e raciocínio aproximado.
 Atualmente, computação flexível é o termo utilizado para descrever basicamente
técnicas híbridas de computação inteligente, como sistemas neuro-nebulosos,
neuro-evolutivos, etc.
 Os sistemas complexos, por outro lado, são aqueles compostos por uma grande
quantidade de componentes que interagem entre si, e cujas propriedades globais
são não-lineares. Eles geralmente apresentam processos auto-organizados.
o Exemplos de sistemas complexos: sistemas imunológicos, colônias de insetos,
revoada de pássaros, redes neurais, etc.
 Por fim, uma terminologia bastante recente é a computação natural. A computação
natural pode ser dividida em três grandes sub-áreas:
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
o Computação inspirada na natureza: utiliza a natureza como fonte de inspiração
para o desenvolvimento de novas técnicas computacionais de solução de
problemas;
o Simulação e emulação da natureza utilizando a computação: trata-se
basicamente de um processo de síntese que objetiva criar formas, padrões e
comportamentos similares àqueles conhecidos na natureza. Além disso, algumas
áreas visam o desenvolvimento de organismos artificiais; e
o Computação com materiais naturais: corresponde ao uso de um novo tipo de
matéria prima para computar. Trata-se de um novo paradigma de computação
que vem com o objetivo principal de substituir a tecnologia de silício empregada
atualmente.
 Sendo assim, é possível definir a computação natural como sendo a linha de
pesquisa que, baseada ou inspirada na natureza: 1) permite o desenvolvimento de
novas ferramentas de computação (em software e/ou hardware) para a solução de
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
problemas; 2) resulta em processos de síntese de padrões, formas, comportamentos
e organismos; e 3) que utiliza matéria-prima natural para o desenvolvimento de
novos tipos de computadores.
 As principais sub-áreas da computação natural são as redes neurais artificiais, a
computação evolutiva, a inteligência de enxame, os sistemas imunológicos
artificiais, a vida artificial, a geometria fractal, a computação molecular e a
computação de DNA.
2. Motivação e Conceitos Básicos
 Vamos considerar inicialmente os seguintes fatos:
o A maioria das organizações despende bastante tempo e esforço na construção e
manutenção de bases de dados, o que gerou inclusive especialidades como os
DBAs (data base administrators), negócios como as empresas de indexação de
bancos de dados, e muitas outras demandas.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
o Frequentemente os dados não podem ser analisados manualmente ou através de
métodos convencionais de estatística devido a fatores como grande quantidade
de registros, elevado número de atributos, valores ausentes, presença de dados
qualitativos e não quantitativos, etc.
o Na maioria das vezes a informação contida nas bases de dados corporativas é
subvalorizada ou subutilizada, pois os dados não são acessados ou analisados.
o Algumas bases de dados crescem tanto que nem os administradores conhecem
as informações que podem ser representadas ou a relevância que elas podem ter
para uma análise.
o É muito útil para as organizações ter ferramentas e processos para a extração de
conhecimentos a partir dessas bases de dados para a tomada de decisão
estratégica, tática e operacional.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 A tecnologia computacional tem evoluído de forma extraordinária, assim como a
velocidade de processamento e a capacidade de armazenamento têm aumentado de
maneira significativa.
 Concomitantemente, ampliam-se as nossas capacidades de gerar, coletar e
processar dados, propiciando a aplicação eficiente das tecnologias de informação
emergentes.
 A indústria dos bancos de dados (databases) testemunhou o desenvolvimento das
seguintes funcionalidades:
o Coleta de dados;
o Criação da base de dados;
o Gerenciamento dos dados, incluindo a armazenagem, recuperação e o
processamento da base de dados de transações;
o Análise e compreensão dos dados, envolvendo os armazéns de dados e a
mineração de dados.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 A ampla utilização dos códigos de barras identificadores de produtos, a
informatização das transações comerciais e os avanços nas ferramentas de coleta
de dados têm proporcionado a utilização de grandes bancos de dados em muitas
áreas da atividade humana.
 Paradoxalmente, esses avanços da tecnologia têm produzido um problema de
super-abundância de dados, pois nossas capacidades de coletar e armazenar dados
têm superado nossa habilidade de analisar e extrair conhecimento dos mesmos.
 Nesse contexto, é necessária a aplicação de técnicas e ferramentas que
transformem, de maneira inteligente e automática, os dados disponíveis em
informações úteis, que representem conhecimento.
 Neste sentido, pesquisadores das mais variadas áreas têm se dedicado a estudar
métodos para mineração de dados.
 O termo mineração de dados, ou data mining, surgiu do interesse em se utilizar
grandes bancos de dados de uma maneira inteligente e sugere uma analogia
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
interessante: explora-se uma mina de dados, purificando-se o minério para obter o
ouro – conhecimento, que se refere às informações e aos modelos, armazenados
por uma pessoa ou máquina, utilizados para apropriadamente interpretar, prever e
responder ao mundo exterior.
 A ideia de descobrir conhecimento em grandes conjuntos de dados é muito
interessante e até intuitiva, mas tecnicamente é uma tarefa significativamente
difícil e desafiadora, requerendo ativa participação de engenheiros de
conhecimento, analistas de sistemas, analistas de dados, especialistas do domínio,
usuários do sistema, estatísticos, etc.
 É, portanto, uma tarefa interdisciplinar e multidisciplinar, centralizada na
participação ativa do ser humano.
 De um modo mais formal, pode-se dizer que a mineração de dados se refere a uma
classe de métodos utilizados em alguns passos que abrangem o processo de
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
descoberta de conhecimento em bancos de dados (Knowledge Discovery in
Databases – KDD).
 Este termo, cunhado em 1989, se refere ao processo, interativo e iterativo, de
descoberta de conhecimento em conjuntos de dados, incorporando conhecimento
de domínio e interpretação de resultados, com ênfase na aplicação dos métodos de
mineração de dados.
 O processo de descoberta de conhecimento em banco de dados é útil em vários
domínios da ciência (e.g., bioinformática), bem como em várias outras aplicações,
tais como Marketing e Finanças.
 Nesse contexto, os bancos de dados representam depósitos de conhecimento em
potencial, que podem ser explorados para se descobrir relações, padrões e regras.
 Pode-se definir a descoberta de conhecimento em bancos de dados como sendo o
processo não trivial de identificação de padrões válidos, novos, potencialmente
úteis e compreensíveis em grandes bancos de dados.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 A avaliação relativa ao tamanho do banco de dados é de caráter subjetivo, mas
pode-se dizer que as aplicações de mineração de dados se justificam quando a
quantidade de dados oculta as valiosas relações presentes nos mesmos.
 A maioria dos métodos de mineração de dados é baseada em conceitos de
aprendizado de máquina, reconhecimento de padrões e estatística, sendo utilizados,
na maioria das aplicações, em tarefas de previsão e de descrição.
 A viabilidade da aplicação das técnicas de data mining pode ser avaliada por meio
de critérios práticos e técnicos.
 O critério prático envolve, basicamente, a consideração do impacto de uma
aplicação, ou seja, uma análise de custo/benefício, na qual o valor da informação
obtida deve ser superior ao custo do processamento dos dados.
 Consideram-se, ainda, a disponibilidade de utilização de técnicas tradicionais, bem
como de especialistas no domínio.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Um aspecto também importante diz respeito à segurança e privacidade das
informações contidas no banco de dados.
 Devem ser consideradas, também, as implicações éticas nas aplicações que
envolvem informações pessoais.
 Em aplicações científicas, avalia-se fundamentalmente o potencial referente à
originalidade e à qualidade do conhecimento adquirido.
 No tocante ao critério técnico, considera-se a disponibilidade de dados em
quantidade e qualidade necessárias e suficientes para realizar a aplicação.
 Cabe observar, ainda, que a disponibilidade de conhecimento de domínio é um
fator importante para o sucesso de uma aplicação de mineração de dados.
2.1. A Mineração de Dados como um Processo
 O processo de descoberta de conhecimento é interativo e iterativo, enfatizando a
aplicação de técnicas de mineração de dados, as quais envolvem basicamente três
etapas (Figura 1):
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
o Preparação ou pré-processamento de dados: limpeza (remoção de ruídos e
dados inconsistentes), integração (múltiplas fontes de dados são combinadas),
seleção ou redução (escolha dos dados relevantes à análise), transformação
(transformação ou consolidação dos dados em formatos apropriados para a
mineração);
o Mineração de dados: aplicação de algoritmos para a extração de padrões à partir
dos dados; e
o Análise ou avaliação das informações: identificação e apresentação de
informações ou conhecimentos verdadeiramente úteis.
 Estas três etapas são correlacionadas e interdependentes, de tal forma que a
abordagem ideal para extrair informações relevantes em bancos de dados consiste
em considerar as inter-relações entre cada uma das etapas e sua influência no
resultado final.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Figura 1: Processo de descoberta de conhecimento em bases de dados. (Fonte: Fayyad et al.,
1996)
 Obs.: Sob uma perspectiva de armazém de dados (data warehouse), o processo de
mineração de dados pode ser visto como um estágio avançado do processamento
analítico on-line (On-Line Analytical Processing - OLAP). Entretanto, a mineração
de dados vai muito além do escopo restrito típico de um OLAP, baseado em
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
métodos de resumo ou sumarização de dados, incorporando técnicas mais
avançadas para a compreensão dos dados.
 A mineração de dados é uma disciplina interdisciplinar e multidisciplinar,
envolvendo conhecimento de áreas como banco de dados, estatística,
aprendizagem de máquina, computação de alto desempenho, reconhecimento de
padrões, redes neurais artificiais, visualização de dados, recuperação de
informação, processamento de imagens e de sinais, e análise espacial de dados
(Figura 2).
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Mineração de
Dados
Bancos de
Dados
Outras
Disciplinas
Sistemas de
Informação
Aprendizagem
de Máquina
Visualização
Estatística
Inteligência
Artificial
Figura 2: Multidisciplinaridade da mineração de dados.
 O foco de apresentação deste curso é nas técnicas de aprendizagem de máquina.
Outras técnicas, como as redes neurais artificiais e os algoritmos bio-inspirados,
são vistas em cursos específicos.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 O processo de mineração de dados deverá permitir que conhecimentos
interessantes e úteis sejam extraídos da base de dados e visualizados sob diferentes
perspectivas.
 Este conhecimento poderá ser usado para a tomada de decisão, controle de
processos, gestão da informação e conhecimento, processamento de consultas e
muitas outras aplicações.
2.2. Dicas para uma Análise Eficiente e Eficaz
 A mineração de dados pode levar a uma capacidade preditiva e analítica poderosa
dos dados.
 Mesmo quando aplicada corretamente, a capacidade de trabalhar com múltiplas
variáveis e suas relações tornam os processos de mineração e interpretação dos
resultados substancialmente complexos.
 Considerando esta complexidade, é preciso que o ‘analista’ esteja atento para os
fundamentos conceituais necessários para o uso e entendimento de cada técnica.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Abaixo segue uma lista de considerações (inevitavelmente incompleta) que podem
servir como guia para uma mineração eficiente e eficaz:
1. Estabelecer a significância prática e estatística da mineração: a significância
estatística da mineração permite, por exemplo, que diferentes métodos sejam
comparados entre si. A significância prática, por sua vez, faz a pergunta: “E
daí?”, ou seja, qual uso será feito da mineração dos dados?
2. Reconhecer que as características da base de dados influenciam todos os
resultados: o processo de mineração opera, quase que em sua totalidade, sobre
uma base de dados pré-processada. É importante reconhecer que a quantidade de
objetos na base, a dimensão (número de atributos) destes objetos, o tipo de
atributos e seus domínios, a ausência de valores na base e muitas outras
características dos dados afetarão fortemente o resultado da análise, podendo,
inclusive, invalidá-la.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3. Necessidade de conhecer os dados: a discussão acima implica que análises
preliminares dos dados, como medidas de tendência central (por variável),
análise de componentes principais e muitos outros métodos (estatísticos) simples
podem ser aplicados à base com o objetivo de entendê-la melhor antes de se
iniciar a mineração propriamente dita. O Tópico 04 (Descrição de
Classes/Conceitos) abordará alguns destes métodos.
4. Busca pela parcimônia: boa parte dos algoritmos de mineração resulta em uma
espécie de ‘modelo’ dos dados que poderá ser usado posteriormente para fazer
alguma inferência ou predição. É possível que a escolha de diferentes amostras
dos dados, ou mesmo diferentes execuções dos algoritmos, resultem em modelos
com características distintas. Nestes casos a escolha por um ou outro modelo
deve considerar, dentre outros aspectos, a parcimônia da solução, ou seja, a
complexidade do modelo resultante. Obs.: muitas vezes a complexidade de
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
geração do modelo é aspecto crucial na escolha de uma ferramenta dentro de um
conjunto de possibilidades.
5. Verifique os erros: em tarefas de predição (classificação ou estimação) é
essencial investigar os resultados dos algoritmos. Por exemplo, por que um
determinado algoritmo classificou incorretamente alguns objetos da base? Os
erros de predição não devem ser vistos apenas como algo a ser eliminado ou
reduzido, mas sim como um ponto de partida para um diagnóstico da validade
dos resultados obtidos e um indicativo de relações inexplicadas entre objetos
e/ou atributos.
6. Valide seus resultados: os resultados de uma análise precisam ser validados de
diversas formas, por exemplo, comparando com o resultado de outras técnicas,
analisando a capacidade de generalização dos métodos, combinando com outras
técnicas, etc.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3. Algumas Aplicações Práticas
 Há uma vasta literatura sobre aplicações de técnicas de mineração de dados. São
típicas aplicações em áreas como análise e predição de crédito, detecção de
fraudes, predição do mercado financeiro, relacionamento com os clientes, predição
de falência corporativa, e muitas outras.
 Exemplos de segmentos de aplicação:
o Setor financeiro;
o Planejamento estratégico empresarial;
o Planejamento do setor portuário;
o Setor de energia (petróleo, gás, energia elétrica, biocombustíveis, etc.);
o Escolas, Universidades, Faculdades, etc.;
o Logística; planejamento das cadeias de produção, distribuição e suprimentos;
o Meio Ambiente;
o Internet: portais, redes sociais, comércio eletrônico, etc.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Exemplos de aplicações típicas:
o Identificação ou segmentação de clientes, parceiros, colaboradores;
o Detecção de fraudes e anomalias em sistemas e processos;
o Ações estratégicas de marketing, CRM e RH;
o Jogos e atividades educacionais;
o Gestão do conhecimento;
o Análise de padrões de consumo;
o Compreensão de bases de dados industriais, biológicas, empresariais e
acadêmicas;
o Predição de ROI, despesas, receitas, investimentos, etc.;
o Mineração de dados da web;
o Outras.
 A seguir apresentamos alguns exemplos práticos de aplicação de mineração de
dados.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3.1. Predição de Pagamento de Empréstimos e Análise de Crédito
 Diversos fatores podem influenciar fortemente ou fracamente o pagamento de
empréstimos e a análise de crédito de clientes.
 Métodos de mineração de dados, como seleção de atributos e ranqueamento de
relevância de atributos, podem ajudar a identificar atributos importantes e eliminar
atributos irrelevantes.
 Por exemplo, fatores relacionados ao risco de inadimplência incluem a razão entre
o empréstimo e o valor das prestações, os termos do empréstimo, a razão de débito
(valor da prestação em relação ao salário do cliente), nível educacional, local de
residência, histórico de crédito, etc.
3.2. Classificação e Agrupamento de Clientes
 Técnicas de classificação e agrupamento de clientes podem ser usadas em diversos
contextos, como para a execução de marketing direcionado.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3.3. Prevenção à Lavagem de Dinheiro e outros Crimes Financeiros
 Para a detecção de lavagem de dinheiro e outros crimes financeiros normalmente é
importante integrar dados de diferentes bases, como bases de dados de transações
bancárias, bases de dados de crimes estaduais e/ou federais, etc.
 Múltiplas técnicas de análise de dados podem ser usadas para detectar padrões
incomuns, como fluxos de caixa muito grandes em certos períodos, por certos
grupos de pessoas, etc.
 Ferramentas úteis para este tipo de análise incluem métodos de visualização,
técnicas de associação, agrupamento e classificação de dados, além dos métodos
de detecção de anomalias.
 Estas técnicas podem identificar relações e padrões de atividade importantes,
ajudando os investigadores a focarem em ações suspeitas.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3.4. Combate a Perdas Não-Técnicas de Energia Elétrica
 A existência de perdas em um sistema de energia elétrica é consequência natural
do consumo de energia.
 As perdas podem ser categorizadas de acordo com o efeito, componente do
sistema, ou causa da perda e podem ser resumidas em:
o Perdas Técnicas (PT): intrínsecas ao sistema elétrico, o que inclui as perdas nos
equipamentos, na transformação e na distribuição da energia.
o Perdas Comerciais (PC): também chamadas de perdas não-técnicas, são
consequência, principalmente, de erros ou ausência de medição, medidores com
defeito, consumidores clandestinos, desvio de consumo e furto de energia.
 Um dos grandes problemas enfrentados pelas empresas distribuidoras de energia
elétrica são as perdas comerciais provocadas intencionalmente por consumidores
ou por falhas nos medidores.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Diversos tipos de atividades têm sido aplicadas na redução destas perdas, tais
como: campanhas publicitárias educativas, inspeções de consumidores, inspeções
específicas em consumidores com perfil de consumo considerado suspeito,
substituição de medidores eletromecânicos por medidores eletrônicos, programas
de exteriorização da medição, operações de eliminação de ligações clandestinas,
dentre outras.
 Uma das formas de reduzir as perdas comerciais é realizar inspeções técnicas no
local de consumo em busca de irregularidades, que vão desde a adulteração dos
dispositivos de medição (fraude) até o furto ou desvio da energia propriamente
dita. Entretanto, além da impossibilidade de inspecionar todos os consumidores, o
custo associado à inspeção é alto, uma vez que este processo demanda tempo,
requer o deslocamento de uma equipe em campo e muitos dos consumidores
inspecionados não são fraudadores.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Baseado nos dados de fiscalização obtidos a partir de medidas amostrais em campo
pode ser feita uma análise de dados para investigar interrelações entre as amostras,
segmentando os dados em grupos, possivelmente, hierarquicamente vinculados,
permitindo uma definição de pontos estratégicos de fiscalização.
 Outra tarefa possível é a classificação automática dos cadastros disponíveis, a
partir da qual pode-se desenvolver um sistema de classificação que permita
identificar automaticamente aqueles consumidores que provavelmente estejam
causando perda de receita para a concessionária. Trata-se, portanto, de uma etapa
na qual é feita a prospecção de possíveis perdas comerciais. Esta informação pode
ser empregada no direcionamento das equipes de fiscalização e auditoria,
impactando diretamente na redução das perdas não técnicas.
 Além destas análises, dado o perfil de consumo dos usuários pode ser feito um
levantamento das curvas típicas de hábito de consumo, permitindo uma
identificação automática de novos clientes e de anomalias em clientes já existentes.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3.5. Segmentação de Curvas de Carga em Sistemas de Energia Elétrica
 Apesar do alto grau de desenvolvimento tecnológico da atualidade, só
conseguimos armazenar energia elétrica em pequenas quantidades.
 No caso da energia elétrica consumida pelas indústrias, empresas e residências, a
capacidade produtiva das usinas deve ser aproximadamente a mesma da energia
consumida.
 A pergunta que as usinas geradoras precisam responder, portanto, é qual será o
consumo de energia elétrica a cada dia, ou seja, é preciso prever a demanda de
energia elétrica para que uma quantidade suficiente seja produzida.
 A falta de planejamento e investimentos no setor produtivo de energia elétrica
pode causar apagões, cortes indesejáveis no fornecimento de energia, podendo até
paralizar a produção industrial e o desempenho de outros serviços.
 No Brasil três grandes apagões ocorreram nos anos 2001, 2002 e 2009 devido a
esta falta de planejamento ou outros problemas na geração ou distribuição da
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
energia, o que levou o governo a estimular o racionamento voluntário,
promovendo a economia e penalizando o desperdício de energia elétrica.
 Com o objetivo de melhorar o planejamento da produção de energia elétrica é
possível fazer a previsão de carga (consumo) a curto-prazo de um sistema elétrico
de potência.
 Para prever as cargas horárias de um dia, o padrão de carga horário e as cargas
máxima e mínima devem ser determinados. O objetivo é identificar dias da semana
com padrões de cargas horárias similares e, posteriormente, realizar a previsão de
demanda do setor.
 A previsão de demanda de carga é um meio de fornecer informações para uma
tomada de decisão criteriosa que proporciona economia e segurança no
fornecimento de energia elétrica. Para isso, uma companhia elétrica precisa
resolver vários problemas técnicos e econômicos no planejamento e controle da
operação do sistema de energia elétrica.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3.6. Análise de Dados e Recomendação de Primeiro e Segundo Cursos
 O ensino superior é um dos segmentos de mercado mais concorridos para as
empresas do setor.
 Para garantir e aumentar a competitividade, algumas empresas decidiram aplicar
técnicas de mineração de dados para reduzir evasão e inadimplência, ao mesmo
tempo em que aumentem a demanda pelos cursos existentes.
 Várias análises podem ser efetuadas, como:
o Identificar os perfis da base de interessados e matriculados por curso e
categorias de curso;
o Identificar os perfis de inadimplência e evasão da base de matriculados;
o Identificar quais ferramentas de marketing são mais eficazes na captação de
alunos;
o Identificar potenciais alunos da base de dados para recomendar um (novo)
curso;
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
o Identificar e captar interessados que não se matriculam;
o Alinhar o perfil da base em potencial com os cursos do portfólio da instituição.
 Usando informações referentes aos seguintes atributos (Sexo, Estado Civil,
Atuação, Renda, Faixa de Idade, Nível Hierárquico, Ano de Graduação, Cidade de
Residência, Cidade Onde Trabalha, Porte da Empresa, Área, Nome do Curso,
Origem, Como Soube) é possível realizar análises como:
o Descrição das características da base
o Análise de grupos
o Inferência de regras de classificação
o Análise de associação entre atributos
o Predição de cursos e qualquer outro atributo
3.7. Direito Ambiental
 Muitas empresas precisam consultar bases de dados eletrônicas (p. ex., DOU, DOE
e DOM) regularmente em busca de novas leis, decretos e resoluções.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Na maioria das vezes essas buscas são feitas por pessoas, que passam horas
visitando sites, baixando e lendo documentos em busca de atualizações e novas leis
que regulamentam determinado setor.
 Esse processo de busca automática de fontes de informação, segmentação de
documentos com base nos seus conteúdos e caracterização de acordo com o perfil
de clientes da empresa pode ser automatizado por técnicas de mineração de dados.
4. Principais Tarefas
 As funcionalidades da mineração de dados são usadas para especificar os tipos de
informações a serem obtidas nas tarefas de mineração.
 Em geral estas tarefas podem ser classificadas em duas categorias:
o Descritivas: caracterizam as propriedades gerais dos dados; e
o Preditivas: fazem inferência com os dados objetivando predições.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Em muitos casos o usuário não tem ideia do tipo de conhecimento contido nos
dados, tornando importante a capacidade das ferramentas de mineração em
encontrar diferentes tipos de conhecimento.
 As principais tarefas de mineração de dados são descritas a seguir.
4.1. Descrição de Classes/Conceitos: Caracterização e Discriminação
 Os dados podem estar associados a classes ou conceitos.
 Por exemplo, no caso de detecção de fraudes classes úteis são fraude e transação
legítima.
 Pode ser útil descrever classes e conceitos individuais de forma resumida e
concisa, mas precisa. Estas descrições são denominadas descrição de
classe/conceito.
 As descrições podem ser derivadas através de uma caracterização dos dados,
sumarizando os dados da classe, ou de uma discriminação dos dados, comparando
a classe alvo com uma ou um grupo de classes comparativas, ou ambas.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 A caracterização dos dados é uma sumarização de características ou atributos
gerais de uma determinada classe dos dados, e pode ser apresentada, por exemplo,
através de gráficos do tipo torta, gráficos em barra, curvas, tabelas, etc.
o Por exemplo, qual a descrição que resume as características dos clientes que
gastam mais do que R$ 2.000,00/mês de cartão de crédito? Estes clientes
normalmente possuem idade entre 40 e 50 anos, são casados e têm filhos,
possuem curso superior, etc.
 A discriminação dos dados é uma comparação das características gerais de objetos
pertencentes a uma determinada classe alvo com uma ou mais características gerais
de objetos pertencentes a outras classes contrastantes.
o Por exemplo, um sistema de mineração de dados pode permitir verificar que
80% dos consumidores que compram computadores possuem idade entre 20 e
40 anos e são graduados, enquanto 60% dos consumidores que não compram
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
computadores são pessoas de idade ( > 60 anos ) e não possuem curso
universitário.
4.2. Associação
 A análise por associação corresponde à descoberta de regras de associação que
apresentam valores de atributos que ocorrem concomitantemente em uma base de
dados.
 Este tipo de análise normalmente é usado em ações de marketing e para o estudo
de bases de dados transacionais.
 Mais formalmente, regras de associação possuem a forma X  Y, ou seja,
A1  A2 ...  Am  B1  B2 ...  Bn,
onde Ai, i = 1, ... , m, e Bj, j = 1, ... , n, são pares de valores de atributos.
 As regras de associação X  Y são interpretadas da seguinte forma:
o Registros da base de dados que satisfazem a condição em X também satisfazem
a condição em Y.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Exemplo: Seja a seguinte regra de associação.
idade(X, 20...29)  salário(X, 20K...29K)  compra(X, computador)
[suporte = 2%, confiança = 60%]
onde X é uma variável que representa um cliente.
Esta regra indica que dentre todos os clientes sendo investigados, 2% deles possuem
idade entre 20 e 29 anos, salário entre 20K e 29K e compraram computador. Além
disso, há uma probabilidade igual a 60% de que um cliente com esta idade e faixa
salarial compre um computador.
 Em aplicações de marketing, por exemplo, este tipo de metodologia pode ser usado
para identificar quais itens são comprados juntos. Na detecção de fraudes esta
metodologia pode permitir a identificação de características ou comportamentos
que ocorrem simultaneamente.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
4.3. Predição: Classificação e Estimação
 Predição é uma terminologia usada para se referir à construção e uso de um
modelo para avaliar a classe de um objeto não rotulado, ou para estimar o valor de
um atributo de um dado objeto.
o No primeiro caso denominamos a tarefa de classificação e no segundo caso
denominamos de regressão (em estatística) ou simplesmente estimação.
 Sob esta perspectiva, classificação e regressão constituem os dois principais tipos
de problemas de predição, onde a classificação é usada para predizer valores
nominais ou discretos, enquanto a regressão é usada para predizer valores
contínuos ou ordinais.
 Exemplos: classificação (O crédito será oferecido ou não?); regressão (Qual o
valor do crédito a ser oferecido?).
 O processo de predição, classificação ou estimação, possui duas etapas essenciais:
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
o Treinamento: na primeira etapa o preditor (classificador ou estimador) é gerado,
tal que ele se torne capaz de descrever e distinguir um conjunto pré-determinado
de classes. O classificador é gerado usando um conjunto de dados de
treinamento rotulados, ou seja, para cada vetor de entradas a saída desejada,
que pode ser a classe à qual o objeto pertence, é conhecida. Isso implica na
disponibilidade de pares {(xi,ci)}i = 1,...,N, onde xi e ci i, são os vetores de entrada
e as respectivas saídas desejadas.
o Teste: uma vez que o preditor foi gerado, é preciso avaliar seu desempenho
quando aplicado a dados não usados no processo de treinamento, conhecidos
como dados de teste ou, em alguns casos, dados de validação. O desempenho do
preditor quando aplicado a dados de teste oferece uma estimativa de sua
capacidade de generalização.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Como os rótulos das classes dos dados de treinamento são conhecidos, este
processo é denominado de treinamento supervisionado (ou aprendizagem
supervisionada).
 Exemplos de tarefas de classificação: identificação de spams, classificação de
objetos, atribuição de crédito, detecção de fraudes, etc.
 Exemplos de tarefas de estimação: predição de produtividade de grãos, estimativa
de desempenho de atletas, estimativa de crédito, etc.
4.4. Agrupamento
 Clustering é o nome dado ao processo de agrupamento de um conjunto de objetos
em classes ou clusters (grupos) de objetos similares.
 Diferentemente dos processos de classificação, a análise de clusters considera
dados de entrada não-rotulados, ou seja, a classe à qual cada padrão de entrada
(objeto) pertence não é conhecida a priori.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
o O processo de agrupamento ou clusterização é normalmente usado para
identificar tais classes.
 Os objetos são agrupados com o objetivo de maximizar a distância inter-classe e
minimizar a distância intra-classe, ou, dito de outra forma, maximizar a
similaridade intra-classe e minimizar a similaridade inter-classe.
o Portanto, um cluster é uma coleção de objetos similares uns aos outros e
dissimilares aos objetos de outros clusters.
 Cada cluster formado pode ser visto como uma classe de objetos.
 Como os rótulos das classes dos dados de treinamento não são conhecidos, este
processo é denominado de treinamento não-supervisionado (ou aprendizagem
não-supervisionada).
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
4.5. Detecção de Anomalias
 Uma base de dados pode conter objetos que não seguem o comportamento ou
característica comum dos dados ou de um modelo deles. Estes dados são
conhecidos como anomalias ou outliers.
 A maioria das ferramentas de mineração descarta as anomalias como ruídos ou
exceções. Entretanto, em algumas aplicações, como na detecção de fraudes, os
eventos raros podem ser mais informativos do que aqueles que ocorrem
regularmente.
 As anomalias podem ser detectadas de diversas formas, incluindo usando métodos
estatísticos que assumem uma distribuição ou modelo de probabilidade dos dados,
ou usando medidas de distância através das quais objetos substancialmente
distantes dos outros são considerados anomalias.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Por exemplo, no caso de fraudes em cartões de crédito, valores muito acima dos
usuais para um dado cliente, assim como o tipo, o local e a frequência de uma dada
compra são indicativos de uma anomalia.
5. Paradigmas de Aprendizagem
 A capacidade de aprender associada a um sistema inteligente, mais
especificamente a uma ferramenta de aprendizagem de máquina, é uma das mais
importantes qualidades destas estruturas.
 Trata-se da habilidade de adaptar-se, de acordo com regras pré-existentes, ao seu
ambiente, alterando seu desempenho ao longo do tempo.
 Sendo assim, considera-se aprendizado o processo que adapta o comportamento e
conduz a uma “melhoria” de desempenho.
 No contexto de aprendizagem de máquina, aprendizagem ou treinamento
corresponde ao processo de ajuste dos parâmetros livres do sistema através de um
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
mecanismo de apresentação de estímulos ambientais, conhecidos como padrões
(ou dados) de entrada ou de treinamento:
estímulo  adaptação  novo comportamento da rede
 O objetivo do aprendizado em mineração de dados é a obtenção de um modelo
implícito ou extração de informação dos dados em estudo.
 Um conjunto bem definido de regras ou passos para a obtenção do modelo ou
extração de informação de uma base de dados é denominado um algoritmo de
aprendizagem ou treinamento.
 A maneira pela qual o ambiente influencia o sistema em seu aprendizado define o
paradigma de aprendizagem. Exemplos de paradigmas: aprendizado
supervisionado, aprendizado por reforço e aprendizado não-supervisionado (ou
auto-organizado).
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Seja qual for o algoritmo ou o paradigma utilizado, ao alcançarmos o objetivo
obtemos uma representação de conhecimento que obedece a uma ou mais das
quatro regras de bom senso descritas abaixo:
R1 entradas similares provenientes de classes similares de fenômenos ou eventos
tendem a produzir representações similares dentro do sistema, o que pode levar
a ‘classificá-las’ como pertencentes à mesma categoria.
R2 itens que devem ser classificados ou processados distintamente devem
provocar, de alguma forma, representações distintas dentro do sistema.
R3 se uma característica é importante, então devem ser alocados recursos do
sistema para representá-la devidamente. Quanto mais complexa a representação,
mais recursos devem ser alocados.
R4 a etapa de aprendizado pode ser simplificada caso as informações conhecidas a
priori e invariâncias sejam embutidas diretamente no projeto do sistema.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 As duas primeiras regras utilizam os conceitos de similaridade e/ou de distância.
Estes conceitos podem ser expressos matematicamente a partir da definição formal
de um critério de medida. Em particular, a Teoria de Medidas é uma das áreas mais
bem formalizadas da Matemática, juntamente com a Teoria de Conjuntos,
constituindo a base de todos os métodos matemáticos.
 Existem basicamente três paradigmas de aprendizado:
 Aprendizado supervisionado: é baseado em um conjunto de exemplos de estímulo-
resposta (ou entrada-saída), ou em algum outro tipo de informação que represente
o comportamento que deve ser apresentado pelo sistema;
 Aprendizado por reforço: o comportamento do sistema é avaliado apenas com
base em algum critério numérico, fornecido em instantes espaçados de tempo;
 Aprendizado não-supervisionado: é baseado apenas nos estímulos recebidos pelo
sistema. Basicamente, o sistema deve aprender a “categorizar” os estímulos,
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
embora o processo de categorização possa ser empregado em contextos distintos
de categorização, como, por exemplo, em otimização combinatória.
5.1. Aprendizagem Supervisionada
 Este curso vai se ocupar com o desenvolvimento de técnicas para aprendizado
supervisionado e não-supervisionado em aprendizagem de máquina.
 Pelo fato de serem mais intuitivas, técnicas de aprendizado supervisionado serão
abordadas primeiro.
 Ideia intuitiva: controle de processos (ex. pouso e decolagem de aviões)
 Exemplos de problemas de engenharia e computação que podem ser apresentados
na forma de um problema de aprendizado supervisionado:
o classificação e reconhecimento de padrões
o predição de séries temporais
o identificação de sistemas
o controle de processos
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
o projeto de filtros em processamento de sinais
5.2. Aprendizagem Não-Supervisionada
 No paradigma não-supervisionado ou auto-organizado não existe um supervisor
para avaliar o desempenho do sistema em relação aos dados de entrada.
 Os dados são ditos não-rotulados, no sentido de que as classes às quais eles
pertencem ou as saídas desejadas do sistema são desconhecidas.
 O sistema se adapta a regularidades estatísticas nos dados de entrada,
desenvolvendo uma capacidade de criar representações internas que codificam as
características dos dados de entrada, tornando-se, portanto, capaz de identificar a
quais classes novos padrões pertencem.
 Ideia intuitiva: agrupamento de dados (p. ex. balões coloridos)
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
5.3. Aprendizagem Por Reforço
 A aprendizagem por reforço é distinta das outras abordagens, pois neste caso não
existe uma interação direta com um supervisor ou modelo explícito do ambiente.
 Geralmente, a única informação disponível é um valor escalar que indica a
qualidade do desempenho do sistema.
 Na aprendizagem por reforço existe um objetivo a ser alcançado. Durante o
processo de aprendizagem, o sistema “tenta” algumas ações (saídas) e recebe um
sinal de reforço (estímulo) do ambiente que permite avaliar a qualidade de sua
ação.
 O sistema em aprendizagem seletivamente retém as ações que levam a uma
maximização dos sinais de reforço.
 Ideia intuitiva: ex. ensinar animais circenses.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Pré-Processamento de Dados
1. Introdução
 Conhecer e preparar de forma apropriada os dados para mineração é uma etapa que
pode tornar todo o processo de mineração muito mais eficiente e eficaz.
 Por outro lado, dados mal ou não-processados podem inviabilizar uma análise ou
invalidar um resultado.
 Para que possamos fazer o uso mais efetivo da mineração é preciso pensar em
algumas questões importantes antes de iniciar a análise:
o Quais relações ou tendências são consideradas importantes?
o As perguntas costumam ser formuladas em torno de atributos específicos da
base?
o A organização da estrutura dos dados influencia as categorias de interesse?
o Há atributos naturalmente interrelacionados?
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
o Há atributos que podem ser excluídos do modelo?
o Há atributos com tão pouca variância que podem ser excluídos da análise?
o O que fazer com os objetos (registros) com valores ausentes?
o É preciso padronizar os domínios de todas os atributos?
o Quais tipos de atributos existem na base de dados?
o Será preciso unir dados de diferentes bases para responder as questões
adequadamente?
 O uso de ferramentas simples que apresentam histogramas ou gráficos com a
distribuição de valores de uma dada variável é bastante útil para um entendimento
inicial da base de dados.
 Gráficos plotando atributos aos pares ou em comparação com classes também são
informativos.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Em geral especialistas de domínio são consultados para explicar outliers, valores
ausentes, o significado de inteiros representando categorias e diversas outras
peculiaridades que apenas um especialista conhece.
 As etapas de pré-processamento dos dados consomem muito tempo e demandam
bastante trabalho, mas o sucesso da mineração depende fortemente do cuidado
dedicado a esta etapa do processo de descoberta de conhecimentos em bases de
dados.
2. Nomenclatura e Tipos de Dados
 Os dados usados nas tarefas de mineração são normalmente denominados de dados
de treinamento ou dados de entrada.
 Por exemplo, a Tabela 1 apresenta parte de uma base de dados (cadastros) para
solicitação de crédito (financiamento) para pagamento em 36 meses.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Tabela 1: Solicitação de crédito para pagamento em 36 meses.
Salário
R$
Idade Estado
civil
Cartão
de
crédito
Imóveis Veículos Nro de
filhos
Possui
cheque
especial
Financiamento
Pretendido R$
Crédito
autorizado
350 21 Sol. 0 0 0 0 Sim 10.000 Não
3700 52 Cas. 1 1 2 2 Sim 7.000 Sim
1200 26 Cas. 1 0 1 1 Não 10.000 Não
700 25 Sol. 0 0 0 0 Não 5.000 Sim
8500 50 Cas. 2 1 2 2 Sim 40.000 Sim
1800 27 Sol. 1 0 1 0 Sim 20.000 Não
350 20 Sol. 0 0 0 0 Não 10.000 Não
 A nomenclatura usada para descrever cada item desta tabela depende, dentre outros
fatores, da área de pesquisa (disciplina).
 Cada linha desta tabela corresponde a um registro, exemplo, instância, objeto,
vetor de entradas ou padrão (de entrada ou treinamento).
o Em mineração de dados a nomenclatura mais comum é registro, objeto ou
instância. Em redes neurais artificiais é mais usual denominar de padrão de
treinamento, padrão de entrada ou vetor de entradas.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Cada coluna corresponde a um atributo, característica, entrada ou variável.
o Em mineração de dados normalmente denominamos as colunas por atributo ou
variáveis (independentes), enquanto em estatística normalmente denominamos
por características (features). Em redes neurais geralmente chamamos as
colunas de entradas ou variáveis de entrada, pois cada atributo corresponde a
uma das entradas da rede neural artificial.
 Nota: a representação dos padrões nas linhas é uma convenção da literatura, mas os
padrões também poderiam estar dispostos nas colunas da matriz, desde que isso
fosse explicitado. Um exemplo deste último caso é a base de dados de Negociações
Trabalhistas.
2.1. Exemplos de Bases de Dados
 Para ilustrar alguns dos diferentes tipos de dados e seus atributos, esta seção
apresenta seis bases de dados de natureza distinta.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Considere inicialmente o exemplo abaixo de uma base de dados contendo
condições sob as quais um oftalmologista poderá ou não prescrever lentes de
contato a seus pacientes (Tabela 2).
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Tabela 2: Base de dados de lentes de contatos (Contact Lenses). TPL: Taxa de Produção de Lágrimas.
Idade Prescrição Astigmatismo (A) TPL Lente recomendada
Jovem Miopia Não Reduzida Nenhuma
Jovem Miopia Não Normal Macia
Jovem Miopia Sim Reduzida Nenhuma
Jovem Miopia Sim Normal Rígida
Jovem Hipermetropia Não Reduzida Nenhuma
Jovem Hipermetropia Não Normal Macia
Jovem Hipermetropia Sim Reduzida Nenhuma
Jovem Hipermetropia Sim Normal Rígida
Pré-presbiótico Miopia Não Reduzida Nenhuma
Pré-presbiótico Miopia Não Normal Macia
Pré-presbiótico Miopia Sim Reduzida Nenhuma
Pré-presbiótico Miopia Sim Normal Rígida
Pré-presbiótico Hipermetropia Não Reduzida Nenhuma
Pré-presbiótico Hipermetropia Não Normal Macia
Pré-presbiótico Hipermetropia Sim Reduzida Nenhuma
Pré-presbiótico Hipermetropia Sim Normal Nenhuma
Presbiótico Miopia Não Reduzida Nenhuma
Presbiótico Miopia Não Normal Nenhuma
Presbiótico Miopia Sim Reduzida Nenhuma
Presbiótico Miopia Sim Normal Rígida
Presbiótico Hipermetropia Não Reduzida Nenhuma
Presbiótico Hipermetropia Não Normal Macia
Presbiótico Hipermetropia Sim Reduzida Nenhuma
Presbiótico Hipermetropia Sim Normal Nenhuma
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Consideremos agora um exemplo mais realista de Negociações Trabalhistas, como
ilustrado na Tabela 3.
Tabela 3: Base de dados de Negociações Trabalhistas.
Atributo Objeto
Descrição Tipo 1 2 3 ... 40
Duração Anos 1 2 3 2
Aumento salarial ano 1 Percentual 2% 4% 4.3% 4.5%
Aumento salarial ano 2 Percentual ? 5% 4.4% 4.0%
Aumento salarial ano 3 Percentual ? ? ? ?
Ajuste de custo de vida {nenhum, tcf, tc} Nenhum Tcf ? Nenhum
Carga horária semanal Horas 28 35 38 40
Aposentadoria {nenhum, ret-allw, empl-
cntr}
Nenhum ? ? ?
Pagamento por horas vagas Percentual ? 13% ? ?
Horas extras Percentual ? 5% 4% 4
Adicional para educação {sim, não} Sim ? ? ?
Feriados Dias 11 15 12 12
Férias {below-avg, avg, gen} Avg Gen Gen Avg
Assistência para ausência prolongada {sim, não} Não ? ? Sim
Seguro odontológico {nenhum, parcial, total} Nenhum ? Full Full
Seguro de vida {sim, não} Não ? ? Sim
Seguro saúde {nenhum, parcial, total} Nenhum ? Full Half
Aceitabilidade do contrato {boa, ruim} Ruim Boa Boa Boa
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Considere agora o exemplo de uma base de dados sobre o Clima, que corresponde
à identificação de condições climáticas para a prática de um determinado esporte
(Tabela 4).
Tabela 4: Base de dados do Clima.
Tempo Temperatura Umidade Vento Jogar
Ensolarado Quente Alta Não Não
Ensolarado Quente Alta Sim Não
Fechado Quente Alta Não Sim
Chuvoso Branda Alta Não Sim
Chuvoso Fria Normal Não Sim
Chuvoso Fria Normal Sim Não
Fechado Fria Normal Sim Sim
Ensolarado Branda Alta Não Não
Ensolarado Fria Normal Não Sim
Chuvoso Branda Normal Não Sim
Ensolarado Branda Normal Sim Sim
Fechado Branda Alta Sim Sim
Fechado Quente Normal Não Sim
Chuvoso Branda Alta Sim Não
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Considere agora a base de dados AllElectronics apresentada abaixo. Esta base de
dados contém registros de clientes que compram ou não computadores.
Tabela 5: Base de dados AllElectronics.
Idade Renda Estudante?
Nível de
Crédito
Classe
(compra_computador)
 30 Alta Não Razoável Não
 30 Alta Não Excelente Não
[31,40] Alta Não Razoável Sim
> 40 Média Não Razoável Sim
> 40 Baixa Sim Razoável Sim
> 40 Baixa Sim Excelente Não
[31,40] Baixa Sim Excelente Sim
 30 Média Não Razoável Não
 30 Baixa Sim Razoável Sim
> 40 Média Sim Razoável Sim
 30 Média Sim Excelente Sim
[31,40] Média Não Excelente Sim
[31,40] Alta Sim Razoável Sim
> 40 Média Não Excelente Não
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 A Tabela 6 apresenta a base de dados da Íris, que contém 50 exemplos de cada tipo
de planta: Íris setosa, versicolor e virgínica.
Tabela 6: Base de dados Iris.
Comprimento da
sépala
Largura da sépala
Comprimento da
pétala
Largura da
pétala
Tipo
5.1 3.5 1.4 0.2 Íris setosa
4.9 3.0 1.4 0.2 Íris setosa
4.7 3.2 1.3 0.2 Íris setosa
...
7.0 3.2 4.7 1.4 Íris versicolor
6.4 3.2 4.5 1.5 Íris versicolor
6.9 3.1 4.9 1.5 Íris versicolor
...
6.3 3.3 6.0 2.5 Íris virgínica
5.8 2.7 5.1 1.9 Íris virgínica
7.1 3.0 5.9 2.1 Íris virgínica
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 A Tabela 7 apresenta uma base de dados binária contendo informações sobre as
características de alguns animais.
Tabela 7: Base de dados dos Animais.
Pombo
Galinha
Pato
Ganso
Coruja
Gavião
Águia
Raposa
Cão
Lobo
Gato
Tigre
Leão
Cavalo
Zebra
Vaca
É
Pequeno 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0
Médio 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0
Grande 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1
Tem
Duas patas 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
Quatro patas 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
Pêlos 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
Casco 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1
Crina 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0
Penas 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0
Gosta de
Caçar 0 0 0 0 1 1 1 1 0 1 1 1 1 0 0 0
Correr 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 0
Voar 1 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0
Nadar 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
EPC 1: Para cada uma das bases de dados acima discuta um conjunto de
informações estratégicas que poderiam ser extraídas de forma automática usando
técnicas de mineração.
2.2. Sobre os Atributos
 O uso de um conjunto fixo de atributos pode impor algumas dificuldades ao
processo de mineração. O que acontece se diferentes objetos da mesma base
possuírem atributos distintos?
o Por exemplo, suponha que a base de dados seja sobre veículos de transporte.
Neste caso, veículos terrestres possuem atributos, como número de rodas, que
não existem em veículos aquáticos e vice-versa. A abordagem padrão é fazer
com que todos os atributos apareçam na base de dados e usar uma espécie de
sinalizador (flag) para indicar que um dado atributo não existe para alguma(s)
instância(s). Outra abordagem é atribuir um valor nulo para aquele atributo,
desde que isso não confunda com o valor de um atributo que também poderia ser
nulo.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 O valor de um atributo de um dado objeto é uma medida da quantidade daquele
atributo. Esta medida pode ser numérica ou categórica.
 Os atributos numéricos podem assumir quaisquer valores numéricos, por exemplo,
inteiros, reais, etc.
 Já as quantidades categóricas assumem valores correspondentes a símbolos
distintos.
 Os textos de estatística normalmente introduzem níveis de medida para os dados
categóricos, tais como nominal, ordinal e razão:
o Atributo nominal: seus valores possuem símbolos ou rótulos distintos. Exemplo:
o atributo ‘tempo’ pode assumir os valores ‘ensolarado’, ‘nublado’ e ‘chuvoso’;
o Atributo ordinal: os atributos ordinais permitem ordenar suas categorias, embora
não haja uma noção explícita de distância. Exemplo: o atributo ‘temperatura’
pode possuir valores ‘quente’, ‘morno’ e ‘frio’;
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
o Atributo razão: quantidades do tipo razão são aquelas para as quais o método de
medida define o ponto zero. Exemplo: a distância entre dois objetos possui
naturalmente o zero quando ambos são iguais. Obs.: Estes atributos são tratados
como números reais e qualquer operação aplicável aos reais é também aplicável
aos atributos do tipo razão. Exemplos: peso, distância, velocidade, salário, etc.
Exemplo: Para as bases de dados apresentadas na Seção 2.1, é possível dizer que as
bases Lentes de Contato e Clima possuem atributos nominais, as bases Íris e Animais
possuem atributos numéricos e as bases Negociações Trabalhistas, AllElectronics e
de Solicitação de Crédito são híbridas, contendo dados numéricos e categóricos.
Obs.: a base Animais é dita binária, pois todos seus atributos são binários.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3. Pré-Processamento dos Dados
 As bases de dados de mundo real são altamente susceptíveis a ruído (erros e
outliers), valores ausentes e inconsistências (discrepâncias em códigos, intervalos,
etc.).
 As razões para estes problemas (ruído, incompletude e inconsistências) são
diversas, como a indisponibilidade de dados para alguns objetos/atributos; erros de
medição, entendimento e/ou entrada de dados; falhas no sistema; fraudes nos
dados; erros de transmissão; diferenças de convenção (padronização); etc.
 Como exemplo considere a base de dados apresentada na Tabela 3 envolvendo
Negociações Trabalhistas. Esta base contém valores ausentes para diversos
atributos de muitos indivíduos (objetos) da base.
 As etapas de pré-processamento dos dados têm o objetivo de melhorar a qualidade
dos dados e, consequentemente, do processo de mineração, promovendo maior
eficiência e eficácia da mineração de dados.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 As principais tarefas de pré-processamento são:
1. Limpeza: para remoção de ruídos e correção de inconsistências;
2. Integração: para unir dados de múltiplas fontes em um único local, como um
armazém de dados (data warehouse);
3. Redução: para reduzir a dimensão da base de dados, por exemplo, agregando,
agrupando ou eliminando atributos redundantes, ou sumarizando os dados;
4. Transformação: para deixar os dados em um formato passível de aplicação das
diferentes técnicas de mineração;
5. Discretização: para permitir que métodos que trabalham apenas com atributos
nominais possam ser empregados a um conjunto maior de problemas. Também
faz com que a quantidade de valores para um dado atributo contínuo seja
reduzida.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3.1. Limpeza dos Dados
 As ferramentas para a limpeza de dados atuam no sentido de imputar valores
ausentes, suavizar ruídos enquanto identifica outliers, e corrigir inconsistências.
Valores Ausentes
 Tomando como exemplo a base de dados de Negociações Trabalhistas, nota-se a
ausência de valores para muitos atributos e muitos objetos.
 Alguns dos métodos que poderiam ser aplicados nestes casos são:
1. Ignorar o objeto: normalmente é feito quando o rótulo da classe está faltando,
assumindo uma tarefa de classificação. Entretanto, este método não é muito
eficiente, a não ser que o mesmo objeto tenha valores ausentes para muitos
atributos. Se a quantidade de objetos for pequena ou o percentual de valores
ausentes por atributo variar consideravelmente, este método também não é
recomendado.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
2. Imputar manualmente os valores ausentes: em geral este processo demanda
muito tempo, sendo inviável para grandes bases de dados.
3. Usar uma constante global para imputar o valor ausente: substituir todos os
valores ausentes de um certo atributo por uma constante única pode fazer com
que o algoritmo de mineração considere esta constante um conceito relevante e,
portanto, deve ser feito com cautela também.
4. Usar a média de um atributo para imputar o valor ausente;
5. Usar a média de todos os objetos da mesma classe para imputar o valor
ausente;
6. Usar o valor mais provável para imputar o valor ausente: este valor mais
provável pode ser determinado por técnicas de regressão, métodos de inferência,
indução de árvores de decisão, redes neurais ou qualquer outro método de
estimação aplicável.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 É importante salientar que os métodos 3 a 6 acima polarizam os dados e os valores
imputados podem não ser corretos.
 Apesar disso, o método 6 acima é bastante popular na literatura, pois usa mais
informações sobre os dados para estimar o valor ausente.
Dados Ruidosos
 Um ruído é um erro aleatório ou uma variância em uma determinada variável
observada.
 Dado um atributo numérico, como, por exemplo, preço, como suavizar o ruído?
Vejamos as seguintes técnicas:
1. Binning: os métodos baseados em binning suavizam dados ordenados
consultando seus vizinhos. Os dados ordenados são distribuídos em intervalos
(bins) e realizam uma suavização local. Para ilustrar este processo, considere o
exemplo abaixo:
Dados ordenados para a variável preço: 4, 8, 15, 21, 21, 24, 25, 28, 34.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Partição em bins de Suavização pela média Suavização pelas
profundidade 3: do bin: extremidades dos bins:
Bin 1: 4, 8, 15 9, 9, 9 4, 4, 15
Bin 2: 21, 21, 24 22, 22, 22 21, 21, 24
Bin 3: 25, 28, 34 29, 29, 29 25, 25, 34
2. Agrupamento: outliers podem ser detectados por agrupamento, pois,
intuitivamente, objetos que não pertencem a um conjunto pré-definido de
clusters podem ser considerados outliers.
3. Inspeção humana e computacional: uma ferramenta computacional pode ser
usada para identificar um outlier e enviar uma mensagem para um moderador,
que tomará a decisão sobre que ação executar.
4. Aproximação: os dados podem ser suavizados aproximando-os por uma função,
que pode ser obtida via regressão, redes neurais ou outro método de
aproximação de funções.
 É importante salientar que muitos métodos de suavização são também métodos de
redução ou seleção de dados.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Dados Inconsistentes
 Uma das formas de se resolver inconsistências nos dados é através de uma análise
manual auxiliada por rotinas específicas que verificam, por exemplo, se os valores
de todos os atributos pertencem a domínios específicos.
 Dados inconsistentes, assim como dados ruidosos, também podem ser mais
facilmente identificados utilizando-se gráficos, por exemplo, plotando-se o gráfico
de cada atributo separadamente.
 A participação de especialistas do domínio é normalmente crucial nesta etapa.
 Obs.: dados repetidos também podem resultar em problemas, uma vez que sua
influência na tarefa de mineração pode ser multiplicada.
3.2. Integração dos Dados
 Um dos passos essenciais antes da aplicação de uma técnica de mineração de
dados a um certo problema é a junção de todos os dados em um conjunto de
instâncias, como os exemplos ilustrados acima.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Em aplicações de mundo real, os dados podem estar distribuídos em
departamentos, lojas, etc., e a integração destes dados pode resultar em grandes
problemas práticos.
 Por exemplo, as formas de armazenagem, convenções dos dados, datas, chaves de
acesso, padronizações e outras características podem ser distintas.
 Estes dados precisam ser reunidos, integrados e limpos.
 O conceito de uma ampla base de dados da empresa é conhecido como armazém
de dados (data warehouse).
 Os armazéns de dados devem fornecer um ponto único e consistente de acesso a
dados corporativos, transcendendo as barreiras departamentais.
 A existência de armazéns de dados é um precursor bastante útil para a tarefa de
mineração de dados e sua inexistência implica na execução de diversos passos
anteriores à etapa de mineração.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 É importante reconhecer, entretanto, que mesmo um armazém de dados pode não
conter todas as informações necessárias à mineração, assim como seus dados
também podem requerer muitas das etapas de pré-processamento descritas aqui.
 Diversos aspectos precisam ser considerados durante a integração de dados. Por
exemplo, como entidades equivalentes de múltiplas fontes de dados podem ser
identificadas? Um exemplo disto é o uso dos campos (atributos) cliente_ID e
Nro_cliente para se referir à mesma informação de bases de dados distintas.
 Em muitos casos os bancos de dados possuem metadados, ou seja, dados sobre
dados. Estas informações podem ser usadas para integrar as bases.
 Outro problema comum nas bases de dados é a redundância. Um atributo pode ser
redundante se ele puder ser ‘derivado’ de outro (ou de outra tabela).
 Inconsistências na nomenclatura dos atributos também podem levar a
redundâncias.
 Alguns tipos de redundância podem ser detectados usando análise de correlação.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Por exemplo, dados dois atributos x e y, a análise de correlação mede quão
fortemente um atributo implica no outro, com base nos dados disponíveis. A
correlação entre os atributos x e y, (x,y), é dada por:







N
j
j
N
j
j
N
i
ii
yyxx
yyxx
yx
1
2
1
2
1
)(.)(
))((
),(
, (1)
onde N é o número de objetos, e x e y são os valores médios dos atributos x e y,
respectivamente.
 Se o valor da Eq. (1) for positivo, então x e y são positivamente correlacionados,
indicando que um aumento nos valores de x implicam em um aumento dos valores
de y e vice-versa.
 Se o valor da Eq. (1) for nulo, então x e y estão descorrelacionados.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Se o valor da Eq. (1) for negativo, então x e y são negativamente correlacionados,
indicando que quando um atributo aumenta o outro diminui, e vice-versa.
 Durante a integração dos dados é também necessário cuidar para que não haja
duplicação de dados e nem conflitos de valores, por exemplo, quando o mesmo
objeto (aparecendo em diferentes locais) possui atributos distintos.
3.3. Redução dos Dados
 Em muitos casos, por exemplo, na detecção de fraudes em cartões de crédito, na
identificação de perfis de clientes em uma grande loja de comércio (eletrônico),
etc., a base de dados disponível para análise é imensa.
 A mineração destas bases pode requerer tanto esforço computacional (espaço e
tempo de processamento) de maneira a torná-la impraticável.
 As técnicas de redução de dados podem ser aplicadas tanto para reduzir a
quantidade de objetos da base, quanto para reduzir a quantidade de atributos que
descrevem estes objetos (dimensionalidade), como ilustrado na Figura 3.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
Figura 3: Redução na quantidade de objetos e atributos.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 É importante, entretanto, que os métodos de redução mantenham a integridade dos
dados originais. Ou seja, a mineração dos dados reduzidos deve ser mais eficiente,
porém não menos eficaz.
 Dentre os métodos de redução de dados destacam-se:
1. Seleção de atributos: efetua uma redução de dimensionalidade através da qual
atributos (dimensões) irrelevantes, pouco relevantes ou redundantes são
detectados e removidos;
2. Compressão de dados: também efetua uma redução da dimensionalidade, mas
empregando algoritmos de codificação de dados (atributos), ao invés de seleção;
3. Redução no número de dados: através da qual os dados são substituídos ou
estimados por representações menores (mais simples), como modelos
paramétricos (que armazenam apenas os parâmetros do modelo ao invés dos
dados) e os métodos não-paramétricos, como agrupamento, amostragem e
histogramas;
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
4. Discretização: através da qual valores de atributos são substituídos por
intervalos ou níveis conceituais mais elevados.
3.3.1. Seleção de Atributos
 A seleção de atributos efetua uma redução de dimensionalidade e tem se tornado o
foco de muita pesquisa em áreas em que bases de dados formadas por dezenas ou
centenas de atributos estão disponíveis.
 Na teoria, a disponibilidade da maior quantidade possível de atributos deveria nos
dar maior poder de discriminação. Entretanto, a prática de mineração de dados
geralmente nos mostra o contrário, e as principais razões para se selecionar um
subconjunto do conjunto total de atributos são:
1. É mais barato medir um subconjunto de atributos;
2. A precisão de classificação pode ser melhorada pela exclusão de atributos
irrelevantes;
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3. O classificador ou estimador a ser construído é usualmente mais simples e
potencialmente mais eficiente quando uma menor quantidade de atributos é
usada;
4. Conhecer os atributos relevantes pode nos dar informações importantes sobre a
natureza do problema.
 Por todos estes motivos, o problema de se selecionar atributos relevantes tem se
tornado cada vez mais importante.
 Com o intuito de melhor caracterizar o problema a ser enfrentado, observa-se que o
número de combinações de subconjuntos possíveis de atributos, para uma base de
dados formada por L atributos, é O(2L
).
 Portanto, uma busca exaustiva pelo melhor subconjunto de atributos é normalmente
inviável sob o ponto de vista computacional.
 Por exemplo, para a base de dados do Clima descrita anteriormente, é possível
listar os seguintes possíveis conjuntos de atributos a serem selecionados:
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
tempo, temperatura, umidade, vento, tempo+temperatura, tempo+umidade,
tempo+vento, temperatura+umidade, temperatura+vento, umidade+vento,
tempo+temperatura+umidade, tempo+temperatura+vento, tempo+umidade+vento,
temperatura+umidade+vento, tempo+temperatura+umidade+vento
Obs.: além destes também é possível selecionar nenhum atributo.
 Algumas estratégias de busca podem ser usadas para evitar a enumeração completa
de todos os subconjuntos possíveis de atributos:
1. Seleção forward: o procedimento começa com um subconjunto vazio de
atributos. O melhor dos atributos originais é determinado através de um critério
como, por exemplo, a taxa do ganho de informação, como será visto adiante, e
adicionado ao conjunto de atributos selecionados. A cada iteração subsequente, o
melhor dos atributos originais restantes é adicionado ao conjunto até que um
determinado critério de parada seja alcançado.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
2. Eliminação backward: o procedimento começa com o conjunto completo de
atributos. A cada iteração o pior atributo do conjunto é removido, até que um
determinado critério de parada seja alcançado.
3. Combinação seleção forward e eliminação backward: os dois métodos podem ser
combinados para que a cada iteração, o procedimento selecione o melhor
atributo e remova o pior dos atributos restantes.
 Existem duas abordagens fundamentais para se selecionar atributos.
1. Empacotamento: a primeira abordagem avalia o subconjunto de atributos
utilizando-se de resultados do algoritmo de aprendizado, “empacotando” o
algoritmo de seleção de atributos no algoritmo de aprendizado. Esta abordagem é
conhecida como wrapper.
2. Filtro: a segunda abordagem avalia os atributos através de propriedades
intrínsecas aos dados, sendo independente do algoritmo de aprendizado a ser
utilizado. Esta abordagem é conhecida como filtro (filter).
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Ainda é possível combinar estas duas abordagens, obtendo assim uma abordagem
híbrida. Filtros são particularmente interessantes para selecionar atributos em
grandes bases de dados, nas quais wrappers são usualmente excessivamente
custosos em termos computacionais.
 Note que a medida de correlação apresentada na Eq. (1) pode ser usada como
critério para identificação de redundância entre atributos e, portanto, ser usada
como mecanismo de seleção de atributos.
Seleção por Ganho de Informação
 Seja S o conjunto de s amostras. Suponha que o rótulo do atributo de classe tenha m
valores distintos que definem m classes distintas, Ci, i = 1, ... , m. Seja si a
quantidade de amostras de S na classe Ci. A informação esperada necessária para
classificar uma dada amostra é:
I(s1, s2, ... , sm) = 

m
i
ii pp
1
2 )(log (2)
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
onde pi é a probabilidade de que uma amostra arbitrária pertença à classe Ci,
estimada como sendo si/s.
 Como normalmente os logaritmos são expressos na base 2, a unidade da
informação é denominada de bits.
 Assuma que o atributo A tenha v valores distintos, {a1, a2, ... , av}. Ele pode ser
usado para particionar S em v subconjuntos {S1, S2, ... , Sv}, onde Sj contém aquelas
amostras em S que assumem valor aj de A.
 Seja sij a quantidade de amostras da classe Ci em um subconjunto Sj. A entropia ou
informação esperada é dada por:
),...,(
...
)( 1
1
1
mjj
v
j
mjj
ssI
s
ss
AE 

 (3)
 O termo que multiplica a informação atua como um peso para o j-ésimo
subconjunto e é o número de amostras no subconjunto dividido pelo número total
de amostras em S.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 Para um dado subconjunto Sj,
I(s1j, s2j, ... , smj) = 

m
i
ijij pp
1
2 )(log ,
onde pij = sij/|Sj|.
 O ganho de informação a ser obtido por este particionamento em A é:
ganho(A) = I(s1, s2, ... , sm)  E(A). (4)
 Este método calcula o ganho de informação para cada atributo da base de dados.
 Os atributos com os maiores ganhos de informação são considerados aqueles mais
discriminatórios.
 Calculando-se o ganho de informação para todos os atributos e ranqueando-os pelo
seu valor de ganho, é possível selecionar um conjunto de atributos a serem usados
na análise.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
3.3.2. Compressão de Dados
 Na compressão de dados é aplicada uma codificação ou transformação tal que uma
representação compacta dos dados originais é obtida.
 Se os dados originais podem ser reconstruídos a partir dos dados comprimidos sem
perda de informação, então o método de compressão é dito sem perda (lossless),
caso contrário ele é dito com perda (lossy).
 Dois métodos particularmente úteis e eficazes na compressão de dados são as
transformadas wavelet e a análise de componentes principais.
Transformadas Wavelets
 A transformada wavelet discreta (discrete wavelet transform – DWT) é uma
técnica linear de processamento de sinais que, quando aplicada ao vetor de dados
D, transforma-o em um vetor numericamente diferente, D’, formado por
coeficientes wavelet. Ambos os vetores possuem a mesma dimensão.
Introdução à Mineração de Dados
Copyright © Leandro Nunes de Castro
 A vantagem da transformada de wavelet é que ela pode ser truncada, ou seja, uma
aproximação comprimida dos dados pode ser obtida armazenando-se apenas uma
fração dos coeficientes mais fortes da transformada.
 Isso pode ser feito, por exemplo, definindo-se um limiar para os valores dos
coeficientes.
 Esta técnica também é eficiente no sentido de remover ruído, tornando-se eficiente
também para a limpeza de dados.
 O procedimento genérico para a aplicação de uma transformada wavelet discreta
usa um algoritmo piramidal hierárquico que particiona os dados pela metade a
cada iteração, resultando em um rápido processamento:
1. O comprimento L do vetor de dados de entrada deve ser inteiro e uma potência
de 2, o que pode ser obtido incluindo-se colunas de atributos nulos.
2. Cada transformada envolve a aplicação de duas funções. A primeira aplica uma
suavização nos dados, como uma soma ou média ponderada, e a segunda efetua
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados

Mais conteúdo relacionado

Mais procurados

Introdução ao Geoprocessamento
Introdução ao GeoprocessamentoIntrodução ao Geoprocessamento
Introdução ao Geoprocessamentoholler
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoLuis Borges Gouveia
 
Metin Madenciliği Nedir? ( Sunum )
Metin Madenciliği Nedir? ( Sunum )Metin Madenciliği Nedir? ( Sunum )
Metin Madenciliği Nedir? ( Sunum )Kazım Anıl AYDIN
 
Qualificação Mestrado
Qualificação MestradoQualificação Mestrado
Qualificação MestradoBruno Galli
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
TCC - Desenvolvimento de Aplicativo para Windows Phone
TCC - Desenvolvimento de Aplicativo para Windows PhoneTCC - Desenvolvimento de Aplicativo para Windows Phone
TCC - Desenvolvimento de Aplicativo para Windows PhoneCésar Augusto Pereira
 
Respostas exercício 1 bdi
Respostas exercício 1   bdiRespostas exercício 1   bdi
Respostas exercício 1 bdiPatty Muniz
 
Banco de dados orientados a objetos
Banco de dados orientados a objetos Banco de dados orientados a objetos
Banco de dados orientados a objetos Raquel Machado
 
Base de Données Chapitre I .pptx
Base de Données Chapitre I .pptxBase de Données Chapitre I .pptx
Base de Données Chapitre I .pptxAbdoulayeTraore48
 
Analyses factorielles.pdf
Analyses factorielles.pdfAnalyses factorielles.pdf
Analyses factorielles.pdfahmed92358
 
Análise de conteúdo como técnica de análise de dados na pesquisa em adm
Análise de conteúdo como técnica de análise de dados na pesquisa em admAnálise de conteúdo como técnica de análise de dados na pesquisa em adm
Análise de conteúdo como técnica de análise de dados na pesquisa em admAna Possamai
 

Mais procurados (20)

Introdução ao Geoprocessamento
Introdução ao GeoprocessamentoIntrodução ao Geoprocessamento
Introdução ao Geoprocessamento
 
Data Mining
Data MiningData Mining
Data Mining
 
Modelo de pre projeto de monografia
Modelo de pre projeto de monografiaModelo de pre projeto de monografia
Modelo de pre projeto de monografia
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceito
 
Introduction
IntroductionIntroduction
Introduction
 
Anomaly Detection
Anomaly DetectionAnomaly Detection
Anomaly Detection
 
Metin Madenciliği Nedir? ( Sunum )
Metin Madenciliği Nedir? ( Sunum )Metin Madenciliği Nedir? ( Sunum )
Metin Madenciliği Nedir? ( Sunum )
 
Qualificação Mestrado
Qualificação MestradoQualificação Mestrado
Qualificação Mestrado
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
TCC - Desenvolvimento de Aplicativo para Windows Phone
TCC - Desenvolvimento de Aplicativo para Windows PhoneTCC - Desenvolvimento de Aplicativo para Windows Phone
TCC - Desenvolvimento de Aplicativo para Windows Phone
 
Respostas exercício 1 bdi
Respostas exercício 1   bdiRespostas exercício 1   bdi
Respostas exercício 1 bdi
 
Introdução a ciência de dados com Python
Introdução a ciência de dados com PythonIntrodução a ciência de dados com Python
Introdução a ciência de dados com Python
 
Banco de dados orientados a objetos
Banco de dados orientados a objetos Banco de dados orientados a objetos
Banco de dados orientados a objetos
 
Base de Données Chapitre I .pptx
Base de Données Chapitre I .pptxBase de Données Chapitre I .pptx
Base de Données Chapitre I .pptx
 
Data science
Data scienceData science
Data science
 
Analyses factorielles.pdf
Analyses factorielles.pdfAnalyses factorielles.pdf
Analyses factorielles.pdf
 
POO - 08 - Prática de Encapsulamento
POO - 08 - Prática de EncapsulamentoPOO - 08 - Prática de Encapsulamento
POO - 08 - Prática de Encapsulamento
 
Apostila topografia veiga 20122
Apostila topografia   veiga 20122Apostila topografia   veiga 20122
Apostila topografia veiga 20122
 
Veri madenciliği
Veri madenciliğiVeri madenciliği
Veri madenciliği
 
Análise de conteúdo como técnica de análise de dados na pesquisa em adm
Análise de conteúdo como técnica de análise de dados na pesquisa em admAnálise de conteúdo como técnica de análise de dados na pesquisa em adm
Análise de conteúdo como técnica de análise de dados na pesquisa em adm
 

Destaque

2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...Leandro de Castro
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre LiderançaLeandro de Castro
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in BusinessLeandro de Castro
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do CursoLeandro de Castro
 
2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de MarketingLeandro de Castro
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em ComputaçãoLeandro de Castro
 
2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da ComputaçãoLeandro de Castro
 
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...Leandro de Castro
 
2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do CursoLeandro de Castro
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerceLeandro de Castro
 
2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de DadosLeandro de Castro
 
2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case StudiesLeandro de Castro
 
2014: Introdução às Redes Neurais Artificiais
2014: Introdução às Redes Neurais Artificiais2014: Introdução às Redes Neurais Artificiais
2014: Introdução às Redes Neurais ArtificiaisLeandro de Castro
 
2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune Systems2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune SystemsLeandro de Castro
 
2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big DataLeandro de Castro
 
2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing ResearchLeandro de Castro
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerceLeandro de Castro
 
2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and ApplicationsLeandro de Castro
 
2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e Aplicações2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e AplicaçõesLeandro de Castro
 
2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência Artificial2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência ArtificialLeandro de Castro
 

Destaque (20)

2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre Liderança
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso
 
2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação
 
2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação
 
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
 
2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce
 
2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados
 
2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies
 
2014: Introdução às Redes Neurais Artificiais
2014: Introdução às Redes Neurais Artificiais2014: Introdução às Redes Neurais Artificiais
2014: Introdução às Redes Neurais Artificiais
 
2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune Systems2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune Systems
 
2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data
 
2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
 
2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications
 
2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e Aplicações2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e Aplicações
 
2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência Artificial2016: Fundamentos Matemáticos para Inteligência Artificial
2016: Fundamentos Matemáticos para Inteligência Artificial
 

Semelhante a 2016 (Updated): Introdução à Mineração de Dados

Tcc danilo monteiro ribeiro motivação de engenheiros de software no contexto ...
Tcc danilo monteiro ribeiro motivação de engenheiros de software no contexto ...Tcc danilo monteiro ribeiro motivação de engenheiros de software no contexto ...
Tcc danilo monteiro ribeiro motivação de engenheiros de software no contexto ...Danilo Monteiro
 
Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...Fabio Silva
 
Relatorio tecnico sobre os fatores motivadores em equipe open source
Relatorio tecnico sobre os fatores motivadores em equipe open sourceRelatorio tecnico sobre os fatores motivadores em equipe open source
Relatorio tecnico sobre os fatores motivadores em equipe open sourceDanilo Monteiro
 
Explosao de dados e o conceito de análise de dados relacionados para geração ...
Explosao de dados e o conceito de análise de dados relacionados para geração ...Explosao de dados e o conceito de análise de dados relacionados para geração ...
Explosao de dados e o conceito de análise de dados relacionados para geração ...Felipe Pereira
 
Guia projeto de pesquisa
Guia    projeto de pesquisaGuia    projeto de pesquisa
Guia projeto de pesquisaRenato0505
 
Maple 7 na resolução de cálculos algébricos
Maple 7 na resolução de cálculos algébricosMaple 7 na resolução de cálculos algébricos
Maple 7 na resolução de cálculos algébricosmarcusantonioportovelho
 
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...
Dissertação  google inc act on general strike suzart Attain to cpf 051 812 95...Dissertação  google inc act on general strike suzart Attain to cpf 051 812 95...
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...Sandro Santana
 
Artigo webminig
Artigo webminigArtigo webminig
Artigo webminigediqueli
 
Java basico
Java basicoJava basico
Java basicoTiago
 
Pascal
PascalPascal
PascalTiago
 
Estrutra de dados java muito bom
Estrutra de dados java muito bomEstrutra de dados java muito bom
Estrutra de dados java muito bomLee Aragão
 
Iptables
IptablesIptables
IptablesTiago
 
Nessus
NessusNessus
NessusTiago
 
X dialog
X dialogX dialog
X dialogTiago
 
Monitoramento
MonitoramentoMonitoramento
MonitoramentoTiago
 
Recuperação de Informação: Análise sobre a contribuição da Ciência da Computa...
Recuperação de Informação: Análise sobre a contribuição da Ciência da Computa...Recuperação de Informação: Análise sobre a contribuição da Ciência da Computa...
Recuperação de Informação: Análise sobre a contribuição da Ciência da Computa...Edberto Ferneda
 

Semelhante a 2016 (Updated): Introdução à Mineração de Dados (20)

Tcc danilo monteiro ribeiro motivação de engenheiros de software no contexto ...
Tcc danilo monteiro ribeiro motivação de engenheiros de software no contexto ...Tcc danilo monteiro ribeiro motivação de engenheiros de software no contexto ...
Tcc danilo monteiro ribeiro motivação de engenheiros de software no contexto ...
 
Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...Scientific and technological information organization in open systems: Lattes...
Scientific and technological information organization in open systems: Lattes...
 
Relatorio tecnico sobre os fatores motivadores em equipe open source
Relatorio tecnico sobre os fatores motivadores em equipe open sourceRelatorio tecnico sobre os fatores motivadores em equipe open source
Relatorio tecnico sobre os fatores motivadores em equipe open source
 
Explosao de dados e o conceito de análise de dados relacionados para geração ...
Explosao de dados e o conceito de análise de dados relacionados para geração ...Explosao de dados e o conceito de análise de dados relacionados para geração ...
Explosao de dados e o conceito de análise de dados relacionados para geração ...
 
Guia projeto de pesquisa
Guia    projeto de pesquisaGuia    projeto de pesquisa
Guia projeto de pesquisa
 
Maple 7 na resolução de cálculos algébricos
Maple 7 na resolução de cálculos algébricosMaple 7 na resolução de cálculos algébricos
Maple 7 na resolução de cálculos algébricos
 
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...
Dissertação  google inc act on general strike suzart Attain to cpf 051 812 95...Dissertação  google inc act on general strike suzart Attain to cpf 051 812 95...
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...
 
Artigo webminig
Artigo webminigArtigo webminig
Artigo webminig
 
Java basico
Java basicoJava basico
Java basico
 
Pascal
PascalPascal
Pascal
 
Estrutra de dados java muito bom
Estrutra de dados java muito bomEstrutra de dados java muito bom
Estrutra de dados java muito bom
 
Iptables
IptablesIptables
Iptables
 
Nessus
NessusNessus
Nessus
 
Jdbc
JdbcJdbc
Jdbc
 
livrov2.pdf
livrov2.pdflivrov2.pdf
livrov2.pdf
 
X dialog
X dialogX dialog
X dialog
 
Monitoramento
MonitoramentoMonitoramento
Monitoramento
 
Recuperação de Informação: Análise sobre a contribuição da Ciência da Computa...
Recuperação de Informação: Análise sobre a contribuição da Ciência da Computa...Recuperação de Informação: Análise sobre a contribuição da Ciência da Computa...
Recuperação de Informação: Análise sobre a contribuição da Ciência da Computa...
 
Alzira fs
Alzira fsAlzira fs
Alzira fs
 
J2me
J2meJ2me
J2me
 

Mais de Leandro de Castro

2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural ComputingLeandro de Castro
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência ArtificialLeandro de Castro
 
2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in IsraelLeandro de Castro
 
2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in BrazilLeandro de Castro
 
2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira2017: Tópicos em Educação Financeira
2017: Tópicos em Educação FinanceiraLeandro de Castro
 
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...Leandro de Castro
 
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base TecnológicaLeandro de Castro
 
2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural NetworksLeandro de Castro
 
2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram NegóciosLeandro de Castro
 

Mais de Leandro de Castro (10)

2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing
 
2019: Folder do LCoN
2019: Folder do LCoN2019: Folder do LCoN
2019: Folder do LCoN
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial
 
2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel
 
2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil
 
2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira
 
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
 
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
 
2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks
 
2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios
 

2016 (Updated): Introdução à Mineração de Dados

  • 1. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Introdução à Mineração de Dados Slides do Curso Completo Copyright© 2008 by Leandro Nunes de Castro Este material foi desenvolvido com base em diversas referências da literatura, incluindo: WITTEN, I.H.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kauffman, 2005. HAN, J.; KAMBER, M. Data Mining, Concepts and Techniques. Morgan Kauffman, 2001. DE CASTRO, L. N., Fundamentals of Natural Computing: Basic Concepts, Algorithms, and Applications. CRC Press, 2006. WESTPHAL, C.; BLAXTON, T. Data Mining Solutions: Methods and Tools for Solving Real World Problems, John Wiley & Sons, 1998. TRIOLA, M. F. Introdução à Estatística. 7. ed. LTC Livros Técnicos e Científicos Editora S.A., 1999. Cluster Analysis. 4th Ed., Arnold. HRUSCHKA ET AL., “A Survey of Evolutionary Algorithms for Clustering”, IEEE Trans. On Syst., Man, and Cyb. – Part C, 39(2), pp. 133-155, 2009. Hodge, V. J.; Austin, J. (2004), “A Survey of Outlier Detection Methodologies”, Artificial Intelligence Review, 22, pp. 85-126. Há também contribuições obtidas a partir de trabalhos do Prof. Dr. Eduardo Raul Hruschka. E partes retiradas da empresa TUILUX da qual fui co-fundador e de dissertações e teses orientadas por mim nas instituições às quais estive vinculado até hoje.
  • 2. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro A primeira versão destes slides foi gerada em 2008 quando introduzi a disciplina Mineração de Dados no Programa de Pós-Graduação em Engenharia Elétrica da Universidade Mackenzie, instituição à qual estou vinculado atualmente. Desde 2008 esse material vem sendo aprimorado e atualizado para se adequar às necessidades dos alunos e incluir algumas das novidades da área. O uso deste material para fins acadêmicos é livre e gratuito, desde que sejam mantidas as informações originais de autoria. A sugestão de citação é: “L. N. de Castro, Introdução à Mineração de Dados, Material de Apoio do Curso Mineração de Dados do PPGEE- Universidade Mackenzie, Disponível online em http://www.slideshare.net/lndecastro, p. 403, Baixado em XX/XX/XXXX”. Outros cursos do autor, como “Fundamentos de Computação Natural”, “Introdução às Redes Neurais Artificiais” e “A Nova Escola do Empreendedorismo” estão disponíveis no mesmo Slideshare. Mais informações sobre o tema podem ser encontradas no site do Laboratório de Computação Natural (LCoN): http://www.mackenzie.br/lcon.html. Uma versão significativamente estendida, melhorada e corrigida deste material também será publicada sob a forma de livro entre o final de 2015 e início de 2016 com a parceria do Dr. Daniel Ferrari.
  • 3. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Sumário Sumário ...................................................................................................................... 3 Introdução................................................................................................................. 10 1. Introdução......................................................................................................... 10 1.1. As Diferentes Nomenclaturas ................................................................... 10 2. Motivação e Conceitos Básicos........................................................................ 20 2.1. A Mineração de Dados como um Processo............................................... 27 2.2. Dicas para uma Análise Eficiente e Eficaz ............................................... 32 3. Algumas Aplicações Práticas ........................................................................... 36 3.1. Predição de Pagamento de Empréstimos e Análise de Crédito................. 38 3.2. Classificação e Agrupamento de Clientes................................................. 38 3.3. Prevenção à Lavagem de Dinheiro e outros Crimes Financeiros.............. 39 3.4. Combate a Perdas Não-Técnicas de Energia Elétrica ............................... 40 3.5. Segmentação de Curvas de Carga em Sistemas de Energia Elétrica......... 43 3.6. Análise de Dados e Recomendação de Primeiro e Segundo Cursos ......... 45 3.7. Direito Ambiental..................................................................................... 46 4. Principais Tarefas ............................................................................................. 47 4.1. Descrição de Classes/Conceitos: Caracterização e Discriminação ........... 48 4.2. Associação................................................................................................ 50 4.3. Predição: Classificação e Estimação......................................................... 52
  • 4. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 4.4. Agrupamento ............................................................................................ 54 4.5. Detecção de Anomalias ............................................................................ 56 5. Paradigmas de Aprendizagem .......................................................................... 57 5.1. Aprendizagem Supervisionada ................................................................. 61 5.2. Aprendizagem Não-Supervisionada ......................................................... 62 5.3. Aprendizagem Por Reforço ...................................................................... 63 Pré-Processamento de Dados.................................................................................... 64 1. Introdução......................................................................................................... 64 2. Nomenclatura e Tipos de Dados....................................................................... 66 2.1. Exemplos de Bases de Dados ................................................................... 68 2.2. Sobre os Atributos .................................................................................... 76 3. Pré-Processamento dos Dados.......................................................................... 79 3.1. Limpeza dos Dados................................................................................... 81 3.2. Integração dos Dados................................................................................ 85 3.3. Redução dos Dados................................................................................... 89 3.4. Transformação dos Dados ...................................................................... 115 3.5. Discretização .......................................................................................... 122 Credibilidade do Processo de Aprendizagem ......................................................... 127 4. Introdução....................................................................................................... 127 5. Treinamento e Teste ....................................................................................... 132 5.1. Aprendizagem Supervisionada como Aproximação de Funções ............ 133
  • 5. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 5.2. Validação Cruzada como Critério de Parada .......................................... 137 6. Validação Cruzada.......................................................................................... 139 7. Avaliação de Desempenho ............................................................................. 144 7.1. Tarefas de Classificação ......................................................................... 145 7.2. Tarefas de Estimação.............................................................................. 158 7.3. Tarefas de Agrupamento......................................................................... 163 7.4. Tarefas de Associação ............................................................................ 170 Conceitos em Estatística Descritiva........................................................................ 173 8. Introdução....................................................................................................... 173 9. Distribuições de Frequência ........................................................................... 176 9.1. Construção da Distribuição de Frequência ............................................. 178 9.2. Distribuição de Frequência Relativa e Acumulada................................. 180 10. Visualização de Dados.................................................................................... 181 10.1. Histogramas............................................................................................ 182 10.2. Polígono de Frequências......................................................................... 184 10.3. Ogiva ...................................................................................................... 184 10.4. Gráfico de Pareto.................................................................................... 185 10.5. Gráfico de Setores .................................................................................. 187 10.6. Gráfico de Dispersão .............................................................................. 188 11. Medidas de Centro.......................................................................................... 190 12. Medidas de Variação ...................................................................................... 194
  • 6. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 13. Medidas de Posição Relativa.......................................................................... 199 14. Medidas de Associação .................................................................................. 202 14.1. Covariância............................................................................................. 202 14.2. Correlação............................................................................................... 203 Análise de Grupos .................................................................................................. 211 15. Introdução....................................................................................................... 211 15.1. Componentes da Tarefa de Agrupamento............................................... 215 15.2. Complexidade da Tarefa de Agrupamento ............................................. 219 15.3. Agrupamento x Classificação ................................................................. 221 16. Medidas de Proximidade ................................................................................ 222 16.1. Medidas de Similaridade para Dados Categóricos.................................. 224 16.2. Medidas de Dissimilaridade e Distância para Dados Contínuos............. 231 17. Tipos de Métodos de Agrupamento................................................................ 234 18. Algoritmos de Agrupamento .......................................................................... 238 18.1. Algoritmos Particionais .......................................................................... 238 18.2. Algoritmos Hierárquicos......................................................................... 253 19. Agrupamento Ótimo de Dados ....................................................................... 263 19.1. Codificação............................................................................................. 266 19.2. Operadores.............................................................................................. 269 19.3. Funções de Fitness.................................................................................. 275 Predição: Classificação e Estimação....................................................................... 280
  • 7. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 20. Introdução....................................................................................................... 280 21. Classificador k-NN ......................................................................................... 281 22. Árvores de Decisão......................................................................................... 282 22.1. Construção de Árvores de Decisão......................................................... 290 23. Regras de Classificação.................................................................................. 306 24. Classificador One-Rule (1R) .......................................................................... 307 25. Classificação Bayesiana ................................................................................. 310 25.1. Teorema de Bayes .................................................................................. 312 25.2. Construção do Classificador Bayesiano.................................................. 313 26. Estimação ....................................................................................................... 324 26.1. Regressão Linear .................................................................................... 325 Regras de Associação............................................................................................. 331 27. Introdução....................................................................................................... 331 27.1. Definição do Problema ........................................................................... 334 28. Minerando Regras de Associação................................................................... 339 28.1. Conceitos Básicos................................................................................... 339 28.2. Algoritmo Apriori de Mineração de Regras de Associação.................... 343 28.3. Funcionamento do Algoritmo................................................................. 347 Detecção de Anomalias .......................................................................................... 354 29. Introdução....................................................................................................... 354 30. Abordagens para Detecção de Anomalias ...................................................... 359
  • 8. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 30.1. Tipo 1: Aprendizagem Não-Supervisionada........................................... 359 30.2. Tipo 2: Aprendizagem Supervisionada................................................... 361 30.3. Tipo 3: Aprendizagem Semi-Supervisionada ......................................... 362 31. Áreas de Detecção de Anomalias ................................................................... 362 31.1. Métodos Estatísticos............................................................................... 363 31.2. Redes Neurais......................................................................................... 371 31.3. Aprendizagem de Máquina..................................................................... 375 31.4. Métodos Híbridos ................................................................................... 376 Mineração de Textos e Recomendação .................................................................. 377 32. Pré-Processamento e Análise de Textos ......................................................... 377 32.1. Introdução............................................................................................... 377 32.2. Análise Léxica ou Tokenização.............................................................. 378 32.3. Eliminação de Palavras Frequentes (Stopwords).................................... 379 32.4. Stemming................................................................................................ 380 32.5. Geração de Vetores e Armazenamento................................................... 381 32.6. Seleção de Características (Termos)....................................................... 384 32.7. Comparação de Documentos .................................................................. 386 32.8. Análise dos Textos.................................................................................. 387 33. Sistemas de Recomendação............................................................................ 389 33.1. Introdução............................................................................................... 389 33.2. Motivação............................................................................................... 391
  • 9. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 33.3. Tipos de Sistemas de Recomendação ..................................................... 393 33.4. Formalização do Problema de Recomendação ....................................... 394 33.4.1. Recomendação Colaborativa .............................................................. 399 33.4.2. Abordagens Híbridas .......................................................................... 403
  • 10. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Introdução 1. Introdução  Este material apresenta uma introdução ao processo de mineração de dados, com ênfase nas técnicas de análise de dados e suas aplicações.  Os métodos a serem implementados são particularmente orientados ao desenvolvimento de ferramentas escalonáveis e eficientes. 1.1. As Diferentes Nomenclaturas  A literatura está permeada de diferentes nomenclaturas para as muitas técnicas de solução de problemas e algoritmos computacionais que surgiram nas últimas décadas.
  • 11. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Este arsenal de métodos vem sendo desenvolvido por diferentes grupos de pesquisa ou empresas utilizando os mais variados recursos teóricos, práticos ou fontes de inspiração, desde a estatística até fenômenos só observados na natureza.  O objetivo desta seção é listar as principais nomenclaturas e situar os alunos em relação a estas nomenclaturas, quando elas surgiram, por que e o que as diferencia das demais. IA Clássica  As técnicas mais tradicionais de inteligência artificial eram simbólicas, ou seja, propunham que uma manipulação algorítmica de estruturas simbólicas é necessária e suficiente para o desenvolvimento de sistemas inteligentes.  Esta tradição simbólica também engloba as abordagens baseadas em lógica, nas quais os símbolos são utilizados para representar objetos e relações entre objetos, e estruturas simbólicas são utilizadas para representar fatos conhecidos.
  • 12. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Uma característica marcante da IA clássica era a forma utilizada para construir o sistema inteligente.  Existia uma visão procedural sugerindo que sistemas inteligentes poderiam ser projetados codificando-se conhecimentos especialistas em algoritmos específicos. Estes sistemas foram denominados genericamente de sistemas baseados em conhecimento (knowledge-based systems) ou sistemas especialistas (expert systems).  Exemplo: sistema para diagnóstico médico.  Atualmente a IA clássica envolve basicamente os sistemas especialistas, diversos métodos de busca, alguns sistemas baseados em agentes, e sistemas de raciocínio ou inferência baseados em lógica.
  • 13. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Divórcio entre IA e Inteligência Computacional  Em meados dos anos 1960, novos sistemas começaram a ser desenvolvidos através da observação de outros fenômenos inteligentes naturais além da inteligência humana.  Quem classificaria o mecanismo utilizado pelos cupins para a construção de seus ninhos como um comportamento inteligente?  Vários outros exemplos existem na natureza: evolução das espécies, construção de colméias de abelhas, coleta de comida por formigas, etc.  A dificuldade encontrada pela IA clássica em prover suas promessas (robôs inteligentes, etc.), geraram várias discordâncias entre ela e as abordagens mais recentes como redes neurais artificiais. Um dos motivos principais era, é claro, a disputa por financiamentos.
  • 14. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Houve então uma necessidade de dissociar redes neurais das técnicas de IA clássica, e, para isso, criou-se uma nova linha de pesquisa denominada de inteligência computacional.  A inteligência computacional engloba principalmente as redes neurais artificiais, a computação evolutiva, os sistemas nebulosos, e mais recentemente, a inteligência coletiva e os sistemas imunológicos artificiais. Aprendizagem de Máquina  Adaptação pode ser definida como a habilidade de um sistema ajustar sua resposta a estímulos ambientais. Adaptação é um sinônimo de mudança, variação. Um agente que sofre modificação, de forma a se tornar melhor preparado para uma situação ou aplicação, torna-se mais adaptado a este novo cenário.  Existem muitas palavras que podem ser interpretadas como sinônimos da palavra adaptação, por exemplo, evolução, aprendizagem e auto-organização.
  • 15. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Entretanto, estes conceitos também podem ser vistos como sendo resultantes de um processo adaptativo.  A aprendizagem corresponde ao ato, processo ou experiência de adquirir conhecimento, compreensão, capacidade ou abilidade, através de experiência, estudo ou interações.  Sistemas que sofrem aprendizagem são geralmente aqueles capazes de se adaptar ou mudar seu comportamento baseado em exemplos, de forma a manipular informações.  Uma virtude importante da aprendizagem baseada em adaptação é a possibilidade de resolver tarefas de processamento de informação e a capacidade de operar em ambientes dinâmicos.  A maioria dos processos de aprendizagem é gradativa, ou seja, a aprendizagem não ocorre instantaneamente, mas requer um processo interativo e/ou iterativo de adaptação e interação com o ambiente.
  • 16. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Quando um sistema aprende alguma coisa, ele altera seu padrão comportamental ou alguma outra de suas características.  Existem formas de aprendizagem que não são gradativas, por exemplo, a memorização.  É importante salientar que a aprendizagem não requer consciência e nem inteligência. Animais e insetos aprendem os caminhos que devem seguir para obter comida, se reproduzir, etc.  A aprendizagem de máquina pode ser entendida como uma sub-área da inteligência artificial voltada para o projeto e desenvolvimento de algoritmos e técnicas que permitam aos computadores aprenderem ou, melhor dizendo, se adaptarem.  Ela surgiu no início da década 1990 e seu principal foco é extrair informação a partir de dados automaticamente, usando métodos computacionais ou estatísticos.
  • 17. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Portanto, a aprendizagem de máquina está intimamente relacionada à mineração de dados, estatística, inteligência artificial e teoria da computação, além de a outras áreas como computação natural, sistemas complexos adaptativos e computação flexível, como será visto a seguir.  Os principais métodos investigados nesta área são aqueles que trabalham com dados nominais como, por exemplo, árvores de decisão, regras de associação e classificação, tabelas de decisão e outros. Além destes destacam-se os algoritmos baseados na teoria de Bayes, alguns métodos estatísticos e métodos de agrupamento de dados. Outras Nomenclaturas  Diversas outras nomenclaturas existem, como computação flexível (soft computing) e sistemas complexos.
  • 18. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  A computação flexível foi um termo introduzido por L. Zadeh para descrever uma nova metodologia de computação que permitiu a manipulação de variáveis linguísticas e raciocínio aproximado.  Atualmente, computação flexível é o termo utilizado para descrever basicamente técnicas híbridas de computação inteligente, como sistemas neuro-nebulosos, neuro-evolutivos, etc.  Os sistemas complexos, por outro lado, são aqueles compostos por uma grande quantidade de componentes que interagem entre si, e cujas propriedades globais são não-lineares. Eles geralmente apresentam processos auto-organizados. o Exemplos de sistemas complexos: sistemas imunológicos, colônias de insetos, revoada de pássaros, redes neurais, etc.  Por fim, uma terminologia bastante recente é a computação natural. A computação natural pode ser dividida em três grandes sub-áreas:
  • 19. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro o Computação inspirada na natureza: utiliza a natureza como fonte de inspiração para o desenvolvimento de novas técnicas computacionais de solução de problemas; o Simulação e emulação da natureza utilizando a computação: trata-se basicamente de um processo de síntese que objetiva criar formas, padrões e comportamentos similares àqueles conhecidos na natureza. Além disso, algumas áreas visam o desenvolvimento de organismos artificiais; e o Computação com materiais naturais: corresponde ao uso de um novo tipo de matéria prima para computar. Trata-se de um novo paradigma de computação que vem com o objetivo principal de substituir a tecnologia de silício empregada atualmente.  Sendo assim, é possível definir a computação natural como sendo a linha de pesquisa que, baseada ou inspirada na natureza: 1) permite o desenvolvimento de novas ferramentas de computação (em software e/ou hardware) para a solução de
  • 20. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro problemas; 2) resulta em processos de síntese de padrões, formas, comportamentos e organismos; e 3) que utiliza matéria-prima natural para o desenvolvimento de novos tipos de computadores.  As principais sub-áreas da computação natural são as redes neurais artificiais, a computação evolutiva, a inteligência de enxame, os sistemas imunológicos artificiais, a vida artificial, a geometria fractal, a computação molecular e a computação de DNA. 2. Motivação e Conceitos Básicos  Vamos considerar inicialmente os seguintes fatos: o A maioria das organizações despende bastante tempo e esforço na construção e manutenção de bases de dados, o que gerou inclusive especialidades como os DBAs (data base administrators), negócios como as empresas de indexação de bancos de dados, e muitas outras demandas.
  • 21. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro o Frequentemente os dados não podem ser analisados manualmente ou através de métodos convencionais de estatística devido a fatores como grande quantidade de registros, elevado número de atributos, valores ausentes, presença de dados qualitativos e não quantitativos, etc. o Na maioria das vezes a informação contida nas bases de dados corporativas é subvalorizada ou subutilizada, pois os dados não são acessados ou analisados. o Algumas bases de dados crescem tanto que nem os administradores conhecem as informações que podem ser representadas ou a relevância que elas podem ter para uma análise. o É muito útil para as organizações ter ferramentas e processos para a extração de conhecimentos a partir dessas bases de dados para a tomada de decisão estratégica, tática e operacional.
  • 22. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  A tecnologia computacional tem evoluído de forma extraordinária, assim como a velocidade de processamento e a capacidade de armazenamento têm aumentado de maneira significativa.  Concomitantemente, ampliam-se as nossas capacidades de gerar, coletar e processar dados, propiciando a aplicação eficiente das tecnologias de informação emergentes.  A indústria dos bancos de dados (databases) testemunhou o desenvolvimento das seguintes funcionalidades: o Coleta de dados; o Criação da base de dados; o Gerenciamento dos dados, incluindo a armazenagem, recuperação e o processamento da base de dados de transações; o Análise e compreensão dos dados, envolvendo os armazéns de dados e a mineração de dados.
  • 23. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  A ampla utilização dos códigos de barras identificadores de produtos, a informatização das transações comerciais e os avanços nas ferramentas de coleta de dados têm proporcionado a utilização de grandes bancos de dados em muitas áreas da atividade humana.  Paradoxalmente, esses avanços da tecnologia têm produzido um problema de super-abundância de dados, pois nossas capacidades de coletar e armazenar dados têm superado nossa habilidade de analisar e extrair conhecimento dos mesmos.  Nesse contexto, é necessária a aplicação de técnicas e ferramentas que transformem, de maneira inteligente e automática, os dados disponíveis em informações úteis, que representem conhecimento.  Neste sentido, pesquisadores das mais variadas áreas têm se dedicado a estudar métodos para mineração de dados.  O termo mineração de dados, ou data mining, surgiu do interesse em se utilizar grandes bancos de dados de uma maneira inteligente e sugere uma analogia
  • 24. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro interessante: explora-se uma mina de dados, purificando-se o minério para obter o ouro – conhecimento, que se refere às informações e aos modelos, armazenados por uma pessoa ou máquina, utilizados para apropriadamente interpretar, prever e responder ao mundo exterior.  A ideia de descobrir conhecimento em grandes conjuntos de dados é muito interessante e até intuitiva, mas tecnicamente é uma tarefa significativamente difícil e desafiadora, requerendo ativa participação de engenheiros de conhecimento, analistas de sistemas, analistas de dados, especialistas do domínio, usuários do sistema, estatísticos, etc.  É, portanto, uma tarefa interdisciplinar e multidisciplinar, centralizada na participação ativa do ser humano.  De um modo mais formal, pode-se dizer que a mineração de dados se refere a uma classe de métodos utilizados em alguns passos que abrangem o processo de
  • 25. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro descoberta de conhecimento em bancos de dados (Knowledge Discovery in Databases – KDD).  Este termo, cunhado em 1989, se refere ao processo, interativo e iterativo, de descoberta de conhecimento em conjuntos de dados, incorporando conhecimento de domínio e interpretação de resultados, com ênfase na aplicação dos métodos de mineração de dados.  O processo de descoberta de conhecimento em banco de dados é útil em vários domínios da ciência (e.g., bioinformática), bem como em várias outras aplicações, tais como Marketing e Finanças.  Nesse contexto, os bancos de dados representam depósitos de conhecimento em potencial, que podem ser explorados para se descobrir relações, padrões e regras.  Pode-se definir a descoberta de conhecimento em bancos de dados como sendo o processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis em grandes bancos de dados.
  • 26. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  A avaliação relativa ao tamanho do banco de dados é de caráter subjetivo, mas pode-se dizer que as aplicações de mineração de dados se justificam quando a quantidade de dados oculta as valiosas relações presentes nos mesmos.  A maioria dos métodos de mineração de dados é baseada em conceitos de aprendizado de máquina, reconhecimento de padrões e estatística, sendo utilizados, na maioria das aplicações, em tarefas de previsão e de descrição.  A viabilidade da aplicação das técnicas de data mining pode ser avaliada por meio de critérios práticos e técnicos.  O critério prático envolve, basicamente, a consideração do impacto de uma aplicação, ou seja, uma análise de custo/benefício, na qual o valor da informação obtida deve ser superior ao custo do processamento dos dados.  Consideram-se, ainda, a disponibilidade de utilização de técnicas tradicionais, bem como de especialistas no domínio.
  • 27. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Um aspecto também importante diz respeito à segurança e privacidade das informações contidas no banco de dados.  Devem ser consideradas, também, as implicações éticas nas aplicações que envolvem informações pessoais.  Em aplicações científicas, avalia-se fundamentalmente o potencial referente à originalidade e à qualidade do conhecimento adquirido.  No tocante ao critério técnico, considera-se a disponibilidade de dados em quantidade e qualidade necessárias e suficientes para realizar a aplicação.  Cabe observar, ainda, que a disponibilidade de conhecimento de domínio é um fator importante para o sucesso de uma aplicação de mineração de dados. 2.1. A Mineração de Dados como um Processo  O processo de descoberta de conhecimento é interativo e iterativo, enfatizando a aplicação de técnicas de mineração de dados, as quais envolvem basicamente três etapas (Figura 1):
  • 28. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro o Preparação ou pré-processamento de dados: limpeza (remoção de ruídos e dados inconsistentes), integração (múltiplas fontes de dados são combinadas), seleção ou redução (escolha dos dados relevantes à análise), transformação (transformação ou consolidação dos dados em formatos apropriados para a mineração); o Mineração de dados: aplicação de algoritmos para a extração de padrões à partir dos dados; e o Análise ou avaliação das informações: identificação e apresentação de informações ou conhecimentos verdadeiramente úteis.  Estas três etapas são correlacionadas e interdependentes, de tal forma que a abordagem ideal para extrair informações relevantes em bancos de dados consiste em considerar as inter-relações entre cada uma das etapas e sua influência no resultado final.
  • 29. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Figura 1: Processo de descoberta de conhecimento em bases de dados. (Fonte: Fayyad et al., 1996)  Obs.: Sob uma perspectiva de armazém de dados (data warehouse), o processo de mineração de dados pode ser visto como um estágio avançado do processamento analítico on-line (On-Line Analytical Processing - OLAP). Entretanto, a mineração de dados vai muito além do escopo restrito típico de um OLAP, baseado em
  • 30. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro métodos de resumo ou sumarização de dados, incorporando técnicas mais avançadas para a compreensão dos dados.  A mineração de dados é uma disciplina interdisciplinar e multidisciplinar, envolvendo conhecimento de áreas como banco de dados, estatística, aprendizagem de máquina, computação de alto desempenho, reconhecimento de padrões, redes neurais artificiais, visualização de dados, recuperação de informação, processamento de imagens e de sinais, e análise espacial de dados (Figura 2).
  • 31. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Mineração de Dados Bancos de Dados Outras Disciplinas Sistemas de Informação Aprendizagem de Máquina Visualização Estatística Inteligência Artificial Figura 2: Multidisciplinaridade da mineração de dados.  O foco de apresentação deste curso é nas técnicas de aprendizagem de máquina. Outras técnicas, como as redes neurais artificiais e os algoritmos bio-inspirados, são vistas em cursos específicos.
  • 32. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  O processo de mineração de dados deverá permitir que conhecimentos interessantes e úteis sejam extraídos da base de dados e visualizados sob diferentes perspectivas.  Este conhecimento poderá ser usado para a tomada de decisão, controle de processos, gestão da informação e conhecimento, processamento de consultas e muitas outras aplicações. 2.2. Dicas para uma Análise Eficiente e Eficaz  A mineração de dados pode levar a uma capacidade preditiva e analítica poderosa dos dados.  Mesmo quando aplicada corretamente, a capacidade de trabalhar com múltiplas variáveis e suas relações tornam os processos de mineração e interpretação dos resultados substancialmente complexos.  Considerando esta complexidade, é preciso que o ‘analista’ esteja atento para os fundamentos conceituais necessários para o uso e entendimento de cada técnica.
  • 33. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Abaixo segue uma lista de considerações (inevitavelmente incompleta) que podem servir como guia para uma mineração eficiente e eficaz: 1. Estabelecer a significância prática e estatística da mineração: a significância estatística da mineração permite, por exemplo, que diferentes métodos sejam comparados entre si. A significância prática, por sua vez, faz a pergunta: “E daí?”, ou seja, qual uso será feito da mineração dos dados? 2. Reconhecer que as características da base de dados influenciam todos os resultados: o processo de mineração opera, quase que em sua totalidade, sobre uma base de dados pré-processada. É importante reconhecer que a quantidade de objetos na base, a dimensão (número de atributos) destes objetos, o tipo de atributos e seus domínios, a ausência de valores na base e muitas outras características dos dados afetarão fortemente o resultado da análise, podendo, inclusive, invalidá-la.
  • 34. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3. Necessidade de conhecer os dados: a discussão acima implica que análises preliminares dos dados, como medidas de tendência central (por variável), análise de componentes principais e muitos outros métodos (estatísticos) simples podem ser aplicados à base com o objetivo de entendê-la melhor antes de se iniciar a mineração propriamente dita. O Tópico 04 (Descrição de Classes/Conceitos) abordará alguns destes métodos. 4. Busca pela parcimônia: boa parte dos algoritmos de mineração resulta em uma espécie de ‘modelo’ dos dados que poderá ser usado posteriormente para fazer alguma inferência ou predição. É possível que a escolha de diferentes amostras dos dados, ou mesmo diferentes execuções dos algoritmos, resultem em modelos com características distintas. Nestes casos a escolha por um ou outro modelo deve considerar, dentre outros aspectos, a parcimônia da solução, ou seja, a complexidade do modelo resultante. Obs.: muitas vezes a complexidade de
  • 35. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro geração do modelo é aspecto crucial na escolha de uma ferramenta dentro de um conjunto de possibilidades. 5. Verifique os erros: em tarefas de predição (classificação ou estimação) é essencial investigar os resultados dos algoritmos. Por exemplo, por que um determinado algoritmo classificou incorretamente alguns objetos da base? Os erros de predição não devem ser vistos apenas como algo a ser eliminado ou reduzido, mas sim como um ponto de partida para um diagnóstico da validade dos resultados obtidos e um indicativo de relações inexplicadas entre objetos e/ou atributos. 6. Valide seus resultados: os resultados de uma análise precisam ser validados de diversas formas, por exemplo, comparando com o resultado de outras técnicas, analisando a capacidade de generalização dos métodos, combinando com outras técnicas, etc.
  • 36. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3. Algumas Aplicações Práticas  Há uma vasta literatura sobre aplicações de técnicas de mineração de dados. São típicas aplicações em áreas como análise e predição de crédito, detecção de fraudes, predição do mercado financeiro, relacionamento com os clientes, predição de falência corporativa, e muitas outras.  Exemplos de segmentos de aplicação: o Setor financeiro; o Planejamento estratégico empresarial; o Planejamento do setor portuário; o Setor de energia (petróleo, gás, energia elétrica, biocombustíveis, etc.); o Escolas, Universidades, Faculdades, etc.; o Logística; planejamento das cadeias de produção, distribuição e suprimentos; o Meio Ambiente; o Internet: portais, redes sociais, comércio eletrônico, etc.
  • 37. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Exemplos de aplicações típicas: o Identificação ou segmentação de clientes, parceiros, colaboradores; o Detecção de fraudes e anomalias em sistemas e processos; o Ações estratégicas de marketing, CRM e RH; o Jogos e atividades educacionais; o Gestão do conhecimento; o Análise de padrões de consumo; o Compreensão de bases de dados industriais, biológicas, empresariais e acadêmicas; o Predição de ROI, despesas, receitas, investimentos, etc.; o Mineração de dados da web; o Outras.  A seguir apresentamos alguns exemplos práticos de aplicação de mineração de dados.
  • 38. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3.1. Predição de Pagamento de Empréstimos e Análise de Crédito  Diversos fatores podem influenciar fortemente ou fracamente o pagamento de empréstimos e a análise de crédito de clientes.  Métodos de mineração de dados, como seleção de atributos e ranqueamento de relevância de atributos, podem ajudar a identificar atributos importantes e eliminar atributos irrelevantes.  Por exemplo, fatores relacionados ao risco de inadimplência incluem a razão entre o empréstimo e o valor das prestações, os termos do empréstimo, a razão de débito (valor da prestação em relação ao salário do cliente), nível educacional, local de residência, histórico de crédito, etc. 3.2. Classificação e Agrupamento de Clientes  Técnicas de classificação e agrupamento de clientes podem ser usadas em diversos contextos, como para a execução de marketing direcionado.
  • 39. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3.3. Prevenção à Lavagem de Dinheiro e outros Crimes Financeiros  Para a detecção de lavagem de dinheiro e outros crimes financeiros normalmente é importante integrar dados de diferentes bases, como bases de dados de transações bancárias, bases de dados de crimes estaduais e/ou federais, etc.  Múltiplas técnicas de análise de dados podem ser usadas para detectar padrões incomuns, como fluxos de caixa muito grandes em certos períodos, por certos grupos de pessoas, etc.  Ferramentas úteis para este tipo de análise incluem métodos de visualização, técnicas de associação, agrupamento e classificação de dados, além dos métodos de detecção de anomalias.  Estas técnicas podem identificar relações e padrões de atividade importantes, ajudando os investigadores a focarem em ações suspeitas.
  • 40. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3.4. Combate a Perdas Não-Técnicas de Energia Elétrica  A existência de perdas em um sistema de energia elétrica é consequência natural do consumo de energia.  As perdas podem ser categorizadas de acordo com o efeito, componente do sistema, ou causa da perda e podem ser resumidas em: o Perdas Técnicas (PT): intrínsecas ao sistema elétrico, o que inclui as perdas nos equipamentos, na transformação e na distribuição da energia. o Perdas Comerciais (PC): também chamadas de perdas não-técnicas, são consequência, principalmente, de erros ou ausência de medição, medidores com defeito, consumidores clandestinos, desvio de consumo e furto de energia.  Um dos grandes problemas enfrentados pelas empresas distribuidoras de energia elétrica são as perdas comerciais provocadas intencionalmente por consumidores ou por falhas nos medidores.
  • 41. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Diversos tipos de atividades têm sido aplicadas na redução destas perdas, tais como: campanhas publicitárias educativas, inspeções de consumidores, inspeções específicas em consumidores com perfil de consumo considerado suspeito, substituição de medidores eletromecânicos por medidores eletrônicos, programas de exteriorização da medição, operações de eliminação de ligações clandestinas, dentre outras.  Uma das formas de reduzir as perdas comerciais é realizar inspeções técnicas no local de consumo em busca de irregularidades, que vão desde a adulteração dos dispositivos de medição (fraude) até o furto ou desvio da energia propriamente dita. Entretanto, além da impossibilidade de inspecionar todos os consumidores, o custo associado à inspeção é alto, uma vez que este processo demanda tempo, requer o deslocamento de uma equipe em campo e muitos dos consumidores inspecionados não são fraudadores.
  • 42. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Baseado nos dados de fiscalização obtidos a partir de medidas amostrais em campo pode ser feita uma análise de dados para investigar interrelações entre as amostras, segmentando os dados em grupos, possivelmente, hierarquicamente vinculados, permitindo uma definição de pontos estratégicos de fiscalização.  Outra tarefa possível é a classificação automática dos cadastros disponíveis, a partir da qual pode-se desenvolver um sistema de classificação que permita identificar automaticamente aqueles consumidores que provavelmente estejam causando perda de receita para a concessionária. Trata-se, portanto, de uma etapa na qual é feita a prospecção de possíveis perdas comerciais. Esta informação pode ser empregada no direcionamento das equipes de fiscalização e auditoria, impactando diretamente na redução das perdas não técnicas.  Além destas análises, dado o perfil de consumo dos usuários pode ser feito um levantamento das curvas típicas de hábito de consumo, permitindo uma identificação automática de novos clientes e de anomalias em clientes já existentes.
  • 43. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3.5. Segmentação de Curvas de Carga em Sistemas de Energia Elétrica  Apesar do alto grau de desenvolvimento tecnológico da atualidade, só conseguimos armazenar energia elétrica em pequenas quantidades.  No caso da energia elétrica consumida pelas indústrias, empresas e residências, a capacidade produtiva das usinas deve ser aproximadamente a mesma da energia consumida.  A pergunta que as usinas geradoras precisam responder, portanto, é qual será o consumo de energia elétrica a cada dia, ou seja, é preciso prever a demanda de energia elétrica para que uma quantidade suficiente seja produzida.  A falta de planejamento e investimentos no setor produtivo de energia elétrica pode causar apagões, cortes indesejáveis no fornecimento de energia, podendo até paralizar a produção industrial e o desempenho de outros serviços.  No Brasil três grandes apagões ocorreram nos anos 2001, 2002 e 2009 devido a esta falta de planejamento ou outros problemas na geração ou distribuição da
  • 44. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro energia, o que levou o governo a estimular o racionamento voluntário, promovendo a economia e penalizando o desperdício de energia elétrica.  Com o objetivo de melhorar o planejamento da produção de energia elétrica é possível fazer a previsão de carga (consumo) a curto-prazo de um sistema elétrico de potência.  Para prever as cargas horárias de um dia, o padrão de carga horário e as cargas máxima e mínima devem ser determinados. O objetivo é identificar dias da semana com padrões de cargas horárias similares e, posteriormente, realizar a previsão de demanda do setor.  A previsão de demanda de carga é um meio de fornecer informações para uma tomada de decisão criteriosa que proporciona economia e segurança no fornecimento de energia elétrica. Para isso, uma companhia elétrica precisa resolver vários problemas técnicos e econômicos no planejamento e controle da operação do sistema de energia elétrica.
  • 45. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3.6. Análise de Dados e Recomendação de Primeiro e Segundo Cursos  O ensino superior é um dos segmentos de mercado mais concorridos para as empresas do setor.  Para garantir e aumentar a competitividade, algumas empresas decidiram aplicar técnicas de mineração de dados para reduzir evasão e inadimplência, ao mesmo tempo em que aumentem a demanda pelos cursos existentes.  Várias análises podem ser efetuadas, como: o Identificar os perfis da base de interessados e matriculados por curso e categorias de curso; o Identificar os perfis de inadimplência e evasão da base de matriculados; o Identificar quais ferramentas de marketing são mais eficazes na captação de alunos; o Identificar potenciais alunos da base de dados para recomendar um (novo) curso;
  • 46. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro o Identificar e captar interessados que não se matriculam; o Alinhar o perfil da base em potencial com os cursos do portfólio da instituição.  Usando informações referentes aos seguintes atributos (Sexo, Estado Civil, Atuação, Renda, Faixa de Idade, Nível Hierárquico, Ano de Graduação, Cidade de Residência, Cidade Onde Trabalha, Porte da Empresa, Área, Nome do Curso, Origem, Como Soube) é possível realizar análises como: o Descrição das características da base o Análise de grupos o Inferência de regras de classificação o Análise de associação entre atributos o Predição de cursos e qualquer outro atributo 3.7. Direito Ambiental  Muitas empresas precisam consultar bases de dados eletrônicas (p. ex., DOU, DOE e DOM) regularmente em busca de novas leis, decretos e resoluções.
  • 47. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Na maioria das vezes essas buscas são feitas por pessoas, que passam horas visitando sites, baixando e lendo documentos em busca de atualizações e novas leis que regulamentam determinado setor.  Esse processo de busca automática de fontes de informação, segmentação de documentos com base nos seus conteúdos e caracterização de acordo com o perfil de clientes da empresa pode ser automatizado por técnicas de mineração de dados. 4. Principais Tarefas  As funcionalidades da mineração de dados são usadas para especificar os tipos de informações a serem obtidas nas tarefas de mineração.  Em geral estas tarefas podem ser classificadas em duas categorias: o Descritivas: caracterizam as propriedades gerais dos dados; e o Preditivas: fazem inferência com os dados objetivando predições.
  • 48. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Em muitos casos o usuário não tem ideia do tipo de conhecimento contido nos dados, tornando importante a capacidade das ferramentas de mineração em encontrar diferentes tipos de conhecimento.  As principais tarefas de mineração de dados são descritas a seguir. 4.1. Descrição de Classes/Conceitos: Caracterização e Discriminação  Os dados podem estar associados a classes ou conceitos.  Por exemplo, no caso de detecção de fraudes classes úteis são fraude e transação legítima.  Pode ser útil descrever classes e conceitos individuais de forma resumida e concisa, mas precisa. Estas descrições são denominadas descrição de classe/conceito.  As descrições podem ser derivadas através de uma caracterização dos dados, sumarizando os dados da classe, ou de uma discriminação dos dados, comparando a classe alvo com uma ou um grupo de classes comparativas, ou ambas.
  • 49. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  A caracterização dos dados é uma sumarização de características ou atributos gerais de uma determinada classe dos dados, e pode ser apresentada, por exemplo, através de gráficos do tipo torta, gráficos em barra, curvas, tabelas, etc. o Por exemplo, qual a descrição que resume as características dos clientes que gastam mais do que R$ 2.000,00/mês de cartão de crédito? Estes clientes normalmente possuem idade entre 40 e 50 anos, são casados e têm filhos, possuem curso superior, etc.  A discriminação dos dados é uma comparação das características gerais de objetos pertencentes a uma determinada classe alvo com uma ou mais características gerais de objetos pertencentes a outras classes contrastantes. o Por exemplo, um sistema de mineração de dados pode permitir verificar que 80% dos consumidores que compram computadores possuem idade entre 20 e 40 anos e são graduados, enquanto 60% dos consumidores que não compram
  • 50. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro computadores são pessoas de idade ( > 60 anos ) e não possuem curso universitário. 4.2. Associação  A análise por associação corresponde à descoberta de regras de associação que apresentam valores de atributos que ocorrem concomitantemente em uma base de dados.  Este tipo de análise normalmente é usado em ações de marketing e para o estudo de bases de dados transacionais.  Mais formalmente, regras de associação possuem a forma X  Y, ou seja, A1  A2 ...  Am  B1  B2 ...  Bn, onde Ai, i = 1, ... , m, e Bj, j = 1, ... , n, são pares de valores de atributos.  As regras de associação X  Y são interpretadas da seguinte forma: o Registros da base de dados que satisfazem a condição em X também satisfazem a condição em Y.
  • 51. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Exemplo: Seja a seguinte regra de associação. idade(X, 20...29)  salário(X, 20K...29K)  compra(X, computador) [suporte = 2%, confiança = 60%] onde X é uma variável que representa um cliente. Esta regra indica que dentre todos os clientes sendo investigados, 2% deles possuem idade entre 20 e 29 anos, salário entre 20K e 29K e compraram computador. Além disso, há uma probabilidade igual a 60% de que um cliente com esta idade e faixa salarial compre um computador.  Em aplicações de marketing, por exemplo, este tipo de metodologia pode ser usado para identificar quais itens são comprados juntos. Na detecção de fraudes esta metodologia pode permitir a identificação de características ou comportamentos que ocorrem simultaneamente.
  • 52. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 4.3. Predição: Classificação e Estimação  Predição é uma terminologia usada para se referir à construção e uso de um modelo para avaliar a classe de um objeto não rotulado, ou para estimar o valor de um atributo de um dado objeto. o No primeiro caso denominamos a tarefa de classificação e no segundo caso denominamos de regressão (em estatística) ou simplesmente estimação.  Sob esta perspectiva, classificação e regressão constituem os dois principais tipos de problemas de predição, onde a classificação é usada para predizer valores nominais ou discretos, enquanto a regressão é usada para predizer valores contínuos ou ordinais.  Exemplos: classificação (O crédito será oferecido ou não?); regressão (Qual o valor do crédito a ser oferecido?).  O processo de predição, classificação ou estimação, possui duas etapas essenciais:
  • 53. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro o Treinamento: na primeira etapa o preditor (classificador ou estimador) é gerado, tal que ele se torne capaz de descrever e distinguir um conjunto pré-determinado de classes. O classificador é gerado usando um conjunto de dados de treinamento rotulados, ou seja, para cada vetor de entradas a saída desejada, que pode ser a classe à qual o objeto pertence, é conhecida. Isso implica na disponibilidade de pares {(xi,ci)}i = 1,...,N, onde xi e ci i, são os vetores de entrada e as respectivas saídas desejadas. o Teste: uma vez que o preditor foi gerado, é preciso avaliar seu desempenho quando aplicado a dados não usados no processo de treinamento, conhecidos como dados de teste ou, em alguns casos, dados de validação. O desempenho do preditor quando aplicado a dados de teste oferece uma estimativa de sua capacidade de generalização.
  • 54. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Como os rótulos das classes dos dados de treinamento são conhecidos, este processo é denominado de treinamento supervisionado (ou aprendizagem supervisionada).  Exemplos de tarefas de classificação: identificação de spams, classificação de objetos, atribuição de crédito, detecção de fraudes, etc.  Exemplos de tarefas de estimação: predição de produtividade de grãos, estimativa de desempenho de atletas, estimativa de crédito, etc. 4.4. Agrupamento  Clustering é o nome dado ao processo de agrupamento de um conjunto de objetos em classes ou clusters (grupos) de objetos similares.  Diferentemente dos processos de classificação, a análise de clusters considera dados de entrada não-rotulados, ou seja, a classe à qual cada padrão de entrada (objeto) pertence não é conhecida a priori.
  • 55. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro o O processo de agrupamento ou clusterização é normalmente usado para identificar tais classes.  Os objetos são agrupados com o objetivo de maximizar a distância inter-classe e minimizar a distância intra-classe, ou, dito de outra forma, maximizar a similaridade intra-classe e minimizar a similaridade inter-classe. o Portanto, um cluster é uma coleção de objetos similares uns aos outros e dissimilares aos objetos de outros clusters.  Cada cluster formado pode ser visto como uma classe de objetos.  Como os rótulos das classes dos dados de treinamento não são conhecidos, este processo é denominado de treinamento não-supervisionado (ou aprendizagem não-supervisionada).
  • 56. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 4.5. Detecção de Anomalias  Uma base de dados pode conter objetos que não seguem o comportamento ou característica comum dos dados ou de um modelo deles. Estes dados são conhecidos como anomalias ou outliers.  A maioria das ferramentas de mineração descarta as anomalias como ruídos ou exceções. Entretanto, em algumas aplicações, como na detecção de fraudes, os eventos raros podem ser mais informativos do que aqueles que ocorrem regularmente.  As anomalias podem ser detectadas de diversas formas, incluindo usando métodos estatísticos que assumem uma distribuição ou modelo de probabilidade dos dados, ou usando medidas de distância através das quais objetos substancialmente distantes dos outros são considerados anomalias.
  • 57. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Por exemplo, no caso de fraudes em cartões de crédito, valores muito acima dos usuais para um dado cliente, assim como o tipo, o local e a frequência de uma dada compra são indicativos de uma anomalia. 5. Paradigmas de Aprendizagem  A capacidade de aprender associada a um sistema inteligente, mais especificamente a uma ferramenta de aprendizagem de máquina, é uma das mais importantes qualidades destas estruturas.  Trata-se da habilidade de adaptar-se, de acordo com regras pré-existentes, ao seu ambiente, alterando seu desempenho ao longo do tempo.  Sendo assim, considera-se aprendizado o processo que adapta o comportamento e conduz a uma “melhoria” de desempenho.  No contexto de aprendizagem de máquina, aprendizagem ou treinamento corresponde ao processo de ajuste dos parâmetros livres do sistema através de um
  • 58. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro mecanismo de apresentação de estímulos ambientais, conhecidos como padrões (ou dados) de entrada ou de treinamento: estímulo  adaptação  novo comportamento da rede  O objetivo do aprendizado em mineração de dados é a obtenção de um modelo implícito ou extração de informação dos dados em estudo.  Um conjunto bem definido de regras ou passos para a obtenção do modelo ou extração de informação de uma base de dados é denominado um algoritmo de aprendizagem ou treinamento.  A maneira pela qual o ambiente influencia o sistema em seu aprendizado define o paradigma de aprendizagem. Exemplos de paradigmas: aprendizado supervisionado, aprendizado por reforço e aprendizado não-supervisionado (ou auto-organizado).
  • 59. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Seja qual for o algoritmo ou o paradigma utilizado, ao alcançarmos o objetivo obtemos uma representação de conhecimento que obedece a uma ou mais das quatro regras de bom senso descritas abaixo: R1 entradas similares provenientes de classes similares de fenômenos ou eventos tendem a produzir representações similares dentro do sistema, o que pode levar a ‘classificá-las’ como pertencentes à mesma categoria. R2 itens que devem ser classificados ou processados distintamente devem provocar, de alguma forma, representações distintas dentro do sistema. R3 se uma característica é importante, então devem ser alocados recursos do sistema para representá-la devidamente. Quanto mais complexa a representação, mais recursos devem ser alocados. R4 a etapa de aprendizado pode ser simplificada caso as informações conhecidas a priori e invariâncias sejam embutidas diretamente no projeto do sistema.
  • 60. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  As duas primeiras regras utilizam os conceitos de similaridade e/ou de distância. Estes conceitos podem ser expressos matematicamente a partir da definição formal de um critério de medida. Em particular, a Teoria de Medidas é uma das áreas mais bem formalizadas da Matemática, juntamente com a Teoria de Conjuntos, constituindo a base de todos os métodos matemáticos.  Existem basicamente três paradigmas de aprendizado:  Aprendizado supervisionado: é baseado em um conjunto de exemplos de estímulo- resposta (ou entrada-saída), ou em algum outro tipo de informação que represente o comportamento que deve ser apresentado pelo sistema;  Aprendizado por reforço: o comportamento do sistema é avaliado apenas com base em algum critério numérico, fornecido em instantes espaçados de tempo;  Aprendizado não-supervisionado: é baseado apenas nos estímulos recebidos pelo sistema. Basicamente, o sistema deve aprender a “categorizar” os estímulos,
  • 61. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro embora o processo de categorização possa ser empregado em contextos distintos de categorização, como, por exemplo, em otimização combinatória. 5.1. Aprendizagem Supervisionada  Este curso vai se ocupar com o desenvolvimento de técnicas para aprendizado supervisionado e não-supervisionado em aprendizagem de máquina.  Pelo fato de serem mais intuitivas, técnicas de aprendizado supervisionado serão abordadas primeiro.  Ideia intuitiva: controle de processos (ex. pouso e decolagem de aviões)  Exemplos de problemas de engenharia e computação que podem ser apresentados na forma de um problema de aprendizado supervisionado: o classificação e reconhecimento de padrões o predição de séries temporais o identificação de sistemas o controle de processos
  • 62. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro o projeto de filtros em processamento de sinais 5.2. Aprendizagem Não-Supervisionada  No paradigma não-supervisionado ou auto-organizado não existe um supervisor para avaliar o desempenho do sistema em relação aos dados de entrada.  Os dados são ditos não-rotulados, no sentido de que as classes às quais eles pertencem ou as saídas desejadas do sistema são desconhecidas.  O sistema se adapta a regularidades estatísticas nos dados de entrada, desenvolvendo uma capacidade de criar representações internas que codificam as características dos dados de entrada, tornando-se, portanto, capaz de identificar a quais classes novos padrões pertencem.  Ideia intuitiva: agrupamento de dados (p. ex. balões coloridos)
  • 63. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 5.3. Aprendizagem Por Reforço  A aprendizagem por reforço é distinta das outras abordagens, pois neste caso não existe uma interação direta com um supervisor ou modelo explícito do ambiente.  Geralmente, a única informação disponível é um valor escalar que indica a qualidade do desempenho do sistema.  Na aprendizagem por reforço existe um objetivo a ser alcançado. Durante o processo de aprendizagem, o sistema “tenta” algumas ações (saídas) e recebe um sinal de reforço (estímulo) do ambiente que permite avaliar a qualidade de sua ação.  O sistema em aprendizagem seletivamente retém as ações que levam a uma maximização dos sinais de reforço.  Ideia intuitiva: ex. ensinar animais circenses.
  • 64. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Pré-Processamento de Dados 1. Introdução  Conhecer e preparar de forma apropriada os dados para mineração é uma etapa que pode tornar todo o processo de mineração muito mais eficiente e eficaz.  Por outro lado, dados mal ou não-processados podem inviabilizar uma análise ou invalidar um resultado.  Para que possamos fazer o uso mais efetivo da mineração é preciso pensar em algumas questões importantes antes de iniciar a análise: o Quais relações ou tendências são consideradas importantes? o As perguntas costumam ser formuladas em torno de atributos específicos da base? o A organização da estrutura dos dados influencia as categorias de interesse? o Há atributos naturalmente interrelacionados?
  • 65. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro o Há atributos que podem ser excluídos do modelo? o Há atributos com tão pouca variância que podem ser excluídos da análise? o O que fazer com os objetos (registros) com valores ausentes? o É preciso padronizar os domínios de todas os atributos? o Quais tipos de atributos existem na base de dados? o Será preciso unir dados de diferentes bases para responder as questões adequadamente?  O uso de ferramentas simples que apresentam histogramas ou gráficos com a distribuição de valores de uma dada variável é bastante útil para um entendimento inicial da base de dados.  Gráficos plotando atributos aos pares ou em comparação com classes também são informativos.
  • 66. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Em geral especialistas de domínio são consultados para explicar outliers, valores ausentes, o significado de inteiros representando categorias e diversas outras peculiaridades que apenas um especialista conhece.  As etapas de pré-processamento dos dados consomem muito tempo e demandam bastante trabalho, mas o sucesso da mineração depende fortemente do cuidado dedicado a esta etapa do processo de descoberta de conhecimentos em bases de dados. 2. Nomenclatura e Tipos de Dados  Os dados usados nas tarefas de mineração são normalmente denominados de dados de treinamento ou dados de entrada.  Por exemplo, a Tabela 1 apresenta parte de uma base de dados (cadastros) para solicitação de crédito (financiamento) para pagamento em 36 meses.
  • 67. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Tabela 1: Solicitação de crédito para pagamento em 36 meses. Salário R$ Idade Estado civil Cartão de crédito Imóveis Veículos Nro de filhos Possui cheque especial Financiamento Pretendido R$ Crédito autorizado 350 21 Sol. 0 0 0 0 Sim 10.000 Não 3700 52 Cas. 1 1 2 2 Sim 7.000 Sim 1200 26 Cas. 1 0 1 1 Não 10.000 Não 700 25 Sol. 0 0 0 0 Não 5.000 Sim 8500 50 Cas. 2 1 2 2 Sim 40.000 Sim 1800 27 Sol. 1 0 1 0 Sim 20.000 Não 350 20 Sol. 0 0 0 0 Não 10.000 Não  A nomenclatura usada para descrever cada item desta tabela depende, dentre outros fatores, da área de pesquisa (disciplina).  Cada linha desta tabela corresponde a um registro, exemplo, instância, objeto, vetor de entradas ou padrão (de entrada ou treinamento). o Em mineração de dados a nomenclatura mais comum é registro, objeto ou instância. Em redes neurais artificiais é mais usual denominar de padrão de treinamento, padrão de entrada ou vetor de entradas.
  • 68. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Cada coluna corresponde a um atributo, característica, entrada ou variável. o Em mineração de dados normalmente denominamos as colunas por atributo ou variáveis (independentes), enquanto em estatística normalmente denominamos por características (features). Em redes neurais geralmente chamamos as colunas de entradas ou variáveis de entrada, pois cada atributo corresponde a uma das entradas da rede neural artificial.  Nota: a representação dos padrões nas linhas é uma convenção da literatura, mas os padrões também poderiam estar dispostos nas colunas da matriz, desde que isso fosse explicitado. Um exemplo deste último caso é a base de dados de Negociações Trabalhistas. 2.1. Exemplos de Bases de Dados  Para ilustrar alguns dos diferentes tipos de dados e seus atributos, esta seção apresenta seis bases de dados de natureza distinta.
  • 69. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Considere inicialmente o exemplo abaixo de uma base de dados contendo condições sob as quais um oftalmologista poderá ou não prescrever lentes de contato a seus pacientes (Tabela 2).
  • 70. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Tabela 2: Base de dados de lentes de contatos (Contact Lenses). TPL: Taxa de Produção de Lágrimas. Idade Prescrição Astigmatismo (A) TPL Lente recomendada Jovem Miopia Não Reduzida Nenhuma Jovem Miopia Não Normal Macia Jovem Miopia Sim Reduzida Nenhuma Jovem Miopia Sim Normal Rígida Jovem Hipermetropia Não Reduzida Nenhuma Jovem Hipermetropia Não Normal Macia Jovem Hipermetropia Sim Reduzida Nenhuma Jovem Hipermetropia Sim Normal Rígida Pré-presbiótico Miopia Não Reduzida Nenhuma Pré-presbiótico Miopia Não Normal Macia Pré-presbiótico Miopia Sim Reduzida Nenhuma Pré-presbiótico Miopia Sim Normal Rígida Pré-presbiótico Hipermetropia Não Reduzida Nenhuma Pré-presbiótico Hipermetropia Não Normal Macia Pré-presbiótico Hipermetropia Sim Reduzida Nenhuma Pré-presbiótico Hipermetropia Sim Normal Nenhuma Presbiótico Miopia Não Reduzida Nenhuma Presbiótico Miopia Não Normal Nenhuma Presbiótico Miopia Sim Reduzida Nenhuma Presbiótico Miopia Sim Normal Rígida Presbiótico Hipermetropia Não Reduzida Nenhuma Presbiótico Hipermetropia Não Normal Macia Presbiótico Hipermetropia Sim Reduzida Nenhuma Presbiótico Hipermetropia Sim Normal Nenhuma
  • 71. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Consideremos agora um exemplo mais realista de Negociações Trabalhistas, como ilustrado na Tabela 3. Tabela 3: Base de dados de Negociações Trabalhistas. Atributo Objeto Descrição Tipo 1 2 3 ... 40 Duração Anos 1 2 3 2 Aumento salarial ano 1 Percentual 2% 4% 4.3% 4.5% Aumento salarial ano 2 Percentual ? 5% 4.4% 4.0% Aumento salarial ano 3 Percentual ? ? ? ? Ajuste de custo de vida {nenhum, tcf, tc} Nenhum Tcf ? Nenhum Carga horária semanal Horas 28 35 38 40 Aposentadoria {nenhum, ret-allw, empl- cntr} Nenhum ? ? ? Pagamento por horas vagas Percentual ? 13% ? ? Horas extras Percentual ? 5% 4% 4 Adicional para educação {sim, não} Sim ? ? ? Feriados Dias 11 15 12 12 Férias {below-avg, avg, gen} Avg Gen Gen Avg Assistência para ausência prolongada {sim, não} Não ? ? Sim Seguro odontológico {nenhum, parcial, total} Nenhum ? Full Full Seguro de vida {sim, não} Não ? ? Sim Seguro saúde {nenhum, parcial, total} Nenhum ? Full Half Aceitabilidade do contrato {boa, ruim} Ruim Boa Boa Boa
  • 72. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Considere agora o exemplo de uma base de dados sobre o Clima, que corresponde à identificação de condições climáticas para a prática de um determinado esporte (Tabela 4). Tabela 4: Base de dados do Clima. Tempo Temperatura Umidade Vento Jogar Ensolarado Quente Alta Não Não Ensolarado Quente Alta Sim Não Fechado Quente Alta Não Sim Chuvoso Branda Alta Não Sim Chuvoso Fria Normal Não Sim Chuvoso Fria Normal Sim Não Fechado Fria Normal Sim Sim Ensolarado Branda Alta Não Não Ensolarado Fria Normal Não Sim Chuvoso Branda Normal Não Sim Ensolarado Branda Normal Sim Sim Fechado Branda Alta Sim Sim Fechado Quente Normal Não Sim Chuvoso Branda Alta Sim Não
  • 73. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Considere agora a base de dados AllElectronics apresentada abaixo. Esta base de dados contém registros de clientes que compram ou não computadores. Tabela 5: Base de dados AllElectronics. Idade Renda Estudante? Nível de Crédito Classe (compra_computador)  30 Alta Não Razoável Não  30 Alta Não Excelente Não [31,40] Alta Não Razoável Sim > 40 Média Não Razoável Sim > 40 Baixa Sim Razoável Sim > 40 Baixa Sim Excelente Não [31,40] Baixa Sim Excelente Sim  30 Média Não Razoável Não  30 Baixa Sim Razoável Sim > 40 Média Sim Razoável Sim  30 Média Sim Excelente Sim [31,40] Média Não Excelente Sim [31,40] Alta Sim Razoável Sim > 40 Média Não Excelente Não
  • 74. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  A Tabela 6 apresenta a base de dados da Íris, que contém 50 exemplos de cada tipo de planta: Íris setosa, versicolor e virgínica. Tabela 6: Base de dados Iris. Comprimento da sépala Largura da sépala Comprimento da pétala Largura da pétala Tipo 5.1 3.5 1.4 0.2 Íris setosa 4.9 3.0 1.4 0.2 Íris setosa 4.7 3.2 1.3 0.2 Íris setosa ... 7.0 3.2 4.7 1.4 Íris versicolor 6.4 3.2 4.5 1.5 Íris versicolor 6.9 3.1 4.9 1.5 Íris versicolor ... 6.3 3.3 6.0 2.5 Íris virgínica 5.8 2.7 5.1 1.9 Íris virgínica 7.1 3.0 5.9 2.1 Íris virgínica
  • 75. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  A Tabela 7 apresenta uma base de dados binária contendo informações sobre as características de alguns animais. Tabela 7: Base de dados dos Animais. Pombo Galinha Pato Ganso Coruja Gavião Águia Raposa Cão Lobo Gato Tigre Leão Cavalo Zebra Vaca É Pequeno 1 1 1 1 1 1 0 0 0 0 1 0 0 0 0 0 Médio 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 Grande 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 Tem Duas patas 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 Quatro patas 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 Pêlos 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 Casco 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 Crina 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 Penas 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 Gosta de Caçar 0 0 0 0 1 1 1 1 0 1 1 1 1 0 0 0 Correr 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 0 Voar 1 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 Nadar 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0
  • 76. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro EPC 1: Para cada uma das bases de dados acima discuta um conjunto de informações estratégicas que poderiam ser extraídas de forma automática usando técnicas de mineração. 2.2. Sobre os Atributos  O uso de um conjunto fixo de atributos pode impor algumas dificuldades ao processo de mineração. O que acontece se diferentes objetos da mesma base possuírem atributos distintos? o Por exemplo, suponha que a base de dados seja sobre veículos de transporte. Neste caso, veículos terrestres possuem atributos, como número de rodas, que não existem em veículos aquáticos e vice-versa. A abordagem padrão é fazer com que todos os atributos apareçam na base de dados e usar uma espécie de sinalizador (flag) para indicar que um dado atributo não existe para alguma(s) instância(s). Outra abordagem é atribuir um valor nulo para aquele atributo, desde que isso não confunda com o valor de um atributo que também poderia ser nulo.
  • 77. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  O valor de um atributo de um dado objeto é uma medida da quantidade daquele atributo. Esta medida pode ser numérica ou categórica.  Os atributos numéricos podem assumir quaisquer valores numéricos, por exemplo, inteiros, reais, etc.  Já as quantidades categóricas assumem valores correspondentes a símbolos distintos.  Os textos de estatística normalmente introduzem níveis de medida para os dados categóricos, tais como nominal, ordinal e razão: o Atributo nominal: seus valores possuem símbolos ou rótulos distintos. Exemplo: o atributo ‘tempo’ pode assumir os valores ‘ensolarado’, ‘nublado’ e ‘chuvoso’; o Atributo ordinal: os atributos ordinais permitem ordenar suas categorias, embora não haja uma noção explícita de distância. Exemplo: o atributo ‘temperatura’ pode possuir valores ‘quente’, ‘morno’ e ‘frio’;
  • 78. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro o Atributo razão: quantidades do tipo razão são aquelas para as quais o método de medida define o ponto zero. Exemplo: a distância entre dois objetos possui naturalmente o zero quando ambos são iguais. Obs.: Estes atributos são tratados como números reais e qualquer operação aplicável aos reais é também aplicável aos atributos do tipo razão. Exemplos: peso, distância, velocidade, salário, etc. Exemplo: Para as bases de dados apresentadas na Seção 2.1, é possível dizer que as bases Lentes de Contato e Clima possuem atributos nominais, as bases Íris e Animais possuem atributos numéricos e as bases Negociações Trabalhistas, AllElectronics e de Solicitação de Crédito são híbridas, contendo dados numéricos e categóricos. Obs.: a base Animais é dita binária, pois todos seus atributos são binários.
  • 79. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3. Pré-Processamento dos Dados  As bases de dados de mundo real são altamente susceptíveis a ruído (erros e outliers), valores ausentes e inconsistências (discrepâncias em códigos, intervalos, etc.).  As razões para estes problemas (ruído, incompletude e inconsistências) são diversas, como a indisponibilidade de dados para alguns objetos/atributos; erros de medição, entendimento e/ou entrada de dados; falhas no sistema; fraudes nos dados; erros de transmissão; diferenças de convenção (padronização); etc.  Como exemplo considere a base de dados apresentada na Tabela 3 envolvendo Negociações Trabalhistas. Esta base contém valores ausentes para diversos atributos de muitos indivíduos (objetos) da base.  As etapas de pré-processamento dos dados têm o objetivo de melhorar a qualidade dos dados e, consequentemente, do processo de mineração, promovendo maior eficiência e eficácia da mineração de dados.
  • 80. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  As principais tarefas de pré-processamento são: 1. Limpeza: para remoção de ruídos e correção de inconsistências; 2. Integração: para unir dados de múltiplas fontes em um único local, como um armazém de dados (data warehouse); 3. Redução: para reduzir a dimensão da base de dados, por exemplo, agregando, agrupando ou eliminando atributos redundantes, ou sumarizando os dados; 4. Transformação: para deixar os dados em um formato passível de aplicação das diferentes técnicas de mineração; 5. Discretização: para permitir que métodos que trabalham apenas com atributos nominais possam ser empregados a um conjunto maior de problemas. Também faz com que a quantidade de valores para um dado atributo contínuo seja reduzida.
  • 81. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3.1. Limpeza dos Dados  As ferramentas para a limpeza de dados atuam no sentido de imputar valores ausentes, suavizar ruídos enquanto identifica outliers, e corrigir inconsistências. Valores Ausentes  Tomando como exemplo a base de dados de Negociações Trabalhistas, nota-se a ausência de valores para muitos atributos e muitos objetos.  Alguns dos métodos que poderiam ser aplicados nestes casos são: 1. Ignorar o objeto: normalmente é feito quando o rótulo da classe está faltando, assumindo uma tarefa de classificação. Entretanto, este método não é muito eficiente, a não ser que o mesmo objeto tenha valores ausentes para muitos atributos. Se a quantidade de objetos for pequena ou o percentual de valores ausentes por atributo variar consideravelmente, este método também não é recomendado.
  • 82. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 2. Imputar manualmente os valores ausentes: em geral este processo demanda muito tempo, sendo inviável para grandes bases de dados. 3. Usar uma constante global para imputar o valor ausente: substituir todos os valores ausentes de um certo atributo por uma constante única pode fazer com que o algoritmo de mineração considere esta constante um conceito relevante e, portanto, deve ser feito com cautela também. 4. Usar a média de um atributo para imputar o valor ausente; 5. Usar a média de todos os objetos da mesma classe para imputar o valor ausente; 6. Usar o valor mais provável para imputar o valor ausente: este valor mais provável pode ser determinado por técnicas de regressão, métodos de inferência, indução de árvores de decisão, redes neurais ou qualquer outro método de estimação aplicável.
  • 83. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  É importante salientar que os métodos 3 a 6 acima polarizam os dados e os valores imputados podem não ser corretos.  Apesar disso, o método 6 acima é bastante popular na literatura, pois usa mais informações sobre os dados para estimar o valor ausente. Dados Ruidosos  Um ruído é um erro aleatório ou uma variância em uma determinada variável observada.  Dado um atributo numérico, como, por exemplo, preço, como suavizar o ruído? Vejamos as seguintes técnicas: 1. Binning: os métodos baseados em binning suavizam dados ordenados consultando seus vizinhos. Os dados ordenados são distribuídos em intervalos (bins) e realizam uma suavização local. Para ilustrar este processo, considere o exemplo abaixo: Dados ordenados para a variável preço: 4, 8, 15, 21, 21, 24, 25, 28, 34.
  • 84. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Partição em bins de Suavização pela média Suavização pelas profundidade 3: do bin: extremidades dos bins: Bin 1: 4, 8, 15 9, 9, 9 4, 4, 15 Bin 2: 21, 21, 24 22, 22, 22 21, 21, 24 Bin 3: 25, 28, 34 29, 29, 29 25, 25, 34 2. Agrupamento: outliers podem ser detectados por agrupamento, pois, intuitivamente, objetos que não pertencem a um conjunto pré-definido de clusters podem ser considerados outliers. 3. Inspeção humana e computacional: uma ferramenta computacional pode ser usada para identificar um outlier e enviar uma mensagem para um moderador, que tomará a decisão sobre que ação executar. 4. Aproximação: os dados podem ser suavizados aproximando-os por uma função, que pode ser obtida via regressão, redes neurais ou outro método de aproximação de funções.  É importante salientar que muitos métodos de suavização são também métodos de redução ou seleção de dados.
  • 85. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Dados Inconsistentes  Uma das formas de se resolver inconsistências nos dados é através de uma análise manual auxiliada por rotinas específicas que verificam, por exemplo, se os valores de todos os atributos pertencem a domínios específicos.  Dados inconsistentes, assim como dados ruidosos, também podem ser mais facilmente identificados utilizando-se gráficos, por exemplo, plotando-se o gráfico de cada atributo separadamente.  A participação de especialistas do domínio é normalmente crucial nesta etapa.  Obs.: dados repetidos também podem resultar em problemas, uma vez que sua influência na tarefa de mineração pode ser multiplicada. 3.2. Integração dos Dados  Um dos passos essenciais antes da aplicação de uma técnica de mineração de dados a um certo problema é a junção de todos os dados em um conjunto de instâncias, como os exemplos ilustrados acima.
  • 86. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Em aplicações de mundo real, os dados podem estar distribuídos em departamentos, lojas, etc., e a integração destes dados pode resultar em grandes problemas práticos.  Por exemplo, as formas de armazenagem, convenções dos dados, datas, chaves de acesso, padronizações e outras características podem ser distintas.  Estes dados precisam ser reunidos, integrados e limpos.  O conceito de uma ampla base de dados da empresa é conhecido como armazém de dados (data warehouse).  Os armazéns de dados devem fornecer um ponto único e consistente de acesso a dados corporativos, transcendendo as barreiras departamentais.  A existência de armazéns de dados é um precursor bastante útil para a tarefa de mineração de dados e sua inexistência implica na execução de diversos passos anteriores à etapa de mineração.
  • 87. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  É importante reconhecer, entretanto, que mesmo um armazém de dados pode não conter todas as informações necessárias à mineração, assim como seus dados também podem requerer muitas das etapas de pré-processamento descritas aqui.  Diversos aspectos precisam ser considerados durante a integração de dados. Por exemplo, como entidades equivalentes de múltiplas fontes de dados podem ser identificadas? Um exemplo disto é o uso dos campos (atributos) cliente_ID e Nro_cliente para se referir à mesma informação de bases de dados distintas.  Em muitos casos os bancos de dados possuem metadados, ou seja, dados sobre dados. Estas informações podem ser usadas para integrar as bases.  Outro problema comum nas bases de dados é a redundância. Um atributo pode ser redundante se ele puder ser ‘derivado’ de outro (ou de outra tabela).  Inconsistências na nomenclatura dos atributos também podem levar a redundâncias.  Alguns tipos de redundância podem ser detectados usando análise de correlação.
  • 88. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Por exemplo, dados dois atributos x e y, a análise de correlação mede quão fortemente um atributo implica no outro, com base nos dados disponíveis. A correlação entre os atributos x e y, (x,y), é dada por:        N j j N j j N i ii yyxx yyxx yx 1 2 1 2 1 )(.)( ))(( ),( , (1) onde N é o número de objetos, e x e y são os valores médios dos atributos x e y, respectivamente.  Se o valor da Eq. (1) for positivo, então x e y são positivamente correlacionados, indicando que um aumento nos valores de x implicam em um aumento dos valores de y e vice-versa.  Se o valor da Eq. (1) for nulo, então x e y estão descorrelacionados.
  • 89. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Se o valor da Eq. (1) for negativo, então x e y são negativamente correlacionados, indicando que quando um atributo aumenta o outro diminui, e vice-versa.  Durante a integração dos dados é também necessário cuidar para que não haja duplicação de dados e nem conflitos de valores, por exemplo, quando o mesmo objeto (aparecendo em diferentes locais) possui atributos distintos. 3.3. Redução dos Dados  Em muitos casos, por exemplo, na detecção de fraudes em cartões de crédito, na identificação de perfis de clientes em uma grande loja de comércio (eletrônico), etc., a base de dados disponível para análise é imensa.  A mineração destas bases pode requerer tanto esforço computacional (espaço e tempo de processamento) de maneira a torná-la impraticável.  As técnicas de redução de dados podem ser aplicadas tanto para reduzir a quantidade de objetos da base, quanto para reduzir a quantidade de atributos que descrevem estes objetos (dimensionalidade), como ilustrado na Figura 3.
  • 90. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro Figura 3: Redução na quantidade de objetos e atributos.
  • 91. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  É importante, entretanto, que os métodos de redução mantenham a integridade dos dados originais. Ou seja, a mineração dos dados reduzidos deve ser mais eficiente, porém não menos eficaz.  Dentre os métodos de redução de dados destacam-se: 1. Seleção de atributos: efetua uma redução de dimensionalidade através da qual atributos (dimensões) irrelevantes, pouco relevantes ou redundantes são detectados e removidos; 2. Compressão de dados: também efetua uma redução da dimensionalidade, mas empregando algoritmos de codificação de dados (atributos), ao invés de seleção; 3. Redução no número de dados: através da qual os dados são substituídos ou estimados por representações menores (mais simples), como modelos paramétricos (que armazenam apenas os parâmetros do modelo ao invés dos dados) e os métodos não-paramétricos, como agrupamento, amostragem e histogramas;
  • 92. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 4. Discretização: através da qual valores de atributos são substituídos por intervalos ou níveis conceituais mais elevados. 3.3.1. Seleção de Atributos  A seleção de atributos efetua uma redução de dimensionalidade e tem se tornado o foco de muita pesquisa em áreas em que bases de dados formadas por dezenas ou centenas de atributos estão disponíveis.  Na teoria, a disponibilidade da maior quantidade possível de atributos deveria nos dar maior poder de discriminação. Entretanto, a prática de mineração de dados geralmente nos mostra o contrário, e as principais razões para se selecionar um subconjunto do conjunto total de atributos são: 1. É mais barato medir um subconjunto de atributos; 2. A precisão de classificação pode ser melhorada pela exclusão de atributos irrelevantes;
  • 93. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3. O classificador ou estimador a ser construído é usualmente mais simples e potencialmente mais eficiente quando uma menor quantidade de atributos é usada; 4. Conhecer os atributos relevantes pode nos dar informações importantes sobre a natureza do problema.  Por todos estes motivos, o problema de se selecionar atributos relevantes tem se tornado cada vez mais importante.  Com o intuito de melhor caracterizar o problema a ser enfrentado, observa-se que o número de combinações de subconjuntos possíveis de atributos, para uma base de dados formada por L atributos, é O(2L ).  Portanto, uma busca exaustiva pelo melhor subconjunto de atributos é normalmente inviável sob o ponto de vista computacional.  Por exemplo, para a base de dados do Clima descrita anteriormente, é possível listar os seguintes possíveis conjuntos de atributos a serem selecionados:
  • 94. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro tempo, temperatura, umidade, vento, tempo+temperatura, tempo+umidade, tempo+vento, temperatura+umidade, temperatura+vento, umidade+vento, tempo+temperatura+umidade, tempo+temperatura+vento, tempo+umidade+vento, temperatura+umidade+vento, tempo+temperatura+umidade+vento Obs.: além destes também é possível selecionar nenhum atributo.  Algumas estratégias de busca podem ser usadas para evitar a enumeração completa de todos os subconjuntos possíveis de atributos: 1. Seleção forward: o procedimento começa com um subconjunto vazio de atributos. O melhor dos atributos originais é determinado através de um critério como, por exemplo, a taxa do ganho de informação, como será visto adiante, e adicionado ao conjunto de atributos selecionados. A cada iteração subsequente, o melhor dos atributos originais restantes é adicionado ao conjunto até que um determinado critério de parada seja alcançado.
  • 95. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 2. Eliminação backward: o procedimento começa com o conjunto completo de atributos. A cada iteração o pior atributo do conjunto é removido, até que um determinado critério de parada seja alcançado. 3. Combinação seleção forward e eliminação backward: os dois métodos podem ser combinados para que a cada iteração, o procedimento selecione o melhor atributo e remova o pior dos atributos restantes.  Existem duas abordagens fundamentais para se selecionar atributos. 1. Empacotamento: a primeira abordagem avalia o subconjunto de atributos utilizando-se de resultados do algoritmo de aprendizado, “empacotando” o algoritmo de seleção de atributos no algoritmo de aprendizado. Esta abordagem é conhecida como wrapper. 2. Filtro: a segunda abordagem avalia os atributos através de propriedades intrínsecas aos dados, sendo independente do algoritmo de aprendizado a ser utilizado. Esta abordagem é conhecida como filtro (filter).
  • 96. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Ainda é possível combinar estas duas abordagens, obtendo assim uma abordagem híbrida. Filtros são particularmente interessantes para selecionar atributos em grandes bases de dados, nas quais wrappers são usualmente excessivamente custosos em termos computacionais.  Note que a medida de correlação apresentada na Eq. (1) pode ser usada como critério para identificação de redundância entre atributos e, portanto, ser usada como mecanismo de seleção de atributos. Seleção por Ganho de Informação  Seja S o conjunto de s amostras. Suponha que o rótulo do atributo de classe tenha m valores distintos que definem m classes distintas, Ci, i = 1, ... , m. Seja si a quantidade de amostras de S na classe Ci. A informação esperada necessária para classificar uma dada amostra é: I(s1, s2, ... , sm) =   m i ii pp 1 2 )(log (2)
  • 97. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro onde pi é a probabilidade de que uma amostra arbitrária pertença à classe Ci, estimada como sendo si/s.  Como normalmente os logaritmos são expressos na base 2, a unidade da informação é denominada de bits.  Assuma que o atributo A tenha v valores distintos, {a1, a2, ... , av}. Ele pode ser usado para particionar S em v subconjuntos {S1, S2, ... , Sv}, onde Sj contém aquelas amostras em S que assumem valor aj de A.  Seja sij a quantidade de amostras da classe Ci em um subconjunto Sj. A entropia ou informação esperada é dada por: ),...,( ... )( 1 1 1 mjj v j mjj ssI s ss AE    (3)  O termo que multiplica a informação atua como um peso para o j-ésimo subconjunto e é o número de amostras no subconjunto dividido pelo número total de amostras em S.
  • 98. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  Para um dado subconjunto Sj, I(s1j, s2j, ... , smj) =   m i ijij pp 1 2 )(log , onde pij = sij/|Sj|.  O ganho de informação a ser obtido por este particionamento em A é: ganho(A) = I(s1, s2, ... , sm)  E(A). (4)  Este método calcula o ganho de informação para cada atributo da base de dados.  Os atributos com os maiores ganhos de informação são considerados aqueles mais discriminatórios.  Calculando-se o ganho de informação para todos os atributos e ranqueando-os pelo seu valor de ganho, é possível selecionar um conjunto de atributos a serem usados na análise.
  • 99. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro 3.3.2. Compressão de Dados  Na compressão de dados é aplicada uma codificação ou transformação tal que uma representação compacta dos dados originais é obtida.  Se os dados originais podem ser reconstruídos a partir dos dados comprimidos sem perda de informação, então o método de compressão é dito sem perda (lossless), caso contrário ele é dito com perda (lossy).  Dois métodos particularmente úteis e eficazes na compressão de dados são as transformadas wavelet e a análise de componentes principais. Transformadas Wavelets  A transformada wavelet discreta (discrete wavelet transform – DWT) é uma técnica linear de processamento de sinais que, quando aplicada ao vetor de dados D, transforma-o em um vetor numericamente diferente, D’, formado por coeficientes wavelet. Ambos os vetores possuem a mesma dimensão.
  • 100. Introdução à Mineração de Dados Copyright © Leandro Nunes de Castro  A vantagem da transformada de wavelet é que ela pode ser truncada, ou seja, uma aproximação comprimida dos dados pode ser obtida armazenando-se apenas uma fração dos coeficientes mais fortes da transformada.  Isso pode ser feito, por exemplo, definindo-se um limiar para os valores dos coeficientes.  Esta técnica também é eficiente no sentido de remover ruído, tornando-se eficiente também para a limpeza de dados.  O procedimento genérico para a aplicação de uma transformada wavelet discreta usa um algoritmo piramidal hierárquico que particiona os dados pela metade a cada iteração, resultando em um rápido processamento: 1. O comprimento L do vetor de dados de entrada deve ser inteiro e uma potência de 2, o que pode ser obtido incluindo-se colunas de atributos nulos. 2. Cada transformada envolve a aplicação de duas funções. A primeira aplica uma suavização nos dados, como uma soma ou média ponderada, e a segunda efetua