Atualmente se produz uma enorme quantidade de dados devido aos avanços em armazenamento, internet das coisas, computação ubíqua, redes sociais, etc. Mas a questão não é a falta de informação, e sim o que se pode fazer com isso. Existem dados das mais variadas áreas, mas falta uma análise destes para que eles possam, por exemplo, detectar padrões ou fazer predições. Neste contexto está inserida a mineração de dados, como uma etapa no processo de descoberta de conhecimento.
3. Introdução
Os dados podem assumir vários formatos como:
séries temporais, transações, grafos ou redes sociais, textos, páginas
web, imagens, vídeos e áudios.
Os eletrônicos ubíquos gravam para cada pessoa suas escolhas,
decisões, nível financeiro, seu trajeto pelo mundo, sendo que cada
escolha representa um registro no banco de dados.
3FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
4. Introdução
“...rico em dados, pobre em informação”
“...salvam-se coisas que possivelmente seriam descartadas.”
Falta análise destes dados para que eles possam gerar o
conhecimento.
4FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Processo de descoberta
de conhecimento
(KDD)
6. Então o que é isso?
Han et al. (2011) mineração de dados é o processo de descobrir
novas correlações significativas, padrões e tendências em grandes
quantidades de dados armazenados em repositórios
O Brien (2005) O uso da tecnologia da informação para descobrir
regras, identificar fatores e tendências-chave, descobrir padrões e
relacionamentos ocultos em grandes bancos de dados para auxiliar a
tomada de decisões sobre estratégia e vantagens competitivas.
6FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
7. Mineração de dados
7FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Utiliza técnicas de
estatística,
recuperação de
informação,
inteligência artificial
8. Mineraçãode
dados
Algumas tarefas:
▪Estimação
▪Predições numéricas (regressão linear e
não linear)
▪Associação
▪Agrupamento (clustering)
▪Classificação
▪Ferramenta para teste
Uma tarefa de
mineração consiste na
especificação DO QUE
estamos querendo
buscar nos dados.
Os métodos são
COMO descobrir os
padrões que nos
interessam.
8
10. Associação
A técnica de associação permite gerar regras do tipo
SE alguma coisa... ENTÃO consequente...
Junto com uma medida de suporte e confiança da regra criada. São
aplicadas a itens que “andam juntos”, como em carrinhos de compra.
Por exemplo:
“SE compra fraldas ENTÃO compra cerveja” com um suporte de 50/1000 =
5% e uma confiança de 50/200 = 25%.
10FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
11. Associação
Tem maior aplicação na área comercial, em análise de cesta de
mercado, em sistemas de recomendação, design de catálogos, etc...
Pois a análise do comportamento de compras dos clientes que pode
levar ao aumento das vendas.
Exemplos de aplicações incluem: telemarketing, e-commerce,
pesquisas...
11FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
12. Aplicações
12FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Vestibular PUC-RJ
Utilizando as técnicas da mineração de dados, um programa de obtenção de
conhecimento depois de examinar milhares de alunos forneceu a seguinte regra:
se o candidato é do sexo feminino, trabalha e teve aprovação com boas notas no
vestibular, então não efetivava a matrícula.
Estranho, ninguém havia pensado nisso. Mas uma reflexão justifica a regra
oferecida pelo programa: de acordo com os costumes do Rio de Janeiro, uma
mulher em idade de vestibular, se trabalha é porque precisa, e neste caso deve
ter feito inscrição para ingressar na universidade pública gratuita. Se teve boas
notas provavelmente foi aprovada na universidade pública onde efetivará
matrícula.
14. Agrupamento (clustering)
A técnica de agrupamento tem como objetivo encontrar uma
estrutura de grupos nos dados e também pode ser tratada como
particionamento.
A ideia é separar em grupos para uma análise posterior, de acordo
com uma forma de agrupamento definida. Sendo que os elementos
do grupo são semelhantes.
14FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
15. Agrupamento (clustering)
Devido ao tamanho de muitos bancos de dados muitas vezes é útil
aplicar agrupamento em primeiro lugar para reduzir o espaço de
procura.
Pode ser aplicado na recuperação de informação, como por exemplo,
uma pesquisa por determinada palavra as vezes pode retornar um
número muito grande de páginas relevantes para a pesquisa, devido
ao grande volume de páginas da web.
15FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
17. Agrupamento (clustering)
Um algoritmo de agrupamento procura segmentar o conjunto de
dados em subgrupos ou grupos relativamente homogêneos, onde a
semelhança entre os registros dentro do mesmo grupo é
maximizada, e à semelhança de registros fora deste é minimizado.
Algumas das formas são por métodos hierárquicos, agrupamento de
registros, observações em classes de objetos similares. Um dos
algoritmos famosos de clustering é o k-means.
17FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
18. Agrupamento (clustering)
Métodos de partição
K-means - usa o conceito da centroide, seleciona aleatoriamente k
registros, cada um representando um agrupamento. Para cada registro
restante, é calculada a similaridade entre o registro analisado e o centro
de cada agrupamento. O objeto é inserido no agrupamento com a menor
distância, ou seja, maior similaridade. O centro do cluster é recalculado a
cada novo elemento inserido.
K-medoids - É uma variação do k-Means. Ao invés de calcular o centro do
agrupamento e usá-lo como referência, trabalha-se com o conceito do
objeto mais central do agrupamento.
18FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
19. Aplicações
19FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
Ao contrário da classificação, a clusterização não conta com classes predefinidas
e exemplos de treinamento.
21. Classificação
A classificação é baseada em um processo com dois passos:
▪a primeira etapa é a de aprendizado, onde um modelo é construído
com base nos dados para treinamento,
▪e a segunda é o passo de classificação propriamente dito, quando o
modelo é usado para prever a classe de uma dada entrada.
Então o algoritmo olha para novos registros sobre o qual não há
informação e com base nas classificações anteriores atribui
conjuntos para os novos.
21FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
23. Classificação
Árvore de decisão
Uma árvore na computação é grafo acíclico direcionado em que cada
nó é um nó de divisão com sucessores ou um nó folha. Sua
representação é intuitiva e de fácil compreensão por humanos.
23FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
24. Classificação
Árvore de decisão
Para esta técnica, Han et al. (2011) destaca que não é requerido
qualquer conhecimento de domínio, sendo assim apropriado para
exploração na descoberta de conhecimento, podendo também
trabalhar com dados multidimensionais.
Larose (2014) lembra que como esses algoritmos apresentam
aprendizado supervisionado é necessário ter atenção com o
conjunto de dados de treino.
24FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
25. Classificação
Árvore de decisão
Este conjunto de treinamento deve ser rico e variado de maneira que
constem todos os tipos de registros para o qual sejam necessárias
classificações no futuro.
Árvores de decisão aprendem pelo exemplo, logo se este for falho ou
incompleto o resultado será problemático, sendo que os atributos
devem assumir valores discretos isto é, um número contável, para
que a variável-alvo deve assumir valores que determinem se ela
pertence a uma classe ou não.
25FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
26. Classificação
Redes neurais
A inspiração para redes neurais vem do reconhecimento dos
sistemas de aprendizagem complexos como cérebros de animais.
26FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
27. Classificação
Redes neurais
As entradas X são recolhidas a partir de neurônios a um montante
(conjunto de dados) combinados através de uma função, como um
somatório, este é então introduzido a uma função de ativação para
produzir uma resposta de saída Y que é então canalizada para junção
com os demais neurônios.
Larose (2014) aponta que são robustos em relação a dados ruidosos,
isto porque a rede contem vários nós (neurônios artificiais) com
pesos atribuídos a cada conexão e então a rede aprende trabalhar
com esses dados uniformes.
27FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
30. Ferramenta para teste
Weka - Waikato Environment for Knowledge Analysis
É uma ferramenta que inclui métodos para os principais problemas
de mineração de dados padrão como regressão, classificação,
clustering...
30FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
31. Ferramenta para teste
Weka
Weka contém uma coleção de algoritmos do estado da arte em
aprendizado de máquina, mineração de dados e ferramentas para
pré-processamentos de dados.
Permite experimentar os métodos existentes em novos conjuntos de
dados de forma flexível, fornecendo suporte para basicamente todo
o processo de mineração de dados, ou seja, desde a preparação até
a visualização dos resultados.
31FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
33. Ferramenta para teste
Weka
Algumas formas de aplicar uma classificação na ferramenta Weka:
▪Utilizar o mesmo conjunto de treino (use training set) - treina com
determinado conjunto de dados, depois faz a previsão sobre o
mesmo conjunto e avalia se o quão semelhante resultado é dos
dados originais.
▪ Fornecer o conjunto de teste (supplied test set) - informa outro
arquivo (com dados diferentes do conjunto de treino) para que o
modelo faça a previsão.
33FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
34. Ferramenta para teste
Weka
▪Dividir por porcentagem (Percentage split) - uma porcentagem é
definida pelo usuário para separar os dados em conjunto de treino e
teste.
▪Validação cruzada (cross-validation) - é a que produz resultados mais
significativos. O conjunto de dados é dividido em partições (folds)
informadas pelo usuário, a cada iteração o algoritmo treina com uma
partição e testa com o conjunto separado para o teste, na próxima
iteração utiliza a próxima partição e testa com o mesmo conjunto de
testes, e assim sucessivamente.
34FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
35. Ferramenta para teste
Weka
▪Dividir por porcentagem (Percentage split) - uma porcentagem é
definida pelo usuário para separar os dados em conjunto de treino e
teste.
▪Validação cruzada (cross-validation) - é a que produz resultados mais
significativos. O conjunto de dados é dividido em partições (folds)
informadas pelo usuário, a cada iteração o algoritmo treina com uma
partição e testa com o conjunto separado para o teste, na próxima
iteração utiliza a próxima partição e testa com o mesmo conjunto de
testes, e assim sucessivamente.
35FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
36. Ferramenta para teste
Exemplo de árvore de classificação
Algoritmo: J48
Conjunto de dados: “wheather.simbolic” (condições do tempo com
atributos nominais como aparência, temperatura, umidade e vento)
36FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
41. Fhabiana machado - Conhecendo mineração de dados 41
Para que a
informação se torne
em conhecimento,
não bastam
números...
42. O que não é mineração de dados
Executar uma query SQL em uma base de dados
42FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
SELECT cliente, SUM(case
when month(data)=01
then fretetotal
else 0 end) Jan,
FROM pedidos
WHERE year(data) = 2005
GROUP BY cliente
43. O que não é mineração de dados
Gerar cubos multidimensionais de uma tabela relacional
43FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
44. O que não é mineração de dados
Procurar por palavras chave no Google
44FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
45. Indo além...
Dados abertos
Rio Grande do Sul - http://dados.rs.gov.br/
Portal brasileiro - http://dados.gov.br/dataset?tags=RS
Polícia rodoviária federal - https://www.prf.gov.br/portal/dados-
abertos
Saúde e segurança do trabalhador -
http://www.previdencia.gov.br/dados-abertos/dados-abertos-sst/
45FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS
46. Referências
O'brien, James A. (2005). Sistemas de Informação e as decisões gerenciais na era da internet 2º
ed. São Paulo: Saraiva. p. 143
Camilo, C. O. and Silva, J. C. d. (2009). Mineração de dados: Conceitos, tarefas, métodos e
ferramentas. http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-
INF00109:pdf:Acessoemnovembro2015.
Han, J., Kamber, M., and Pei, J. (2011). Data mining: conceptsand techniques. Elsevier, Waltham,
MA, USA, 3 edition.
Larose, D. T. (2014). Discoveringknowledge in data: an introduction to data mining. JohnWiley &
Sons, New Jersey,2 edition.
46FHABIANA MACHADO - CONHECENDO MINERAÇÃO DE DADOS