Data, Text and Web Mining

Data, Text and Web Mining

Fabr´ J. Barth
ıcio
TerraForum Consultores

Junho de 2010

Objetivo
Apresentar a importˆncia do tema, os conceitos
a
relacionados e alguns exemplos de aplica¸˜es.
co

Data, Text and Web Mining —

Objetivo

2

Problema

Importˆncia do Tema —
a

Problema

4

Alguns dados...
Relação Horário x Dia x Quantidade de Notícias Produzidas

500
450
400
350
300
250
200
150
100
50
0

500
400
Notícias

300
200
100
0

0

2

4

6

8

Horário

10 12
30
14 16
20
10
18 20
22 0

40

50

60

70

80

90

Dia

Quantidade de not´
ıcias publicadas na Web por apenas seis ve´
ıculos de not´
ıcias.

a

Alguns dados...

5

Alguns dados...
Notícias publicadas na Internet
160000
Estadão
Folha
G1
Globo Online
Terra
Último Segundo
Total

140000

Quantidade (Notícias)

120000

100000

80000

60000

40000

20000

0
0

a

5

10

Alguns dados...

15

20

25

30

35

40 45 50
Tempo (Dias)

55

60

65

70

75

80

85

6

Por que minerar informa¸oes?
c˜
• Explicitar conhecimento m´dico a partir de registros
e
m´dicos.
e
• Sumarizar tendˆncias de publica¸˜es de artigos e
e
co
patentes sobre um determinado tema.
• Sumarizar e ﬁltrar not´
ıcias relevantes.

a

Por que minerar informa¸˜es?
co

7

• Sumarizar a opiniõ expressa na Web sobre a sua
a
empresa.
• Identificar padr˜es de navega¸õ em sites.
o
ca
• Identificar grupos de usu´rios com perfil similar em
a
ambientes de escrita colaborativa.

a

Por que minerar informa¸˜es?
co

8

Explicitar
conhecimento m´dico
e
a partir de registros
m´dicos
e
9

Diagn´stico para o uso de lentes de
o
contato
O setor de oftalmologia de um hospital da cidade de Sõ
a
Paulo possui, no seu banco de dados, um hist´rico de
o
pacientes que procuraram o hospital queixando-se de
problemas na visõ.
a
A conduta, em alguns casos, realizada pelo corpo cl´
ınico
de oftalmologistas do hospital ´ indicar o uso de lentes ao
e
paciente.
Problema: Extrair do banco de dados do hospital
uma hip´tese que explica que paciente deve usar ou
o
nõ lente de contatos.
a
Explicitar conhecimento m´dico a partir de registros m´dicos —
e
e

Diagn´stico para o uso de lentes de contato
o

10

Quais s˜o os
a
componentes deste
sistema?

11

Componentes
• Que objetos sõ relevantes para a cria¸õ da hip´tese?
a
ca
o
• Como represent´-los?
a
• Que linguagem de representa¸õ de conhecimento
ca
deve-se utilizar para representar a hip´tese?
o
• Que algoritmo utilizar para gerar a hip´tese?
o

Quais sõ os componentes deste sistema? —
a

Componentes

12

• Que objetos sõ relevantes?
a
Depois de um estudo detalhado do problema com
especialistas da ´rea...
a
Idade do paciente.
Se o paciente tem ou nõ miopia.
a
Se o paciente tem ou nõ astigmatismo.
a
Qual ´ a taxa de lacrimejamento dos olhos do
e
paciente.
• Como represent´-los? Atributo/Valor
a

a

Componentes

13

Atributos
• idade (jovem, adulto, idoso)
• miopia (m´
ıope, hiperm´trope)
e
• astigmatismo (n˜o, sim)
a
• taxa de lacrimejamento (reduzido, normal)
• lentes de contato (forte, fraca, nenhuma)

a

Atributos

14

Dados
Idade

Miopia

Astigmat.

Lacrimej.

Lentes

jovem

m´
ıope

nõ
a

reduzido

nenhuma

jovem

m´
ıope

nõ
a

normal

fraca

jovem

m´
ıope

sim

reduzido

nenhuma

jovem

m´
ıope

sim

normal

forte

jovem

hiper

nõ
a

reduzido

nenhuma

jovem

hiper

nõ
a

normal

fraca

jovem

hiper

sim

reduzido

nenhuma

jovem

hiper

sim

normal

forte

adulto

m´
ıope

nõ
a

reduzido

nenhuma

a

Dados

15

Idade

Miopia

Astigmat.

Lacrimej.

Lentes

adulto

m´
ıope

n˜o
a

normal

fraca

adulto

m´
ıope

sim

reduzido

nenhuma

adulto

m´
ıope

sim

normal

forte

adulto

hiper

sim

reduzido

nenhuma

adulto

hiper

n˜o
a

normal

fraca

adulto

hiper

sim

reduzido

nenhuma

adulto

hiper

sim

normal

nenhuma

a

Dados

16

Idade

Miopia

Astigmat.

Lacrimej.

Lentes

idoso

m´
ıope

nõ
a

reduzido

nenhuma

idoso

m´
ıope

nõ
a

normal

nenhuma

idoso

m´
ıope

sim

reduzido

nenhuma

idoso

m´
ıope

sim

normal

forte

idoso

hiper

nõ
a

reduzido

nenhuma

idoso

hiper

nõ
a

normal

fraca

idoso

hiper

sim

reduzido

nenhuma

idoso

hiper

sim

normal

nenhuma

a

Dados

17

Extra¸õ de “conhecimento”
ca
• O que foi apresentado nos slides anteriores pode ser
considerado como conhecimento? Nõ
a
• Pode ser apresentado como uma informa¸õ que
ca
consegue explicar a tomada de decisõ dos
a
especialistas? Nõ
a
• O que fazer?

a

ca

18

ca
• Extrair a informa¸˜o realmente relevante.
ca
• Utilizar uma linguagem de representa¸˜o
ca
compreens´ ao ser humano.
ıvel

a

ca

19

´
Arvore de decisõ
a

• Cada nodo interno testa um atributo.
• Cada aresta corresponde a um valor de atributo.
• Cada nodo folha retorna uma classifica¸õ.
ca

a

´
Arvore de decisõ
a

20

´
Algoritmos Indutores de Arvores de
Decisõ
a
• Que algoritmo utilizar para gerar hip´teses na
o
forma de ´rvores de decisõ?
a
a
• ID3, C4.5[2]: sõ algoritmos indutores de ´rvore de
a
a
decisõ, top-down, recursivos e que fazem uso do
a
conceito de entropia para identificar os melhores
atributos que representam o conjunto de dados.

a

´
Algoritmos Indutores de Arvores de Decisõ
a

21

Resultado: Sistema Especialista

(none, soft, hard)

a

Resultado: Sistema Especialista

22

Sistema Especialista: Regras de Produ¸õ
ca
• Baseado na premissa que o processo de tomada de
decisõ humano pode ser modelado por meio de regras
a
˜
do tipo SE condi¸˜es ENTAO conclus˜es [FACA
co
o
¸
a¸˜es]
co
• Convertendo uma ´rvore de decisõ em regras de
a
a
produ¸õ:
ca

a

ca

23

˜
• SE lacrimejamento=reduzido ENTAO lente=nenhuma
˜
• SE lacrimejamento=normal E astigmatismo=n˜o ENTAO
a
lente=fraca
• SE lacrimejamento=normal E astigmatismo=sim E
˜
miopia=miope ENTAO lente=forte
• SE lacrimejamento=normal E astigmatismo=sim E
˜
miopia=hipermetrope ENTAO lente=nenhuma

a

ca

24

Um pouco de c´digo...
o
• Gerar a ´rvore de decisõ usando o RapidMinera .
a
a
• Codificar as regras de produ¸õ usando o Drools
ca
Expert b .
a http://www.rapidminer.com
b http://www.jboss.org/drools/drools-expert.html

a

Um pouco de c´digo...
o

25

O que fazer com grandes quantidades de
documentos?
• Not´
ıcias, patentes, artigos...
• Para tirar proveito desta informa¸õ ´ necess´rio
ca e
a
organiz´-la de alguma forma:
a
Agrupamento de not´
ıcias, patentes, artigos.
Classifica¸õ, Recomenda¸õ e Filtragem de
ca
ca
Not´
ıcias.

Organizar documentos —

O que fazer com grandes quantidades de documentos?

27

Exemplo de agrupamento

E quando n˜o ´ poss´ fazer manualmente?
a e
ıvel


Exemplo de agrupamento

28

Defini¸oes de Algoritmos de Agrupamento
c˜
• O objetivo dos algoritmos de agrupamento ´ colocar
e
os objetos similares em um mesmo grupo e objetos
nõ similares em grupos diferentes.
a
• Normalmente, objetos sõ descritos e agrupados
a
usando um conjunto de atributos e valores.
• Nõ existe nenhuma informa¸õ sobre a classe ou
a
ca
categoria dos objetos.


Defini¸˜es de Algoritmos de Agrupamento
co

29

Formato de um documento
... Esta disciplina tem como objetivo apresentar os principais
conceitos da ´rea de Inteligˆncia Artificial, caracterizar as
a
e
principais tćnicas e m´todos, e implementar alguns problemas
e
e
cl´ssicos desta ´rea sob um ponto de vista introdut´rio.
a
a
o
A estrat´gia de trabalho, o conte´do ministrado e a forma
e
u
dependerõ dos projetos selecionados pelos alunos.
a
Inicialmente, os alunos deverõ trazer os seus Projetos de
a
Conclusõ de Curso, identificar interseçoes entre o projeto e a
a
c˜
disciplina, e propor atividades para a disciplina. ...


Formato de um documento

30

Atributo/Valor usando vetores
Como representar os documentos?
→
−
di = (pi1 , pi2 , · · · , pin)

(1)

• Os atributos sõ as palavras que aparecem nos
a
documentos.
• Se todas as palavras que aparecem nos documentos
forem utilizadas, o vetor nõ ficar´ muito grande?
a
a



31

Diminuindo a dimensionalidade do vetor
• Como filtrar as palavras que devem ser usadas como
atributos?
• Em todos os idiomas existem ´tomos (palavras) que
a
nõ significam muito. Stop-words
a
Esta disciplina tem como objetivo apresentar os principais
conceitos da ´rea de Inteligˆncia Artificial, caracterizar as
a
e
principais tćnicas e m´todos, e implementar alguns problemas
e
e
cl´ssicos desta ´rea sob um ponto de vista introdut´rio.
a
a
o
···


Diminuindo a dimensionalidade do vetor

32

Diminuindo ainda mais a
dimensionalidade do vetor
• Algumas palavras podem aparecer no texto de diversas
maneiras: tćnica, tćnicas, implementar,
e
e
implementa¸õ...
ca
• Stemming - encontrar o radical da palavra e usar
apenas o radical.


Diminuindo ainda mais a dimensionalidade do vetor

33

• J´ conhecemos os atributos.
a
• E os valores?
Booleana - se a palavra aparece ou nõ no
a
documento (1 ou 0)
Por freq¨ˆncia do termo - a freq¨ˆncia com que
ue
ue
a palavra aparece no documento (normalizada ou
nõ)
a
Pondera¸õ tf-idf - o peso ´ proporcional ao
ca
e
n´mero de ocorrˆncias do termo no documento e
u
e
inversamente proporcional ao n´mero de
u
documentos onde o termo aparece.


34

Por freq¨ˆncia do termo
ue
(apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33)
(projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33)
(conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33)
(identiﬁc,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0)
(traz,0.33)


Por freq¨ˆncia do termo
ue

35

Conjunto de Exemplos - Atributo/Valor
Doc.

apresent

form

tecnic

caracteriz

···

d1

0.33

0.33

0.33

0.33

···

d2

0

0.5

0.2

0.33

···

d3

1

0.6

0

0

···

d4

0.4

0.3

0.33

0.4

···

d5

1

0.4

0.1

0.1

···

dn

···

···

···

···

···


Conjunto de Exemplos - Atributo/Valor

36

Componentes para uma solu¸˜o...
ca


Componentes para uma solu¸˜o...
ca

37

Pr´-processamento dos documentos: um
e
pouco de c´digo...
o
Converter texto em TF-IDF usando o RapidMiner.


Pr´-processamento dos documentos: um pouco de c´digo...
e
o

38

Que algoritmo de agrupamento utilizar?


Que algoritmo de agrupamento utilizar?

39

Algoritmos para Agrupamento - K-means
• K signiﬁca o n´mero de agrupamentos (que deve ser
u
informado ` priori).
a
• Sequˆncia de a¸˜es iterativas.
e
co
• A parada ´ baseada em algum crit´rio de qualidade
e
e
dos agrupamentos (por exemplo, similaridade m´dia).
e


Algoritmos para Agrupamento - K-means

40

Algoritmo para Agrupamento - K-means
5

5

4

4

3

3

2

2

1

1

0

0
1

2

3

4

5

6

7

1

8

2

3

4

5

6

7

8

(2) Sorteio dos pontos centrais dos agrupamentos

(1) Objetos que devem ser agrupados

5

5

4

4

3

3

2

2

1

1

0

0
1

2

3

4

5

6

7

8

(3) Atribuição dos objetos aos agrupamentos


Algoritmo para Agrupamento - K-means

1

2

3

4

5

6

7

8

(4) Definição do centro do agrupamento

41

Algoritmos para agrupamento dos
documentos - Weka
Execu¸˜o do K-means no Wekaa .
ca
a http://www.cs.waikato.ac.nz/ml/weka/


Algoritmos para agrupamento dos documentos - Weka

42

Algoritmo para agrupamento dos
documentos - Resultados
¤

§
A
A
A
A
A
A
A
A
A
A
A
A
A
A

¦

instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a
instˆncia
a

0.1
0.1
0.3
0.3
0.3
0.8
0.1
0.1
0.1
0.6
0.6
0.1
0.2
0.1


,0.1
,0.2
,0.4
,0.1
,0.1
,0.7
,0.1
,0.1
,0.1
,0.5
,0.5
,0.1
,0.8
,0.1

,0.1
,0.3
,0.5
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.8
,0.1

,0.1
,0.1
,0.8
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.7
,0.1

,0.1
,0.8
,0.9
,0.1
,0.1
,0.8
,0.1
,0.1
,0.1
,0.6
,0.6
,0.1
,0.9
,0.1

est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a
est´
a

no
no
no
no
no
no
no
no
no
no
no
no
no
no

cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster
cluster

1
1
0
1
1
0
1
1
1
0
0
1
0
1

Algoritmo para agrupamento dos documentos - Resultados

¥

43

Classiﬁca¸˜o de
ca
documentos

44

Classifica¸õ e Filtragem de Not´
ca
ıcias

Classifica¸õ de documentos —
ca

Classifica¸õ e Filtragem de Not´
ca
ıcias

45

Conjunto de Exemplos - Atributo/Valor e
Classe
Doc.

apresent

form

tecnic

caracteriz

···

Relevante

d1

0.33

0.33

0.33

0.33

···

1

d2

0

0.5

0.2

0.33

···

0

d3

1

0.6

0

0

···

1

d4

0.4

0.3

0.33

0.4

···

1

d5

1

0.4

0.1

0.1

···

1

dn

···

···

···

···

···

···

ca

Conjunto de Exemplos - Atributo/Valor e Classe

46

Qual ´ o problema?
e

ca

Qual ´ o problema?
e

47

Uma solu¸˜o...
ca

ca

Uma solu¸˜o...
ca

48

Processo de trabalho

ca

Processo de trabalho

49

Minerando ambientes
colaborativos de escrita
(Wiki)

50

Que informa¸oes um Wiki tem?
c˜
Documento

Versõ
a

Editor

Data

Documento

Versõ
a

Editor

Data

d1

1

···

d2

4

2

···

d3

1

u7
u5

···

d1

u1
u2

d1

3

···

d3

2

4

···

d3

3

u6
u6

···

d1

u2
u3

d1

5

···

d4

1

1

···

d4

2

u8
u9

···

d2

u4
u4

d2

2

···

d5

1

3

···

d5

2

u10
u11

···

d2

u5
u6

···
···
···
···

Exemplo de hist´rico de cria¸õ e altera¸õ de p´ginas em um Wiki.
o
ca
ca
a

Minerando ambientes colaborativos de escrita (Wiki) —

Que informa¸oes um Wiki tem?
c˜

51

O que eu posso fazer com isto?
(a)

(b)

u1

u2
Legenda:
uI = usuário i

d1

dI = documento i

u3
u4

u10
d5

u5
d2

u6

u11
u7
u8

d3
d4
u9


111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
d2
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
d3
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
1111111
0000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
d1
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
1111111
0000000
1111111
0000000
d5
1111111
0000000
1111111
0000000
1111111
0000000
1111111
0000000
d4
1111111
0000000
1111111
0000000
1111111
0000000
1111111
0000000

O que eu posso fazer com isto?

Similaridade:

111
000
111
000

alta
média
baixa

52

Exemplo
Execu¸˜o de uma aplica¸˜o usando estes conceitos.
ca
ca


Exemplo

53

Considera¸oes Finais
c˜
• Caso sobre conhecimento m´dico: Data Mining.
e
• Agrupamento, classifica¸õ e filtragem de
ca
documentos: Text Mining.
• Caso Wiki: Web Mining
• O que existe em comum nestes casos?

Considera¸˜es Finais —
co

Considera¸˜es Finais
co

55

References
[1] Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997.
[2] J. R. Quinlan. Knowledge Acquisition for Knowledge-Based
Systems, chapter Simplifying Decision Trees. Academic
Press, 1988.
[3] Stuart J. Russel and Peter Norvig. Artiﬁcial intelligence: a
modern approach. Prentice-Hall, 2 edition, 2003.
[4] Ian H. Witten and Eibe Frank. Data Mining: Practical
Machine Learning Tools and Techniques. Elsevier, second
edition, 2005.

56-1

Data, Text and Web Mining

Mais conteúdo relacionado

Mais de Fabrício Barth

Data, Text and Web Mining