Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web

Cria¸õ de regras de associa¸õ a
ca
ca
partir da navega¸õ de usu´rios em
ca
a
sites Web
Fabr´ J. Barth
ıcio
Faculdades BandTec e VAGAS Tecnologia

Junho de 2013

Processo de minera¸õ de padr˜es na
ca
o
Web
Pré−processamento dos dados
Limpeza dos dados
Identificação de pageview
Identificação de seções
Integração de dados
Transformação dos dados

Log dos servidores
de aplicação

Banco de dados com
as transações dos usuários

Padrões de uso

Padrões

Agrupamento de pageview
Análise de correlação
Mineração de regras de associação
Mineração de padrões sequenciais

Cria¸õ de regras de associa¸õ a partir da navega¸õ de usu´rios em sites Web —
ca
ca
ca
a
na Web

Processo de minera¸õ de padr˜es
ca
o

2

Exemplo t´
ıpico de log

ca
ca
ca
a

Exemplo t´
ıpico de log

3

Pr´-processamento do log: identifica¸õ
e
ca
de usu´rios
a

Cria¸õ de regras de associa¸õ a partir da navega¸õ de usu´rios em sites Web
ca
ca
ca
a
identifica¸õ de usu´rios
ca
a

—

Pr´-processamento do log:
e

4

Pr´-processamento do log: identifica¸õ
e
ca
das se¸˜es
co

Cria¸õ de regras de associa¸õ a partir da navega¸õ de usu´rios em sites Web
ca
ca
ca
a
identifica¸õ das se¸oes
ca
c˜

—

Pr´-processamento do log:
e

5

Matriz de transa¸oes
c˜

ca
ca
ca
a

Matriz de transa¸oes
c˜

6

Matriz de transa¸oes com
c˜
meta-informa¸oes sobre as p´ginas
c˜
a
usu´rio
a

categoria1

categoria2

categoria3

···

categoriam

user1

0

2

0

···

1

user2

1

1

0

···

0

user3

2

0

1

···

0

user4

0

1

0

···

0

···

···

···

···

···

···

usern

1

1

0

···

1

• Cada p´gina pode pertencer a uma categoria (i.e., tipo de livro, tipo de estabelecimento comercial)
a
• Cada p´gina pode estar associada a uma cidade (i.e., um estabelecimento, uma vaga de emprego)
a

ca
ca
ca
a
informa¸˜es sobre as p´ginas
co
a

Matriz de transa¸˜es com metaco

7

Regras de Associa¸õ
ca
• Caso do supermercado (fralda → cerveja)
• Quem acessa a p´gina sobre futebol tamb´m acessa a
a
e
p´gina de volei em 90% dos casos (futebol → volei).
a
• Quem acessa a p´gina de ofertas e a p´gina de
a
a
material de constru¸õ tamb´m finaliza a compra em
ca
e
83% dos casos (ofertas ∧ material constru¸õ →
ca
compra)

ca
ca
ca
a

Regras de Associa¸õ
ca

8

Algoritmo para cria¸˜o
ca
de regras

9

Minera¸õ de itens frequentes
ca
• Dado:
um conjunto A = {a1 , · · · , am } de itens,
uma tabela T = (t1 , · · · , tn ) de transa¸˜es sobre A,
co
um n´mero βmin que 0 < βmin ≤ 1, o suporte
u
m´
ınimo.
• Objetivo 1:
encontrar o conjunto de itens frequentes, tais que
o suporte de cada conjunto de itens ´ maior ou
e
igual ao βmin definido pelo usu´rio.
a

Algoritmo para cria¸õ de regras —
ca

ca

10

Exemplo de transa¸oes
c˜

Figure 1: Um banco de dados de transa¸˜es, com 10
co
transa¸˜es, e a enumera¸˜o de todos os conjuntos de itens
co
ca
frequentes usando o suporte m´
ınimo = 0,3
ca

Exemplo de transa¸˜es
co

11

ca
• Objetivo 2:
encontrar o conjunto de regras de associa¸õ com
ca
confian¸a maior que um m´
c
ınimo definido pelo
utilizador.

ca

ca

12

Suporte e Confian¸a
c
O suporte de um conjunto de itens Z, suporte(Z),
representa a porcentagem de transa¸˜es na base de dados
co
que contˆm os itens de Z.
e
O suporte de uma regra de associa¸õ A → B,
ca
suporte(A → B), ´ dado por suporte(A ∪ B).
e

P (A ∪ B)
suporte(A ∪ B)
=
conf ianca(A → B) =
P (A)
suporte(A)
(1)

ca

Suporte e Confian¸a
c

13

Exemplo de regras geradas

Figure 2: Regras extra´
ıdas com conﬁan¸a maior que 0,8
c

ca

Exemplo de regras geradas

14

Exemplo b´sico de uso
a
http://rpubs.com/fbarth/regraAssociacao

ca

Exemplo b´sico de uso
a

15

Medida Lift
Dada uma regra de associa¸õ A → B, esta medida indica
ca
o quanto mais freqënte torna-se B quando ocorre A.
u
• Se Lif t(A → B) = 1, entõ A e B sõ independentes.
a
a
• Se Lif t(A → B) > 1, entõ A e B sõ positivamente
a
a
independentes.
• Se Lif t(A → B) < 1, A e B sõ negativamente
a
dependentes.
Esta medida varia entre 0 e ∞ e possui interpreta¸õ
ca
simples: quanto maior o valor de Lif t, mais
interessante a regra, pois A aumenta B.
ca

Medida Lift

16

Dados de click-stream de um site da
Hungria
Dados anonimizados fornecidos por Ferenc Bodon http://ﬁmi.ua.ac.be/data/kosarak.dat
http://rpubs.com/fbarth/regrasAssociacaoClickStream

ca

Dados de click-stream de um site da Hungria

17

Material de consulta
• Fabr´ Barth. Minera¸õ de regras de associa¸õ em
ıcio
ca
ca
servidores Web com RapidMinera .
• Iah H. Witteh and Eibe Frank. Data Mining: Practical
Machine Learning Tools and Techniques (Third
Edition), 2011.
• Gon¸alves. Regras de Associa¸õ e suas Medidas de
c
ca
Interesse Objetivas e Subjetivas. INFOCOMP Journal
of Computer Science, 2005, 4, 26-35.
a http://fbarth.net.br/materiais/webMining/webUsageMining.pdf

ca


18

• Data Mining Algorithms in R - Apriori Algorithm.
http://en.wikibooks.org/wiki/Data Mining Algorithms In R/
Frequent Pattern Mining/The Apriori Algorithm.
Acessado em 13 de junho de 2013.
• RDataMining.com: Association Rules.
http://www.rdatamining.com/examples/associationrules. Acessado em 13 de junho de
2013.

ca


19

Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web

Mais conteúdo relacionado

Semelhante a Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web

Mais de Fabrício Barth

Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web