Cria¸˜o de regras de associa¸˜o a
ca
ca
partir da navega¸˜o de usu´rios em
ca
a
sites Web
Fabr´ J. Barth
ıcio
Faculdades B...
Processo de minera¸˜o de padr˜es na
ca
o
Web
Pré−processamento dos dados
Limpeza dos dados
Identificação de pageview
Ident...
Exemplo t´
ıpico de log

Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web —
ca
ca
ca
a

Exem...
Pr´-processamento do log: identifica¸˜o
e
ca
de usu´rios
a

Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´ri...
Pr´-processamento do log: identifica¸˜o
e
ca
das se¸˜es
co

Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´ri...
Matriz de transa¸oes
c˜

Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web —
ca
ca
ca
a

Matr...
Matriz de transa¸oes com
c˜
meta-informa¸oes sobre as p´ginas
c˜
a
usu´rio
a

categoria1

categoria2

categoria3

···

cat...
Regras de Associa¸˜o
ca
• Caso do supermercado (fralda → cerveja)
• Quem acessa a p´gina sobre futebol tamb´m acessa a
a
e...
Algoritmo para cria¸˜o
ca
de regras

9
Minera¸˜o de itens frequentes
ca
• Dado:
um conjunto A = {a1 , · · · , am } de itens,
uma tabela T = (t1 , · · · , tn ) de...
Exemplo de transa¸oes
c˜

Figure 1: Um banco de dados de transa¸˜es, com 10
co
transa¸˜es, e a enumera¸˜o de todos os conj...
Minera¸˜o de itens frequentes
ca
• Objetivo 2:
encontrar o conjunto de regras de associa¸˜o com
ca
confian¸a maior que um m...
Suporte e Confian¸a
c
O suporte de um conjunto de itens Z, suporte(Z),
representa a porcentagem de transa¸˜es na base de da...
Exemplo de regras geradas

Figure 2: Regras extra´
ıdas com confian¸a maior que 0,8
c

Algoritmo para cria¸˜o de regras —
c...
Exemplo b´sico de uso
a
http://rpubs.com/fbarth/regraAssociacao

Algoritmo para cria¸˜o de regras —
ca

Exemplo b´sico de ...
Medida Lift
Dada uma regra de associa¸˜o A → B, esta medida indica
ca
o quanto mais freq¨ente torna-se B quando ocorre A.
...
Dados de click-stream de um site da
Hungria
Dados anonimizados fornecidos por Ferenc Bodon http://fimi.ua.ac.be/data/kosara...
Material de consulta
• Fabr´ Barth. Minera¸˜o de regras de associa¸˜o em
ıcio
ca
ca
servidores Web com RapidMinera .
• Iah...
• Data Mining Algorithms in R - Apriori Algorithm.
http://en.wikibooks.org/wiki/Data Mining Algorithms In R/
Frequent Patt...
Próximos SlideShares
Carregando em…5
×

Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web

572 visualizações

Publicada em

Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web

Publicada em: Tecnologia
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
572
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
8
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web

  1. 1. Cria¸˜o de regras de associa¸˜o a ca ca partir da navega¸˜o de usu´rios em ca a sites Web Fabr´ J. Barth ıcio Faculdades BandTec e VAGAS Tecnologia Junho de 2013
  2. 2. Processo de minera¸˜o de padr˜es na ca o Web Pré−processamento dos dados Limpeza dos dados Identificação de pageview Identificação de seções Integração de dados Transformação dos dados Log dos servidores de aplicação Banco de dados com as transações dos usuários Padrões de uso Padrões Agrupamento de pageview Análise de correlação Mineração de regras de associação Mineração de padrões sequenciais Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web — ca ca ca a na Web Processo de minera¸˜o de padr˜es ca o 2
  3. 3. Exemplo t´ ıpico de log Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web — ca ca ca a Exemplo t´ ıpico de log 3
  4. 4. Pr´-processamento do log: identifica¸˜o e ca de usu´rios a Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web ca ca ca a identifica¸˜o de usu´rios ca a — Pr´-processamento do log: e 4
  5. 5. Pr´-processamento do log: identifica¸˜o e ca das se¸˜es co Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web ca ca ca a identifica¸˜o das se¸oes ca c˜ — Pr´-processamento do log: e 5
  6. 6. Matriz de transa¸oes c˜ Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web — ca ca ca a Matriz de transa¸oes c˜ 6
  7. 7. Matriz de transa¸oes com c˜ meta-informa¸oes sobre as p´ginas c˜ a usu´rio a categoria1 categoria2 categoria3 ··· categoriam user1 0 2 0 ··· 1 user2 1 1 0 ··· 0 user3 2 0 1 ··· 0 user4 0 1 0 ··· 0 ··· ··· ··· ··· ··· ··· usern 1 1 0 ··· 1 • Cada p´gina pode pertencer a uma categoria (i.e., tipo de livro, tipo de estabelecimento comercial) a • Cada p´gina pode estar associada a uma cidade (i.e., um estabelecimento, uma vaga de emprego) a Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web — ca ca ca a informa¸˜es sobre as p´ginas co a Matriz de transa¸˜es com metaco 7
  8. 8. Regras de Associa¸˜o ca • Caso do supermercado (fralda → cerveja) • Quem acessa a p´gina sobre futebol tamb´m acessa a a e p´gina de volei em 90% dos casos (futebol → volei). a • Quem acessa a p´gina de ofertas e a p´gina de a a material de constru¸˜o tamb´m finaliza a compra em ca e 83% dos casos (ofertas ∧ material constru¸˜o → ca compra) Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web — ca ca ca a Regras de Associa¸˜o ca 8
  9. 9. Algoritmo para cria¸˜o ca de regras 9
  10. 10. Minera¸˜o de itens frequentes ca • Dado: um conjunto A = {a1 , · · · , am } de itens, uma tabela T = (t1 , · · · , tn ) de transa¸˜es sobre A, co um n´mero βmin que 0 < βmin ≤ 1, o suporte u m´ ınimo. • Objetivo 1: encontrar o conjunto de itens frequentes, tais que o suporte de cada conjunto de itens ´ maior ou e igual ao βmin definido pelo usu´rio. a Algoritmo para cria¸˜o de regras — ca Minera¸˜o de itens frequentes ca 10
  11. 11. Exemplo de transa¸oes c˜ Figure 1: Um banco de dados de transa¸˜es, com 10 co transa¸˜es, e a enumera¸˜o de todos os conjuntos de itens co ca frequentes usando o suporte m´ ınimo = 0,3 Algoritmo para cria¸˜o de regras — ca Exemplo de transa¸˜es co 11
  12. 12. Minera¸˜o de itens frequentes ca • Objetivo 2: encontrar o conjunto de regras de associa¸˜o com ca confian¸a maior que um m´ c ınimo definido pelo utilizador. Algoritmo para cria¸˜o de regras — ca Minera¸˜o de itens frequentes ca 12
  13. 13. Suporte e Confian¸a c O suporte de um conjunto de itens Z, suporte(Z), representa a porcentagem de transa¸˜es na base de dados co que contˆm os itens de Z. e O suporte de uma regra de associa¸˜o A → B, ca suporte(A → B), ´ dado por suporte(A ∪ B). e P (A ∪ B) suporte(A ∪ B) = conf ianca(A → B) = P (A) suporte(A) (1) Algoritmo para cria¸˜o de regras — ca Suporte e Confian¸a c 13
  14. 14. Exemplo de regras geradas Figure 2: Regras extra´ ıdas com confian¸a maior que 0,8 c Algoritmo para cria¸˜o de regras — ca Exemplo de regras geradas 14
  15. 15. Exemplo b´sico de uso a http://rpubs.com/fbarth/regraAssociacao Algoritmo para cria¸˜o de regras — ca Exemplo b´sico de uso a 15
  16. 16. Medida Lift Dada uma regra de associa¸˜o A → B, esta medida indica ca o quanto mais freq¨ente torna-se B quando ocorre A. u • Se Lif t(A → B) = 1, ent˜o A e B s˜o independentes. a a • Se Lif t(A → B) > 1, ent˜o A e B s˜o positivamente a a independentes. • Se Lif t(A → B) < 1, A e B s˜o negativamente a dependentes. Esta medida varia entre 0 e ∞ e possui interpreta¸˜o ca simples: quanto maior o valor de Lif t, mais interessante a regra, pois A aumenta B. Algoritmo para cria¸˜o de regras — ca Medida Lift 16
  17. 17. Dados de click-stream de um site da Hungria Dados anonimizados fornecidos por Ferenc Bodon http://fimi.ua.ac.be/data/kosarak.dat http://rpubs.com/fbarth/regrasAssociacaoClickStream Algoritmo para cria¸˜o de regras — ca Dados de click-stream de um site da Hungria 17
  18. 18. Material de consulta • Fabr´ Barth. Minera¸˜o de regras de associa¸˜o em ıcio ca ca servidores Web com RapidMinera . • Iah H. Witteh and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques (Third Edition), 2011. • Gon¸alves. Regras de Associa¸˜o e suas Medidas de c ca Interesse Objetivas e Subjetivas. INFOCOMP Journal of Computer Science, 2005, 4, 26-35. a http://fbarth.net.br/materiais/webMining/webUsageMining.pdf Algoritmo para cria¸˜o de regras — ca Material de consulta 18
  19. 19. • Data Mining Algorithms in R - Apriori Algorithm. http://en.wikibooks.org/wiki/Data Mining Algorithms In R/ Frequent Pattern Mining/The Apriori Algorithm. Acessado em 13 de junho de 2013. • RDataMining.com: Association Rules. http://www.rdatamining.com/examples/associationrules. Acessado em 13 de junho de 2013. Algoritmo para cria¸˜o de regras — ca Material de consulta 19

×