O documento descreve o processo de mineração de padrões na Web para criar regras de associação a partir da navegação de usuários em sites. O processo inclui pré-processamento de logs, identificação de usuários e seções, criação de uma matriz de transações e mineração de itens frequentes e regras de associação.
The document discusses association rule mining with R. It provides an overview of association rule mining concepts like support, confidence and lift. It then demonstrates how to use the apriori() function in R to generate association rules from the Titanic dataset. The document shows how to remove redundant rules, interpret rules and visualize rules using scatter plots and matrices.
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
1) O documento apresenta os objetivos e conceitos básicos de mineração de padrões frequentes e regras de associação em grandes bases de dados transacionais;
2) Os algoritmos Apriori e medidas como suporte, confiança e lift são discutidos como forma de identificar padrões úteis nos dados;
3) Exemplos ilustram como as regras geradas podem ser usadas em cenários como análise de mercado e recomendação.
O documento descreve um repositório social de serviços web que importa, armazena e recomenda serviços web. Ele apresenta a arquitetura do sistema, que importa serviços usando um web crawler, armazena informações em um banco de dados e calcula similaridades entre serviços usando algoritmos. Os resultados mostram que o sistema importou centenas de serviços e milhões de relações entre funções em tempos razoáveis e foi capaz de gerar diagramas de relações entre serviços. Limitações e trabalhos futuros são discutidos.
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...Samba Tech
Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala.
Para suportar um grande volume de requisições, a solução foi desenvolvida sobre uma infraestrutura elástica, com provisionamento automático de recursos. A utilização de uma nuvem híbrida permitiu a aplicação obter alto desempenho e disponibilidade.
Esta apresentação foi realizada no Cloud Latam 2014 em São Paulo - Brasil. O objetivo desta apresentação foi descrever algumas iniciativas em Big Data no VAGAS.com
Django Channels - Aplicações real time com DjangoPaula Grangeiro
Já ouviu falar de Channels? Não? Nesta talk vamos destrinchar um pouco mais dessa feature que permite requisições assíncronas no Django e que é perfeita para o desenvolvimento de aplicações real time.
O documento descreve a jornada da MaxMilhas para entregar uma plataforma escalável capaz de suportar altos volumes de acessos durante eventos de grande porte e seu período de crescimento acelerado. Eles realizaram vários testes de carga que identificaram melhorias como cache, limites de conexões, otimizações no kernel e mudança na biblioteca de requisições. Após as correções, a plataforma se mostrou pronta para o hipercrescimento com picos de 15 milhões de requisições por hora.
O documento apresenta um resumo sobre regras de associação, incluindo conceitos básicos, o algoritmo Apriori para mineração de regras de associação e avaliação das regras geradas. A agenda inclui tópicos como motivação, definição, conceitos básicos, mineração de regras, algoritmo Apriori, geração e avaliação de regras.
The document discusses association rule mining with R. It provides an overview of association rule mining concepts like support, confidence and lift. It then demonstrates how to use the apriori() function in R to generate association rules from the Titanic dataset. The document shows how to remove redundant rules, interpret rules and visualize rules using scatter plots and matrices.
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
1) O documento apresenta os objetivos e conceitos básicos de mineração de padrões frequentes e regras de associação em grandes bases de dados transacionais;
2) Os algoritmos Apriori e medidas como suporte, confiança e lift são discutidos como forma de identificar padrões úteis nos dados;
3) Exemplos ilustram como as regras geradas podem ser usadas em cenários como análise de mercado e recomendação.
O documento descreve um repositório social de serviços web que importa, armazena e recomenda serviços web. Ele apresenta a arquitetura do sistema, que importa serviços usando um web crawler, armazena informações em um banco de dados e calcula similaridades entre serviços usando algoritmos. Os resultados mostram que o sistema importou centenas de serviços e milhões de relações entre funções em tempos razoáveis e foi capaz de gerar diagramas de relações entre serviços. Limitações e trabalhos futuros são discutidos.
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...Samba Tech
Arquiteturas e tecnologias por trás da análise de vídeos online em larga escala.
Para suportar um grande volume de requisições, a solução foi desenvolvida sobre uma infraestrutura elástica, com provisionamento automático de recursos. A utilização de uma nuvem híbrida permitiu a aplicação obter alto desempenho e disponibilidade.
Esta apresentação foi realizada no Cloud Latam 2014 em São Paulo - Brasil. O objetivo desta apresentação foi descrever algumas iniciativas em Big Data no VAGAS.com
Django Channels - Aplicações real time com DjangoPaula Grangeiro
Já ouviu falar de Channels? Não? Nesta talk vamos destrinchar um pouco mais dessa feature que permite requisições assíncronas no Django e que é perfeita para o desenvolvimento de aplicações real time.
O documento descreve a jornada da MaxMilhas para entregar uma plataforma escalável capaz de suportar altos volumes de acessos durante eventos de grande porte e seu período de crescimento acelerado. Eles realizaram vários testes de carga que identificaram melhorias como cache, limites de conexões, otimizações no kernel e mudança na biblioteca de requisições. Após as correções, a plataforma se mostrou pronta para o hipercrescimento com picos de 15 milhões de requisições por hora.
O documento apresenta um resumo sobre regras de associação, incluindo conceitos básicos, o algoritmo Apriori para mineração de regras de associação e avaliação das regras geradas. A agenda inclui tópicos como motivação, definição, conceitos básicos, mineração de regras, algoritmo Apriori, geração e avaliação de regras.
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
1) O documento discute a técnica de redução de dimensionalidade chamada Análise de Componentes Principais (PCA).
2) A PCA projeta os dados de múltiplas dimensões para poucas dimensões principais para compactar e simplificar os dados.
3) A PCA calcula os autovetores e valores singulares da matriz de covariância dos dados para definir as novas dimensões principais.
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataFabrício Barth
O documento discute a hierarquia de modelos de aprendizagem de máquina, distinguindo entre aprendizagem supervisionada e não supervisionada. Aprendizagem supervisionada constrói modelos preditivos usando dados rotulados, enquanto aprendizagem não supervisionada gera modelos descritivos sem rótulos. Exemplos de técnicas supervisionadas incluem regressão, classificação e exemplos não supervisionados incluem agrupamento, associação e sumarização.
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
Este documento discute o contexto de Big Data, Ciência de Dados e Processo de Descoberta de Conhecimento (KDD). A quantidade de dados gerados aumentou drasticamente e vem de fontes variadas, incluindo dados estruturados e não estruturados. O objetivo continua sendo sintetizar, organizar e tomar decisões baseadas nos dados, porém os desafios são maiores devido ao volume, variedade e velocidade dos dados atuais. O processo KDD é usado para extrair conhecimento e insights dos dados por meio de aquisição,
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataFabrício Barth
Este documento fornece um resumo sobre pré-processamento de dados e análise exploratória no R. Ele discute conceitos como tipos de dados, representação de dados no R, subsetting e análise exploratória. O documento também apresenta exemplos de dados brutos e processados e discute a importância de organizar os dados em formato tidy.
Algoritmos de Agrupamento - Aprendizado não supervisionadoFabrício Barth
(1) O documento discute algoritmos de agrupamento não supervisionado e seus aplicativos;
(2) Dois tipos principais de agrupamento são descritos: agrupamento plano e hierárquico;
(3) O algoritmo K-means é explicado como um exemplo de agrupamento plano hard e seu funcionamento iterativo é detalhado.
O documento discute a coleta de dados de dispositivos móveis e como esses dados podem ser usados para reconhecimento de atividades humanas através de classificadores de machine learning. Ele fornece exemplos de como dados de celulares, relógios e outros dispositivos podem ser usados para inferir localização, atividades físicas e comportamentos. O documento também descreve experimentos para classificar atividades como andar, subir escadas e sentar usando dados de acelerômetros.
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
- O documento apresenta uma oficina sobre construção de modelos descritivos e preditivos utilizando a linguagem R.
- Serão abordados conceitos de aprendizagem de máquina, análise de mensagens do Twitter usando agrupamento e desenvolvimento de algoritmos anti-spam.
- O objetivo é apresentar exemplos práticos de construção de modelos utilizando a linguagem R.
Palestra realizada no http://conalytics.com.br/ 2014. Apresenta um exemplo de mineração de texto em mensagens do twitter e um case de desenvolvimento de anti-spam. Todos os exemplos de Web Data mining são apresentados com a linguagem de programação R.
Web Data Mining com R: identificação de spam utilizando Random ForestFabrício Barth
O documento discute a identificação de spam utilizando florestas aleatórias. Ele apresenta algoritmos de aprendizado de máquina como ID3 e florestas aleatórias para construção de modelos preditivos de árvores de decisão. O documento também fornece exemplos de classificação de spam usando algoritmos J48 e RandomForest.
Web Data Mining com R: design de projetos para criação de modelos preditivosFabrício Barth
O documento discute o design de projetos para criação de modelos preditivos usando web data mining com R. Ele descreve as principais etapas como escolher os dados corretos, dividir os dados em conjuntos de treinamento, teste e validação, selecionar atributos, identificar modelos, avaliar erros e realizar validação cruzada.
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
O documento descreve os principais componentes e etapas para agrupar mensagens do Twitter, incluindo a coleta de dados, pré-processamento, representação dos documentos em vetores, e algoritmos de agrupamento como K-means.
Web Data Mining com r: aprendizagem de máquinaFabrício Barth
1) O documento discute aprendizagem de máquina e mineração de dados na web usando R. 2) Aprendizagem de máquina permite que computadores aprendam sem programação explícita. 3) Exemplos de aprendizagem supervisionada e não supervisionada são apresentados.
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
Este documento resume um livro sobre mineração de dados na web usando R. Ele discute 1) o projeto R e suas características, 2) a definição de dados e a diferença entre dados brutos e processados, e 3) como representar dados no R usando vetores, matrizes e data frames.
Data Science, Machine Learning and Big DataFabrício Barth
O documento discute como ciência de dados, aprendizado de máquina e big data podem ser usados para prever crimes, terremotos e recomendar itens para usuários. Ele explica que esses projetos manipulam grandes volumes de dados variados para criar modelos preditivos.
Uma introdução à mineração de informações na era do Big DataFabrício Barth
O documento apresenta uma introdução sobre mineração de informações na era do Big Data. Resume os principais tópicos a serem abordados, incluindo a manipulação de dados estruturados e não-estruturados, agrupamento, classificação e web data mining.
Este documento descreve um projeto de desenvolvimento de software chamado Simple Maps realizado por estudantes de ADS sob a orientação do professor Fabricio Barth. O projeto tem o objetivo de criar um serviço para que usuários possam inserir objetos multimídia em mapas e será desenvolvido em 4 sprints de 3 semanas cada utilizando o framework SCRUM.
O documento introduz o tema da mineração de informações, definindo seu objetivo de apresentar a importância do tema e conceitos relacionados. Ele também fornece exemplos de aplicações e discute componentes importantes como atributos, dados e algoritmos para gerar hipóteses."
O documento apresenta os conceitos de mineração de dados, texto e web. Discute a importância do tema e apresenta alguns exemplos de aplicações como extrair conhecimento médico a partir de registros, agrupar notícias e identificar padrões de navegação em sites.
Ferramentas Java para Recuperação e Mineração de InformaçõesFabrício Barth
O documento discute ferramentas Java para recuperação e mineração de informações. Ele aborda conceitos como agrupamento de documentos usando vetores de atributos/valores e técnicas como remoção de stop-words e stemming para reduzir a dimensionalidade dos vetores.
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoFabrício Barth
O documento descreve um sistema de suporte ao planejamento e orçamento de projetos que armazena informações sobre projetos anteriores e recursos utilizados para estimar custos e propor planos para novos projetos com base em objetivos fornecidos. O sistema retorna múltiplos planos para comparação considerando custo e tempo e é integrado a outras ferramentas de gerenciamento de projetos.
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
1) O documento discute a técnica de redução de dimensionalidade chamada Análise de Componentes Principais (PCA).
2) A PCA projeta os dados de múltiplas dimensões para poucas dimensões principais para compactar e simplificar os dados.
3) A PCA calcula os autovetores e valores singulares da matriz de covariância dos dados para definir as novas dimensões principais.
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataFabrício Barth
O documento discute a hierarquia de modelos de aprendizagem de máquina, distinguindo entre aprendizagem supervisionada e não supervisionada. Aprendizagem supervisionada constrói modelos preditivos usando dados rotulados, enquanto aprendizagem não supervisionada gera modelos descritivos sem rótulos. Exemplos de técnicas supervisionadas incluem regressão, classificação e exemplos não supervisionados incluem agrupamento, associação e sumarização.
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
Este documento discute o contexto de Big Data, Ciência de Dados e Processo de Descoberta de Conhecimento (KDD). A quantidade de dados gerados aumentou drasticamente e vem de fontes variadas, incluindo dados estruturados e não estruturados. O objetivo continua sendo sintetizar, organizar e tomar decisões baseadas nos dados, porém os desafios são maiores devido ao volume, variedade e velocidade dos dados atuais. O processo KDD é usado para extrair conhecimento e insights dos dados por meio de aquisição,
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataFabrício Barth
Este documento fornece um resumo sobre pré-processamento de dados e análise exploratória no R. Ele discute conceitos como tipos de dados, representação de dados no R, subsetting e análise exploratória. O documento também apresenta exemplos de dados brutos e processados e discute a importância de organizar os dados em formato tidy.
Algoritmos de Agrupamento - Aprendizado não supervisionadoFabrício Barth
(1) O documento discute algoritmos de agrupamento não supervisionado e seus aplicativos;
(2) Dois tipos principais de agrupamento são descritos: agrupamento plano e hierárquico;
(3) O algoritmo K-means é explicado como um exemplo de agrupamento plano hard e seu funcionamento iterativo é detalhado.
O documento discute a coleta de dados de dispositivos móveis e como esses dados podem ser usados para reconhecimento de atividades humanas através de classificadores de machine learning. Ele fornece exemplos de como dados de celulares, relógios e outros dispositivos podem ser usados para inferir localização, atividades físicas e comportamentos. O documento também descreve experimentos para classificar atividades como andar, subir escadas e sentar usando dados de acelerômetros.
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
- O documento apresenta uma oficina sobre construção de modelos descritivos e preditivos utilizando a linguagem R.
- Serão abordados conceitos de aprendizagem de máquina, análise de mensagens do Twitter usando agrupamento e desenvolvimento de algoritmos anti-spam.
- O objetivo é apresentar exemplos práticos de construção de modelos utilizando a linguagem R.
Palestra realizada no http://conalytics.com.br/ 2014. Apresenta um exemplo de mineração de texto em mensagens do twitter e um case de desenvolvimento de anti-spam. Todos os exemplos de Web Data mining são apresentados com a linguagem de programação R.
Web Data Mining com R: identificação de spam utilizando Random ForestFabrício Barth
O documento discute a identificação de spam utilizando florestas aleatórias. Ele apresenta algoritmos de aprendizado de máquina como ID3 e florestas aleatórias para construção de modelos preditivos de árvores de decisão. O documento também fornece exemplos de classificação de spam usando algoritmos J48 e RandomForest.
Web Data Mining com R: design de projetos para criação de modelos preditivosFabrício Barth
O documento discute o design de projetos para criação de modelos preditivos usando web data mining com R. Ele descreve as principais etapas como escolher os dados corretos, dividir os dados em conjuntos de treinamento, teste e validação, selecionar atributos, identificar modelos, avaliar erros e realizar validação cruzada.
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
O documento descreve os principais componentes e etapas para agrupar mensagens do Twitter, incluindo a coleta de dados, pré-processamento, representação dos documentos em vetores, e algoritmos de agrupamento como K-means.
Web Data Mining com r: aprendizagem de máquinaFabrício Barth
1) O documento discute aprendizagem de máquina e mineração de dados na web usando R. 2) Aprendizagem de máquina permite que computadores aprendam sem programação explícita. 3) Exemplos de aprendizagem supervisionada e não supervisionada são apresentados.
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
Este documento resume um livro sobre mineração de dados na web usando R. Ele discute 1) o projeto R e suas características, 2) a definição de dados e a diferença entre dados brutos e processados, e 3) como representar dados no R usando vetores, matrizes e data frames.
Data Science, Machine Learning and Big DataFabrício Barth
O documento discute como ciência de dados, aprendizado de máquina e big data podem ser usados para prever crimes, terremotos e recomendar itens para usuários. Ele explica que esses projetos manipulam grandes volumes de dados variados para criar modelos preditivos.
Uma introdução à mineração de informações na era do Big DataFabrício Barth
O documento apresenta uma introdução sobre mineração de informações na era do Big Data. Resume os principais tópicos a serem abordados, incluindo a manipulação de dados estruturados e não-estruturados, agrupamento, classificação e web data mining.
Este documento descreve um projeto de desenvolvimento de software chamado Simple Maps realizado por estudantes de ADS sob a orientação do professor Fabricio Barth. O projeto tem o objetivo de criar um serviço para que usuários possam inserir objetos multimídia em mapas e será desenvolvido em 4 sprints de 3 semanas cada utilizando o framework SCRUM.
O documento introduz o tema da mineração de informações, definindo seu objetivo de apresentar a importância do tema e conceitos relacionados. Ele também fornece exemplos de aplicações e discute componentes importantes como atributos, dados e algoritmos para gerar hipóteses."
O documento apresenta os conceitos de mineração de dados, texto e web. Discute a importância do tema e apresenta alguns exemplos de aplicações como extrair conhecimento médico a partir de registros, agrupar notícias e identificar padrões de navegação em sites.
Ferramentas Java para Recuperação e Mineração de InformaçõesFabrício Barth
O documento discute ferramentas Java para recuperação e mineração de informações. Ele aborda conceitos como agrupamento de documentos usando vetores de atributos/valores e técnicas como remoção de stop-words e stemming para reduzir a dimensionalidade dos vetores.
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoFabrício Barth
O documento descreve um sistema de suporte ao planejamento e orçamento de projetos que armazena informações sobre projetos anteriores e recursos utilizados para estimar custos e propor planos para novos projetos com base em objetivos fornecidos. O sistema retorna múltiplos planos para comparação considerando custo e tempo e é integrado a outras ferramentas de gerenciamento de projetos.
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Web Data Mining com R: criação de regras de associação a partir da navegação de usuários em sites Web
1. Cria¸˜o de regras de associa¸˜o a
ca
ca
partir da navega¸˜o de usu´rios em
ca
a
sites Web
Fabr´ J. Barth
ıcio
Faculdades BandTec e VAGAS Tecnologia
Junho de 2013
2. Processo de minera¸˜o de padr˜es na
ca
o
Web
Pré−processamento dos dados
Limpeza dos dados
Identificação de pageview
Identificação de seções
Integração de dados
Transformação dos dados
Log dos servidores
de aplicação
Banco de dados com
as transações dos usuários
Padrões de uso
Padrões
Agrupamento de pageview
Análise de correlação
Mineração de regras de associação
Mineração de padrões sequenciais
Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web —
ca
ca
ca
a
na Web
Processo de minera¸˜o de padr˜es
ca
o
2
3. Exemplo t´
ıpico de log
Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web —
ca
ca
ca
a
Exemplo t´
ıpico de log
3
4. Pr´-processamento do log: identifica¸˜o
e
ca
de usu´rios
a
Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web
ca
ca
ca
a
identifica¸˜o de usu´rios
ca
a
—
Pr´-processamento do log:
e
4
5. Pr´-processamento do log: identifica¸˜o
e
ca
das se¸˜es
co
Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web
ca
ca
ca
a
identifica¸˜o das se¸oes
ca
c˜
—
Pr´-processamento do log:
e
5
6. Matriz de transa¸oes
c˜
Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web —
ca
ca
ca
a
Matriz de transa¸oes
c˜
6
7. Matriz de transa¸oes com
c˜
meta-informa¸oes sobre as p´ginas
c˜
a
usu´rio
a
categoria1
categoria2
categoria3
···
categoriam
user1
0
2
0
···
1
user2
1
1
0
···
0
user3
2
0
1
···
0
user4
0
1
0
···
0
···
···
···
···
···
···
usern
1
1
0
···
1
• Cada p´gina pode pertencer a uma categoria (i.e., tipo de livro, tipo de estabelecimento comercial)
a
• Cada p´gina pode estar associada a uma cidade (i.e., um estabelecimento, uma vaga de emprego)
a
Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web —
ca
ca
ca
a
informa¸˜es sobre as p´ginas
co
a
Matriz de transa¸˜es com metaco
7
8. Regras de Associa¸˜o
ca
• Caso do supermercado (fralda → cerveja)
• Quem acessa a p´gina sobre futebol tamb´m acessa a
a
e
p´gina de volei em 90% dos casos (futebol → volei).
a
• Quem acessa a p´gina de ofertas e a p´gina de
a
a
material de constru¸˜o tamb´m finaliza a compra em
ca
e
83% dos casos (ofertas ∧ material constru¸˜o →
ca
compra)
Cria¸˜o de regras de associa¸˜o a partir da navega¸˜o de usu´rios em sites Web —
ca
ca
ca
a
Regras de Associa¸˜o
ca
8
10. Minera¸˜o de itens frequentes
ca
• Dado:
um conjunto A = {a1 , · · · , am } de itens,
uma tabela T = (t1 , · · · , tn ) de transa¸˜es sobre A,
co
um n´mero βmin que 0 < βmin ≤ 1, o suporte
u
m´
ınimo.
• Objetivo 1:
encontrar o conjunto de itens frequentes, tais que
o suporte de cada conjunto de itens ´ maior ou
e
igual ao βmin definido pelo usu´rio.
a
Algoritmo para cria¸˜o de regras —
ca
Minera¸˜o de itens frequentes
ca
10
11. Exemplo de transa¸oes
c˜
Figure 1: Um banco de dados de transa¸˜es, com 10
co
transa¸˜es, e a enumera¸˜o de todos os conjuntos de itens
co
ca
frequentes usando o suporte m´
ınimo = 0,3
Algoritmo para cria¸˜o de regras —
ca
Exemplo de transa¸˜es
co
11
12. Minera¸˜o de itens frequentes
ca
• Objetivo 2:
encontrar o conjunto de regras de associa¸˜o com
ca
confian¸a maior que um m´
c
ınimo definido pelo
utilizador.
Algoritmo para cria¸˜o de regras —
ca
Minera¸˜o de itens frequentes
ca
12
13. Suporte e Confian¸a
c
O suporte de um conjunto de itens Z, suporte(Z),
representa a porcentagem de transa¸˜es na base de dados
co
que contˆm os itens de Z.
e
O suporte de uma regra de associa¸˜o A → B,
ca
suporte(A → B), ´ dado por suporte(A ∪ B).
e
P (A ∪ B)
suporte(A ∪ B)
=
conf ianca(A → B) =
P (A)
suporte(A)
(1)
Algoritmo para cria¸˜o de regras —
ca
Suporte e Confian¸a
c
13
14. Exemplo de regras geradas
Figure 2: Regras extra´
ıdas com confian¸a maior que 0,8
c
Algoritmo para cria¸˜o de regras —
ca
Exemplo de regras geradas
14
15. Exemplo b´sico de uso
a
http://rpubs.com/fbarth/regraAssociacao
Algoritmo para cria¸˜o de regras —
ca
Exemplo b´sico de uso
a
15
16. Medida Lift
Dada uma regra de associa¸˜o A → B, esta medida indica
ca
o quanto mais freq¨ente torna-se B quando ocorre A.
u
• Se Lif t(A → B) = 1, ent˜o A e B s˜o independentes.
a
a
• Se Lif t(A → B) > 1, ent˜o A e B s˜o positivamente
a
a
independentes.
• Se Lif t(A → B) < 1, A e B s˜o negativamente
a
dependentes.
Esta medida varia entre 0 e ∞ e possui interpreta¸˜o
ca
simples: quanto maior o valor de Lif t, mais
interessante a regra, pois A aumenta B.
Algoritmo para cria¸˜o de regras —
ca
Medida Lift
16
17. Dados de click-stream de um site da
Hungria
Dados anonimizados fornecidos por Ferenc Bodon http://fimi.ua.ac.be/data/kosarak.dat
http://rpubs.com/fbarth/regrasAssociacaoClickStream
Algoritmo para cria¸˜o de regras —
ca
Dados de click-stream de um site da Hungria
17
18. Material de consulta
• Fabr´ Barth. Minera¸˜o de regras de associa¸˜o em
ıcio
ca
ca
servidores Web com RapidMinera .
• Iah H. Witteh and Eibe Frank. Data Mining: Practical
Machine Learning Tools and Techniques (Third
Edition), 2011.
• Gon¸alves. Regras de Associa¸˜o e suas Medidas de
c
ca
Interesse Objetivas e Subjetivas. INFOCOMP Journal
of Computer Science, 2005, 4, 26-35.
a http://fbarth.net.br/materiais/webMining/webUsageMining.pdf
Algoritmo para cria¸˜o de regras —
ca
Material de consulta
18
19. • Data Mining Algorithms in R - Apriori Algorithm.
http://en.wikibooks.org/wiki/Data Mining Algorithms In R/
Frequent Pattern Mining/The Apriori Algorithm.
Acessado em 13 de junho de 2013.
• RDataMining.com: Association Rules.
http://www.rdatamining.com/examples/associationrules. Acessado em 13 de junho de
2013.
Algoritmo para cria¸˜o de regras —
ca
Material de consulta
19