SlideShare uma empresa Scribd logo
Minera¸c˜ao de padr˜oes frequentes
Fabr´ıcio J. Barth
P´os Gradua¸c˜ao em Big Data - BandTec
Junho de 2015
http://fbarth.net.br/cursoBigData
Objetivos
Os objetivos desta aula s˜ao:
• Apresentar e discutir m´etodos para identificar
associa¸c˜oes ´uteis em grandes bases de dados
(transacionais) usando medidas estat´ısticas simples, e;
• Apresentar e discutir todas as etapas necess´arias para
executar uma an´alise de market basket.
Minera¸c˜ao de padr˜oes frequentes — Objetivos 2
http://fbarth.net.br/cursoBigData
Sum´ario
• A ideia geral do market basket analysis.
• Algoritmo Apriori: minera¸c˜ao de itens frequentes.
• Defini¸c˜ao de suporte, confian¸ca e lift.
• Interpretando as regras.
• Visualiza¸c˜ao das regras.
• Referˆencias e leituras adicionais.
Minera¸c˜ao de padr˜oes frequentes — Sum´ario 3
http://fbarth.net.br/cursoBigData
Resultado esperado de uma market
basket analysis
{p˜aozinho, p˜ao de queijo} → {suco de laranja}
• A regra acima representa a seguinte informa¸c˜ao: se
uma pessoa compra p˜aozinho e p˜ao de queijo ent˜ao
existe uma possibilidade desta pessoa comprar
tamb´em suco de laranja.
• Os itens indicados ente {} fazem parte de um mesmo
itemset.
Minera¸c˜ao de padr˜oes frequentes — Resultado esperado de uma market basket analysis 4
http://fbarth.net.br/cursoBigData
Cen´arios de uso
• Algoritmos de regras de associa¸c˜ao s˜ao geralmente
utilizados em problemas de market basket analysis.
Exemplos de market basket analysis s˜ao:
Que produtos devem ser inclu´ıdos os exclu´ıdos de
um estoque a cada mˆes.
Propaganda cruzada entre produtos.
Modifica¸c˜ao f´ısica ou l´ogica de produtos dentro de
categorias de produtos.
Programas promocionais: incentivo de compra de
m´ultiplos produtos.
Minera¸c˜ao de padr˜oes frequentes — Cen´arios de uso 5
http://fbarth.net.br/cursoBigData
Al´em disso, pode-se utilizar algoritmos de regras de
associa¸c˜ao em outros cen´arios:
Busca por padr˜oes de sequˆencia de DNA e
proteinas que ocorrem frequentemente em dados
sobre cˆancer.
Identifica¸c˜ao por padr˜oes de compra em transa¸c˜oes
fraudulentas.
Desenvolvimento de sistemas de recomenda¸c˜ao.
Clickstream analysis.
Minera¸c˜ao de padr˜oes frequentes — Cen´arios de uso 6
http://fbarth.net.br/cursoBigData
• Regras de associa¸c˜ao s˜ao utilizadas para procurar por
conex˜oes “interessantes” entre um grande n´umero de
vari´aveis.
• Pessoas s˜ao capazes de gerar tais insights, mas
geralmente ´e necess´ario um n´ıvel de experiˆencia bem
alto no dom´ınio da aplica¸c˜ao e muito tempo pensando
sobre o problema.
Minera¸c˜ao de padr˜oes frequentes — Cen´arios de uso 7
http://fbarth.net.br/cursoBigData
Algoritmo Apriori: minera¸c˜ao de itens
frequentes
• Dado:
um conjunto A = {a1, · · · , am} de itens,
uma tabela T = (t1, · · · , tn) de transa¸c˜oes sobre A,
um n´umero βmin que 0 < βmin ≤ 1, o suporte
m´ınimo.
• Objetivo 1:
encontrar o conjunto de itens frequentes, tais que
o suporte de cada conjunto de itens ´e maior ou
igual ao βmin definido pelo usu´ario.
Minera¸c˜ao de padr˜oes frequentes — Algoritmo Apriori: minera¸c˜ao de itens frequentes 8
http://fbarth.net.br/cursoBigData
Exemplo de transa¸c˜oes
Figure 1: Um banco de dados de transa¸c˜oes, com 10
transa¸c˜oes, e a enumera¸c˜ao de todos os conjuntos de itens
frequentes usando o suporte m´ınimo = 0,3
Minera¸c˜ao de padr˜oes frequentes — Exemplo de transa¸c˜oes 9
http://fbarth.net.br/cursoBigData
Algoritmo Apriori: minera¸c˜ao de itens
frequentes
• Objetivo 2:
encontrar o conjunto de regras de associa¸c˜ao com
confian¸ca maior ou igual que um m´ınimo definido
pelo utilizador.
Minera¸c˜ao de padr˜oes frequentes — Algoritmo Apriori: minera¸c˜ao de itens frequentes 10
http://fbarth.net.br/cursoBigData
Suporte e Confian¸ca
• O suporte de um conjunto de itens Z, suporte(Z),
representa a porcentagem de transa¸c˜oes na base de
dados que contˆem os itens de Z.
• A confian¸ca de uma regra de associa¸c˜ao A → B,
confianca(A → B), ´e dado por:
confianca(A → B) =
Suporte(A ∧ B)
Suporte(A)
(1)
Minera¸c˜ao de padr˜oes frequentes — Suporte e Confian¸ca 11
http://fbarth.net.br/cursoBigData
Exemplos de confian¸ca
• Se suporte({p˜ao, ovos, leite}) = 0.15 e suporte({p˜ao,
ovos}) = 0.15 ent˜ao confianca({p˜ao, ovos} → {leite})
= 1.
• Se suporte({p˜ao, ovos}) = 0.15 e suporte({p˜ao}) =
0.6 ent˜ao confianca({p˜ao} → {ovos}) = 0.25.
Minera¸c˜ao de padr˜oes frequentes — Exemplos de confian¸ca 12
http://fbarth.net.br/cursoBigData
Exemplo de regras geradas
Figure 2: Regras extra´ıdas com confian¸ca maior que 0.8
Minera¸c˜ao de padr˜oes frequentes — Exemplo de regras geradas 13
http://fbarth.net.br/cursoBigData
Confian¸ca
• Uma confian¸ca alta indica que uma regra (X → Y ) ´e
mais interessante ou mais confi´avel, baseada no
dataset analisado.
Minera¸c˜ao de padr˜oes frequentes — Confian¸ca 14
http://fbarth.net.br/cursoBigData
• No entanto, o fato de apenas analisar X ∧ Y e X,
sem analisar Y pode gerar alguns problemas.
Minera¸c˜ao de padr˜oes frequentes — Confian¸ca 15
http://fbarth.net.br/cursoBigData
Exemplo
Considere 1.000 transa¸c˜oes, onde:
• leite ocorre em 400
• p˜ao ocorre em 900
• manteiga ocorre em 300
• leite e p˜ao ocorrem em 300
• manteiga e leite ocorrem em 300
Minera¸c˜ao de padr˜oes frequentes — Exemplo 16
http://fbarth.net.br/cursoBigData
Sendo assim:
• confianca({leite} → {pao}) = 0,3
0,4 = 0, 75
• confianca({leite} → {manteiga}) = 0,3
0,4 = 0, 75
• P˜ao ´e algo que ocorre com muita frequˆencia neste
dataset.
• Esta informa¸c˜ao n˜ao ´e levada em considera¸c˜ao pela
confianca({leite} → {pao}).
• Talvez, esta correla¸c˜ao seja apenas uma coincidˆencia.
Minera¸c˜ao de padr˜oes frequentes — Exemplo 17
http://fbarth.net.br/cursoBigData
Lift ou coeficiente de interesse
Lift(X → Y ) =
Suporte(X ∧ Y )
Suporte(X) × Suporte(Y )
(2)
• Lift ou coeficiente de interesse: um valor de lift para
uma regra (A → B) superior a 1 indica que A e B
acontecem mais frequentemente juntos do que o
esperado, isso significa que a ocorrˆencia de A tem um
efeito positivo sobre a ocorrˆencia de B.
Minera¸c˜ao de padr˜oes frequentes — Lift ou coeficiente de interesse 18
http://fbarth.net.br/cursoBigData
Exemplos
• lift({leite} → {pao}) = 0,3
0,4×0,9 = 0, 834
• lift({leite} → {manteiga}) = 0,3
0,4×0,3 = 2, 5
Assim, fica claro que a ocorrˆencia de leite tem um efeito
positivo sobre a ocorrˆencia da manteiga. Mas isto n˜ao se
aplica ao leite e pao.
Minera¸c˜ao de padr˜oes frequentes — Exemplos 19
http://fbarth.net.br/cursoBigData
Medida Lift
Dada uma regra de associa¸c˜ao A → B, esta medida indica
o quanto mais freq¨uente torna-se B quando ocorre A.
• Se Lift(A → B) = 1, ent˜ao A e B s˜ao independentes.
• Se Lift(A → B) > 1, ent˜ao A e B s˜ao positivamente
independentes.
• Se Lift(A → B) < 1, A e B s˜ao negativamente
dependentes.
Esta medida varia entre 0 e ∞ e possui interpreta¸c˜ao
simples: quanto maior o valor de Lift, mais
interessante a regra, pois A aumenta B.
Minera¸c˜ao de padr˜oes frequentes — Medida Lift 20
http://fbarth.net.br/cursoBigData
Exemplo b´asico de uso
Exemplo B´asico sobre Regras de Associa¸c˜ao
Minera¸c˜ao de padr˜oes frequentes — Exemplo b´asico de uso 21
http://fbarth.net.br/cursoBigData
Exemplo: Grocery Store
Exemplo usando um dataset de uma Grocery Store
Minera¸c˜ao de padr˜oes frequentes — Exemplo: Grocery Store 22
http://fbarth.net.br/cursoBigData
Pontos fortes e fracos
• Fortes:
´E facilmente aplic´avel em um volume grande de
dados transacionais.
Resultados no formato de regras ´e f´acil de
compreender.
´E ´util na descoberta de padr˜oes impl´ıcitos em bases
de dados.
Minera¸c˜ao de padr˜oes frequentes — Pontos fortes e fracos 23
http://fbarth.net.br/cursoBigData
• Fracos:
N˜ao ´e muito ´util para bases pequenas.
`As vezes ´e dif´ıcil separar insights de senso comum.
´E f´acil gerar conclus˜oes incorretas a partir de
padr˜oes aleat´orios.
Minera¸c˜ao de padr˜oes frequentes — Pontos fortes e fracos 24
http://fbarth.net.br/cursoBigData
Material de consulta
• Cap´ıtulo 5 do livro EMC Education Services, editor.
Data Science and Big Data Analytics: Discovering,
Analysing, Visualizing and Presenting Data. John
Wiley & Sons, 2015.
Minera¸c˜ao de padr˜oes frequentes — Material de consulta 25
http://fbarth.net.br/cursoBigData
• Fabr´ıcio Barth. Minera¸c˜ao de regras de associa¸c˜ao em
servidores Web com RapidMinera
.
• Gon¸calves. Regras de Associa¸c˜ao e suas Medidas de
Interesse Objetivas e Subjetivas. INFOCOMP Journal
of Computer Science, 2005, 4, 26-35.
ahttp://fbarth.net.br/materiais/webMining/webUsageMining.pdf
Minera¸c˜ao de padr˜oes frequentes — Material de consulta 26
http://fbarth.net.br/cursoBigData
• Data Mining Algorithms in R - Apriori Algorithm.
http://en.wikibooks.org/wiki/Data Mining Algorithms In R/
Frequent Pattern Mining/The Apriori Algorithm.
Acessado em 13 de junho de 2013.
• RDataMining.com: Association Rules.
http://www.rdatamining.com/examples/association-
rules. Acessado em 13 de junho de
2013.
Minera¸c˜ao de padr˜oes frequentes — Material de consulta 27
http://fbarth.net.br/cursoBigData
Pr´oximas etapas
• Exerc´ıcios, e;
• Projeto!
Minera¸c˜ao de padr˜oes frequentes — Pr´oximas etapas 28

Mais conteúdo relacionado

Destaque

Workshop Prático | Location Intelligence
Workshop Prático | Location IntelligenceWorkshop Prático | Location Intelligence
Workshop Prático | Location Intelligence
Focus BC - EMEA Google Enterprise Partner
 
Demo Simplificada Data Mining
Demo Simplificada Data MiningDemo Simplificada Data Mining
Demo Simplificada Data Mining
Serra Laercio
 
eBook Web Analytics Brasil - Uma visão brasileira.
eBook Web Analytics Brasil - Uma visão brasileira.eBook Web Analytics Brasil - Uma visão brasileira.
eBook Web Analytics Brasil - Uma visão brasileira.
Jessé Rodrigues
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
Ambiente Livre
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
Luiz Eduardo Le Masson
 
Redes de coautoria em ciência da informação
Redes de coautoria em ciência da informaçãoRedes de coautoria em ciência da informação
Redes de coautoria em ciência da informação
UFPB
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
Marcos Vinicius Fidelis
 
Big Data for Healthcare - INTELIGÊNCIA EM SAÚDE ORIZON
Big Data for Healthcare - INTELIGÊNCIA EM SAÚDE ORIZONBig Data for Healthcare - INTELIGÊNCIA EM SAÚDE ORIZON
Big Data for Healthcare - INTELIGÊNCIA EM SAÚDE ORIZON
Leopoldo Veras da Rocha
 
Slide cebrap
Slide cebrapSlide cebrap
Slide cebrap
Rogério Barbosa
 
Cidades Inteligentes: a exploração do digital
Cidades Inteligentes: a exploração do digitalCidades Inteligentes: a exploração do digital
Cidades Inteligentes: a exploração do digital
Luis Borges Gouveia
 
Treinamento Portal NCBI
Treinamento Portal NCBITreinamento Portal NCBI
Treinamento Portal NCBI
SeABD BCo UFSCar'
 
Big data apresentacao
Big data apresentacaoBig data apresentacao
Big data apresentacao
Rodrigo kiko (Rodrigo Afonso)
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
AntonioEE256
 
ODI Tutorial - Desenvolvendo Procedures
ODI Tutorial - Desenvolvendo ProceduresODI Tutorial - Desenvolvendo Procedures
ODI Tutorial - Desenvolvendo Procedures
Caio Lima
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
TDC2016SP - Desenvolva e Execute Aplicações Feitas para a Nuvem numa Arquitet...
TDC2016SP - Desenvolva e Execute Aplicações Feitas para a Nuvem numa Arquitet...TDC2016SP - Desenvolva e Execute Aplicações Feitas para a Nuvem numa Arquitet...
TDC2016SP - Desenvolva e Execute Aplicações Feitas para a Nuvem numa Arquitet...
tdc-globalcode
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
alexculpado
 
Curso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCUCurso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCU
Estratégia Concursos
 
Aula Data Mining
Aula Data MiningAula Data Mining
Smart Cities e Big Data
Smart Cities e Big DataSmart Cities e Big Data
Smart Cities e Big Data
Kiev Gama
 

Destaque (20)

Workshop Prático | Location Intelligence
Workshop Prático | Location IntelligenceWorkshop Prático | Location Intelligence
Workshop Prático | Location Intelligence
 
Demo Simplificada Data Mining
Demo Simplificada Data MiningDemo Simplificada Data Mining
Demo Simplificada Data Mining
 
eBook Web Analytics Brasil - Uma visão brasileira.
eBook Web Analytics Brasil - Uma visão brasileira.eBook Web Analytics Brasil - Uma visão brasileira.
eBook Web Analytics Brasil - Uma visão brasileira.
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Redes de coautoria em ciência da informação
Redes de coautoria em ciência da informaçãoRedes de coautoria em ciência da informação
Redes de coautoria em ciência da informação
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Big Data for Healthcare - INTELIGÊNCIA EM SAÚDE ORIZON
Big Data for Healthcare - INTELIGÊNCIA EM SAÚDE ORIZONBig Data for Healthcare - INTELIGÊNCIA EM SAÚDE ORIZON
Big Data for Healthcare - INTELIGÊNCIA EM SAÚDE ORIZON
 
Slide cebrap
Slide cebrapSlide cebrap
Slide cebrap
 
Cidades Inteligentes: a exploração do digital
Cidades Inteligentes: a exploração do digitalCidades Inteligentes: a exploração do digital
Cidades Inteligentes: a exploração do digital
 
Treinamento Portal NCBI
Treinamento Portal NCBITreinamento Portal NCBI
Treinamento Portal NCBI
 
Big data apresentacao
Big data apresentacaoBig data apresentacao
Big data apresentacao
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
ODI Tutorial - Desenvolvendo Procedures
ODI Tutorial - Desenvolvendo ProceduresODI Tutorial - Desenvolvendo Procedures
ODI Tutorial - Desenvolvendo Procedures
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
TDC2016SP - Desenvolva e Execute Aplicações Feitas para a Nuvem numa Arquitet...
TDC2016SP - Desenvolva e Execute Aplicações Feitas para a Nuvem numa Arquitet...TDC2016SP - Desenvolva e Execute Aplicações Feitas para a Nuvem numa Arquitet...
TDC2016SP - Desenvolva e Execute Aplicações Feitas para a Nuvem numa Arquitet...
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Curso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCUCurso de Análise de Informações p/ Concurso TCU
Curso de Análise de Informações p/ Concurso TCU
 
Aula Data Mining
Aula Data MiningAula Data Mining
Aula Data Mining
 
Smart Cities e Big Data
Smart Cities e Big DataSmart Cities e Big Data
Smart Cities e Big Data
 

Semelhante a Mineração de padrões frequentes - Pós Graduação em Big Data

Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Fabrício Barth
 
Mineração de padrões frequentes
Mineração de padrões frequentesMineração de padrões frequentes
Mineração de padrões frequentes
Thiago Reis da Silva
 
Regras de Associação - Mineração de Dados
Regras de Associação - Mineração de DadosRegras de Associação - Mineração de Dados
Regras de Associação - Mineração de Dados
Norton Guimarães
 
Programa de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 APrograma de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 A
Sustentare Escola de Negócios
 
Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023
Douglas Mendes
 
Introdução a data science
Introdução a data scienceIntrodução a data science
Introdução a data science
Caio Gomes
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Marcos Vinicius Fidelis
 
Conceitos e práticas em Sistemas de Recomendação
Conceitos e práticas em Sistemas de RecomendaçãoConceitos e práticas em Sistemas de Recomendação
Conceitos e práticas em Sistemas de Recomendação
Joel Pinho Lucas
 
Data mining
Data miningData mining
Data mining
Welton Dias
 
Data stream mining - TDC POA 2018 (Data Science)
Data stream mining - TDC POA 2018 (Data Science)Data stream mining - TDC POA 2018 (Data Science)
Data stream mining - TDC POA 2018 (Data Science)
Andre Nunes
 
TDC18 (POA) Data Science - data stream mining
TDC18 (POA) Data Science - data stream miningTDC18 (POA) Data Science - data stream mining
TDC18 (POA) Data Science - data stream mining
André Luís Nunes
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquina
Fabrício Barth
 

Semelhante a Mineração de padrões frequentes - Pós Graduação em Big Data (12)

Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...
 
Mineração de padrões frequentes
Mineração de padrões frequentesMineração de padrões frequentes
Mineração de padrões frequentes
 
Regras de Associação - Mineração de Dados
Regras de Associação - Mineração de DadosRegras de Associação - Mineração de Dados
Regras de Associação - Mineração de Dados
 
Programa de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 APrograma de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 A
 
Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023Treinamento MLOps Databricks 2023
Treinamento MLOps Databricks 2023
 
Introdução a data science
Introdução a data scienceIntrodução a data science
Introdução a data science
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Conceitos e práticas em Sistemas de Recomendação
Conceitos e práticas em Sistemas de RecomendaçãoConceitos e práticas em Sistemas de Recomendação
Conceitos e práticas em Sistemas de Recomendação
 
Data mining
Data miningData mining
Data mining
 
Data stream mining - TDC POA 2018 (Data Science)
Data stream mining - TDC POA 2018 (Data Science)Data stream mining - TDC POA 2018 (Data Science)
Data stream mining - TDC POA 2018 (Data Science)
 
TDC18 (POA) Data Science - data stream mining
TDC18 (POA) Data Science - data stream miningTDC18 (POA) Data Science - data stream mining
TDC18 (POA) Data Science - data stream mining
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquina
 

Mais de Fabrício Barth

Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big Data
Fabrício Barth
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Fabrício Barth
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Fabrício Barth
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Fabrício Barth
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionado
Fabrício Barth
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
Fabrício Barth
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
Fabrício Barth
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random Forest
Fabrício Barth
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
Fabrício Barth
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
Fabrício Barth
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big Data
Fabrício Barth
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big Data
Fabrício Barth
 
Projeto Simple Maps
Projeto Simple MapsProjeto Simple Maps
Projeto Simple Maps
Fabrício Barth
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informações
Fabrício Barth
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web Mining
Fabrício Barth
 
Ferramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFerramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de Informações
Fabrício Barth
 
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoAtena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Fabrício Barth
 

Mais de Fabrício Barth (17)

Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big Data
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionado
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random Forest
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big Data
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big Data
 
Projeto Simple Maps
Projeto Simple MapsProjeto Simple Maps
Projeto Simple Maps
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informações
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web Mining
 
Ferramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFerramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de Informações
 
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoAtena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
 

Mineração de padrões frequentes - Pós Graduação em Big Data

  • 1. Minera¸c˜ao de padr˜oes frequentes Fabr´ıcio J. Barth P´os Gradua¸c˜ao em Big Data - BandTec Junho de 2015
  • 2. http://fbarth.net.br/cursoBigData Objetivos Os objetivos desta aula s˜ao: • Apresentar e discutir m´etodos para identificar associa¸c˜oes ´uteis em grandes bases de dados (transacionais) usando medidas estat´ısticas simples, e; • Apresentar e discutir todas as etapas necess´arias para executar uma an´alise de market basket. Minera¸c˜ao de padr˜oes frequentes — Objetivos 2
  • 3. http://fbarth.net.br/cursoBigData Sum´ario • A ideia geral do market basket analysis. • Algoritmo Apriori: minera¸c˜ao de itens frequentes. • Defini¸c˜ao de suporte, confian¸ca e lift. • Interpretando as regras. • Visualiza¸c˜ao das regras. • Referˆencias e leituras adicionais. Minera¸c˜ao de padr˜oes frequentes — Sum´ario 3
  • 4. http://fbarth.net.br/cursoBigData Resultado esperado de uma market basket analysis {p˜aozinho, p˜ao de queijo} → {suco de laranja} • A regra acima representa a seguinte informa¸c˜ao: se uma pessoa compra p˜aozinho e p˜ao de queijo ent˜ao existe uma possibilidade desta pessoa comprar tamb´em suco de laranja. • Os itens indicados ente {} fazem parte de um mesmo itemset. Minera¸c˜ao de padr˜oes frequentes — Resultado esperado de uma market basket analysis 4
  • 5. http://fbarth.net.br/cursoBigData Cen´arios de uso • Algoritmos de regras de associa¸c˜ao s˜ao geralmente utilizados em problemas de market basket analysis. Exemplos de market basket analysis s˜ao: Que produtos devem ser inclu´ıdos os exclu´ıdos de um estoque a cada mˆes. Propaganda cruzada entre produtos. Modifica¸c˜ao f´ısica ou l´ogica de produtos dentro de categorias de produtos. Programas promocionais: incentivo de compra de m´ultiplos produtos. Minera¸c˜ao de padr˜oes frequentes — Cen´arios de uso 5
  • 6. http://fbarth.net.br/cursoBigData Al´em disso, pode-se utilizar algoritmos de regras de associa¸c˜ao em outros cen´arios: Busca por padr˜oes de sequˆencia de DNA e proteinas que ocorrem frequentemente em dados sobre cˆancer. Identifica¸c˜ao por padr˜oes de compra em transa¸c˜oes fraudulentas. Desenvolvimento de sistemas de recomenda¸c˜ao. Clickstream analysis. Minera¸c˜ao de padr˜oes frequentes — Cen´arios de uso 6
  • 7. http://fbarth.net.br/cursoBigData • Regras de associa¸c˜ao s˜ao utilizadas para procurar por conex˜oes “interessantes” entre um grande n´umero de vari´aveis. • Pessoas s˜ao capazes de gerar tais insights, mas geralmente ´e necess´ario um n´ıvel de experiˆencia bem alto no dom´ınio da aplica¸c˜ao e muito tempo pensando sobre o problema. Minera¸c˜ao de padr˜oes frequentes — Cen´arios de uso 7
  • 8. http://fbarth.net.br/cursoBigData Algoritmo Apriori: minera¸c˜ao de itens frequentes • Dado: um conjunto A = {a1, · · · , am} de itens, uma tabela T = (t1, · · · , tn) de transa¸c˜oes sobre A, um n´umero βmin que 0 < βmin ≤ 1, o suporte m´ınimo. • Objetivo 1: encontrar o conjunto de itens frequentes, tais que o suporte de cada conjunto de itens ´e maior ou igual ao βmin definido pelo usu´ario. Minera¸c˜ao de padr˜oes frequentes — Algoritmo Apriori: minera¸c˜ao de itens frequentes 8
  • 9. http://fbarth.net.br/cursoBigData Exemplo de transa¸c˜oes Figure 1: Um banco de dados de transa¸c˜oes, com 10 transa¸c˜oes, e a enumera¸c˜ao de todos os conjuntos de itens frequentes usando o suporte m´ınimo = 0,3 Minera¸c˜ao de padr˜oes frequentes — Exemplo de transa¸c˜oes 9
  • 10. http://fbarth.net.br/cursoBigData Algoritmo Apriori: minera¸c˜ao de itens frequentes • Objetivo 2: encontrar o conjunto de regras de associa¸c˜ao com confian¸ca maior ou igual que um m´ınimo definido pelo utilizador. Minera¸c˜ao de padr˜oes frequentes — Algoritmo Apriori: minera¸c˜ao de itens frequentes 10
  • 11. http://fbarth.net.br/cursoBigData Suporte e Confian¸ca • O suporte de um conjunto de itens Z, suporte(Z), representa a porcentagem de transa¸c˜oes na base de dados que contˆem os itens de Z. • A confian¸ca de uma regra de associa¸c˜ao A → B, confianca(A → B), ´e dado por: confianca(A → B) = Suporte(A ∧ B) Suporte(A) (1) Minera¸c˜ao de padr˜oes frequentes — Suporte e Confian¸ca 11
  • 12. http://fbarth.net.br/cursoBigData Exemplos de confian¸ca • Se suporte({p˜ao, ovos, leite}) = 0.15 e suporte({p˜ao, ovos}) = 0.15 ent˜ao confianca({p˜ao, ovos} → {leite}) = 1. • Se suporte({p˜ao, ovos}) = 0.15 e suporte({p˜ao}) = 0.6 ent˜ao confianca({p˜ao} → {ovos}) = 0.25. Minera¸c˜ao de padr˜oes frequentes — Exemplos de confian¸ca 12
  • 13. http://fbarth.net.br/cursoBigData Exemplo de regras geradas Figure 2: Regras extra´ıdas com confian¸ca maior que 0.8 Minera¸c˜ao de padr˜oes frequentes — Exemplo de regras geradas 13
  • 14. http://fbarth.net.br/cursoBigData Confian¸ca • Uma confian¸ca alta indica que uma regra (X → Y ) ´e mais interessante ou mais confi´avel, baseada no dataset analisado. Minera¸c˜ao de padr˜oes frequentes — Confian¸ca 14
  • 15. http://fbarth.net.br/cursoBigData • No entanto, o fato de apenas analisar X ∧ Y e X, sem analisar Y pode gerar alguns problemas. Minera¸c˜ao de padr˜oes frequentes — Confian¸ca 15
  • 16. http://fbarth.net.br/cursoBigData Exemplo Considere 1.000 transa¸c˜oes, onde: • leite ocorre em 400 • p˜ao ocorre em 900 • manteiga ocorre em 300 • leite e p˜ao ocorrem em 300 • manteiga e leite ocorrem em 300 Minera¸c˜ao de padr˜oes frequentes — Exemplo 16
  • 17. http://fbarth.net.br/cursoBigData Sendo assim: • confianca({leite} → {pao}) = 0,3 0,4 = 0, 75 • confianca({leite} → {manteiga}) = 0,3 0,4 = 0, 75 • P˜ao ´e algo que ocorre com muita frequˆencia neste dataset. • Esta informa¸c˜ao n˜ao ´e levada em considera¸c˜ao pela confianca({leite} → {pao}). • Talvez, esta correla¸c˜ao seja apenas uma coincidˆencia. Minera¸c˜ao de padr˜oes frequentes — Exemplo 17
  • 18. http://fbarth.net.br/cursoBigData Lift ou coeficiente de interesse Lift(X → Y ) = Suporte(X ∧ Y ) Suporte(X) × Suporte(Y ) (2) • Lift ou coeficiente de interesse: um valor de lift para uma regra (A → B) superior a 1 indica que A e B acontecem mais frequentemente juntos do que o esperado, isso significa que a ocorrˆencia de A tem um efeito positivo sobre a ocorrˆencia de B. Minera¸c˜ao de padr˜oes frequentes — Lift ou coeficiente de interesse 18
  • 19. http://fbarth.net.br/cursoBigData Exemplos • lift({leite} → {pao}) = 0,3 0,4×0,9 = 0, 834 • lift({leite} → {manteiga}) = 0,3 0,4×0,3 = 2, 5 Assim, fica claro que a ocorrˆencia de leite tem um efeito positivo sobre a ocorrˆencia da manteiga. Mas isto n˜ao se aplica ao leite e pao. Minera¸c˜ao de padr˜oes frequentes — Exemplos 19
  • 20. http://fbarth.net.br/cursoBigData Medida Lift Dada uma regra de associa¸c˜ao A → B, esta medida indica o quanto mais freq¨uente torna-se B quando ocorre A. • Se Lift(A → B) = 1, ent˜ao A e B s˜ao independentes. • Se Lift(A → B) > 1, ent˜ao A e B s˜ao positivamente independentes. • Se Lift(A → B) < 1, A e B s˜ao negativamente dependentes. Esta medida varia entre 0 e ∞ e possui interpreta¸c˜ao simples: quanto maior o valor de Lift, mais interessante a regra, pois A aumenta B. Minera¸c˜ao de padr˜oes frequentes — Medida Lift 20
  • 21. http://fbarth.net.br/cursoBigData Exemplo b´asico de uso Exemplo B´asico sobre Regras de Associa¸c˜ao Minera¸c˜ao de padr˜oes frequentes — Exemplo b´asico de uso 21
  • 22. http://fbarth.net.br/cursoBigData Exemplo: Grocery Store Exemplo usando um dataset de uma Grocery Store Minera¸c˜ao de padr˜oes frequentes — Exemplo: Grocery Store 22
  • 23. http://fbarth.net.br/cursoBigData Pontos fortes e fracos • Fortes: ´E facilmente aplic´avel em um volume grande de dados transacionais. Resultados no formato de regras ´e f´acil de compreender. ´E ´util na descoberta de padr˜oes impl´ıcitos em bases de dados. Minera¸c˜ao de padr˜oes frequentes — Pontos fortes e fracos 23
  • 24. http://fbarth.net.br/cursoBigData • Fracos: N˜ao ´e muito ´util para bases pequenas. `As vezes ´e dif´ıcil separar insights de senso comum. ´E f´acil gerar conclus˜oes incorretas a partir de padr˜oes aleat´orios. Minera¸c˜ao de padr˜oes frequentes — Pontos fortes e fracos 24
  • 25. http://fbarth.net.br/cursoBigData Material de consulta • Cap´ıtulo 5 do livro EMC Education Services, editor. Data Science and Big Data Analytics: Discovering, Analysing, Visualizing and Presenting Data. John Wiley & Sons, 2015. Minera¸c˜ao de padr˜oes frequentes — Material de consulta 25
  • 26. http://fbarth.net.br/cursoBigData • Fabr´ıcio Barth. Minera¸c˜ao de regras de associa¸c˜ao em servidores Web com RapidMinera . • Gon¸calves. Regras de Associa¸c˜ao e suas Medidas de Interesse Objetivas e Subjetivas. INFOCOMP Journal of Computer Science, 2005, 4, 26-35. ahttp://fbarth.net.br/materiais/webMining/webUsageMining.pdf Minera¸c˜ao de padr˜oes frequentes — Material de consulta 26
  • 27. http://fbarth.net.br/cursoBigData • Data Mining Algorithms in R - Apriori Algorithm. http://en.wikibooks.org/wiki/Data Mining Algorithms In R/ Frequent Pattern Mining/The Apriori Algorithm. Acessado em 13 de junho de 2013. • RDataMining.com: Association Rules. http://www.rdatamining.com/examples/association- rules. Acessado em 13 de junho de 2013. Minera¸c˜ao de padr˜oes frequentes — Material de consulta 27
  • 28. http://fbarth.net.br/cursoBigData Pr´oximas etapas • Exerc´ıcios, e; • Projeto! Minera¸c˜ao de padr˜oes frequentes — Pr´oximas etapas 28