Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Web Data Mining com r: aprendizagem de máquina
1. Web Data mining com R:
aprendizagem de m´quina
a
Fabr´ Jailson Barth
ıcio
Faculdade BandTec e VAGAS Tecnologia
Junho de 2013
2. Sum´rio
a
• O que ´ Aprendizagem de M´quina?
e
a
• Hierarquia de aprendizado.
• Exemplos de aprendizagem supervisionada (modelos
preditivos).
• Exemplos de aprendizagem n˜o supervisionada
a
(modelos descritivos).
• Referˆncias e exerc´
e
ıcios.
Web Data mining com R: aprendizagem de m´quina —
a
Sum´rio
a
2
3. Contexto e exemplos
• Data Mining: grandes bases de dados tˆm crescido
e
com a automatiza¸˜o de alguns processos e com o
ca
advento da Web, por exemplo: web click data,
registros m´dicos, dados biol´gicos, dados capturados
e
o
a partir de sensores.
• Aplica¸˜es que n˜o podem ser programadas “na
co
a
m˜o”: por exemplo, helicopteros autˆnomos,
a
o
reconhecedor de escrita, processadores de linguagem
natural e sistemas de vis˜o computacional.
a
• Aplica¸˜es personaliz´veis: Amazon, Netflix.
co
a
• Compreens˜o do aprendizado humano.
a
Web Data mining com R: aprendizagem de m´quina —
a
Contexto e exemplos
3
4. O que ´ Aprendizagem de M´quina?
e
a
´
• Area de estudo que fornece aos computadores a
habilidade de aprender sem serem explicitamente
programados [Arthur Samuel (1959)].
• Defini¸˜o bem formada: A computer program is said
ca
to learn from experience A with respect to some task
T and some performance measure P, if its performance
on T, as measured by P, improves with experience E
[Tom Mitchell (1998)].
Web Data mining com R: aprendizagem de m´quina —
a
O que ´ Aprendizagem de M´quina?
e
a
4
5. Exerc´
ıcio
O que cada uma das senten¸as abaixo descreve segundo a
c
defini¸˜o do Tom Mitchell?
ca
• Classificar e-mails como spam ou n˜o spam.
a
• Verificar quais e-mails o usu´rio classifica como spam.
a
• O n´mero (ou fra¸˜o) de e-mails corretamente
u
ca
classificados como spam ou n˜o spam.
a
Web Data mining com R: aprendizagem de m´quina —
a
Exerc´
ıcio
5
6. Hierarquia de aprendizado
Aprendizagem
Supervisionada
Modelos preditivos
Classificação
Regressão
Web Data mining com R: aprendizagem de m´quina —
a
Não supervisionada
Modelos descritivos
Sumarização
Associação
Hierarquia de aprendizado
Agrupamento
6
7. Exemplos de aprendizagem supervisionada
• Estimar o pre¸o de uma casa.
c
atributos: tamanho, posi¸˜o geogr´fica, material.
ca
a
classe: pre¸o (regress˜o).
c
a
• Determinar se uma pessoa tem cˆncer benigno ou
a
maligno.
atributos: tamanho do tumor, formato do tumor,
idade do paciente.
classe: tumor benigno ou tumor maligno
(classifica¸˜o).
ca
Web Data mining com R: aprendizagem de m´quina —
a
Exemplos de aprendizagem supervisionada
7
8. • Determinar se ´ um texto publicado em uma rede
e
social ´ inadequado ou n˜o.
e
a
atributos: quantidade de palavras encontradas no
texto, quantidade de palavras proibidas
encontradas no texto, quantidade de textos j´
a
criados pelo usu´rio, idade do usu´rio no sistema,
a
a
quantidade de textos criados pelo usu´rio e
a
moderados, ...
classe: texto adequado ou n˜o (classifica¸˜o).
a
ca
classes: texto adequado, texto inadequado, texto
com propaganda (classifica¸˜o com m´ltiplas
ca
u
classes).
Web Data mining com R: aprendizagem de m´quina —
a
Exemplos de aprendizagem supervisionada
8
9. Exemplo de dataset com classe
Idade
Miopia
Astigmat.
Lacrimej.
Lentes
jovem
m´
ıope
n˜o
a
reduzido
nenhuma
jovem
m´
ıope
n˜o
a
normal
fraca
jovem
m´
ıope
sim
reduzido
nenhuma
jovem
m´
ıope
sim
normal
forte
···
···
···
···
···
adulto
m´
ıope
n˜o
a
reduzido
nenhuma
Web Data mining com R: aprendizagem de m´quina —
a
Exemplo de dataset com classe
9
10. Exerc´
ıcios
Que problema deve ser tratado como problema de
regress˜o e que problema deve ser tratado como problema
a
de classifica¸˜o?
ca
• A sua empresa possui 1.000 itens idˆnticos em
e
estoque. Vocˆ quer predizer quantos destes itens ser˜o
e
a
vendidos nos pr´ximos trˆs meses.
o
e
• Vocˆ quer examinar clientes seus e para cada um
e
decidir se ele ir´ pagar todo o financiamento ou n˜o.
a
a
Web Data mining com R: aprendizagem de m´quina —
a
Exerc´
ıcios
10
11. Exemplos de aprendizagem n˜o
a
supervisionada
• Dado conjuntos de itens adquiridos na mesma compra,
identificar padr˜es de compra.
o
• Identificar padr˜es de navega¸˜o em sites.
o
ca
• Agrupar not´
ıcias semelhantes publicadas por v´rias
a
fontes de informa¸˜o.
ca
• Numa rede social, identificar sub-grupo de pessoas.
Web Data mining com R: aprendizagem de m´quina —
a
Exemplos de aprendizagem n˜o supervisionada
a
11
12. Exemplos de aprendizagem n˜o
a
supervisionada
Table 1: Exemplo de tabela com as transa¸˜es dos usu´rios
co
a
usu´rio
a
categoria1
categoria2
categoria3
···
categoriam
user1
0
2
0
···
1
user2
1
1
0
···
0
user3
2
0
1
···
0
user4
0
1
0
···
0
···
···
···
···
···
···
usern
1
1
0
···
1
Web Data mining com R: aprendizagem de m´quina —
a
Exemplos de aprendizagem n˜o supervisionada
a
12
13. Exemplo de identifica¸˜o de grupos em
ca
redes sociais
Web Data mining com R: aprendizagem de m´quina —
a
Exemplo de identifica¸˜o de grupos em redes sociais
ca
13
14. Exerc´
ıcios
Quais dos problemas abaixo vocˆ iria resolver com uma
e
abordagem n˜o supervisionada de aprendizagem?
a
• Dado e-mails rotulados como spam e n˜o spam,
a
desenvolver um filtro de spam.
• Dado um conjunto de not´
ıcias encontradas na
Internet, agrup´-las em conjunto de not´
a
ıcias que
tratam do mesmo assunto.
Web Data mining com R: aprendizagem de m´quina —
a
Exerc´
ıcios
14
15. • Dado uma base de clientes, descobrir segmentos de
clientes.
• Dado uma base de pacientes diagnosticados com
diabetes ou n˜o, aprender a classificar novos pacientes
a
com diabetes ou n˜o.
a
Web Data mining com R: aprendizagem de m´quina —
a
Exerc´
ıcios
15
16. Material de consulta
• Tom Mitchell. Machine Learning, 1997.
• Iah H. Witteh and Eibe Frank. Data Mining: Practical
Machine Learning Tools and Techniques (Third
Edition), 2011.
• Andrew Ng. http://www.ml-class.org
• Faceli, Lorena, Gama, Carvalho. Inteligˆncia Artificial:
e
uma abordagem de aprendizado de m´quina, 2011.
a
Web Data mining com R: aprendizagem de m´quina —
a
Material de consulta
16