Seminário paty aula 9 04-05-2011

Universidade Federal de Santa Catarina
Centro de Ciências da Educação
Departamento de Ciência da Informação
Programa de Pós-Graduação em Ciência da Informação
Mestrado em Ciência da Informação
Disciplina: PCI3214 – Recuperação Inteligente de Informação
Professor: Dr. Angel Freddy Godoy Viera

Seminário – Aula 9
04 de maio de 2011
Patricia da Silva Neubert
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert

Seminário – Aula 9
Temática:
Mineração de conteúdo web;
Spiders web inteligentes;
Mineração de estruturas da web;
Mineração de uso da web.
Bibliografia recomendada:
CHEN, Hsinchun; CHAU, Michael. Web Mining: machine
learning for Web applications. In: CRONIN, Blaise (ed.). Annual
Review of Information Science and Technology. Medford:
Information Today, Inc., 2004, v.38, cap. 6, p. 289-329.

INTRODUÇÃO A WEB MINING
Web






Tamanho;
Conteúdo não-estruturado;
Conteúdo dinâmico;
Multilíngue;
Dados em vários formatos.

Nesse caso,
a extração de conhecimento útil é um problema.
(CHEN; CHAU, 2004)

2

“O conhecimento não vem só do conteúdo das páginas
em si, mas também das características únicas da Web,
tais como a sua estrutura de hyperlink e sua diversidade de
conteúdos e línguas. A análise destas características, muitas
vezes revela padrões interessantes e novos conhecimentos.
Tal conhecimento pode ser usado para melhorar a eficiência
dos usuários e eficácia na busca de informações na Web, e
também para aplicações não relacionadas com a Web, como
suporte à tomada de decisão ou gestão empresarial”
(CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso)

3


A solução para o problema vem das....

...técnicas de aprendizado de máquina.
A pesquisa sobre Data Mining se tornou um subcampo
significativo das pesquisas sobre aprendizagem de máquina.
“O termo Web Mining foi criado por Etzioni (1996) para denotar o
uso de técnicas de mineração de dados para descobrir
automaticamente documentos e serviços Web, extrair
informações a partir de recursos da Web, e descobrir padrões
gerais na web.”
(CHEN; CHAU, 2004, p.289-290, tradução nossa)

4


Segundo colocam Chen e Chau (2004, p.289-290) a pesquisa
de Web Mining foi, com o passar do tempo, estendida para
abranger a utilização da mineração de dados e técnicas
similares para descobrir recursos, padrões e conhecimento a
partir da Web e dados relacionados à Web (por exemplo dados de uso
da Web ou servidor de web logs).
Os autores adotam a definição de Cooley, Mobasher e
Srivastava (1997, apud CHEN; CHAU, 2004, p.289-290, tradução nossa)
para Web Mining:
“é a descoberta e análise de informações úteis a partir da World
Wide Web.”

5


Web Mining coincide com outras áreas, incluindo mineração de
dados, mineração de texto, acesso e recuperação da
informação.

Fonte: Chen e Chau, 2004, p.291

6

Web Mining coincide com outras áreas, incluindo mineração de
dados, mineração de texto, acesso e recuperação da
informação.
A classificação é
baseada no objetivo e
na fonte dos dados.

Fonte: Chen e Chau, 2004, p.291

6

A pesquisa de Web Mining está na intersecção de várias áreas:

Recuperação da informação

Aprendizado de máquina

Recuperação na Web
Data Mining

Bases de dados
Text Mining

 Aprendizagem

de máquina é a base para a maioria das
técnicas de mineração de dados e de mineração de textos;
 As pesquisas de recuperação de informação tem grande
influencia nas pesquisas de aplicações de Web Mining.
(CHEN; CHAU, 2004)

7


Aprendizagem de Máquina
Algoritmos de aprendizagem de máquina têm sido desenvolvidas
para atenuar os problemas de aquisição de conhecimentos por
computadores feitas manualmente – a partir de especialistas
humanos – visando a aquisição de conhecimentos
automaticamente a partir de exemplos ou dados de origem.
Mitchell (1997, p. 2) define a aprendizagem de máquina como o
estudo de "qualquer algoritmo de computador que melhora seu
desempenho em algumas tarefas por meio da experiência.”
(CHEN; CHAU, 2004)

8


São classificados em:
Aprendizado supervisionado
No aprendizado supervisionado, os exemplos de treinamento consiste nos
padrões para input/output. O objetivo do algoritmo de aprendizagem é prever
os valores de saída de novos exemplos, com base em seus valores de
entrada.

Aprendizado não supervisionado
No aprendizado não supervisionado, os exemplos de treinamento contém
apenas os padrões de entrada, não especificado o padrão de saída associado
a entrada. O algoritmo de aprendizagem deve generalizar a partir dos padrões
de entrada para descobrir os valores de saída.
(CHEN; CHAU, 2004)

9


Com base em Chen (1995), Langley e Simon (1995) os autores
identificaram cinco áreas de pesquisa em aprendizagem de
máquina:
I.
II.
III.
IV.
V.

Modelos probabilísticos;
Aprendizagem simbólica e indução de regras;
Redes neurais;
Algoritmos baseados na evolução;
Aprendizagem analítica e lógica fuzzy.
(CHEN; CHAU, 2004)

10


I . Modelos probabilísticos
O uso de modelos probabilísticos, foi uma das primeiras
tentativas de realizar aprendizado de máquina, dos quais o
exemplo mais popular é o método Bayesiano
Bayesiano.
Classifica os diferentes objetos em classes pré-definidas com base
em um conjunto de recursos, armazenando a probabilidade de cada
classe, de cada característica, e de cada recurso, com base nos
dados de treinamento. Quando uma nova instância for encontrado,
ele pode ser classificado de acordo com essas probabilidades (Langley,
Iba, & Thompson, 1992).

(CHEN; CHAU, 2004)
(CHEN; CHAU, 2004)

11


II. Aprendizagem simbólica e indução de regras
São classificadas de acordo com a estratégia de aprendizagem:
a) aprendizagem mecânica; b) aprendizagem por ensino; c)
aprendizagem por analogia; d) aprendizagem a partir de
exemplos; e) e aprendizagem por descoberta (Carbonell, Michalski, &
Mitchell, 1983; Cohen & Feigenbaum, 1982).

A aprendizagem por exemplos parece ser a mais promissora.
Ela é implementado através da aplicação de um algoritmo que tenta
induzir a descrição do conceito geral, que melhor descreve as
diferentes classes de exemplos de treinamento.
(CHEN; CHAU, 2004)

12


III. Redes neurais

Uma rede neural é um gráfico de muitos nós ativos (neurônios),
que são conectadas umas às outras por ligações ponderadas
(sinapses).
Com base em exemplos de treinamento, os algoritmos de
aprendizagem podem ser usados para ajustar os pesos de
conexão na rede para que ele possa prever ou classificar
exemplos desconhecidos corretamente.
(CHEN; CHAU, 2004)

13


IV. Algoritmos baseados em evolução
Algoritmos baseados em evolução dependem de analogias com
os processos naturais e da noção Darwiniana da sobrevivência
dos mais aptos.
Fogel (1994, apud CHEN; CHAU, 2004) identifica três categorias de algoritmos
de evolução baseada em: algoritmos genéticos, estratégias
evolutivas e a programação evolutiva.
Uma população sofre um conjunto de operações genéticas (crossover e mutação).
Seleção ‘natural’ de indivíduos mais aptos. Os indivíduos selecionados passam a
formar a próxima geração e o processo continua. Após uma série de gerações, o
programa converge e a solução ideal é representada pelo melhor indivíduo.

14


V. Aprendizagem analítica e lógica fuzzy
Aprendizagem analítica representa o conhecimento como regras
de lógica, e executa este raciocínio sobre estas regras para
procurar provas. As provas podem ser compilados em regras
mais complexas para resolver problemas com um pequeno
número de pesquisas necessárias.
Os sistemas tradicionais de aprendizagem analítica dependem de
regras de computação rígido. Para resolver esse problema,
sistemas de lógica fuzzy têm sido propostas.
(CHEN; CHAU, 2004)

15


Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
amostragem bootstrap
(CHEN; CHAU, 2004)

16


leave-one-out

Os dados são divididos em um conjunto de
treinamento (2/3) e um conjunto de testes
(1/3 dos dados). Depois que o sistema é
formado pelos dados de treinamento, é
necessário prever o valor de saída de cada
exemplo no conjunto de teste. Estes valores
são então comparados com os valores de
saída real para determinar a precisão.

16


leave-one-out

O conjunto de dados é divididos em
subconjuntos, geralmente subgrupos de 10. O
sistema é então treinado e testado para 10
interações e, em cada interação 9 subconjuntos
são usados como dados de treinamento e 1
como dados de teste. Na rotação, cada
subconjunto de dados serve como teste de jogo
em uma interação. A precisão do sistema é a
precisão média das 10 interações. CHAU, 2004)
(CHEN;

.

16


leave-one-out
leave-oneamostragem bootstrap

Leave-one-out é o caso extremo de validação
cruzada, onde os dados originais são
divididos em n subgrupos, onde n é o
número de observações nos dados originais.
O sistema é treinado e testado por n
interações, em cada um dos quais n-1
exemplos são usados para o treinamento e a
instância restante é usado para testes.

16


leave-one-out

n amostras aleatórias independentes são
retirados do conjunto de dados original de
tamanho n. Como as amostras são tomadas
com a substituição, o número de instâncias
exclusivas será inferior a n. Essas amostras
são então utilizadas como conjunto de
treinamento para o sistema de aprendizagem,
e os restantes dados que não foram incluídos
na amostra são usados para testar o sistema
(Efron & Tibshirani, 1993).

(CHEN; CHAU, 2004)

16


Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Extração de informação
Feedback de relevância
Filtragem de informações e recomendação
Classificação de texto e clustering.
(CHEN; CHAU, 2004)

17


surgimento da web.
Técnica destinada a identificar
automaticamente as informações
Filtragem de informações e recomendação úteis a partir de documentos de
texto.
(CHEN; CHAU, 2004)

17


surgimento da web.
Método usado em sistemas de
IR para ajudar os usuários a
buscas de
Filtragem de informações e recomendação realizarem e reformularforma
interativa
as
consultas de pesquisa com base

na avaliação de documentos
obtidos anteriormente. (Ide, 1971;
Rocchio, 1971).

(CHEN; CHAU, 2004)

17


surgimento da web.
Também ajudam os usuários a
reformular as consultas de
pesquisa, mas tenta aprender
Filtragem de informações e recomendação sobre os interesses dos usuários,
por meio de suas avaliações e

ações e, em seguida, usa essas
informações para analisar novos
documentos. (CHEN; CHAU, 2004)

17


surgimento da web.
Classificação de texto é a
classificação dos documentos em
(aprendizado
Filtragem de informações e recomendação grupos pré-definidasclustering é o
supervisionado), e
agrupamento dos documentos em
categorias definidas dinamicamente,
com base nas suas semelhanças
(CHEN; CHAU, 2004)
(aprendizado não supervisionado).

17


WEB MINING
Web Mining pode ser dividido em três categorias (Kosala & Blockeel, 2000):
 Mineração de conteúdo da Web;
refere-se à descoberta de informações úteis a partir do conteúdo da Web,
incluindo texto, imagens, áudio e vídeo.
 Mineração

de estruturas da Web;

Refere-se ao estudo de potenciais modelos subjacentes às estruturas de links da
web.
> Usada para a formação do ranking dos motores de busca.
 Mineração

de uso da Web.

Centra-se na análise de pesquisas/consultas para encontrar padrões
interessantes.
> Aplicação no desenvolvimento de perfis de usuário

18


WEB MINING
Desafios:
1.
2.
3.

Documentos em HTML;
Diversidade dos documentos (tamanho, formato, estrutura);
Documentos dinâmicos.

“Outra característica da Web, talvez o mais importante, é a
estrutura de hyperlink.”

(CHEN; CHAU, 2004)

19


MINERAÇÃO DE CONTEÚDO WEB
Mineração de conteúdo Web é baseado principalmente na
pesquisa em recuperação de informação e mineração de
texto, como extração de informações, classificação e agrupamento de texto e
visualização da informação.

A maioria dos documentos na Web são documentos de texto,
portanto, a mineração de texto para documentos na Web pode
ser considerado um sub-campo de mineração de conteúdos
da Web.
(CHEN; CHAU, 2004)

20


Mineração de conteúdo Web é baseado principalmente na
pesquisa em recuperação de informação e mineração de
texto, como extração de informações, classificação e agrupamento de texto e
visualização da informação.

A maioria dos documentos na Web são documentos de texto,
portanto, a mineração de texto para documentos na Web pode
ser considerado um sub-campo de mineração de conteúdos
da Web.
extração de informação
Aplicações de mineração de
textos em documentos web:

classificação de texto
texto clustering

20


As técnicas de extração de informações tem sido aplicado a
documentos de texto simples, nesse sentido, a extração de
informações de páginas da Web - em HTML - pode
apresentar problemas.
Páginas não-estruturadas
tags de marcação

“Em vez de um documento composto de parágrafos, uma
página da Web pode ser um documento composto de uma
barra lateral com links de navegação, tabelas com dados
textuais e numéricos, frases capitalizados, e palavras
repetitivas. A gama de formatos e estruturas é muito
diversificada em toda a web.”

21

(CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso)

A extração de informação analisa as páginas da Web
individualmente, a classificação de texto e texto clustering
analisam um conjunto de páginas web.
Em algumas aplicações, as tags de HTML são simplesmente
retirados dos documentos da Web e algoritmos tradicionais
são então aplicadas para realizar a classificação e
agrupamento de texto – ignorando, algumas características da
página web.
O texto de documentos vizinhos – links para os quais a página aponta - tem
sido utilizado na tentativa de melhorar o desempenho da classificação.

22

(CHEN; CHAU, 2004)

Spiders Web Inteligentes
Spiders são "programas de software que atravessam o espaço
de informação da World Wide Web, seguindo links de
hipertexto e recuperação de documentos na Web através do
protocolo HTTP padrão" (CHEONG, 1996, p. 82, apud CHEN; CHAU, 2004)
... são usados por motores de busca para construir suas bases
de dados.
A maior parte usa algoritmos simples para descoberta de
recursos web, mas há o uso de algoritmos avançados
(algoritmo genético, redes neurais, modelos híbridos...)

23


Web Mining Multilíngue
 Maior

parte do conteúdo em inglês;
 No entanto, número de páginas em outros idiomas vem
crecendo.
Problemas no processamento de texto de diferentes idiomas.
 Alguns

algoritmos são independentes de idioma (classificação
de texto, clustering); algoritmos como o de extração de
informações devem ser adaptados para os diferentes idiomas.
(CHEN; CHAU, 2004)

24


Web Visualização
Muitas vezes é difícil extrair conteúdo útil a partir da Web,
neste caso, ferramentas de visualização têm sido utilizadas
para ajudar os usuários a manterem uma “visualização geral"
de um conjunto de resultados de recuperação de motores de
busca.
Nestes sistemas de visualização, técnicas de aprendizado de
máquina são muitas vezes utilizados para determinar como as
páginas Web devem ser apresentadas.
(CHEN; CHAU, 2004)

25


Web Semântica

1.

2.
3.

Os documentos da Web não serão mais textos não
estruturados, eles serão identificados e entendidos por
computadores.
A aprendizagem de máquina pode desempenhar três papéis
importantes na Web Semântica. Sendo usada para...
criar automaticamente os metadados de marcação;
criar, fundir, atualizar e manter ontologias;
compreender e executar o raciocínio sobre os metadados
fornecidos pela Web Semântica, a fim de extrair
conhecimento a partir da Web de forma mais eficaz.

26


MINERAÇÃO DE ESTRUTURAS DA WEB
A estrutura de links da Web tem sido amplamente
utilizada para inferir informações importantes sobre as
páginas web. A mineração de estruturas da Web tem sido
largamente influenciado pelas pesquisas de análise de
redes sociais e análise de citações (bibliometria).
Citações (ligações) entre as páginas da Web geralmente
são indicadores de grande relevância ou de boa
qualidade.
(CHEN; CHAU, 2004)

27


Geralmente, quanto maior o número de links para uma
determinada página, mais útil a página é considerada. O
raciocínio é que uma página referenciada por muitas
pessoas, é provável que seja mais importante do que
uma página que raramente é mencionada.
“Além disso, é razoável dar uma ligação de uma fonte
autorizada (como Yahoo) um peso maior do que um link
de uma página Web da importância pessoal.”
(CHEN; CHAU, 2004, p.311)

28


As técnicas de mineração de estruturas da Web são
frequentemente utilizados para melhorar o desempenho de
aplicações web.
Por exemplo o PageRank:
É eficaz no ranking dos resultados do motor de busca Google
(http://www.google.com) (Brin e Page, 1998).
É utilizado como uma medida para orientar as aranhas do
Search Engine, onde URLs com PageRank mais elevado são
visitadas primeiro (Cho et al., 1998).
(CHEN; CHAU, 2004)

29


MINERAÇÃO DE USO DA WEB
Servidores Web, proxies, e aplicações cliente podem
facilmente capturar dados sobre o uso da Web.
Logs do servidor Web contêm informações sobre todas as
visitas às páginas hospedadas em um servidor.

Ficheiros solicitados
endereço de IP

número de bytes enviados
código de erro
navegador usado

Ao realizar a análise dos dados de uso da Web, os sistemas de
mineração da Web podem descobrir conhecimentos úteis sobre
as características de um sistema, do uso e os interesses dos
usuários.
(CHEN; CHAU, 2004)

30


Análise de padrões e tendências
Um dos principais objetivos da mineração de utilização da
Web é o interesse em revelar tendências e padrões. Esses
padrões podem frequentemente fornecer conhecimentos
importantes sobre os clientes de uma empresa ou dos
usuários do sistema.
Srivastava, Cooley, Despande e Tan (2000) fornecem uma
estrutura para a mineração de uso da Web, que consiste em
três etapas principais: I. pré-processamento;
II. descoberta de padrões;
III. análise de padrões. (CHEN; CHAU, 2004)

31


Personalização e colaboração
Muitos dos objetivo de uso das técnicas de Web Mining são
fornecer informações e serviços personalizados para os usuários.
Os dados de uso da Web fornecem uma excelente maneira de
aprender sobre o interesse dos usuários (Srivastava et al., 2000).
al. 2000)
Mineração de uso da Web pode ajudar a identificar usuários que
acessaram páginas Web semelhante. Os padrões que emergem
podem ser aplicados em pesquisas sobre a Web colaborativa e
filtragem colaborativa.
(CHEN; CHAU, 2004)

32


CONSIDERAÇÕES FINAIS
A Web tornou-se o maior repositório de conhecimento do mundo.
A extração de conhecimento da Web de forma eficiente e
eficaz está se tornando cada vez mais importante.
Limitações das pesquisas em Web Mining:
 dificuldade de criação de coleções de ensaio adequadas;
 dificuldade de coletar dados de uso da Web em sites
diferentes (maioria dos dados de log do servidor e os dados
recolhidos por empresas são proprietários).
(CHEN; CHAU, 2004, p.316, tradução nossa)

33


As atividades de Web Mining ainda estão em estágios iniciais
e devem continuar a desenvolver-se como a evolução da web.

No futuro...

mineração de dados multimídia.
multimídia.
“Além dos documentos textuais, como HTML, MS Word Document, PDF e
arquivos de texto, um grande número de documentos multimídia estão
contidas na Web, tais como imagens, áudios e vídeos. Apesar de os
documentos textuais serem relativamente fáceis de recuperar e analisar, as
operações em arquivos de multimídia são muito mais difíceis de executar, e
como o conteúdo multimídia na web cresce rapidamente, Web Mining
tornou-se um problema desafiador.”
(CHEN; CHAU, 2004, p.316-317, tradução nossa)

34



Web Mining no futuro...
 conteúdo

multilíngüe;
 Internet sem fio;
 Web invisível.
“A Web tornou-se a maior base de conhecimento que jamais
existiu. No entanto, sem a representação do conhecimento
adequado e algoritmos de descoberta de conhecimento, é
apenas como um ser humano com a memória extraordinária,
mas sem capacidade de pensar e raciocinar.”
(CHEN; CHAU, 2004, p.319, tradução nossa)

35


OBRIGADA!


Seminário paty aula 9 04-05-2011

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Seminário paty aula 9 04-05-2011

Semelhante a Seminário paty aula 9 04-05-2011 (20)

Mais de Patricia Neubert

Mais de Patricia Neubert (20)

Último

Último (20)

Seminário paty aula 9 04-05-2011