SlideShare uma empresa Scribd logo
1 de 48
Baixar para ler offline
Universidade Federal de Santa Catarina
Centro de Ciências da Educação
Departamento de Ciência da Informação
Programa de Pós-Graduação em Ciência da Informação
Mestrado em Ciência da Informação
Disciplina: PCI3214 – Recuperação Inteligente de Informação
Professor: Dr. Angel Freddy Godoy Viera

Seminário – Aula 9
04 de maio de 2011
Patricia da Silva Neubert
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
Seminário – Aula 9
Temática:
Mineração de conteúdo web;
Spiders web inteligentes;
Mineração de estruturas da web;
Mineração de uso da web.
Bibliografia recomendada:
CHEN, Hsinchun; CHAU, Michael. Web Mining: machine
learning for Web applications. In: CRONIN, Blaise (ed.). Annual
Review of Information Science and Technology. Medford:
Information Today, Inc., 2004, v.38, cap. 6, p. 289-329.
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Web






Tamanho;
Conteúdo não-estruturado;
Conteúdo dinâmico;
Multilíngue;
Dados em vários formatos.

Nesse caso,
a extração de conhecimento útil é um problema.
(CHEN; CHAU, 2004)

2
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
“O conhecimento não vem só do conteúdo das páginas
em si, mas também das características únicas da Web,
tais como a sua estrutura de hyperlink e sua diversidade de
conteúdos e línguas. A análise destas características, muitas
vezes revela padrões interessantes e novos conhecimentos.
Tal conhecimento pode ser usado para melhorar a eficiência
dos usuários e eficácia na busca de informações na Web, e
também para aplicações não relacionadas com a Web, como
suporte à tomada de decisão ou gestão empresarial”
(CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso)

3

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
A solução para o problema vem das....

...técnicas de aprendizado de máquina.
A pesquisa sobre Data Mining se tornou um subcampo
significativo das pesquisas sobre aprendizagem de máquina.
“O termo Web Mining foi criado por Etzioni (1996) para denotar o
uso de técnicas de mineração de dados para descobrir
automaticamente documentos e serviços Web, extrair
informações a partir de recursos da Web, e descobrir padrões
gerais na web.”
(CHEN; CHAU, 2004, p.289-290, tradução nossa)

4

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Segundo colocam Chen e Chau (2004, p.289-290) a pesquisa
de Web Mining foi, com o passar do tempo, estendida para
abranger a utilização da mineração de dados e técnicas
similares para descobrir recursos, padrões e conhecimento a
partir da Web e dados relacionados à Web (por exemplo dados de uso
da Web ou servidor de web logs).
Os autores adotam a definição de Cooley, Mobasher e
Srivastava (1997, apud CHEN; CHAU, 2004, p.289-290, tradução nossa)
para Web Mining:
“é a descoberta e análise de informações úteis a partir da World
Wide Web.”

5

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Web Mining coincide com outras áreas, incluindo mineração de
dados, mineração de texto, acesso e recuperação da
informação.

Fonte: Chen e Chau, 2004, p.291

6
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Web Mining coincide com outras áreas, incluindo mineração de
dados, mineração de texto, acesso e recuperação da
informação.
A classificação é
baseada no objetivo e
na fonte dos dados.

Fonte: Chen e Chau, 2004, p.291

6
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Web Mining coincide com outras áreas, incluindo mineração de
dados, mineração de texto, acesso e recuperação da
informação.
A classificação é
baseada no objetivo e
na fonte dos dados.

Fonte: Chen e Chau, 2004, p.291

6
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
A pesquisa de Web Mining está na intersecção de várias áreas:

Recuperação da informação

Aprendizado de máquina

Recuperação na Web
Data Mining

Bases de dados
Text Mining

 Aprendizagem

de máquina é a base para a maioria das
técnicas de mineração de dados e de mineração de textos;
 As pesquisas de recuperação de informação tem grande
influencia nas pesquisas de aplicações de Web Mining.
(CHEN; CHAU, 2004)

7

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
Algoritmos de aprendizagem de máquina têm sido desenvolvidas
para atenuar os problemas de aquisição de conhecimentos por
computadores feitas manualmente – a partir de especialistas
humanos – visando a aquisição de conhecimentos
automaticamente a partir de exemplos ou dados de origem.
Mitchell (1997, p. 2) define a aprendizagem de máquina como o
estudo de "qualquer algoritmo de computador que melhora seu
desempenho em algumas tarefas por meio da experiência.”
(CHEN; CHAU, 2004)

8

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
São classificados em:
Aprendizado supervisionado
No aprendizado supervisionado, os exemplos de treinamento consiste nos
padrões para input/output. O objetivo do algoritmo de aprendizagem é prever
os valores de saída de novos exemplos, com base em seus valores de
entrada.

Aprendizado não supervisionado
No aprendizado não supervisionado, os exemplos de treinamento contém
apenas os padrões de entrada, não especificado o padrão de saída associado
a entrada. O algoritmo de aprendizagem deve generalizar a partir dos padrões
de entrada para descobrir os valores de saída.
(CHEN; CHAU, 2004)

9

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
Com base em Chen (1995), Langley e Simon (1995) os autores
identificaram cinco áreas de pesquisa em aprendizagem de
máquina:
I.
II.
III.
IV.
V.

Modelos probabilísticos;
Aprendizagem simbólica e indução de regras;
Redes neurais;
Algoritmos baseados na evolução;
Aprendizagem analítica e lógica fuzzy.
(CHEN; CHAU, 2004)

10

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
I . Modelos probabilísticos
O uso de modelos probabilísticos, foi uma das primeiras
tentativas de realizar aprendizado de máquina, dos quais o
exemplo mais popular é o método Bayesiano
Bayesiano.
Classifica os diferentes objetos em classes pré-definidas com base
em um conjunto de recursos, armazenando a probabilidade de cada
classe, de cada característica, e de cada recurso, com base nos
dados de treinamento. Quando uma nova instância for encontrado,
ele pode ser classificado de acordo com essas probabilidades (Langley,
Iba, & Thompson, 1992).

(CHEN; CHAU, 2004)
(CHEN; CHAU, 2004)

11

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
II. Aprendizagem simbólica e indução de regras
São classificadas de acordo com a estratégia de aprendizagem:
a) aprendizagem mecânica; b) aprendizagem por ensino; c)
aprendizagem por analogia; d) aprendizagem a partir de
exemplos; e) e aprendizagem por descoberta (Carbonell, Michalski, &
Mitchell, 1983; Cohen & Feigenbaum, 1982).

A aprendizagem por exemplos parece ser a mais promissora.
Ela é implementado através da aplicação de um algoritmo que tenta
induzir a descrição do conceito geral, que melhor descreve as
diferentes classes de exemplos de treinamento.
(CHEN; CHAU, 2004)

12

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
III. Redes neurais

Uma rede neural é um gráfico de muitos nós ativos (neurônios),
que são conectadas umas às outras por ligações ponderadas
(sinapses).
Com base em exemplos de treinamento, os algoritmos de
aprendizagem podem ser usados ​para ajustar os pesos de
conexão na rede para que ele possa prever ou classificar
exemplos desconhecidos corretamente.
(CHEN; CHAU, 2004)

13

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
IV. Algoritmos baseados em evolução
Algoritmos baseados em evolução dependem de analogias com
os processos naturais e da noção Darwiniana da sobrevivência
dos mais aptos.
Fogel (1994, apud CHEN; CHAU, 2004) identifica três categorias de algoritmos
de evolução baseada em: algoritmos genéticos, estratégias
evolutivas e a programação evolutiva.
Uma população sofre um conjunto de operações genéticas (crossover e mutação).
Seleção ‘natural’ de indivíduos mais aptos. Os indivíduos selecionados passam a
formar a próxima geração e o processo continua. Após uma série de gerações, o
programa converge e a solução ideal é representada pelo melhor indivíduo.

14

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
V. Aprendizagem analítica e lógica fuzzy
Aprendizagem analítica representa o conhecimento como regras
de lógica, e executa este raciocínio sobre estas regras para
procurar provas. As provas podem ser compilados em regras
mais complexas para resolver problemas com um pequeno
número de pesquisas necessárias.
Os sistemas tradicionais de aprendizagem analítica dependem de
regras de computação rígido. Para resolver esse problema,
sistemas de lógica fuzzy têm sido propostas.
(CHEN; CHAU, 2004)

15

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
amostragem bootstrap
(CHEN; CHAU, 2004)

16

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
amostragem bootstrap

Os dados são divididos em um conjunto de
treinamento (2/3) e um conjunto de testes
(1/3 dos dados). Depois que o sistema é
formado pelos dados de treinamento, é
necessário prever o valor de saída de cada
exemplo no conjunto de teste. Estes valores
são então comparados com os valores de
saída real para determinar a precisão.

16

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
amostragem bootstrap

O conjunto de dados é divididos em
subconjuntos, geralmente subgrupos de 10. O
sistema é então treinado e testado para 10
interações e, em cada interação 9 subconjuntos
são usados ​como dados de treinamento e 1
como dados de teste. Na rotação, cada
subconjunto de dados serve como teste de jogo
em uma interação. A precisão do sistema é a
precisão média das 10 interações. CHAU, 2004)
(CHEN;

.

16

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
leave-oneamostragem bootstrap

Leave-one-out é o caso extremo de validação
cruzada, onde os dados originais são
divididos em n subgrupos, onde n é o
número de observações nos dados originais.
O sistema é treinado e testado por n
interações, em cada um dos quais n-1
exemplos são usados ​para o treinamento e a
instância restante é usado para testes.

16

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
amostragem bootstrap

n amostras aleatórias independentes são
retirados do conjunto de dados original de
tamanho n. Como as amostras são tomadas
com a substituição, o número de instâncias
exclusivas será inferior a n. Essas amostras
são então utilizadas como conjunto de
treinamento para o sistema de aprendizagem,
e os restantes dados que não foram incluídos
na amostra são usados ​para testar o sistema
(Efron & Tibshirani, 1993).

(CHEN; CHAU, 2004)

16

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Extração de informação
Feedback de relevância
Filtragem de informações e recomendação
Classificação de texto e clustering.
(CHEN; CHAU, 2004)

17

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Extração de informação
Técnica destinada a identificar
Feedback de relevância
automaticamente as informações
Filtragem de informações e recomendação úteis a partir de documentos de
texto.
Classificação de texto e clustering.
(CHEN; CHAU, 2004)

17

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Extração de informação
Método usado em sistemas de
IR para ajudar os usuários a
Feedback de relevância
buscas de
Filtragem de informações e recomendação realizarem e reformularforma
interativa
as
Classificação de texto e clustering.
consultas de pesquisa com base

na avaliação de documentos
obtidos anteriormente. (Ide, 1971;
Rocchio, 1971).

(CHEN; CHAU, 2004)

17

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Também ajudam os usuários a
Extração de informação
reformular as consultas de
Feedback de relevância
pesquisa, mas tenta aprender
Filtragem de informações e recomendação sobre os interesses dos usuários,
por meio de suas avaliações e
Classificação de texto e clustering.

ações e, em seguida, usa essas
informações para analisar novos
documentos. (CHEN; CHAU, 2004)

17

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Extração de informação
Classificação de texto é a
classificação dos documentos em
Feedback de relevância
(aprendizado
Filtragem de informações e recomendação grupos pré-definidasclustering é o
supervisionado), e
Classificação de texto e clustering.
agrupamento dos documentos em
categorias definidas dinamicamente,
com base nas suas semelhanças
(CHEN; CHAU, 2004)
(aprendizado não supervisionado).

17

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
WEB MINING
Web Mining pode ser dividido em três categorias (Kosala & Blockeel, 2000):
 Mineração de conteúdo da Web;
refere-se à descoberta de informações úteis a partir do conteúdo da Web,
incluindo texto, imagens, áudio e vídeo.
 Mineração

de estruturas da Web;

Refere-se ao estudo de potenciais modelos subjacentes às estruturas de links da
web.
> Usada para a formação do ranking dos motores de busca.
 Mineração

de uso da Web.

Centra-se na análise de pesquisas/consultas para encontrar padrões
interessantes.
> Aplicação no desenvolvimento de perfis de usuário

18

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
WEB MINING
Desafios:
1.
2.
3.

Documentos em HTML;
Diversidade dos documentos (tamanho, formato, estrutura);
Documentos dinâmicos.

“Outra característica da Web, talvez o mais importante, é a
estrutura de hyperlink.”

(CHEN; CHAU, 2004)

19

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE CONTEÚDO WEB
Mineração de conteúdo Web é baseado principalmente na
pesquisa em recuperação de informação e mineração de
texto, como extração de informações, classificação e agrupamento de texto e
visualização da informação.

A maioria dos documentos na Web são documentos de texto,
portanto, a mineração de texto para documentos na Web pode
ser considerado um sub-campo de mineração de conteúdos
da Web.
(CHEN; CHAU, 2004)

20

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE CONTEÚDO WEB
Mineração de conteúdo Web é baseado principalmente na
pesquisa em recuperação de informação e mineração de
texto, como extração de informações, classificação e agrupamento de texto e
visualização da informação.

A maioria dos documentos na Web são documentos de texto,
portanto, a mineração de texto para documentos na Web pode
ser considerado um sub-campo de mineração de conteúdos
da Web.
extração de informação
Aplicações de mineração de
textos em documentos web:

classificação de texto
texto clustering

20

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE CONTEÚDO WEB
As técnicas de extração de informações tem sido aplicado a
documentos de texto simples, nesse sentido, a extração de
informações de páginas da Web - em HTML - pode
apresentar problemas.
Páginas não-estruturadas
tags de marcação

“Em vez de um documento composto de parágrafos, uma
página da Web pode ser um documento composto de uma
barra lateral com links de navegação, tabelas com dados
textuais e numéricos, frases capitalizados, e palavras
repetitivas. A gama de formatos e estruturas é muito
diversificada em toda a web.”

21

(CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso)
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE CONTEÚDO WEB
A extração de informação analisa as páginas da Web
individualmente, a classificação de texto e texto clustering
analisam um conjunto de páginas web.
Em algumas aplicações, as tags de HTML são simplesmente
retirados dos documentos da Web e algoritmos tradicionais
são então aplicadas para realizar a classificação e
agrupamento de texto – ignorando, algumas características da
página web.
O texto de documentos vizinhos – links para os quais a página aponta - tem
sido utilizado na tentativa de melhorar o desempenho da classificação.

22

(CHEN; CHAU, 2004)
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE CONTEÚDO WEB
Spiders Web Inteligentes
Spiders são "programas de software que atravessam o espaço
de informação da World Wide Web, seguindo links de
hipertexto e recuperação de documentos na Web através do
protocolo HTTP padrão" (CHEONG, 1996, p. 82, apud CHEN; CHAU, 2004)
... são usados por motores de busca para construir suas bases
de dados.
A maior parte usa algoritmos simples para descoberta de
recursos web, mas há o uso de algoritmos avançados
(algoritmo genético, redes neurais, modelos híbridos...)

23

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE CONTEÚDO WEB
Web Mining Multilíngue
 Maior

parte do conteúdo em inglês;
 No entanto, número de páginas em outros idiomas vem
crecendo.
Problemas no processamento de texto de diferentes idiomas.
 Alguns

algoritmos são independentes de idioma (classificação
de texto, clustering); algoritmos como o de extração de
informações devem ser adaptados para os diferentes idiomas.
(CHEN; CHAU, 2004)

24

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE CONTEÚDO WEB
Web Visualização
Muitas vezes é difícil extrair conteúdo útil a partir da Web,
neste caso, ferramentas de visualização têm sido utilizadas
para ajudar os usuários a manterem uma “visualização geral"
de um conjunto de resultados de recuperação de motores de
busca.
Nestes sistemas de visualização, técnicas de aprendizado de
máquina são muitas vezes utilizados para determinar como as
páginas Web devem ser apresentadas.
(CHEN; CHAU, 2004)

25

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE CONTEÚDO WEB
Web Semântica

1.

2.
3.

Os documentos da Web não serão mais textos não
estruturados, eles serão identificados e entendidos por
computadores.
A aprendizagem de máquina pode desempenhar três papéis
importantes na Web Semântica. Sendo usada para...
criar automaticamente os metadados de marcação;
criar, fundir, atualizar e manter ontologias;
compreender e executar o raciocínio sobre os metadados
fornecidos pela Web Semântica, a fim de extrair
conhecimento a partir da Web de forma mais eficaz.

26

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE ESTRUTURAS DA WEB
A estrutura de links da Web tem sido amplamente
utilizada para inferir informações importantes sobre as
páginas web. A mineração de estruturas da Web tem sido
largamente influenciado pelas pesquisas de análise de
redes sociais e análise de citações (bibliometria).
Citações (ligações) entre as páginas da Web geralmente
são indicadores de grande relevância ou de boa
qualidade.
(CHEN; CHAU, 2004)

27

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE ESTRUTURAS DA WEB
Geralmente, quanto maior o número de links para uma
determinada página, mais útil a página é considerada. O
raciocínio é que uma página referenciada por muitas
pessoas, é provável que seja mais importante do que
uma página que raramente é mencionada.
“Além disso, é razoável dar uma ligação de uma fonte
autorizada (como Yahoo) um peso maior do que um link
de uma página Web da importância pessoal.”
(CHEN; CHAU, 2004, p.311)

28

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE ESTRUTURAS DA WEB
As técnicas de mineração de estruturas da Web são
frequentemente utilizados para melhorar o desempenho de
aplicações web.
Por exemplo o PageRank:
É eficaz no ranking dos resultados do motor de busca Google
(http://www.google.com) (Brin e Page, 1998).
É utilizado como uma medida para orientar as aranhas do
Search Engine, onde URLs com PageRank mais elevado são
visitadas primeiro (Cho et al., 1998).
(CHEN; CHAU, 2004)

29

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE USO DA WEB
Servidores Web, proxies, e aplicações cliente podem
facilmente capturar dados sobre o uso da Web.
Logs do servidor Web contêm informações sobre todas as
visitas às páginas hospedadas em um servidor.

Ficheiros solicitados
endereço de IP

número de bytes enviados
código de erro
navegador usado

Ao realizar a análise dos dados de uso da Web, os sistemas de
mineração da Web podem descobrir conhecimentos úteis sobre
as características de um sistema, do uso e os interesses dos
usuários.
(CHEN; CHAU, 2004)

30

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE USO DA WEB
Análise de padrões e tendências
Um dos principais objetivos da mineração de utilização da
Web é o interesse em revelar tendências e padrões. Esses
padrões podem frequentemente fornecer conhecimentos
importantes sobre os clientes de uma empresa ou dos
usuários do sistema.
Srivastava, Cooley, Despande e Tan (2000) fornecem uma
estrutura para a mineração de uso da Web, que consiste em
três etapas principais: I. pré-processamento;
II. descoberta de padrões;
III. análise de padrões. (CHEN; CHAU, 2004)

31

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
MINERAÇÃO DE USO DA WEB
Personalização e colaboração
Muitos dos objetivo de uso das técnicas de Web Mining são
fornecer informações e serviços personalizados para os usuários.
Os dados de uso da Web fornecem uma excelente maneira de
aprender sobre o interesse dos usuários (Srivastava et al., 2000).
al. 2000)
Mineração de uso da Web pode ajudar a identificar usuários que
acessaram páginas Web semelhante. Os padrões que emergem
podem ser aplicados em pesquisas sobre a Web colaborativa e
filtragem colaborativa.
(CHEN; CHAU, 2004)

32

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
CONSIDERAÇÕES FINAIS
A Web tornou-se o maior repositório de conhecimento do mundo.
A extração de conhecimento da Web de forma eficiente e
eficaz está se tornando cada vez mais importante.
Limitações das pesquisas em Web Mining:
 dificuldade de criação de coleções de ensaio adequadas;
 dificuldade de coletar dados de uso da Web em sites
diferentes (maioria dos dados de log do servidor e os dados
recolhidos por empresas são proprietários).
(CHEN; CHAU, 2004, p.316, tradução nossa)

33

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
CONSIDERAÇÕES FINAIS
As atividades de Web Mining ainda estão em estágios iniciais
e devem continuar a desenvolver-se como a evolução da web.

No futuro...

mineração de dados multimídia.
multimídia.
“Além dos documentos textuais, como HTML, MS Word Document, PDF e
arquivos de texto, um grande número de documentos multimídia estão
contidas na Web, tais como imagens, áudios e vídeos. Apesar de os
documentos textuais serem relativamente fáceis de recuperar e analisar, as
operações em arquivos de multimídia são muito mais difíceis de executar, e
como o conteúdo multimídia na web cresce rapidamente, Web Mining
tornou-se um problema desafiador.”
(CHEN; CHAU, 2004, p.316-317, tradução nossa)

34

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
CONSIDERAÇÕES FINAIS

Web Mining no futuro...
 conteúdo

multilíngüe;
 Internet sem fio;
 Web invisível.
“A Web tornou-se a maior base de conhecimento que jamais
existiu. No entanto, sem a representação do conhecimento
adequado e algoritmos de descoberta de conhecimento, é
apenas como um ser humano com a memória extraordinária,
mas sem capacidade de pensar e raciocinar.”
(CHEN; CHAU, 2004, p.319, tradução nossa)

35

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
OBRIGADA!

PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert

Mais conteúdo relacionado

Semelhante a Seminário paty aula 9 04-05-2011

Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informaçãoVanessa Biff
 
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02NeuroMat
 
Web Based Simulation Ilan
Web Based Simulation IlanWeb Based Simulation Ilan
Web Based Simulation IlanIlan Chamovitz
 
Gestão de Autoescola.pptx
Gestão de Autoescola.pptxGestão de Autoescola.pptx
Gestão de Autoescola.pptxalbertorauljose2
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoCristina Ferreira
 
Um sistema inteligente baseado em ontologia para apoio ao esclarecimento de...
Um sistema inteligente baseado em ontologia para  apoio  ao esclarecimento de...Um sistema inteligente baseado em ontologia para  apoio  ao esclarecimento de...
Um sistema inteligente baseado em ontologia para apoio ao esclarecimento de...Raul Lopes
 
Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...
Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...
Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...Wanderley Wang
 
Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...
Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...
Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...Renata Aquino
 
Learning Analytics: utilizando Data Science para melhorar a educação
Learning Analytics: utilizando Data Science para melhorar a educaçãoLearning Analytics: utilizando Data Science para melhorar a educação
Learning Analytics: utilizando Data Science para melhorar a educaçãoMatheus Braun Magrin
 
Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...
Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...
Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...Wanderley Wang
 
O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...Rodrigo Moreira Garcia
 
Introdução a web semântica, ontologia e máquinas de busca
Introdução a web semântica, ontologia e máquinas de buscaIntrodução a web semântica, ontologia e máquinas de busca
Introdução a web semântica, ontologia e máquinas de buscaAlexandre Grolla
 
Uma estratégia para a busca e recuperação da informação em Internet
Uma estratégia para a busca e recuperação da informação em InternetUma estratégia para a busca e recuperação da informação em Internet
Uma estratégia para a busca e recuperação da informação em Internetjuan carlos fonden calzadilla
 
Mineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafiosMineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafiosAnatalia Saraiva Martins Ramos
 
THEES_Andrea_2019_Defesa da Tese_Aprendi no YouTube
THEES_Andrea_2019_Defesa da Tese_Aprendi no YouTubeTHEES_Andrea_2019_Defesa da Tese_Aprendi no YouTube
THEES_Andrea_2019_Defesa da Tese_Aprendi no YouTubeAndréa Thees
 

Semelhante a Seminário paty aula 9 04-05-2011 (20)

Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informação
 
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02
 
Resenha Crítica
Resenha CríticaResenha Crítica
Resenha Crítica
 
Web Based Simulation Ilan
Web Based Simulation IlanWeb Based Simulation Ilan
Web Based Simulation Ilan
 
Gestão de Autoescola.pptx
Gestão de Autoescola.pptxGestão de Autoescola.pptx
Gestão de Autoescola.pptx
 
Mota Werner TCC
Mota Werner TCCMota Werner TCC
Mota Werner TCC
 
Pre projeto
Pre projetoPre projeto
Pre projeto
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informação
 
Um sistema inteligente baseado em ontologia para apoio ao esclarecimento de...
Um sistema inteligente baseado em ontologia para  apoio  ao esclarecimento de...Um sistema inteligente baseado em ontologia para  apoio  ao esclarecimento de...
Um sistema inteligente baseado em ontologia para apoio ao esclarecimento de...
 
Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...
Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...
Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...
 
Trends and innovations
Trends and innovationsTrends and innovations
Trends and innovations
 
Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...
Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...
Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...
 
Learning Analytics: utilizando Data Science para melhorar a educação
Learning Analytics: utilizando Data Science para melhorar a educaçãoLearning Analytics: utilizando Data Science para melhorar a educação
Learning Analytics: utilizando Data Science para melhorar a educação
 
Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...
Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...
Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...
 
CSCOS
CSCOSCSCOS
CSCOS
 
O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...
 
Introdução a web semântica, ontologia e máquinas de busca
Introdução a web semântica, ontologia e máquinas de buscaIntrodução a web semântica, ontologia e máquinas de busca
Introdução a web semântica, ontologia e máquinas de busca
 
Uma estratégia para a busca e recuperação da informação em Internet
Uma estratégia para a busca e recuperação da informação em InternetUma estratégia para a busca e recuperação da informação em Internet
Uma estratégia para a busca e recuperação da informação em Internet
 
Mineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafiosMineração de Dados Educacionais - potencialidades e desafios
Mineração de Dados Educacionais - potencialidades e desafios
 
THEES_Andrea_2019_Defesa da Tese_Aprendi no YouTube
THEES_Andrea_2019_Defesa da Tese_Aprendi no YouTubeTHEES_Andrea_2019_Defesa da Tese_Aprendi no YouTube
THEES_Andrea_2019_Defesa da Tese_Aprendi no YouTube
 

Mais de Patricia Neubert

Tutorial 12 incluir seções
Tutorial 12 incluir seçõesTutorial 12 incluir seções
Tutorial 12 incluir seçõesPatricia Neubert
 
Tutorial 11 ferramentas de leitura
Tutorial 11 ferramentas de leituraTutorial 11 ferramentas de leitura
Tutorial 11 ferramentas de leituraPatricia Neubert
 
Tutorial 8 editor aceite de submissões
Tutorial 8 editor aceite de submissõesTutorial 8 editor aceite de submissões
Tutorial 8 editor aceite de submissõesPatricia Neubert
 
Tutorial 7 autor submissões
Tutorial 7 autor submissõesTutorial 7 autor submissões
Tutorial 7 autor submissõesPatricia Neubert
 
Tutorial 6 configuração da revista 5.visual
Tutorial 6 configuração da revista 5.visualTutorial 6 configuração da revista 5.visual
Tutorial 6 configuração da revista 5.visualPatricia Neubert
 
Tutorial 5 configuração da revista 4.administração da revista
Tutorial 5 configuração da revista 4.administração da revistaTutorial 5 configuração da revista 4.administração da revista
Tutorial 5 configuração da revista 4.administração da revistaPatricia Neubert
 
Tutorial 4 configuração da revista 3.submissão
Tutorial 4 configuração da revista 3.submissãoTutorial 4 configuração da revista 3.submissão
Tutorial 4 configuração da revista 3.submissãoPatricia Neubert
 
Tutorial 3 configuração da revista 2.políticas
Tutorial 3 configuração da revista 2.políticasTutorial 3 configuração da revista 2.políticas
Tutorial 3 configuração da revista 2.políticasPatricia Neubert
 
Tutorial 2 configuração da revista 1.detalhes
Tutorial 2 configuração da revista 1.detalhesTutorial 2 configuração da revista 1.detalhes
Tutorial 2 configuração da revista 1.detalhesPatricia Neubert
 
Tutorial 13 formulários de avaliação
Tutorial 13 formulários de avaliaçãoTutorial 13 formulários de avaliação
Tutorial 13 formulários de avaliaçãoPatricia Neubert
 
Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011Patricia Neubert
 
Pci 410013 seminário aula 2_13 de outubro de 2011
Pci 410013 seminário aula 2_13 de outubro de 2011Pci 410013 seminário aula 2_13 de outubro de 2011
Pci 410013 seminário aula 2_13 de outubro de 2011Patricia Neubert
 

Mais de Patricia Neubert (20)

Tutorial 15 estatísticas
Tutorial 15 estatísticasTutorial 15 estatísticas
Tutorial 15 estatísticas
 
Tutorial 14 avaliador
Tutorial 14 avaliadorTutorial 14 avaliador
Tutorial 14 avaliador
 
Tutorial 12 incluir seções
Tutorial 12 incluir seçõesTutorial 12 incluir seções
Tutorial 12 incluir seções
 
Tutorial 11 ferramentas de leitura
Tutorial 11 ferramentas de leituraTutorial 11 ferramentas de leitura
Tutorial 11 ferramentas de leitura
 
Tutorial 10 expediente
Tutorial 10 expedienteTutorial 10 expediente
Tutorial 10 expediente
 
Tutorial 9 notícias
Tutorial 9 notíciasTutorial 9 notícias
Tutorial 9 notícias
 
Tutorial 8 editor aceite de submissões
Tutorial 8 editor aceite de submissõesTutorial 8 editor aceite de submissões
Tutorial 8 editor aceite de submissões
 
Tutorial 7 autor submissões
Tutorial 7 autor submissõesTutorial 7 autor submissões
Tutorial 7 autor submissões
 
Tutorial 6 configuração da revista 5.visual
Tutorial 6 configuração da revista 5.visualTutorial 6 configuração da revista 5.visual
Tutorial 6 configuração da revista 5.visual
 
Tutorial 5 configuração da revista 4.administração da revista
Tutorial 5 configuração da revista 4.administração da revistaTutorial 5 configuração da revista 4.administração da revista
Tutorial 5 configuração da revista 4.administração da revista
 
Tutorial 4 configuração da revista 3.submissão
Tutorial 4 configuração da revista 3.submissãoTutorial 4 configuração da revista 3.submissão
Tutorial 4 configuração da revista 3.submissão
 
Tutorial 3 configuração da revista 2.políticas
Tutorial 3 configuração da revista 2.políticasTutorial 3 configuração da revista 2.políticas
Tutorial 3 configuração da revista 2.políticas
 
Tutorial 2 configuração da revista 1.detalhes
Tutorial 2 configuração da revista 1.detalhesTutorial 2 configuração da revista 1.detalhes
Tutorial 2 configuração da revista 1.detalhes
 
Tutorial 1 cadastro
Tutorial 1 cadastroTutorial 1 cadastro
Tutorial 1 cadastro
 
Tutorial 13 formulários de avaliação
Tutorial 13 formulários de avaliaçãoTutorial 13 formulários de avaliação
Tutorial 13 formulários de avaliação
 
Apresentação defesa
Apresentação defesaApresentação defesa
Apresentação defesa
 
Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011
 
Seminário paty aula 6
Seminário paty aula 6Seminário paty aula 6
Seminário paty aula 6
 
Seminário paty aula 3
Seminário paty aula 3Seminário paty aula 3
Seminário paty aula 3
 
Pci 410013 seminário aula 2_13 de outubro de 2011
Pci 410013 seminário aula 2_13 de outubro de 2011Pci 410013 seminário aula 2_13 de outubro de 2011
Pci 410013 seminário aula 2_13 de outubro de 2011
 

Último

Peça de teatro infantil: A cigarra e as formigas
Peça de teatro infantil: A cigarra e as formigasPeça de teatro infantil: A cigarra e as formigas
Peça de teatro infantil: A cigarra e as formigasBibliotecaViatodos
 
Aspectos históricos da educação dos surdos.pptx
Aspectos históricos da educação dos surdos.pptxAspectos históricos da educação dos surdos.pptx
Aspectos históricos da educação dos surdos.pptxprofbrunogeo95
 
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...GisellySobral
 
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PE
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PEEdital do processo seletivo para contratação de agentes de saúde em Floresta, PE
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PEblogdoelvis
 
Apresentação sobre Robots e processos educativos
Apresentação sobre Robots e processos educativosApresentação sobre Robots e processos educativos
Apresentação sobre Robots e processos educativosFernanda Ledesma
 
As teorias de Lamarck e Darwin para alunos de 8ano.ppt
As teorias de Lamarck e Darwin para alunos de 8ano.pptAs teorias de Lamarck e Darwin para alunos de 8ano.ppt
As teorias de Lamarck e Darwin para alunos de 8ano.pptorlando dias da silva
 
transcrição fonética para aulas de língua
transcrição fonética para aulas de línguatranscrição fonética para aulas de língua
transcrição fonética para aulas de línguaKelly Mendes
 
O que é, de facto, a Educação de Infância
O que é, de facto, a Educação de InfânciaO que é, de facto, a Educação de Infância
O que é, de facto, a Educação de InfânciaHenrique Santos
 
Testes de avaliação português 6º ano .pdf
Testes de avaliação português 6º ano .pdfTestes de avaliação português 6º ano .pdf
Testes de avaliação português 6º ano .pdfCsarBaltazar1
 
APRENDA COMO USAR CONJUNÇÕES COORDENATIVAS
APRENDA COMO USAR CONJUNÇÕES COORDENATIVASAPRENDA COMO USAR CONJUNÇÕES COORDENATIVAS
APRENDA COMO USAR CONJUNÇÕES COORDENATIVASricardo644666
 
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptxnelsontobontrujillo
 
Apostila-Letramento-e-alfabetização-2.pdf
Apostila-Letramento-e-alfabetização-2.pdfApostila-Letramento-e-alfabetização-2.pdf
Apostila-Letramento-e-alfabetização-2.pdflbgsouza
 
FUNDAMENTOS DA PSICOPEDAGOGIA - material
FUNDAMENTOS DA PSICOPEDAGOGIA - materialFUNDAMENTOS DA PSICOPEDAGOGIA - material
FUNDAMENTOS DA PSICOPEDAGOGIA - materialDouglasVasconcelosMa
 
SQL Parte 1 - Criação de Banco de Dados.pdf
SQL Parte 1 - Criação de Banco de Dados.pdfSQL Parte 1 - Criação de Banco de Dados.pdf
SQL Parte 1 - Criação de Banco de Dados.pdfAndersonW5
 
QUESTÃO 4 Os estudos das competências pessoais é de extrema importância, pr...
QUESTÃO 4   Os estudos das competências pessoais é de extrema importância, pr...QUESTÃO 4   Os estudos das competências pessoais é de extrema importância, pr...
QUESTÃO 4 Os estudos das competências pessoais é de extrema importância, pr...azulassessoria9
 
Formação T.2 do Modulo I da Formação HTML & CSS
Formação T.2 do Modulo I da Formação HTML & CSSFormação T.2 do Modulo I da Formação HTML & CSS
Formação T.2 do Modulo I da Formação HTML & CSSPedroMatos469278
 
Gramática - Texto - análise e construção de sentido - Moderna.pdf
Gramática - Texto - análise e construção de sentido - Moderna.pdfGramática - Texto - análise e construção de sentido - Moderna.pdf
Gramática - Texto - análise e construção de sentido - Moderna.pdfKelly Mendes
 
Nós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos AnimaisNós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos AnimaisIlda Bicacro
 

Último (20)

Poema - Maio Laranja
Poema - Maio Laranja Poema - Maio Laranja
Poema - Maio Laranja
 
Peça de teatro infantil: A cigarra e as formigas
Peça de teatro infantil: A cigarra e as formigasPeça de teatro infantil: A cigarra e as formigas
Peça de teatro infantil: A cigarra e as formigas
 
Aspectos históricos da educação dos surdos.pptx
Aspectos históricos da educação dos surdos.pptxAspectos históricos da educação dos surdos.pptx
Aspectos históricos da educação dos surdos.pptx
 
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
472037515-Coelho-Nelly-Novaes-Literatura-Infantil-teoria-analise-e-didatica-p...
 
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PE
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PEEdital do processo seletivo para contratação de agentes de saúde em Floresta, PE
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PE
 
Apresentação sobre Robots e processos educativos
Apresentação sobre Robots e processos educativosApresentação sobre Robots e processos educativos
Apresentação sobre Robots e processos educativos
 
As teorias de Lamarck e Darwin para alunos de 8ano.ppt
As teorias de Lamarck e Darwin para alunos de 8ano.pptAs teorias de Lamarck e Darwin para alunos de 8ano.ppt
As teorias de Lamarck e Darwin para alunos de 8ano.ppt
 
transcrição fonética para aulas de língua
transcrição fonética para aulas de línguatranscrição fonética para aulas de língua
transcrição fonética para aulas de língua
 
O que é, de facto, a Educação de Infância
O que é, de facto, a Educação de InfânciaO que é, de facto, a Educação de Infância
O que é, de facto, a Educação de Infância
 
Testes de avaliação português 6º ano .pdf
Testes de avaliação português 6º ano .pdfTestes de avaliação português 6º ano .pdf
Testes de avaliação português 6º ano .pdf
 
APRENDA COMO USAR CONJUNÇÕES COORDENATIVAS
APRENDA COMO USAR CONJUNÇÕES COORDENATIVASAPRENDA COMO USAR CONJUNÇÕES COORDENATIVAS
APRENDA COMO USAR CONJUNÇÕES COORDENATIVAS
 
662938.pdf aula digital de educação básica
662938.pdf aula digital de educação básica662938.pdf aula digital de educação básica
662938.pdf aula digital de educação básica
 
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
 
Apostila-Letramento-e-alfabetização-2.pdf
Apostila-Letramento-e-alfabetização-2.pdfApostila-Letramento-e-alfabetização-2.pdf
Apostila-Letramento-e-alfabetização-2.pdf
 
FUNDAMENTOS DA PSICOPEDAGOGIA - material
FUNDAMENTOS DA PSICOPEDAGOGIA - materialFUNDAMENTOS DA PSICOPEDAGOGIA - material
FUNDAMENTOS DA PSICOPEDAGOGIA - material
 
SQL Parte 1 - Criação de Banco de Dados.pdf
SQL Parte 1 - Criação de Banco de Dados.pdfSQL Parte 1 - Criação de Banco de Dados.pdf
SQL Parte 1 - Criação de Banco de Dados.pdf
 
QUESTÃO 4 Os estudos das competências pessoais é de extrema importância, pr...
QUESTÃO 4   Os estudos das competências pessoais é de extrema importância, pr...QUESTÃO 4   Os estudos das competências pessoais é de extrema importância, pr...
QUESTÃO 4 Os estudos das competências pessoais é de extrema importância, pr...
 
Formação T.2 do Modulo I da Formação HTML & CSS
Formação T.2 do Modulo I da Formação HTML & CSSFormação T.2 do Modulo I da Formação HTML & CSS
Formação T.2 do Modulo I da Formação HTML & CSS
 
Gramática - Texto - análise e construção de sentido - Moderna.pdf
Gramática - Texto - análise e construção de sentido - Moderna.pdfGramática - Texto - análise e construção de sentido - Moderna.pdf
Gramática - Texto - análise e construção de sentido - Moderna.pdf
 
Nós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos AnimaisNós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
 

Seminário paty aula 9 04-05-2011

  • 1. Universidade Federal de Santa Catarina Centro de Ciências da Educação Departamento de Ciência da Informação Programa de Pós-Graduação em Ciência da Informação Mestrado em Ciência da Informação Disciplina: PCI3214 – Recuperação Inteligente de Informação Professor: Dr. Angel Freddy Godoy Viera Seminário – Aula 9 04 de maio de 2011 Patricia da Silva Neubert PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 2. Seminário – Aula 9 Temática: Mineração de conteúdo web; Spiders web inteligentes; Mineração de estruturas da web; Mineração de uso da web. Bibliografia recomendada: CHEN, Hsinchun; CHAU, Michael. Web Mining: machine learning for Web applications. In: CRONIN, Blaise (ed.). Annual Review of Information Science and Technology. Medford: Information Today, Inc., 2004, v.38, cap. 6, p. 289-329. PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 3. INTRODUÇÃO A WEB MINING Web      Tamanho; Conteúdo não-estruturado; Conteúdo dinâmico; Multilíngue; Dados em vários formatos. Nesse caso, a extração de conhecimento útil é um problema. (CHEN; CHAU, 2004) 2 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 4. INTRODUÇÃO A WEB MINING “O conhecimento não vem só do conteúdo das páginas em si, mas também das características únicas da Web, tais como a sua estrutura de hyperlink e sua diversidade de conteúdos e línguas. A análise destas características, muitas vezes revela padrões interessantes e novos conhecimentos. Tal conhecimento pode ser usado para melhorar a eficiência dos usuários e eficácia na busca de informações na Web, e também para aplicações não relacionadas com a Web, como suporte à tomada de decisão ou gestão empresarial” (CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso) 3 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 5. INTRODUÇÃO A WEB MINING A solução para o problema vem das.... ...técnicas de aprendizado de máquina. A pesquisa sobre Data Mining se tornou um subcampo significativo das pesquisas sobre aprendizagem de máquina. “O termo Web Mining foi criado por Etzioni (1996) para denotar o uso de técnicas de mineração de dados para descobrir automaticamente documentos e serviços Web, extrair informações a partir de recursos da Web, e descobrir padrões gerais na web.” (CHEN; CHAU, 2004, p.289-290, tradução nossa) 4 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 6. INTRODUÇÃO A WEB MINING Segundo colocam Chen e Chau (2004, p.289-290) a pesquisa de Web Mining foi, com o passar do tempo, estendida para abranger a utilização da mineração de dados e técnicas similares para descobrir recursos, padrões e conhecimento a partir da Web e dados relacionados à Web (por exemplo dados de uso da Web ou servidor de web logs). Os autores adotam a definição de Cooley, Mobasher e Srivastava (1997, apud CHEN; CHAU, 2004, p.289-290, tradução nossa) para Web Mining: “é a descoberta e análise de informações úteis a partir da World Wide Web.” 5 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 7. INTRODUÇÃO A WEB MINING Web Mining coincide com outras áreas, incluindo mineração de dados, mineração de texto, acesso e recuperação da informação. Fonte: Chen e Chau, 2004, p.291 6 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 8. INTRODUÇÃO A WEB MINING Web Mining coincide com outras áreas, incluindo mineração de dados, mineração de texto, acesso e recuperação da informação. A classificação é baseada no objetivo e na fonte dos dados. Fonte: Chen e Chau, 2004, p.291 6 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 9. INTRODUÇÃO A WEB MINING Web Mining coincide com outras áreas, incluindo mineração de dados, mineração de texto, acesso e recuperação da informação. A classificação é baseada no objetivo e na fonte dos dados. Fonte: Chen e Chau, 2004, p.291 6 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 10. INTRODUÇÃO A WEB MINING A pesquisa de Web Mining está na intersecção de várias áreas: Recuperação da informação Aprendizado de máquina Recuperação na Web Data Mining Bases de dados Text Mining  Aprendizagem de máquina é a base para a maioria das técnicas de mineração de dados e de mineração de textos;  As pesquisas de recuperação de informação tem grande influencia nas pesquisas de aplicações de Web Mining. (CHEN; CHAU, 2004) 7 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 11. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina Algoritmos de aprendizagem de máquina têm sido desenvolvidas para atenuar os problemas de aquisição de conhecimentos por computadores feitas manualmente – a partir de especialistas humanos – visando a aquisição de conhecimentos automaticamente a partir de exemplos ou dados de origem. Mitchell (1997, p. 2) define a aprendizagem de máquina como o estudo de "qualquer algoritmo de computador que melhora seu desempenho em algumas tarefas por meio da experiência.” (CHEN; CHAU, 2004) 8 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 12. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina São classificados em: Aprendizado supervisionado No aprendizado supervisionado, os exemplos de treinamento consiste nos padrões para input/output. O objetivo do algoritmo de aprendizagem é prever os valores de saída de novos exemplos, com base em seus valores de entrada. Aprendizado não supervisionado No aprendizado não supervisionado, os exemplos de treinamento contém apenas os padrões de entrada, não especificado o padrão de saída associado a entrada. O algoritmo de aprendizagem deve generalizar a partir dos padrões de entrada para descobrir os valores de saída. (CHEN; CHAU, 2004) 9 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 13. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina Com base em Chen (1995), Langley e Simon (1995) os autores identificaram cinco áreas de pesquisa em aprendizagem de máquina: I. II. III. IV. V. Modelos probabilísticos; Aprendizagem simbólica e indução de regras; Redes neurais; Algoritmos baseados na evolução; Aprendizagem analítica e lógica fuzzy. (CHEN; CHAU, 2004) 10 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 14. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina I . Modelos probabilísticos O uso de modelos probabilísticos, foi uma das primeiras tentativas de realizar aprendizado de máquina, dos quais o exemplo mais popular é o método Bayesiano Bayesiano. Classifica os diferentes objetos em classes pré-definidas com base em um conjunto de recursos, armazenando a probabilidade de cada classe, de cada característica, e de cada recurso, com base nos dados de treinamento. Quando uma nova instância for encontrado, ele pode ser classificado de acordo com essas probabilidades (Langley, Iba, & Thompson, 1992). (CHEN; CHAU, 2004) (CHEN; CHAU, 2004) 11 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 15. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina II. Aprendizagem simbólica e indução de regras São classificadas de acordo com a estratégia de aprendizagem: a) aprendizagem mecânica; b) aprendizagem por ensino; c) aprendizagem por analogia; d) aprendizagem a partir de exemplos; e) e aprendizagem por descoberta (Carbonell, Michalski, & Mitchell, 1983; Cohen & Feigenbaum, 1982). A aprendizagem por exemplos parece ser a mais promissora. Ela é implementado através da aplicação de um algoritmo que tenta induzir a descrição do conceito geral, que melhor descreve as diferentes classes de exemplos de treinamento. (CHEN; CHAU, 2004) 12 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 16. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina III. Redes neurais Uma rede neural é um gráfico de muitos nós ativos (neurônios), que são conectadas umas às outras por ligações ponderadas (sinapses). Com base em exemplos de treinamento, os algoritmos de aprendizagem podem ser usados ​para ajustar os pesos de conexão na rede para que ele possa prever ou classificar exemplos desconhecidos corretamente. (CHEN; CHAU, 2004) 13 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 17. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina IV. Algoritmos baseados em evolução Algoritmos baseados em evolução dependem de analogias com os processos naturais e da noção Darwiniana da sobrevivência dos mais aptos. Fogel (1994, apud CHEN; CHAU, 2004) identifica três categorias de algoritmos de evolução baseada em: algoritmos genéticos, estratégias evolutivas e a programação evolutiva. Uma população sofre um conjunto de operações genéticas (crossover e mutação). Seleção ‘natural’ de indivíduos mais aptos. Os indivíduos selecionados passam a formar a próxima geração e o processo continua. Após uma série de gerações, o programa converge e a solução ideal é representada pelo melhor indivíduo. 14 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 18. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina V. Aprendizagem analítica e lógica fuzzy Aprendizagem analítica representa o conhecimento como regras de lógica, e executa este raciocínio sobre estas regras para procurar provas. As provas podem ser compilados em regras mais complexas para resolver problemas com um pequeno número de pesquisas necessárias. Os sistemas tradicionais de aprendizagem analítica dependem de regras de computação rígido. Para resolver esse problema, sistemas de lógica fuzzy têm sido propostas. (CHEN; CHAU, 2004) 15 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 19. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out amostragem bootstrap (CHEN; CHAU, 2004) 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 20. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out amostragem bootstrap Os dados são divididos em um conjunto de treinamento (2/3) e um conjunto de testes (1/3 dos dados). Depois que o sistema é formado pelos dados de treinamento, é necessário prever o valor de saída de cada exemplo no conjunto de teste. Estes valores são então comparados com os valores de saída real para determinar a precisão. 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 21. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out amostragem bootstrap O conjunto de dados é divididos em subconjuntos, geralmente subgrupos de 10. O sistema é então treinado e testado para 10 interações e, em cada interação 9 subconjuntos são usados ​como dados de treinamento e 1 como dados de teste. Na rotação, cada subconjunto de dados serve como teste de jogo em uma interação. A precisão do sistema é a precisão média das 10 interações. CHAU, 2004) (CHEN; . 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 22. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out leave-oneamostragem bootstrap Leave-one-out é o caso extremo de validação cruzada, onde os dados originais são divididos em n subgrupos, onde n é o número de observações nos dados originais. O sistema é treinado e testado por n interações, em cada um dos quais n-1 exemplos são usados ​para o treinamento e a instância restante é usado para testes. 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 23. INTRODUÇÃO A WEB MINING Metodologias de Avaliação Avaliação da precisão de um sistema de aprendizagem, e a escolha de uma boa metodologia de avaliação. Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974): amostragem de validação validação cruzada leave-one-out amostragem bootstrap n amostras aleatórias independentes são retirados do conjunto de dados original de tamanho n. Como as amostras são tomadas com a substituição, o número de instâncias exclusivas será inferior a n. Essas amostras são então utilizadas como conjunto de treinamento para o sistema de aprendizagem, e os restantes dados que não foram incluídos na amostra são usados ​para testar o sistema (Efron & Tibshirani, 1993). (CHEN; CHAU, 2004) 16 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 24. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Extração de informação Feedback de relevância Filtragem de informações e recomendação Classificação de texto e clustering. (CHEN; CHAU, 2004) 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 25. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Extração de informação Técnica destinada a identificar Feedback de relevância automaticamente as informações Filtragem de informações e recomendação úteis a partir de documentos de texto. Classificação de texto e clustering. (CHEN; CHAU, 2004) 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 26. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Extração de informação Método usado em sistemas de IR para ajudar os usuários a Feedback de relevância buscas de Filtragem de informações e recomendação realizarem e reformularforma interativa as Classificação de texto e clustering. consultas de pesquisa com base na avaliação de documentos obtidos anteriormente. (Ide, 1971; Rocchio, 1971). (CHEN; CHAU, 2004) 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 27. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Também ajudam os usuários a Extração de informação reformular as consultas de Feedback de relevância pesquisa, mas tenta aprender Filtragem de informações e recomendação sobre os interesses dos usuários, por meio de suas avaliações e Classificação de texto e clustering. ações e, em seguida, usa essas informações para analisar novos documentos. (CHEN; CHAU, 2004) 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 28. INTRODUÇÃO A WEB MINING Aprendizagem de Máquina para RI: Pré Web Técnicas de aprendizagem de máquina foram aplicadas em aplicações de recuperação de informação muito antes do surgimento da web. Algumas delas são o uso de aprendizado de máquina na: Extração de informação Classificação de texto é a classificação dos documentos em Feedback de relevância (aprendizado Filtragem de informações e recomendação grupos pré-definidasclustering é o supervisionado), e Classificação de texto e clustering. agrupamento dos documentos em categorias definidas dinamicamente, com base nas suas semelhanças (CHEN; CHAU, 2004) (aprendizado não supervisionado). 17 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 29. WEB MINING Web Mining pode ser dividido em três categorias (Kosala & Blockeel, 2000):  Mineração de conteúdo da Web; refere-se à descoberta de informações úteis a partir do conteúdo da Web, incluindo texto, imagens, áudio e vídeo.  Mineração de estruturas da Web; Refere-se ao estudo de potenciais modelos subjacentes às estruturas de links da web. > Usada para a formação do ranking dos motores de busca.  Mineração de uso da Web. Centra-se na análise de pesquisas/consultas para encontrar padrões interessantes. > Aplicação no desenvolvimento de perfis de usuário 18 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 30. WEB MINING Desafios: 1. 2. 3. Documentos em HTML; Diversidade dos documentos (tamanho, formato, estrutura); Documentos dinâmicos. “Outra característica da Web, talvez o mais importante, é a estrutura de hyperlink.” (CHEN; CHAU, 2004) 19 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 31. MINERAÇÃO DE CONTEÚDO WEB Mineração de conteúdo Web é baseado principalmente na pesquisa em recuperação de informação e mineração de texto, como extração de informações, classificação e agrupamento de texto e visualização da informação. A maioria dos documentos na Web são documentos de texto, portanto, a mineração de texto para documentos na Web pode ser considerado um sub-campo de mineração de conteúdos da Web. (CHEN; CHAU, 2004) 20 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 32. MINERAÇÃO DE CONTEÚDO WEB Mineração de conteúdo Web é baseado principalmente na pesquisa em recuperação de informação e mineração de texto, como extração de informações, classificação e agrupamento de texto e visualização da informação. A maioria dos documentos na Web são documentos de texto, portanto, a mineração de texto para documentos na Web pode ser considerado um sub-campo de mineração de conteúdos da Web. extração de informação Aplicações de mineração de textos em documentos web: classificação de texto texto clustering 20 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 33. MINERAÇÃO DE CONTEÚDO WEB As técnicas de extração de informações tem sido aplicado a documentos de texto simples, nesse sentido, a extração de informações de páginas da Web - em HTML - pode apresentar problemas. Páginas não-estruturadas tags de marcação “Em vez de um documento composto de parágrafos, uma página da Web pode ser um documento composto de uma barra lateral com links de navegação, tabelas com dados textuais e numéricos, frases capitalizados, e palavras repetitivas. A gama de formatos e estruturas é muito diversificada em toda a web.” 21 (CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso) PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 34. MINERAÇÃO DE CONTEÚDO WEB A extração de informação analisa as páginas da Web individualmente, a classificação de texto e texto clustering analisam um conjunto de páginas web. Em algumas aplicações, as tags de HTML são simplesmente retirados dos documentos da Web e algoritmos tradicionais são então aplicadas para realizar a classificação e agrupamento de texto – ignorando, algumas características da página web. O texto de documentos vizinhos – links para os quais a página aponta - tem sido utilizado na tentativa de melhorar o desempenho da classificação. 22 (CHEN; CHAU, 2004) PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 35. MINERAÇÃO DE CONTEÚDO WEB Spiders Web Inteligentes Spiders são "programas de software que atravessam o espaço de informação da World Wide Web, seguindo links de hipertexto e recuperação de documentos na Web através do protocolo HTTP padrão" (CHEONG, 1996, p. 82, apud CHEN; CHAU, 2004) ... são usados por motores de busca para construir suas bases de dados. A maior parte usa algoritmos simples para descoberta de recursos web, mas há o uso de algoritmos avançados (algoritmo genético, redes neurais, modelos híbridos...) 23 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 36. MINERAÇÃO DE CONTEÚDO WEB Web Mining Multilíngue  Maior parte do conteúdo em inglês;  No entanto, número de páginas em outros idiomas vem crecendo. Problemas no processamento de texto de diferentes idiomas.  Alguns algoritmos são independentes de idioma (classificação de texto, clustering); algoritmos como o de extração de informações devem ser adaptados para os diferentes idiomas. (CHEN; CHAU, 2004) 24 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 37. MINERAÇÃO DE CONTEÚDO WEB Web Visualização Muitas vezes é difícil extrair conteúdo útil a partir da Web, neste caso, ferramentas de visualização têm sido utilizadas para ajudar os usuários a manterem uma “visualização geral" de um conjunto de resultados de recuperação de motores de busca. Nestes sistemas de visualização, técnicas de aprendizado de máquina são muitas vezes utilizados para determinar como as páginas Web devem ser apresentadas. (CHEN; CHAU, 2004) 25 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 38. MINERAÇÃO DE CONTEÚDO WEB Web Semântica 1. 2. 3. Os documentos da Web não serão mais textos não estruturados, eles serão identificados e entendidos por computadores. A aprendizagem de máquina pode desempenhar três papéis importantes na Web Semântica. Sendo usada para... criar automaticamente os metadados de marcação; criar, fundir, atualizar e manter ontologias; compreender e executar o raciocínio sobre os metadados fornecidos pela Web Semântica, a fim de extrair conhecimento a partir da Web de forma mais eficaz. 26 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 39. MINERAÇÃO DE ESTRUTURAS DA WEB A estrutura de links da Web tem sido amplamente utilizada para inferir informações importantes sobre as páginas web. A mineração de estruturas da Web tem sido largamente influenciado pelas pesquisas de análise de redes sociais e análise de citações (bibliometria). Citações (ligações) entre as páginas da Web geralmente são indicadores de grande relevância ou de boa qualidade. (CHEN; CHAU, 2004) 27 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 40. MINERAÇÃO DE ESTRUTURAS DA WEB Geralmente, quanto maior o número de links para uma determinada página, mais útil a página é considerada. O raciocínio é que uma página referenciada por muitas pessoas, é provável que seja mais importante do que uma página que raramente é mencionada. “Além disso, é razoável dar uma ligação de uma fonte autorizada (como Yahoo) um peso maior do que um link de uma página Web da importância pessoal.” (CHEN; CHAU, 2004, p.311) 28 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 41. MINERAÇÃO DE ESTRUTURAS DA WEB As técnicas de mineração de estruturas da Web são frequentemente utilizados para melhorar o desempenho de aplicações web. Por exemplo o PageRank: É eficaz no ranking dos resultados do motor de busca Google (http://www.google.com) (Brin e Page, 1998). É utilizado como uma medida para orientar as aranhas do Search Engine, onde URLs com PageRank mais elevado são visitadas primeiro (Cho et al., 1998). (CHEN; CHAU, 2004) 29 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 42. MINERAÇÃO DE USO DA WEB Servidores Web, proxies, e aplicações cliente podem facilmente capturar dados sobre o uso da Web. Logs do servidor Web contêm informações sobre todas as visitas às páginas hospedadas em um servidor. Ficheiros solicitados endereço de IP número de bytes enviados código de erro navegador usado Ao realizar a análise dos dados de uso da Web, os sistemas de mineração da Web podem descobrir conhecimentos úteis sobre as características de um sistema, do uso e os interesses dos usuários. (CHEN; CHAU, 2004) 30 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 43. MINERAÇÃO DE USO DA WEB Análise de padrões e tendências Um dos principais objetivos da mineração de utilização da Web é o interesse em revelar tendências e padrões. Esses padrões podem frequentemente fornecer conhecimentos importantes sobre os clientes de uma empresa ou dos usuários do sistema. Srivastava, Cooley, Despande e Tan (2000) fornecem uma estrutura para a mineração de uso da Web, que consiste em três etapas principais: I. pré-processamento; II. descoberta de padrões; III. análise de padrões. (CHEN; CHAU, 2004) 31 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 44. MINERAÇÃO DE USO DA WEB Personalização e colaboração Muitos dos objetivo de uso das técnicas de Web Mining são fornecer informações e serviços personalizados para os usuários. Os dados de uso da Web fornecem uma excelente maneira de aprender sobre o interesse dos usuários (Srivastava et al., 2000). al. 2000) Mineração de uso da Web pode ajudar a identificar usuários que acessaram páginas Web semelhante. Os padrões que emergem podem ser aplicados em pesquisas sobre a Web colaborativa e filtragem colaborativa. (CHEN; CHAU, 2004) 32 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 45. CONSIDERAÇÕES FINAIS A Web tornou-se o maior repositório de conhecimento do mundo. A extração de conhecimento da Web de forma eficiente e eficaz está se tornando cada vez mais importante. Limitações das pesquisas em Web Mining:  dificuldade de criação de coleções de ensaio adequadas;  dificuldade de coletar dados de uso da Web em sites diferentes (maioria dos dados de log do servidor e os dados recolhidos por empresas são proprietários). (CHEN; CHAU, 2004, p.316, tradução nossa) 33 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 46. CONSIDERAÇÕES FINAIS As atividades de Web Mining ainda estão em estágios iniciais e devem continuar a desenvolver-se como a evolução da web. No futuro... mineração de dados multimídia. multimídia. “Além dos documentos textuais, como HTML, MS Word Document, PDF e arquivos de texto, um grande número de documentos multimídia estão contidas na Web, tais como imagens, áudios e vídeos. Apesar de os documentos textuais serem relativamente fáceis de recuperar e analisar, as operações em arquivos de multimídia são muito mais difíceis de executar, e como o conteúdo multimídia na web cresce rapidamente, Web Mining tornou-se um problema desafiador.” (CHEN; CHAU, 2004, p.316-317, tradução nossa) 34 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 47. CONSIDERAÇÕES FINAIS Web Mining no futuro...  conteúdo multilíngüe;  Internet sem fio;  Web invisível. “A Web tornou-se a maior base de conhecimento que jamais existiu. No entanto, sem a representação do conhecimento adequado e algoritmos de descoberta de conhecimento, é apenas como um ser humano com a memória extraordinária, mas sem capacidade de pensar e raciocinar.” (CHEN; CHAU, 2004, p.319, tradução nossa) 35 PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
  • 48. OBRIGADA! PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert