João Adolfo Lutz [email_address] Estudo sobre eliminação de ruídos em páginas Web
Roteiro Ruídos Problemas associados Técnicas existentes Quadro comparativo Conclusões Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
O que são ruídos em páginas web? Elementos não informativos Repetição de conteúdo 50% da web [Gibson et al. 2005] Remoção de templates Detecção de conteúdo informativo Ruídos  - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Exemplo de ruídos Ruídos  - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Problemas associados aos ruídos Afeta performance de sistemas de IR Motores de busca Aumento do índice Aumento de armazenamento Prejudica o ranking - perda de precisão Classificação e clusterização Ruídos  - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Técnicas de eliminação de ruídos Descrição dos métodos da literatura atual Divisão em 3 grandes grupos Técnicas baseadas em identificação de blocos Técnicas baseadas em segmentação visual Técnicas baseadas em similaridade estrutural Técnica híbrida Ruídos  - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Técnicas de identificação de blocos Bar-Yossef, Z. and Rajagopalan, S. (2002).  Template detection via data mining and its applications . In Proceedings of the 11th international conference on World Wide Web, WWW ’02, pages 580–591. ACM, New York, NY, USA Definição formal de  template Definição de  pagelets Unidade melhor  do que páginas inteiras para RI Detecção de pagelets baseado na  densidade de links Encontra templates a partir da  repetição de pagelets Frequent item set Melhorias na precisão e revocação em algoritmos de RI Ruídos -  Identificação de Blocos  - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Técnicas de identificação de blocos Debnath, S., Mitra, P., and Giles, C. L. (2005).  Automatic extraction of informative blocks from webpages.  In Proceedings of the 2005 ACM symposium on Applied computing, SAC ’05, pages 1722–1726. ACM, New York, NY, USA. Entrada dos algoritmos: páginas de uma  mesma classe FeatureExtractor : heurísticas para identificação de blocos  Conteúdo textual, tags <tr>, <p>, <hr> e <ul>, listas e propriedades de estilo ContentExtractor : IBDF (Inverse Block Document Frequency) Similaridade entre blocos calculada a partir de  vetores de atributos   Número de termos, número de imagens, número de javascript e matriz binária de termos Determina blocos relevantes através de um limiar Resultados melhores que a próxima técnica Ruídos -  Identificação de Blocos  - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Técnicas de identificação de blocos Lin, S.-H. and Ho, J.-M. (2002).  Discovering informative content blocks from web documents . In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’02, pages 588–593. ACM, New York, NY, USA. Particiona a páginas conforme tags <table> Razões históricas Durante este parsing, recupera o conteúdo textual, remove stop-words e aplica stemming de Porter Após calcular TF-IDF, calcula grau de entropia de cada termo  Grau de entropia de cada bloco é a soma da entropia dos termos  Quando um bloco excede um limiar, é considerado irrelevante Ruídos -  Identificação de Blocos  - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Técnicas de identificação de blocos Chen, L., Ye, S., and Li, X. (2006).  Template detection for large scale search engines .In Proceedings of the 2006 ACM symposium on Applied computing, SAC ’06, pages 1094–1098. ACM, New York, NY, USA.  Foco maior na  melhoria da velocidade Método anexado ao processo de indexação de um SE Segmenta a página a partir de <table>, <p>, <ul> <td> e <tr> não Cria uma árvore numerada representando blocos Clusteriza blocos através do estilo, posição na página e numeração  Mede a similaridade entre blocos através da  word offset distribution  dos termos Afirma que o método é 40% mais rápido que outros  Ruídos -  Identificação de Blocos  - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Técnicas de identificação de blocos Wang, Y., Fang, B., Cheng, X., Guo, L., and Xu, H. (2008).  Incremental web page template detection by text segments . volume 0, pages 174–180. IEEE Computer Society, Los Alamitos, CA, USA. Problema: coleta das páginas em lote para exame gera  atraso  e aumento do  armazenamento Segmenta página em <table> e <div>, e segmentos de texto visíveis Sugere  representação compacta Tabela de segmentos de texto : conteúdos e frequência Atualização da tabela   inserção simples, logística para deleção Calcula taxa de ruídos de cada bloco encontrando  segmentos de texto   iguais  em blocos com o mesmo &quot; caminho &quot;; Limiar determina se é template ou não Diminui armazenamento para 7% e acaba com delay Ruídos -  Identificação de Blocos  - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Técnicas de identificação de blocos Wang, Y., Fang, B., Cheng, X., Guo, L., and Xu, H. (2008).  Incremental web page template detection by text segments . volume 0, pages 174–180. IEEE Computer Society, Los Alamitos, CA, USA. Ruídos -  Identificação de Blocos  - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
Técnicas de segmentação visual Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003).  Vips: a vision-based page segmentation algorithm . Segmentação baseada em dicas  espaciais e visuais Usuários possuem expectativa implícita Segmenta em blocos baseado através heurísticas que analisam a DOM, além de informações visuais e espaciais Encontra separadores e atribui pesos diferentes Estrutura hierárquica Grau de coerência  dos blocos, refina se estiver abaixo de um limiar 93% das vezes detectou a estrutura como um humano Ruídos - Identificação de Blocos -  Segmentação Visual  - Similaridade Estrutural - Outros - Conclusões
Técnicas de segmentação visual Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003).  Vips: a vision-based page segmentation algorithm . Ruídos - Identificação de Blocos -  Segmentação Visual  - Similaridade Estrutural - Outros - Conclusões
Técnicas de segmentação visual Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003).  Vips: a vision-based page segmentation algorithm . Ruídos - Identificação de Blocos -  Segmentação Visual  - Similaridade Estrutural - Outros - Conclusões
Técnicas de segmentação visual Fernandes, D., de Moura, E. S., Ribeiro-Neto, B., da Silva, A. S., and Goncalves, M. A. (2007).  Computing block importance for searching on web sites . In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 165–174. ACM, New York, NY, USA. Foco na  atribuição de importância  a blocos Segmenta utilizando  VIPS Classes de páginas (mesma estrutura), classes de blocos (mesmo rótulo) Calcula a ICF ( Inverse Class Frequency ) e AICF ( Average ICF ) Classes de blocos com muita repetição terão AICF baixo BCS ( Block Class Spread ) - Similaridade de cada bloco da classe com outros blocos da página (relação com conteúdo principal) Ruídos - Identificação de Blocos -  Segmentação Visual  - Similaridade Estrutural - Outros - Conclusões
Técnicas de segmentação visual Fernandes, D., de Moura, E. S., Ribeiro-Neto, B., da Silva, A. S., and Goncalves, M. A. (2007).  Computing block importance for searching on web sites . In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 165–174. ACM, New York, NY, USA. Ruídos - Identificação de Blocos -  Segmentação Visual  - Similaridade Estrutural - Outros - Conclusões
Técnicas de segmentação visual Li, J. and Ezeife, C. (2006).  Cleaning web pages for effective web content mining . InBressan, S., KA 1 ng, J., and Wagner, R., editors, Database and Expert Systems Applications, volume 4080 of Lecture Notes in Computer Science, pages 560–571. Springer Berlin/ Heidelberg. Sistema  WebPageCleaner Segmenta utilizando  VIPS Armazena informações em tabela Id bloco, id página, conteúdo, fingerprint, posição, % links, similaridade, importância Detecção de blocos idênticos Similaridade de blocos baseado no conteúdo Baseado em tokens comuns Importância do bloco: similaridade / 2, % de links / 3, posição / 6 Pega os N blocos mais importantes (valores menores), exporta e envia para um classificador de textos Ruídos - Identificação de Blocos -  Segmentação Visual  - Similaridade Estrutural - Outros - Conclusões
Técnicas de segmentação visual Song, R., Liu, H., Wen, J.-R., and Ma, W.-Y. (2004).  Learning block importance models for web pages . In Proceedings of the 13th international conference on World Wide Web, WWW ’04, pages 203–211. ACM, New York, NY, USA. Atribuição de importância a blocos é  problema de aprendizado Segmenta utilizando  VIPS Extrai vetores de  atributos espaciais e de conteúdo  para cada bloco Coordenadas de posicionamento normalizadas com valor fixo Número e tamanho das imagens, número e quantidade de texto dos links, quantidade de texto, número e tamanho de componentes de interação, número e tamanho de formulários (todos normalizados) Aprendizado através de exemplos Se for problema de regressão (valor da importância contínuo), usa redes neurais Se for problema de classificação (valor da importância discreto), usa SVM 80% de precisão na atribuição de valor a um bloco, semelhante a humanos Ruídos - Identificação de Blocos -  Segmentação Visual  - Similaridade Estrutural - Outros - Conclusões
Técnicas de segmentação visual Kovacevic, M., Diligenti, M., Gori, M., and Milutinovic, V. (2002).  Recognition of common areas in a web page using visual information: a possible application in a page classification . In Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on, pages 250 – 257. Informação visual  é tão importante quanto a entropia dos termos Importância da expectativa dos usuários  quanto ao posicionamento de informações  e links Nova representação , hierárquica, com coordenadas para cada elemento HTML Monta uma árvore com atributos e conteúdo Define uma tela virtual com sistema de coordenadas Algoritmo de renderização aplica coordenadas na árvore Utiliza a estrutura para aplicar heurísticas de reconhecimento de áreas comuns Ruídos - Identificação de Blocos -  Segmentação Visual  - Similaridade Estrutural - Outros - Conclusões
Técnicas de similaridade estrutural Yi, L., Liu, B., and Li, X. (2003).  Eliminating noisy information in web pages for data mining . In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA. DOM insuficiente  para captar estilos e entropia do conteúdo de  várias páginas Árvore  Site Style Tree (SST)  permite verificar ramificações comuns SST  Mais do que um nodo da DOM Contador e o estilo dos nodos Atualiza a SST a cada página coletada Calcula  a entropia de cada nodo com medidas de Teoria da Informação Leva em consideração a entropia de seus descendentes Combinação do  conteúdo e estilo  para detectar templates Avalia classificação e clusterização das páginas e mostram melhoria significativa Ruídos - Identificação de Blocos - Segmentação Visual -  Similaridade Estrutural  - Outros - Conclusões
Técnicas de similaridade estrutural Yi, L., Liu, B., and Li, X. (2003).  Eliminating noisy information in web pages for data mining . In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA. Ruídos - Identificação de Blocos - Segmentação Visual -  Similaridade Estrutural  - Outros - Conclusões
Técnicas de similaridade estrutural Yi, L., Liu, B., and Li, X. (2003).  Eliminating noisy information in web pages for data mining . In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA. Ruídos - Identificação de Blocos - Segmentação Visual -  Similaridade Estrutural  - Outros - Conclusões
Técnicas de similaridade estrutural Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. a. M. B., and Freire, J. (2006).  A fast and robust method for web page template detection and removal . In Proceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, ages 258–267. ACM, New York, NY, USA.   Problema: encontrar uma  sub-estrutura  entre árvores DOM Fase de  detecção  (custosa) Fase de  eliminação  (barata) Distância de edição de árvores Sequência de operações que transformam uma árvore em outra Restrita a folhas Armazena as operações que levaram ao mapeamento de custo mínimo para posterior reconstrução dessa ramificação Detecção dessa ramificação permite eliminar o ruído Necessita apenas de 5 a 10% do número de páginas para detecção em comparação com SSTs Ruídos - Identificação de Blocos - Segmentação Visual -  Similaridade Estrutural  - Outros - Conclusões
Técnicas de similaridade estrutural Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. a. M. B., and Freire, J. (2006).  A fast and robust method for web page template detection and removal . In Proceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, ages 258–267. ACM, New York, NY, USA.   Ruídos - Identificação de Blocos - Segmentação Visual -  Similaridade Estrutural  - Outros - Conclusões
Técnicas híbridas Kushmerick, N. (1999).  Learning to remove internet advertisements.  In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA.   Foco:  remover imagens de propaganda  Trabalho mais antigo AdEater  - sistema de navegação Fase de Treino:  Rotulação  das imagens como propaganda ou não Geração de um classificador Vetor de atributos: tamanho, posição, localização do servidor e conteúdo textual Apenas imagens com links Utiliza algoritmo de aprendizado C4.5, deriva conjunto de 25 regras Implementa proxy para evitar o download da imagem 6 minutos fase de treinamento, 70ms remoção da imagem (1999) 97% de precisão Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural -  Outros  - Conclusões
Técnicas híbridas Kushmerick, N. (1999).  Learning to remove internet advertisements.  In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA.   Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural -  Outros  - Conclusões
Técnicas híbridas Kushmerick, N. (1999).  Learning to remove internet advertisements.  In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA. Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural -  Outros  - Conclusões
Quadro Comparativo 1. Intervenção Manual 2. Métodos de Aprendizagem 3. Tags utilizadas 4. Utilização do VIPS Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros -  Conclusões 5. Conteúdo textual 6. Folhas de estilo 7. Densidade de links
Conclusões Importância da detecção e remoção de ruídos Difícil eleger uma técnica melhor que a outra Cada vez menos intervenção manual Trabalhos futuros Implementar as técnicas Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros -  Conclusões
Obrigado! Perguntas? João Adolfo Lutz [email_address]

Ruidos

  • 1.
    João Adolfo Lutz[email_address] Estudo sobre eliminação de ruídos em páginas Web
  • 2.
    Roteiro Ruídos Problemasassociados Técnicas existentes Quadro comparativo Conclusões Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 3.
    O que sãoruídos em páginas web? Elementos não informativos Repetição de conteúdo 50% da web [Gibson et al. 2005] Remoção de templates Detecção de conteúdo informativo Ruídos  - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 4.
    Exemplo de ruídosRuídos  - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 5.
    Problemas associados aosruídos Afeta performance de sistemas de IR Motores de busca Aumento do índice Aumento de armazenamento Prejudica o ranking - perda de precisão Classificação e clusterização Ruídos  - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 6.
    Técnicas de eliminaçãode ruídos Descrição dos métodos da literatura atual Divisão em 3 grandes grupos Técnicas baseadas em identificação de blocos Técnicas baseadas em segmentação visual Técnicas baseadas em similaridade estrutural Técnica híbrida Ruídos  - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 7.
    Técnicas de identificaçãode blocos Bar-Yossef, Z. and Rajagopalan, S. (2002). Template detection via data mining and its applications . In Proceedings of the 11th international conference on World Wide Web, WWW ’02, pages 580–591. ACM, New York, NY, USA Definição formal de template Definição de pagelets Unidade melhor  do que páginas inteiras para RI Detecção de pagelets baseado na densidade de links Encontra templates a partir da repetição de pagelets Frequent item set Melhorias na precisão e revocação em algoritmos de RI Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 8.
    Técnicas de identificaçãode blocos Debnath, S., Mitra, P., and Giles, C. L. (2005). Automatic extraction of informative blocks from webpages. In Proceedings of the 2005 ACM symposium on Applied computing, SAC ’05, pages 1722–1726. ACM, New York, NY, USA. Entrada dos algoritmos: páginas de uma mesma classe FeatureExtractor : heurísticas para identificação de blocos  Conteúdo textual, tags <tr>, <p>, <hr> e <ul>, listas e propriedades de estilo ContentExtractor : IBDF (Inverse Block Document Frequency) Similaridade entre blocos calculada a partir de vetores de atributos   Número de termos, número de imagens, número de javascript e matriz binária de termos Determina blocos relevantes através de um limiar Resultados melhores que a próxima técnica Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 9.
    Técnicas de identificaçãode blocos Lin, S.-H. and Ho, J.-M. (2002). Discovering informative content blocks from web documents . In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’02, pages 588–593. ACM, New York, NY, USA. Particiona a páginas conforme tags <table> Razões históricas Durante este parsing, recupera o conteúdo textual, remove stop-words e aplica stemming de Porter Após calcular TF-IDF, calcula grau de entropia de cada termo  Grau de entropia de cada bloco é a soma da entropia dos termos  Quando um bloco excede um limiar, é considerado irrelevante Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 10.
    Técnicas de identificaçãode blocos Chen, L., Ye, S., and Li, X. (2006). Template detection for large scale search engines .In Proceedings of the 2006 ACM symposium on Applied computing, SAC ’06, pages 1094–1098. ACM, New York, NY, USA. Foco maior na melhoria da velocidade Método anexado ao processo de indexação de um SE Segmenta a página a partir de <table>, <p>, <ul> <td> e <tr> não Cria uma árvore numerada representando blocos Clusteriza blocos através do estilo, posição na página e numeração  Mede a similaridade entre blocos através da word offset distribution dos termos Afirma que o método é 40% mais rápido que outros  Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 11.
    Técnicas de identificaçãode blocos Wang, Y., Fang, B., Cheng, X., Guo, L., and Xu, H. (2008). Incremental web page template detection by text segments . volume 0, pages 174–180. IEEE Computer Society, Los Alamitos, CA, USA. Problema: coleta das páginas em lote para exame gera atraso e aumento do armazenamento Segmenta página em <table> e <div>, e segmentos de texto visíveis Sugere representação compacta Tabela de segmentos de texto : conteúdos e frequência Atualização da tabela   inserção simples, logística para deleção Calcula taxa de ruídos de cada bloco encontrando segmentos de texto iguais em blocos com o mesmo &quot; caminho &quot;; Limiar determina se é template ou não Diminui armazenamento para 7% e acaba com delay Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 12.
    Técnicas de identificaçãode blocos Wang, Y., Fang, B., Cheng, X., Guo, L., and Xu, H. (2008). Incremental web page template detection by text segments . volume 0, pages 174–180. IEEE Computer Society, Los Alamitos, CA, USA. Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 13.
    Técnicas de segmentaçãovisual Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003). Vips: a vision-based page segmentation algorithm . Segmentação baseada em dicas espaciais e visuais Usuários possuem expectativa implícita Segmenta em blocos baseado através heurísticas que analisam a DOM, além de informações visuais e espaciais Encontra separadores e atribui pesos diferentes Estrutura hierárquica Grau de coerência dos blocos, refina se estiver abaixo de um limiar 93% das vezes detectou a estrutura como um humano Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 14.
    Técnicas de segmentaçãovisual Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003). Vips: a vision-based page segmentation algorithm . Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 15.
    Técnicas de segmentaçãovisual Cai, D., Yu, S., rong Wen, J., ying Ma, W., Cai, D., Yu, S., rong Wen, J., and ying Ma, W. (2003). Vips: a vision-based page segmentation algorithm . Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 16.
    Técnicas de segmentaçãovisual Fernandes, D., de Moura, E. S., Ribeiro-Neto, B., da Silva, A. S., and Goncalves, M. A. (2007). Computing block importance for searching on web sites . In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 165–174. ACM, New York, NY, USA. Foco na atribuição de importância a blocos Segmenta utilizando VIPS Classes de páginas (mesma estrutura), classes de blocos (mesmo rótulo) Calcula a ICF ( Inverse Class Frequency ) e AICF ( Average ICF ) Classes de blocos com muita repetição terão AICF baixo BCS ( Block Class Spread ) - Similaridade de cada bloco da classe com outros blocos da página (relação com conteúdo principal) Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 17.
    Técnicas de segmentaçãovisual Fernandes, D., de Moura, E. S., Ribeiro-Neto, B., da Silva, A. S., and Goncalves, M. A. (2007). Computing block importance for searching on web sites . In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM ’07, pages 165–174. ACM, New York, NY, USA. Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 18.
    Técnicas de segmentaçãovisual Li, J. and Ezeife, C. (2006). Cleaning web pages for effective web content mining . InBressan, S., KA 1 ng, J., and Wagner, R., editors, Database and Expert Systems Applications, volume 4080 of Lecture Notes in Computer Science, pages 560–571. Springer Berlin/ Heidelberg. Sistema WebPageCleaner Segmenta utilizando VIPS Armazena informações em tabela Id bloco, id página, conteúdo, fingerprint, posição, % links, similaridade, importância Detecção de blocos idênticos Similaridade de blocos baseado no conteúdo Baseado em tokens comuns Importância do bloco: similaridade / 2, % de links / 3, posição / 6 Pega os N blocos mais importantes (valores menores), exporta e envia para um classificador de textos Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 19.
    Técnicas de segmentaçãovisual Song, R., Liu, H., Wen, J.-R., and Ma, W.-Y. (2004). Learning block importance models for web pages . In Proceedings of the 13th international conference on World Wide Web, WWW ’04, pages 203–211. ACM, New York, NY, USA. Atribuição de importância a blocos é problema de aprendizado Segmenta utilizando VIPS Extrai vetores de atributos espaciais e de conteúdo  para cada bloco Coordenadas de posicionamento normalizadas com valor fixo Número e tamanho das imagens, número e quantidade de texto dos links, quantidade de texto, número e tamanho de componentes de interação, número e tamanho de formulários (todos normalizados) Aprendizado através de exemplos Se for problema de regressão (valor da importância contínuo), usa redes neurais Se for problema de classificação (valor da importância discreto), usa SVM 80% de precisão na atribuição de valor a um bloco, semelhante a humanos Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 20.
    Técnicas de segmentaçãovisual Kovacevic, M., Diligenti, M., Gori, M., and Milutinovic, V. (2002). Recognition of common areas in a web page using visual information: a possible application in a page classification . In Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on, pages 250 – 257. Informação visual é tão importante quanto a entropia dos termos Importância da expectativa dos usuários quanto ao posicionamento de informações  e links Nova representação , hierárquica, com coordenadas para cada elemento HTML Monta uma árvore com atributos e conteúdo Define uma tela virtual com sistema de coordenadas Algoritmo de renderização aplica coordenadas na árvore Utiliza a estrutura para aplicar heurísticas de reconhecimento de áreas comuns Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 21.
    Técnicas de similaridadeestrutural Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining . In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA. DOM insuficiente para captar estilos e entropia do conteúdo de várias páginas Árvore Site Style Tree (SST) permite verificar ramificações comuns SST  Mais do que um nodo da DOM Contador e o estilo dos nodos Atualiza a SST a cada página coletada Calcula  a entropia de cada nodo com medidas de Teoria da Informação Leva em consideração a entropia de seus descendentes Combinação do  conteúdo e estilo  para detectar templates Avalia classificação e clusterização das páginas e mostram melhoria significativa Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 22.
    Técnicas de similaridadeestrutural Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining . In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA. Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 23.
    Técnicas de similaridadeestrutural Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining . In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’03, pages 296–305. ACM, New York, NY, USA. Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 24.
    Técnicas de similaridadeestrutural Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. a. M. B., and Freire, J. (2006). A fast and robust method for web page template detection and removal . In Proceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, ages 258–267. ACM, New York, NY, USA.   Problema: encontrar uma sub-estrutura entre árvores DOM Fase de detecção (custosa) Fase de eliminação (barata) Distância de edição de árvores Sequência de operações que transformam uma árvore em outra Restrita a folhas Armazena as operações que levaram ao mapeamento de custo mínimo para posterior reconstrução dessa ramificação Detecção dessa ramificação permite eliminar o ruído Necessita apenas de 5 a 10% do número de páginas para detecção em comparação com SSTs Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 25.
    Técnicas de similaridadeestrutural Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. a. M. B., and Freire, J. (2006). A fast and robust method for web page template detection and removal . In Proceedings of the 15th ACM international conference on Information and knowledge management, CIKM ’06, ages 258–267. ACM, New York, NY, USA.   Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 26.
    Técnicas híbridas Kushmerick,N. (1999). Learning to remove internet advertisements. In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA. Foco: remover imagens de propaganda  Trabalho mais antigo AdEater - sistema de navegação Fase de Treino:  Rotulação das imagens como propaganda ou não Geração de um classificador Vetor de atributos: tamanho, posição, localização do servidor e conteúdo textual Apenas imagens com links Utiliza algoritmo de aprendizado C4.5, deriva conjunto de 25 regras Implementa proxy para evitar o download da imagem 6 minutos fase de treinamento, 70ms remoção da imagem (1999) 97% de precisão Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 27.
    Técnicas híbridas Kushmerick,N. (1999). Learning to remove internet advertisements. In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA. Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 28.
    Técnicas híbridas Kushmerick,N. (1999). Learning to remove internet advertisements. In Proceedings of the third annual conference on Autonomous Agents, AGENTS ’99, pages 175–181. ACM, New York, NY, USA. Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 29.
    Quadro Comparativo 1.Intervenção Manual 2. Métodos de Aprendizagem 3. Tags utilizadas 4. Utilização do VIPS Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões 5. Conteúdo textual 6. Folhas de estilo 7. Densidade de links
  • 30.
    Conclusões Importância dadetecção e remoção de ruídos Difícil eleger uma técnica melhor que a outra Cada vez menos intervenção manual Trabalhos futuros Implementar as técnicas Ruídos - Identificação de Blocos - Segmentação Visual - Similaridade Estrutural - Outros - Conclusões
  • 31.
    Obrigado! Perguntas? JoãoAdolfo Lutz [email_address]

Notas do Editor

  • #4 Maior volume de dados Aplicações mais conectadas Menos atributos obrigatórios - arquitetura se movendo de 1 DB pra várias aplicações para 1 DB para cada aplicação - Na conclusão: ferramentas específicas para cada aplicação - escrito em uma linguagem, bindings para outras - problema: lock in, nao dá pra trocar de DB
  • #5 Maior volume de dados Aplicações mais conectadas Menos atributos obrigatórios - arquitetura se movendo de 1 DB pra várias aplicações para 1 DB para cada aplicação - Na conclusão: ferramentas específicas para cada aplicação - escrito em uma linguagem, bindings para outras - problema: lock in, nao dá pra trocar de DB