O documento apresenta um seminário sobre web mining, abordando tópicos como mineração de conteúdo, estruturas e uso da web. Discorre sobre aprendizagem de máquina, classificando-a em supervisionada e não supervisionada, e descrevendo modelos probabilísticos, redes neurais e algoritmos evolutivos. Por fim, explica métodos de avaliação como validação cruzada e leave-one-out.
O documento discute o processo de data mining, incluindo suas definições, funções, técnicas e aplicações. Resume que data mining extrai padrões de dados para gerar conhecimento útil para tomada de decisão, utilizando técnicas como árvores de decisão, redes neurais e regras indutivas. Apresenta também exemplos de como empresas aplicaram com sucesso data mining.
O documento discute a descoberta de conhecimento em bases de dados e mineração de dados. Apresenta os conceitos, o processo de KDD, métodos de mineração de dados e exemplos de aplicações. Explica como a análise de grandes volumes de dados pode extrair padrões úteis para tomada de decisões em diversas áreas como marketing, bancos e saúde.
O documento discute data mining, definindo-o como o processo de extrair informações valiosas e desconhecidas de grandes bases de dados. Ele descreve as etapas do processo de data mining, incluindo pré-processamento, extração de padrões e pós-processamento. Também fornece exemplos de áreas de aplicação como marketing, finanças e saúde.
1) O documento discute Knowledge Discovery Database (KDD) e Data Mining (DM), explicando que KDD é o processo geral de extração de conhecimento de dados enquanto DM se refere especificamente à etapa de descoberta de padrões.
2) O processo de KDD inclui seleção, pré-processamento, transformação, mineração de dados e interpretação. As tarefas comuns de KDD incluem regras de associação, classificação e agrupamento.
3) Exemplos demonstram como técnicas de DM podem ser us
O documento descreve as definições, objetivos, características e aplicações de Data Warehouse e Data Mining. Define Data Warehouse como uma coleção de dados integrados e não voláteis para apoiar a tomada de decisão e Data Mining como técnicas estatísticas e de inteligência artificial aplicadas à análise de grandes volumes de dados.
Apresentação sobre Data warehouse e Data mining do curso de Gestão da Informação UFPR. Matéria Informática aplicada II (Business Intelligence).
Autores: Cassius Busemeyer, Cristiane Aparecida Luquetta, Rafael Slonik
O documento discute data mining, definindo-o como a exploração e análise de grandes quantidades de dados para descobrir padrões ou regras interessantes. Ele descreve técnicas como árvores de decisão, redes neurais e algoritmos genéticos e discute como o data mining pode ser aplicado em diversas áreas de negócios.
O documento discute as técnicas de mineração de dados, incluindo clusterização, classificação, associações e análises de sequências. Também aborda os desafios de pré-processamento e pós-processamento de dados e fornece exemplos de aplicações dessas técnicas.
O documento discute o processo de data mining, incluindo suas definições, funções, técnicas e aplicações. Resume que data mining extrai padrões de dados para gerar conhecimento útil para tomada de decisão, utilizando técnicas como árvores de decisão, redes neurais e regras indutivas. Apresenta também exemplos de como empresas aplicaram com sucesso data mining.
O documento discute a descoberta de conhecimento em bases de dados e mineração de dados. Apresenta os conceitos, o processo de KDD, métodos de mineração de dados e exemplos de aplicações. Explica como a análise de grandes volumes de dados pode extrair padrões úteis para tomada de decisões em diversas áreas como marketing, bancos e saúde.
O documento discute data mining, definindo-o como o processo de extrair informações valiosas e desconhecidas de grandes bases de dados. Ele descreve as etapas do processo de data mining, incluindo pré-processamento, extração de padrões e pós-processamento. Também fornece exemplos de áreas de aplicação como marketing, finanças e saúde.
1) O documento discute Knowledge Discovery Database (KDD) e Data Mining (DM), explicando que KDD é o processo geral de extração de conhecimento de dados enquanto DM se refere especificamente à etapa de descoberta de padrões.
2) O processo de KDD inclui seleção, pré-processamento, transformação, mineração de dados e interpretação. As tarefas comuns de KDD incluem regras de associação, classificação e agrupamento.
3) Exemplos demonstram como técnicas de DM podem ser us
O documento descreve as definições, objetivos, características e aplicações de Data Warehouse e Data Mining. Define Data Warehouse como uma coleção de dados integrados e não voláteis para apoiar a tomada de decisão e Data Mining como técnicas estatísticas e de inteligência artificial aplicadas à análise de grandes volumes de dados.
Apresentação sobre Data warehouse e Data mining do curso de Gestão da Informação UFPR. Matéria Informática aplicada II (Business Intelligence).
Autores: Cassius Busemeyer, Cristiane Aparecida Luquetta, Rafael Slonik
O documento discute data mining, definindo-o como a exploração e análise de grandes quantidades de dados para descobrir padrões ou regras interessantes. Ele descreve técnicas como árvores de decisão, redes neurais e algoritmos genéticos e discute como o data mining pode ser aplicado em diversas áreas de negócios.
O documento discute as técnicas de mineração de dados, incluindo clusterização, classificação, associações e análises de sequências. Também aborda os desafios de pré-processamento e pós-processamento de dados e fornece exemplos de aplicações dessas técnicas.
Apresentação do artigo elaborado para a disciplina Recuperação Inteligente da Informação no Mestrado em Ciência da Informação da Universidade Federal de Santa Catarina.
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02NeuroMat
Apresentação sobre estratégias para o armazenamento de dados experimentais em neurociência, questionários digitais para a coleta e armazenamento de dados experimentais e meta-dados e ferramentas para o gerenciamento de arquivos.
Após a leitura do artigo de Regina Branski, Recuperação de Informações na Web, foi realizada a atividade de um resumo crítico. Este resumo é de autoria minha, baseado em informações secundárias, através de outras leituras realizadas por mim que se encontram disponíveis nas referências.
Produzido para disciplina de pesquisa bibliográfica.
O documento discute a simulação baseada na web, seu histórico, metodologia, importância e tendências. Ele descreve como a web foi criada no início dos anos 90 e como a simulação baseada na web emergiu nos anos 90, com a primeira conferência em 1998. Também destaca aspectos como modelagem distribuída, educação, saúde e energia como áreas promissoras e a importância da cooperação, acesso e filtros nessa abordagem.
Este documento descreve um projeto para desenvolver um sistema de gestão para uma escola de condução. O sistema visa melhorar a organização dos registros dos alunos e funcionários, aulas, desempenho e controle financeiro. O projeto inclui revisão de literatura, desenvolvimento de protótipo e considerações finais.
Este documento apresenta o trabalho de conclusão de curso de Werner Johnson Pacheco Mota para o curso de Tecnologia em Análise e Desenvolvimento de Sistemas do Instituto Federal de Educação, Ciência e Tecnologia do Pará. O trabalho consiste no desenvolvimento de uma aplicação web que visualiza dados abertos do Exame Nacional do Ensino Médio (ENEM) entre 2009-2017 por meio de gráficos. A aplicação tem como objetivo facilitar o acesso e compreensão dessas informações públicas.
Parte inicial de um projeto para a criação de um Software que auxilie no processo de bancas de avaliação de TCC's... Esse é um projeto com um tema pouco explorado, logo não nos foi fornecido muito material de embasamento. O projeto ainda está em construção, no entanto as partes já concluídas podem orientar possíveis pesquisas sobre o assunto.
Artigo sistema automático de disseminação seletiva de informaçãoCristina Ferreira
O documento descreve um sistema de disseminação seletiva de informação (DSI) desenvolvido para bibliotecas digitais na Universidade Federal de Minas Gerais. O sistema permite que usuários criem perfis de interesse e recebam notificações sobre novos documentos relevantes. O artigo discute o modelo proposto para o sistema DSI e como ele será integrado ao projeto SABiO de bibliotecas digitais.
Um sistema inteligente baseado em ontologia para apoio ao esclarecimento de...Raul Lopes
Este documento apresenta um resumo de três frases ou menos do seguinte documento:
1) O documento descreve a arquitetura de um sistema de perguntas e respostas baseado em ontologias que tem a capacidade de atualizar automaticamente sua base de conhecimento.
2) O sistema é capaz de analisar perguntas, recuperar respostas de bancos de dados e da web, e gerar respostas para o usuário.
3) A arquitetura proposta utiliza agentes de software e um banco de ontologias para fornecer respostas
Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...Wanderley Wang
This paper proposes the use of a Common Sense Knowledge Base (like the MIT’s OMCS projects) as a resource for building web site organization systems in Information Architecture projects that intend to take into consideration the people’s common sense.
Apresentação de defesa de dissertação de mestrado.
Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...Renata Aquino
1) O documento discute caminhos para práticas pedagógicas inovadoras de ensino e aprendizagem por meio da integração de tecnologias ao currículo. 2) Ele analisa publicações de seminários sobre o tema para identificar tendências de práticas inovadoras e características de uso de tecnologias no currículo. 3) A pesquisa também analisa publicações em um blog sobre o tema para mapear elementos que apontem uso inovador de tecnologias integradas ao currículo.
Learning Analytics: utilizando Data Science para melhorar a educaçãoMatheus Braun Magrin
O documento discute o uso de análise de dados educacionais (Learning Analytics) para melhorar a educação. Ele explica o que é Learning Analytics e como pode ajudar na melhora do ensino e aprendizagem, alertando sobre alunos em risco e monitorando métricas-chave. Também apresenta o projeto Prisma da Bravi, que usa modelos preditivos para identificar alunos em risco de evasão e fornecer tempo para intervenção.
CSCOS – Common Sense Context Organization Scheme - Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da Informação de Web Sites - Dissertação de Mestrado apresentada ao Instituto de Pesquisas Tecnológicas do Estado de São Paulo - IPT, como parte dos requisitos para a obtenção do título de Mestre em Engenharia de Computação.
Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...Wanderley Wang
Este documento descreve a dissertação de mestrado de Wanderley Silva Wang sobre o uso de uma base de conhecimento de senso comum para projetar a arquitetura da informação de sites. O trabalho propõe que é possível identificar o contexto de cada item de conteúdo de um site usando uma base de conhecimento de senso comum e definir expressões semânticas para representar o conteúdo e contexto. Também propõe que é possível organizar o site com base na similaridade dessas expressões.
O comportamento do usuário final na recuperação temática da informação: um es...Rodrigo Moreira Garcia
A survey with a representative sample of postgraduates of a Paulista University had the purpose of making a check on interaction between final users and bibliographical database, and identifying need for programs optimization to develop informational competences. Data were collected through questionnaires, and the results indicated that the majority of the subjects had difficulty to make their searches thus usually asking for help to an intermediary. Therefore the conclusion reached indicated the need for investing in strategies to promote final users' informational competences, and that other studies on the subject are still necessary in our country.
Garcia, Rodrigo-Moreira and Silva, Helen-de-Castro O comportamento do usuário final na recuperação temática da informação: um estudo com pós-graduandos da UNESP de Marília. DataGramaZero - Revista de Ciência da Informação, 2005, vol. 6, n. 3. [Journal Article (On-line/Unpaginated)] http://eprints.rclis.org/15400/
Introdução a web semântica, ontologia e máquinas de buscaAlexandre Grolla
Este artigo discute a Web Semântica, ontologias e máquinas de busca. A Web Semântica visa estruturar os dados da web para que máquinas possam entendê-los melhor. Isso é feito usando ferramentas como XML, RDF e ontologias para definir hierarquias de conceitos. Máquinas de busca evoluíram de buscas baseadas apenas no texto para buscas que consideram também estrutura de links e semântica.
Se crea una estrategia para la búsqueda y procesamiento de la información en internet, para el trabajo docente, científico y metodológico. Es unn trabajo con fin docente.
THEES_Andrea_2019_Defesa da Tese_Aprendi no YouTubeAndréa Thees
O documento apresenta a tese de doutorado "APRENDI NO YOUTUBE!: INVESTIGAÇÕES SOBRE ESTUDAR MATEMÁTICA COM VIDEOAULAS" de Andréa Thees. Resume as seguintes informações essenciais:
1) A tese investiga como assistir videoaulas de matemática disponíveis no YouTube pode contribuir para o estudo efetivo de conteúdos matemáticos.
2) A pesquisa analisou videoaulas do canal "MatemáticaRio" no YouTube us
O documento fornece instruções sobre como configurar estatísticas em uma revista usando o software Open Journal Systems (OJS). Ele explica como acessar a seção Estatísticas & Relatórios no painel do Editor-Gerente e selecionar itens para os quais estatísticas estarão disponíveis antes de registrar as configurações. Demonstra onde as estatísticas aparecerão no site da revista depois de configuradas.
Este documento fornece instruções passo-a-passo sobre como configurar uma revista usando o sistema OJS, incluindo designar avaliadores, solicitar avaliações e visualizar pareceres de avaliadores.
Apresentação do artigo elaborado para a disciplina Recuperação Inteligente da Informação no Mestrado em Ciência da Informação da Universidade Federal de Santa Catarina.
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02NeuroMat
Apresentação sobre estratégias para o armazenamento de dados experimentais em neurociência, questionários digitais para a coleta e armazenamento de dados experimentais e meta-dados e ferramentas para o gerenciamento de arquivos.
Após a leitura do artigo de Regina Branski, Recuperação de Informações na Web, foi realizada a atividade de um resumo crítico. Este resumo é de autoria minha, baseado em informações secundárias, através de outras leituras realizadas por mim que se encontram disponíveis nas referências.
Produzido para disciplina de pesquisa bibliográfica.
O documento discute a simulação baseada na web, seu histórico, metodologia, importância e tendências. Ele descreve como a web foi criada no início dos anos 90 e como a simulação baseada na web emergiu nos anos 90, com a primeira conferência em 1998. Também destaca aspectos como modelagem distribuída, educação, saúde e energia como áreas promissoras e a importância da cooperação, acesso e filtros nessa abordagem.
Este documento descreve um projeto para desenvolver um sistema de gestão para uma escola de condução. O sistema visa melhorar a organização dos registros dos alunos e funcionários, aulas, desempenho e controle financeiro. O projeto inclui revisão de literatura, desenvolvimento de protótipo e considerações finais.
Este documento apresenta o trabalho de conclusão de curso de Werner Johnson Pacheco Mota para o curso de Tecnologia em Análise e Desenvolvimento de Sistemas do Instituto Federal de Educação, Ciência e Tecnologia do Pará. O trabalho consiste no desenvolvimento de uma aplicação web que visualiza dados abertos do Exame Nacional do Ensino Médio (ENEM) entre 2009-2017 por meio de gráficos. A aplicação tem como objetivo facilitar o acesso e compreensão dessas informações públicas.
Parte inicial de um projeto para a criação de um Software que auxilie no processo de bancas de avaliação de TCC's... Esse é um projeto com um tema pouco explorado, logo não nos foi fornecido muito material de embasamento. O projeto ainda está em construção, no entanto as partes já concluídas podem orientar possíveis pesquisas sobre o assunto.
Artigo sistema automático de disseminação seletiva de informaçãoCristina Ferreira
O documento descreve um sistema de disseminação seletiva de informação (DSI) desenvolvido para bibliotecas digitais na Universidade Federal de Minas Gerais. O sistema permite que usuários criem perfis de interesse e recebam notificações sobre novos documentos relevantes. O artigo discute o modelo proposto para o sistema DSI e como ele será integrado ao projeto SABiO de bibliotecas digitais.
Um sistema inteligente baseado em ontologia para apoio ao esclarecimento de...Raul Lopes
Este documento apresenta um resumo de três frases ou menos do seguinte documento:
1) O documento descreve a arquitetura de um sistema de perguntas e respostas baseado em ontologias que tem a capacidade de atualizar automaticamente sua base de conhecimento.
2) O sistema é capaz de analisar perguntas, recuperar respostas de bancos de dados e da web, e gerar respostas para o usuário.
3) A arquitetura proposta utiliza agentes de software e um banco de ontologias para fornecer respostas
Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da ...Wanderley Wang
This paper proposes the use of a Common Sense Knowledge Base (like the MIT’s OMCS projects) as a resource for building web site organization systems in Information Architecture projects that intend to take into consideration the people’s common sense.
Apresentação de defesa de dissertação de mestrado.
Apresentacao lo mejor de nosotros web curriculo congresso online 23h Colombia...Renata Aquino
1) O documento discute caminhos para práticas pedagógicas inovadoras de ensino e aprendizagem por meio da integração de tecnologias ao currículo. 2) Ele analisa publicações de seminários sobre o tema para identificar tendências de práticas inovadoras e características de uso de tecnologias no currículo. 3) A pesquisa também analisa publicações em um blog sobre o tema para mapear elementos que apontem uso inovador de tecnologias integradas ao currículo.
Learning Analytics: utilizando Data Science para melhorar a educaçãoMatheus Braun Magrin
O documento discute o uso de análise de dados educacionais (Learning Analytics) para melhorar a educação. Ele explica o que é Learning Analytics e como pode ajudar na melhora do ensino e aprendizagem, alertando sobre alunos em risco e monitorando métricas-chave. Também apresenta o projeto Prisma da Bravi, que usa modelos preditivos para identificar alunos em risco de evasão e fornecer tempo para intervenção.
CSCOS – Common Sense Context Organization Scheme - Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da Informação de Web Sites - Dissertação de Mestrado apresentada ao Instituto de Pesquisas Tecnológicas do Estado de São Paulo - IPT, como parte dos requisitos para a obtenção do título de Mestre em Engenharia de Computação.
Dissertação Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arq...Wanderley Wang
Este documento descreve a dissertação de mestrado de Wanderley Silva Wang sobre o uso de uma base de conhecimento de senso comum para projetar a arquitetura da informação de sites. O trabalho propõe que é possível identificar o contexto de cada item de conteúdo de um site usando uma base de conhecimento de senso comum e definir expressões semânticas para representar o conteúdo e contexto. Também propõe que é possível organizar o site com base na similaridade dessas expressões.
O comportamento do usuário final na recuperação temática da informação: um es...Rodrigo Moreira Garcia
A survey with a representative sample of postgraduates of a Paulista University had the purpose of making a check on interaction between final users and bibliographical database, and identifying need for programs optimization to develop informational competences. Data were collected through questionnaires, and the results indicated that the majority of the subjects had difficulty to make their searches thus usually asking for help to an intermediary. Therefore the conclusion reached indicated the need for investing in strategies to promote final users' informational competences, and that other studies on the subject are still necessary in our country.
Garcia, Rodrigo-Moreira and Silva, Helen-de-Castro O comportamento do usuário final na recuperação temática da informação: um estudo com pós-graduandos da UNESP de Marília. DataGramaZero - Revista de Ciência da Informação, 2005, vol. 6, n. 3. [Journal Article (On-line/Unpaginated)] http://eprints.rclis.org/15400/
Introdução a web semântica, ontologia e máquinas de buscaAlexandre Grolla
Este artigo discute a Web Semântica, ontologias e máquinas de busca. A Web Semântica visa estruturar os dados da web para que máquinas possam entendê-los melhor. Isso é feito usando ferramentas como XML, RDF e ontologias para definir hierarquias de conceitos. Máquinas de busca evoluíram de buscas baseadas apenas no texto para buscas que consideram também estrutura de links e semântica.
Se crea una estrategia para la búsqueda y procesamiento de la información en internet, para el trabajo docente, científico y metodológico. Es unn trabajo con fin docente.
THEES_Andrea_2019_Defesa da Tese_Aprendi no YouTubeAndréa Thees
O documento apresenta a tese de doutorado "APRENDI NO YOUTUBE!: INVESTIGAÇÕES SOBRE ESTUDAR MATEMÁTICA COM VIDEOAULAS" de Andréa Thees. Resume as seguintes informações essenciais:
1) A tese investiga como assistir videoaulas de matemática disponíveis no YouTube pode contribuir para o estudo efetivo de conteúdos matemáticos.
2) A pesquisa analisou videoaulas do canal "MatemáticaRio" no YouTube us
Semelhante a Seminário paty aula 9 04-05-2011 (20)
O documento fornece instruções sobre como configurar estatísticas em uma revista usando o software Open Journal Systems (OJS). Ele explica como acessar a seção Estatísticas & Relatórios no painel do Editor-Gerente e selecionar itens para os quais estatísticas estarão disponíveis antes de registrar as configurações. Demonstra onde as estatísticas aparecerão no site da revista depois de configuradas.
Este documento fornece instruções passo-a-passo sobre como configurar uma revista usando o sistema OJS, incluindo designar avaliadores, solicitar avaliações e visualizar pareceres de avaliadores.
Este documento fornece instruções sobre como configurar seções em uma revista usando o software Open Journal Systems (OJS). Ele instrui os usuários a acessar a página "Seções" e clicar em "Incluir seção" para adicionar uma nova seção à revista. As seções podem ser tipos de documentos como artigos ou resenhas ou podem ser categorizadas por tópicos ou assuntos. O documento enfatiza a importância de preencher corretamente os campos da seção e salvar as alterações.
Este documento fornece instruções passo a passo sobre como habilitar ferramentas de leitura, como comentários e compartilhamento em redes sociais, em uma revista usando o software Open Journal Systems (OJS). Ele explica como acessar as configurações de ferramentas de leitura e habilitar o compartilhamento AddThis para que os leitores possam compartilhar artigos facilmente.
Este documento fornece instruções passo a passo para configurar o expediente de uma revista no sistema OJS, incluindo a criação de cargos para a equipe editorial e a adição de membros a esses cargos. Ele também mostra como esses cargos e membros serão exibidos na seção "Equipe Editorial" do site da revista.
Este documento fornece instruções sobre como configurar e publicar notícias em uma revista usando o software de gerenciamento de publicações Open Journal Systems (OJS). Ele explica como acessar a função de notícias no painel de configurações, criar tipos e categorias de notícias, e preencher os campos necessários para publicar uma nova notícia.
Este documento fornece instruções passo a passo sobre como configurar uma revista usando o software Open Journal Systems (OJS) e publicar uma nova edição da revista. Ele explica como adicionar uma nova edição, aceitar um artigo submetido, concluir a edição do texto e layout, e incluir o artigo na nova edição da revista antes de publicá-la.
Este documento fornece instruções passo a passo sobre como autores podem submeter artigos em uma revista usando o software OJS. Ele explica como fazer login, carregar um arquivo de artigo, preencher os metadados, anexar arquivos suplementares e concluir o processo de submissão.
O documento fornece instruções passo a passo sobre como configurar a aparência visual de uma revista usando o software Open Journal Systems (OJS). Ele explica como adicionar o nome, logotipo, descrição, imagem de capa, ícone de favoritos, rodapé e links de navegação da revista, além de escolher um tema visual. O documento instrui o leitor a preencher esses campos e salvar as alterações para customizar a aparência da revista no OJS.
Tutorial 5 configuração da revista 4.administração da revistaPatricia Neubert
Este documento fornece instruções passo a passo sobre como configurar uma revista usando o software Open Journal Systems (OJS). Ele explica como preencher os campos de administração da revista, incluindo definições de acesso, periodicidade, formato de edição e configurações de layout. Também lista outros tutoriais disponíveis sobre o uso do OJS.
O documento fornece instruções sobre como configurar as diretrizes de submissão de uma revista usando o software OJS. Ele explica como preencher seções sobre idioma, formato, número de páginas, declaração de direitos autorais e palavras-chave. Também cobre como notificar editores sobre novas submissões.
Este documento fornece instruções passo a passo sobre como configurar as políticas editoriais de uma revista usando o software Open Journal Systems (OJS). Ele explica como definir a missão, objetivos e público-alvo da revista, o processo de revisão e avaliação, prazos para avaliação e comunicação com avaliadores.
Este documento fornece instruções passo-a-passo sobre como configurar os detalhes de uma revista usando o software OJS, incluindo preencher campos obrigatórios como título, sigla e contatos, adicionar palavras-chave e uma descrição, e definir as configurações iniciais da revista como histórico e ISSN.
Este documento fornece instruções passo a passo para editores-gerentes cadastrarem papéis como editor, avaliador e autor em uma revista acadêmica hospedada na plataforma OJS. Inclui detalhes sobre como acessar a revista, localizar os usuários existentes e atribuir papéis a eles.
Este documento fornece instruções passo a passo sobre como configurar formulários de avaliação no Open Journal Systems (OJS) para avaliar artigos submetidos a uma revista. Ele explica como criar novos formulários, adicionar campos de perguntas e vincular os formulários às seções corretas da revista.
Este documento descreve uma dissertação de mestrado sobre os recursos web associados aos periódicos científicos ibero-americanos. O estudo analisou 887 periódicos desses países indexados no ISI e Scopus para mapear os recursos web utilizados, como plataformas de publicação, formatos, identificadores digitais e ferramentas web 2.0. Os achados indicam que a maioria são periódicos eletrônicos em acesso aberto disponíveis em múltiplas plataformas, com ba
O documento apresenta um seminário sobre Recuperação Social da Informação ministrado em uma disciplina de mestrado em Ciência da Informação. O seminário abordou os seguintes tópicos:
1) Definição e exemplos de técnicas de Recuperação Social da Informação;
2) Mudanças proporcionadas pelas redes sociais na internet, como a expressão e sociabilização online;
3) Exemplos de agregadores de redes sociais como sistemas que permitem acesso a várias redes sociais simultaneamente.
O documento resume a história e o estado atual do acesso aberto na Espanha, incluindo: 1) O crescimento do número de repositórios desde 2001, chegando a 62 atualmente; 2) A publicação de cerca de 2.000 periódicos científicos espanhóis, dos quais 13,3% estão em acesso aberto; 3) As políticas de acesso aberto implementadas, como mandatos em universidades para depositar pesquisas financiadas publicamente.
O documento resume um capítulo de um livro que discute a história e evolução do sistema de comunicação científica. O capítulo introduz o tópico, explicando que as revistas científicas foram criadas inicialmente para registrar descobertas científicas de forma pública, mas acabaram se tornando um negócio lucrativo para editoras. A propriedade intelectual também é discutida, assim como as perspectivas dos cientistas e bibliotecários sobre o sistema. O capítulo fornece contexto histórico valioso sobre como o sistema
Pci 410013 seminário aula 2_13 de outubro de 2011Patricia Neubert
O documento discute as etapas e boas práticas para realizar uma revisão de literatura acadêmica. Ele explica que uma revisão de literatura é essencial para todo projeto de pesquisa, servindo para sintetizar pesquisas anteriores, identificar lacunas e apontar direções para pesquisas futuras. Também fornece dicas sobre como identificar literatura relevante, organizar e escrever a revisão de forma clara e estruturada.
PP Slides Lição 11, Betel, Ordenança para exercer a fé, 2Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 11, Betel, Ordenança para exercer a fé, 2Tr24, Pr Henrique, EBD NA TV, 2° TRIMESTRE DE 2024, ADULTOS, EDITORA BETEL, TEMA, ORDENANÇAS BÍBLICAS, Doutrina Fundamentais Imperativas aos Cristãos para uma vida bem-sucedida e de Comunhão com DEUS, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Comentários, Bispo Abner Ferreira, Com. Extra Pr. Luiz Henrique, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique
1. Universidade Federal de Santa Catarina
Centro de Ciências da Educação
Departamento de Ciência da Informação
Programa de Pós-Graduação em Ciência da Informação
Mestrado em Ciência da Informação
Disciplina: PCI3214 – Recuperação Inteligente de Informação
Professor: Dr. Angel Freddy Godoy Viera
Seminário – Aula 9
04 de maio de 2011
Patricia da Silva Neubert
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
2. Seminário – Aula 9
Temática:
Mineração de conteúdo web;
Spiders web inteligentes;
Mineração de estruturas da web;
Mineração de uso da web.
Bibliografia recomendada:
CHEN, Hsinchun; CHAU, Michael. Web Mining: machine
learning for Web applications. In: CRONIN, Blaise (ed.). Annual
Review of Information Science and Technology. Medford:
Information Today, Inc., 2004, v.38, cap. 6, p. 289-329.
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
3. INTRODUÇÃO A WEB MINING
Web
Tamanho;
Conteúdo não-estruturado;
Conteúdo dinâmico;
Multilíngue;
Dados em vários formatos.
Nesse caso,
a extração de conhecimento útil é um problema.
(CHEN; CHAU, 2004)
2
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
4. INTRODUÇÃO A WEB MINING
“O conhecimento não vem só do conteúdo das páginas
em si, mas também das características únicas da Web,
tais como a sua estrutura de hyperlink e sua diversidade de
conteúdos e línguas. A análise destas características, muitas
vezes revela padrões interessantes e novos conhecimentos.
Tal conhecimento pode ser usado para melhorar a eficiência
dos usuários e eficácia na busca de informações na Web, e
também para aplicações não relacionadas com a Web, como
suporte à tomada de decisão ou gestão empresarial”
(CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso)
3
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
5. INTRODUÇÃO A WEB MINING
A solução para o problema vem das....
...técnicas de aprendizado de máquina.
A pesquisa sobre Data Mining se tornou um subcampo
significativo das pesquisas sobre aprendizagem de máquina.
“O termo Web Mining foi criado por Etzioni (1996) para denotar o
uso de técnicas de mineração de dados para descobrir
automaticamente documentos e serviços Web, extrair
informações a partir de recursos da Web, e descobrir padrões
gerais na web.”
(CHEN; CHAU, 2004, p.289-290, tradução nossa)
4
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
6. INTRODUÇÃO A WEB MINING
Segundo colocam Chen e Chau (2004, p.289-290) a pesquisa
de Web Mining foi, com o passar do tempo, estendida para
abranger a utilização da mineração de dados e técnicas
similares para descobrir recursos, padrões e conhecimento a
partir da Web e dados relacionados à Web (por exemplo dados de uso
da Web ou servidor de web logs).
Os autores adotam a definição de Cooley, Mobasher e
Srivastava (1997, apud CHEN; CHAU, 2004, p.289-290, tradução nossa)
para Web Mining:
“é a descoberta e análise de informações úteis a partir da World
Wide Web.”
5
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
7. INTRODUÇÃO A WEB MINING
Web Mining coincide com outras áreas, incluindo mineração de
dados, mineração de texto, acesso e recuperação da
informação.
Fonte: Chen e Chau, 2004, p.291
6
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
8. INTRODUÇÃO A WEB MINING
Web Mining coincide com outras áreas, incluindo mineração de
dados, mineração de texto, acesso e recuperação da
informação.
A classificação é
baseada no objetivo e
na fonte dos dados.
Fonte: Chen e Chau, 2004, p.291
6
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
9. INTRODUÇÃO A WEB MINING
Web Mining coincide com outras áreas, incluindo mineração de
dados, mineração de texto, acesso e recuperação da
informação.
A classificação é
baseada no objetivo e
na fonte dos dados.
Fonte: Chen e Chau, 2004, p.291
6
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
10. INTRODUÇÃO A WEB MINING
A pesquisa de Web Mining está na intersecção de várias áreas:
Recuperação da informação
Aprendizado de máquina
Recuperação na Web
Data Mining
Bases de dados
Text Mining
Aprendizagem
de máquina é a base para a maioria das
técnicas de mineração de dados e de mineração de textos;
As pesquisas de recuperação de informação tem grande
influencia nas pesquisas de aplicações de Web Mining.
(CHEN; CHAU, 2004)
7
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
11. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
Algoritmos de aprendizagem de máquina têm sido desenvolvidas
para atenuar os problemas de aquisição de conhecimentos por
computadores feitas manualmente – a partir de especialistas
humanos – visando a aquisição de conhecimentos
automaticamente a partir de exemplos ou dados de origem.
Mitchell (1997, p. 2) define a aprendizagem de máquina como o
estudo de "qualquer algoritmo de computador que melhora seu
desempenho em algumas tarefas por meio da experiência.”
(CHEN; CHAU, 2004)
8
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
12. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
São classificados em:
Aprendizado supervisionado
No aprendizado supervisionado, os exemplos de treinamento consiste nos
padrões para input/output. O objetivo do algoritmo de aprendizagem é prever
os valores de saída de novos exemplos, com base em seus valores de
entrada.
Aprendizado não supervisionado
No aprendizado não supervisionado, os exemplos de treinamento contém
apenas os padrões de entrada, não especificado o padrão de saída associado
a entrada. O algoritmo de aprendizagem deve generalizar a partir dos padrões
de entrada para descobrir os valores de saída.
(CHEN; CHAU, 2004)
9
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
13. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
Com base em Chen (1995), Langley e Simon (1995) os autores
identificaram cinco áreas de pesquisa em aprendizagem de
máquina:
I.
II.
III.
IV.
V.
Modelos probabilísticos;
Aprendizagem simbólica e indução de regras;
Redes neurais;
Algoritmos baseados na evolução;
Aprendizagem analítica e lógica fuzzy.
(CHEN; CHAU, 2004)
10
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
14. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
I . Modelos probabilísticos
O uso de modelos probabilísticos, foi uma das primeiras
tentativas de realizar aprendizado de máquina, dos quais o
exemplo mais popular é o método Bayesiano
Bayesiano.
Classifica os diferentes objetos em classes pré-definidas com base
em um conjunto de recursos, armazenando a probabilidade de cada
classe, de cada característica, e de cada recurso, com base nos
dados de treinamento. Quando uma nova instância for encontrado,
ele pode ser classificado de acordo com essas probabilidades (Langley,
Iba, & Thompson, 1992).
(CHEN; CHAU, 2004)
(CHEN; CHAU, 2004)
11
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
15. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
II. Aprendizagem simbólica e indução de regras
São classificadas de acordo com a estratégia de aprendizagem:
a) aprendizagem mecânica; b) aprendizagem por ensino; c)
aprendizagem por analogia; d) aprendizagem a partir de
exemplos; e) e aprendizagem por descoberta (Carbonell, Michalski, &
Mitchell, 1983; Cohen & Feigenbaum, 1982).
A aprendizagem por exemplos parece ser a mais promissora.
Ela é implementado através da aplicação de um algoritmo que tenta
induzir a descrição do conceito geral, que melhor descreve as
diferentes classes de exemplos de treinamento.
(CHEN; CHAU, 2004)
12
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
16. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
III. Redes neurais
Uma rede neural é um gráfico de muitos nós ativos (neurônios),
que são conectadas umas às outras por ligações ponderadas
(sinapses).
Com base em exemplos de treinamento, os algoritmos de
aprendizagem podem ser usados para ajustar os pesos de
conexão na rede para que ele possa prever ou classificar
exemplos desconhecidos corretamente.
(CHEN; CHAU, 2004)
13
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
17. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
IV. Algoritmos baseados em evolução
Algoritmos baseados em evolução dependem de analogias com
os processos naturais e da noção Darwiniana da sobrevivência
dos mais aptos.
Fogel (1994, apud CHEN; CHAU, 2004) identifica três categorias de algoritmos
de evolução baseada em: algoritmos genéticos, estratégias
evolutivas e a programação evolutiva.
Uma população sofre um conjunto de operações genéticas (crossover e mutação).
Seleção ‘natural’ de indivíduos mais aptos. Os indivíduos selecionados passam a
formar a próxima geração e o processo continua. Após uma série de gerações, o
programa converge e a solução ideal é representada pelo melhor indivíduo.
14
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
18. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina
V. Aprendizagem analítica e lógica fuzzy
Aprendizagem analítica representa o conhecimento como regras
de lógica, e executa este raciocínio sobre estas regras para
procurar provas. As provas podem ser compilados em regras
mais complexas para resolver problemas com um pequeno
número de pesquisas necessárias.
Os sistemas tradicionais de aprendizagem analítica dependem de
regras de computação rígido. Para resolver esse problema,
sistemas de lógica fuzzy têm sido propostas.
(CHEN; CHAU, 2004)
15
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
19. INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
amostragem bootstrap
(CHEN; CHAU, 2004)
16
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
20. INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
amostragem bootstrap
Os dados são divididos em um conjunto de
treinamento (2/3) e um conjunto de testes
(1/3 dos dados). Depois que o sistema é
formado pelos dados de treinamento, é
necessário prever o valor de saída de cada
exemplo no conjunto de teste. Estes valores
são então comparados com os valores de
saída real para determinar a precisão.
16
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
21. INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
amostragem bootstrap
O conjunto de dados é divididos em
subconjuntos, geralmente subgrupos de 10. O
sistema é então treinado e testado para 10
interações e, em cada interação 9 subconjuntos
são usados como dados de treinamento e 1
como dados de teste. Na rotação, cada
subconjunto de dados serve como teste de jogo
em uma interação. A precisão do sistema é a
precisão média das 10 interações. CHAU, 2004)
(CHEN;
.
16
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
22. INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
leave-oneamostragem bootstrap
Leave-one-out é o caso extremo de validação
cruzada, onde os dados originais são
divididos em n subgrupos, onde n é o
número de observações nos dados originais.
O sistema é treinado e testado por n
interações, em cada um dos quais n-1
exemplos são usados para o treinamento e a
instância restante é usado para testes.
16
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
23. INTRODUÇÃO A WEB MINING
Metodologias de Avaliação
Avaliação da precisão de um sistema de aprendizagem, e a
escolha de uma boa metodologia de avaliação.
Métodos de avaliação populares (Efron & Tibshirani, 1993; Stone, 1974):
amostragem de validação
validação cruzada
leave-one-out
amostragem bootstrap
n amostras aleatórias independentes são
retirados do conjunto de dados original de
tamanho n. Como as amostras são tomadas
com a substituição, o número de instâncias
exclusivas será inferior a n. Essas amostras
são então utilizadas como conjunto de
treinamento para o sistema de aprendizagem,
e os restantes dados que não foram incluídos
na amostra são usados para testar o sistema
(Efron & Tibshirani, 1993).
(CHEN; CHAU, 2004)
16
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
24. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Extração de informação
Feedback de relevância
Filtragem de informações e recomendação
Classificação de texto e clustering.
(CHEN; CHAU, 2004)
17
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
25. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Extração de informação
Técnica destinada a identificar
Feedback de relevância
automaticamente as informações
Filtragem de informações e recomendação úteis a partir de documentos de
texto.
Classificação de texto e clustering.
(CHEN; CHAU, 2004)
17
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
26. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Extração de informação
Método usado em sistemas de
IR para ajudar os usuários a
Feedback de relevância
buscas de
Filtragem de informações e recomendação realizarem e reformularforma
interativa
as
Classificação de texto e clustering.
consultas de pesquisa com base
na avaliação de documentos
obtidos anteriormente. (Ide, 1971;
Rocchio, 1971).
(CHEN; CHAU, 2004)
17
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
27. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Também ajudam os usuários a
Extração de informação
reformular as consultas de
Feedback de relevância
pesquisa, mas tenta aprender
Filtragem de informações e recomendação sobre os interesses dos usuários,
por meio de suas avaliações e
Classificação de texto e clustering.
ações e, em seguida, usa essas
informações para analisar novos
documentos. (CHEN; CHAU, 2004)
17
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
28. INTRODUÇÃO A WEB MINING
Aprendizagem de Máquina para RI: Pré Web
Técnicas de aprendizagem de máquina foram aplicadas em
aplicações de recuperação de informação muito antes do
surgimento da web.
Algumas delas são o uso de aprendizado de máquina na:
Extração de informação
Classificação de texto é a
classificação dos documentos em
Feedback de relevância
(aprendizado
Filtragem de informações e recomendação grupos pré-definidasclustering é o
supervisionado), e
Classificação de texto e clustering.
agrupamento dos documentos em
categorias definidas dinamicamente,
com base nas suas semelhanças
(CHEN; CHAU, 2004)
(aprendizado não supervisionado).
17
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
29. WEB MINING
Web Mining pode ser dividido em três categorias (Kosala & Blockeel, 2000):
Mineração de conteúdo da Web;
refere-se à descoberta de informações úteis a partir do conteúdo da Web,
incluindo texto, imagens, áudio e vídeo.
Mineração
de estruturas da Web;
Refere-se ao estudo de potenciais modelos subjacentes às estruturas de links da
web.
> Usada para a formação do ranking dos motores de busca.
Mineração
de uso da Web.
Centra-se na análise de pesquisas/consultas para encontrar padrões
interessantes.
> Aplicação no desenvolvimento de perfis de usuário
18
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
30. WEB MINING
Desafios:
1.
2.
3.
Documentos em HTML;
Diversidade dos documentos (tamanho, formato, estrutura);
Documentos dinâmicos.
“Outra característica da Web, talvez o mais importante, é a
estrutura de hyperlink.”
(CHEN; CHAU, 2004)
19
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
31. MINERAÇÃO DE CONTEÚDO WEB
Mineração de conteúdo Web é baseado principalmente na
pesquisa em recuperação de informação e mineração de
texto, como extração de informações, classificação e agrupamento de texto e
visualização da informação.
A maioria dos documentos na Web são documentos de texto,
portanto, a mineração de texto para documentos na Web pode
ser considerado um sub-campo de mineração de conteúdos
da Web.
(CHEN; CHAU, 2004)
20
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
32. MINERAÇÃO DE CONTEÚDO WEB
Mineração de conteúdo Web é baseado principalmente na
pesquisa em recuperação de informação e mineração de
texto, como extração de informações, classificação e agrupamento de texto e
visualização da informação.
A maioria dos documentos na Web são documentos de texto,
portanto, a mineração de texto para documentos na Web pode
ser considerado um sub-campo de mineração de conteúdos
da Web.
extração de informação
Aplicações de mineração de
textos em documentos web:
classificação de texto
texto clustering
20
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
33. MINERAÇÃO DE CONTEÚDO WEB
As técnicas de extração de informações tem sido aplicado a
documentos de texto simples, nesse sentido, a extração de
informações de páginas da Web - em HTML - pode
apresentar problemas.
Páginas não-estruturadas
tags de marcação
“Em vez de um documento composto de parágrafos, uma
página da Web pode ser um documento composto de uma
barra lateral com links de navegação, tabelas com dados
textuais e numéricos, frases capitalizados, e palavras
repetitivas. A gama de formatos e estruturas é muito
diversificada em toda a web.”
21
(CHEN; CHAU, 2004, p.289, tradução nossa, grifo nosso)
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
34. MINERAÇÃO DE CONTEÚDO WEB
A extração de informação analisa as páginas da Web
individualmente, a classificação de texto e texto clustering
analisam um conjunto de páginas web.
Em algumas aplicações, as tags de HTML são simplesmente
retirados dos documentos da Web e algoritmos tradicionais
são então aplicadas para realizar a classificação e
agrupamento de texto – ignorando, algumas características da
página web.
O texto de documentos vizinhos – links para os quais a página aponta - tem
sido utilizado na tentativa de melhorar o desempenho da classificação.
22
(CHEN; CHAU, 2004)
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
35. MINERAÇÃO DE CONTEÚDO WEB
Spiders Web Inteligentes
Spiders são "programas de software que atravessam o espaço
de informação da World Wide Web, seguindo links de
hipertexto e recuperação de documentos na Web através do
protocolo HTTP padrão" (CHEONG, 1996, p. 82, apud CHEN; CHAU, 2004)
... são usados por motores de busca para construir suas bases
de dados.
A maior parte usa algoritmos simples para descoberta de
recursos web, mas há o uso de algoritmos avançados
(algoritmo genético, redes neurais, modelos híbridos...)
23
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
36. MINERAÇÃO DE CONTEÚDO WEB
Web Mining Multilíngue
Maior
parte do conteúdo em inglês;
No entanto, número de páginas em outros idiomas vem
crecendo.
Problemas no processamento de texto de diferentes idiomas.
Alguns
algoritmos são independentes de idioma (classificação
de texto, clustering); algoritmos como o de extração de
informações devem ser adaptados para os diferentes idiomas.
(CHEN; CHAU, 2004)
24
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
37. MINERAÇÃO DE CONTEÚDO WEB
Web Visualização
Muitas vezes é difícil extrair conteúdo útil a partir da Web,
neste caso, ferramentas de visualização têm sido utilizadas
para ajudar os usuários a manterem uma “visualização geral"
de um conjunto de resultados de recuperação de motores de
busca.
Nestes sistemas de visualização, técnicas de aprendizado de
máquina são muitas vezes utilizados para determinar como as
páginas Web devem ser apresentadas.
(CHEN; CHAU, 2004)
25
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
38. MINERAÇÃO DE CONTEÚDO WEB
Web Semântica
1.
2.
3.
Os documentos da Web não serão mais textos não
estruturados, eles serão identificados e entendidos por
computadores.
A aprendizagem de máquina pode desempenhar três papéis
importantes na Web Semântica. Sendo usada para...
criar automaticamente os metadados de marcação;
criar, fundir, atualizar e manter ontologias;
compreender e executar o raciocínio sobre os metadados
fornecidos pela Web Semântica, a fim de extrair
conhecimento a partir da Web de forma mais eficaz.
26
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
39. MINERAÇÃO DE ESTRUTURAS DA WEB
A estrutura de links da Web tem sido amplamente
utilizada para inferir informações importantes sobre as
páginas web. A mineração de estruturas da Web tem sido
largamente influenciado pelas pesquisas de análise de
redes sociais e análise de citações (bibliometria).
Citações (ligações) entre as páginas da Web geralmente
são indicadores de grande relevância ou de boa
qualidade.
(CHEN; CHAU, 2004)
27
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
40. MINERAÇÃO DE ESTRUTURAS DA WEB
Geralmente, quanto maior o número de links para uma
determinada página, mais útil a página é considerada. O
raciocínio é que uma página referenciada por muitas
pessoas, é provável que seja mais importante do que
uma página que raramente é mencionada.
“Além disso, é razoável dar uma ligação de uma fonte
autorizada (como Yahoo) um peso maior do que um link
de uma página Web da importância pessoal.”
(CHEN; CHAU, 2004, p.311)
28
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
41. MINERAÇÃO DE ESTRUTURAS DA WEB
As técnicas de mineração de estruturas da Web são
frequentemente utilizados para melhorar o desempenho de
aplicações web.
Por exemplo o PageRank:
É eficaz no ranking dos resultados do motor de busca Google
(http://www.google.com) (Brin e Page, 1998).
É utilizado como uma medida para orientar as aranhas do
Search Engine, onde URLs com PageRank mais elevado são
visitadas primeiro (Cho et al., 1998).
(CHEN; CHAU, 2004)
29
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
42. MINERAÇÃO DE USO DA WEB
Servidores Web, proxies, e aplicações cliente podem
facilmente capturar dados sobre o uso da Web.
Logs do servidor Web contêm informações sobre todas as
visitas às páginas hospedadas em um servidor.
Ficheiros solicitados
endereço de IP
número de bytes enviados
código de erro
navegador usado
Ao realizar a análise dos dados de uso da Web, os sistemas de
mineração da Web podem descobrir conhecimentos úteis sobre
as características de um sistema, do uso e os interesses dos
usuários.
(CHEN; CHAU, 2004)
30
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
43. MINERAÇÃO DE USO DA WEB
Análise de padrões e tendências
Um dos principais objetivos da mineração de utilização da
Web é o interesse em revelar tendências e padrões. Esses
padrões podem frequentemente fornecer conhecimentos
importantes sobre os clientes de uma empresa ou dos
usuários do sistema.
Srivastava, Cooley, Despande e Tan (2000) fornecem uma
estrutura para a mineração de uso da Web, que consiste em
três etapas principais: I. pré-processamento;
II. descoberta de padrões;
III. análise de padrões. (CHEN; CHAU, 2004)
31
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
44. MINERAÇÃO DE USO DA WEB
Personalização e colaboração
Muitos dos objetivo de uso das técnicas de Web Mining são
fornecer informações e serviços personalizados para os usuários.
Os dados de uso da Web fornecem uma excelente maneira de
aprender sobre o interesse dos usuários (Srivastava et al., 2000).
al. 2000)
Mineração de uso da Web pode ajudar a identificar usuários que
acessaram páginas Web semelhante. Os padrões que emergem
podem ser aplicados em pesquisas sobre a Web colaborativa e
filtragem colaborativa.
(CHEN; CHAU, 2004)
32
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
45. CONSIDERAÇÕES FINAIS
A Web tornou-se o maior repositório de conhecimento do mundo.
A extração de conhecimento da Web de forma eficiente e
eficaz está se tornando cada vez mais importante.
Limitações das pesquisas em Web Mining:
dificuldade de criação de coleções de ensaio adequadas;
dificuldade de coletar dados de uso da Web em sites
diferentes (maioria dos dados de log do servidor e os dados
recolhidos por empresas são proprietários).
(CHEN; CHAU, 2004, p.316, tradução nossa)
33
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
46. CONSIDERAÇÕES FINAIS
As atividades de Web Mining ainda estão em estágios iniciais
e devem continuar a desenvolver-se como a evolução da web.
No futuro...
mineração de dados multimídia.
multimídia.
“Além dos documentos textuais, como HTML, MS Word Document, PDF e
arquivos de texto, um grande número de documentos multimídia estão
contidas na Web, tais como imagens, áudios e vídeos. Apesar de os
documentos textuais serem relativamente fáceis de recuperar e analisar, as
operações em arquivos de multimídia são muito mais difíceis de executar, e
como o conteúdo multimídia na web cresce rapidamente, Web Mining
tornou-se um problema desafiador.”
(CHEN; CHAU, 2004, p.316-317, tradução nossa)
34
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert
47. CONSIDERAÇÕES FINAIS
Web Mining no futuro...
conteúdo
multilíngüe;
Internet sem fio;
Web invisível.
“A Web tornou-se a maior base de conhecimento que jamais
existiu. No entanto, sem a representação do conhecimento
adequado e algoritmos de descoberta de conhecimento, é
apenas como um ser humano com a memória extraordinária,
mas sem capacidade de pensar e raciocinar.”
(CHEN; CHAU, 2004, p.319, tradução nossa)
35
PGCIN/UFSC - PCI 3214 – Maio/2011 – Patricia Neubert