SlideShare uma empresa Scribd logo
1 de 34
YaCy Módulo I
MECANISMO DE BUSCA OPEN SOURCE
Mestrando Julio Della Flora – Tutor
Prof. Dr. Benjamin Luiz Franklin - Coordenador
Vinculado ao Projeto Uel - LabFree
Projeto LabFree
Introdução aos Buscadores
 A preocupação em desenvolver ferramentas que
facilitem a busca por informação cresce à medida
que a rede mundial de computadores aumenta.
 Para Cendón (2001) os diretórios foram ofertados
como primeira alternativa para organizar e
localizar conteúdo na Web, precedendo o modelo
atual, baseado em motores de busca.
 Oportuno salientar que aquele modelo foi
introduzido quando a quantidade de informação
disponível na internet ainda era pequeno.
Introdução aos Buscadores
 Os diretórios possuíam como método a
divisão do conteúdo eletrônico por
categorias, que, por sua vez, poderiam se
desdobrar em subcategorias.
 Em contrapartida, os motores de busca
não se organizam consoante o método
retro enunciado. Em seu lugar está a
abrangência de conteúdo na sua base de
dados, podendo-se alcançar bilhões de
itens, os quais são localizáveis mediante
busca através de palavras-chave.
Introdução aos Buscadores
 Monteiro (2009), em sua bibliografia, descreve a anatomia das máquinas de busca
em três processos principais:
Crawling
Indexing
Searching
Introdução aos Buscadores
 Primordialmente, o programa
denominado crawler navega
de forma autônoma através
da internet, reunindo o maior
número possível de páginas
web, gerando, desta forma,
uma base de dados e, por
conseguinte, um índice, o qual
será apresentado ao usuário
por meio de uma interface
amigável.
Introdução aos Buscadores
 Subsequentemente, a geração do
índice (Indexing) associa as palavras
presentes na página web ao
endereço URL (Uniform Resouce
Locator), gerando metadados que
serão tratados de acordo com o
algoritmo implementado no motor
de busca. Conforme a Battelle
(2006), o índice representa uma
enorme base de dados onde
encontram-se informações
importantes a respeito de diversos
sites na Web.
Introdução aos Buscadores
 Por derradeiro, no Searching, é
apresentado o “motor de busca
propriamente dito” citado por
Cendón (2001), ao qual a interface
propicia ao usuário consultar de
maneira intuitiva a base de dados
indexada pelo software.
 Nota-se que todo o processo,
executado pela máquina de
busca, está intimamente atrelado
à maneira como o software foi
arquitetado por seu
desenvolvedor.
Modelo e Problemática
 Atualmente as ferramentas de busca são tratadas como deidades do
ciberespaço, detentoras e difusoras de todo o conhecimento, em sua
maioria oferecidos por grandes companhias como o Google, Yahoo e
Microsoft.
Cujos sistemas são
essencialmente
fechados, resultando
em uma tecnologia
de indexação e
classificação deveras
nebulosa aos usuários
deste serviço.
Modelo e Problemática
 Ao utilizar buscadores
privados, não se pode
arguir quanta informação
será censurada,
bloqueada ou removida
do resultado, ficando este
à critério apenas da
entidade detentora do
software.
Caso o detentor da página web queira indexá-la por meio de um mecanismo
de busca, deverá aceitar as suas regras e termos de uso, assim como a sua
insubordinação, acarretará em punições severas ao website em questão, ou
seja, sua não indexação.
Modelo e Problemática
“Buscas efetuadas mediante mecanismos
privados são, fundamentalmente, tendenciosas,
seja por políticas organizacionais, privilégios a
patrocinadores do serviço ou determinações
judiciais”
YaCy, Search Engine
 O sistema de busca distribuído
YaCy é um software gratuito no
qual o rastreamento, indexação e
classificação do conteúdo é
completamente transparente ao
usuário, possibilitando à este,
conhecer e modificar todo o
processo de pesquisa, evitando,
assim, alguns dos principais
problemas na utilização de
soluções corporativas, como a
censura do conteúdo e o
armazenamento de informações
pessoais.
YaCy, Search Engine
 Para os desenvolvedores do
projeto (YaCy, 2011), este
software possui como diferencial a
utilização de um modelo baseado
na tecnologia par-a-par (P2P)
para transferência de arquivos.
 Modelos de transmissão
fundamentados na tecnologia de
redes P2P proporcionam uma
capacidade híbrida, em que
cada nó (usuário) poderá atuar
tanto como cliente, quanto como
servidor.
YaCy, Search Engine
É notável a semelhança entre a arquitetura citada e o rizoma de Deleuze.
YaCy, Search Engine
 O YaCy foi o software escolhido
para a implantação do servidor
de busca por apresentar algumas
características que viabilizam sua
execução, tais como ser aberto,
gratuito e não oferecer censura
ao índice compartilhado.
YaCy, Search Engine
 Trata-se de um mecanismo de
busca com a funcionalidade de
crawler, o que proporciona a
capacidade de obter todas as
páginas web publicadas pela
revista apontada.
 Entretanto, para que essa função
trabalhe de maneira apropriada
são necessárias configurações
específicas no software.
YaCy, Search Engine
 Para usufruir dos
benefícios do software
são necessárias
algumas configurações,
conforme descrito a
seguir.
 Inicialmente é
necessário escolher o
perfil de operação do
software
YaCy, Search Engine
 O propósito de uso do software é fator determinante nessa escolha, que
apresenta 3 opções principais de funcionamento, conforme segue:
 Community-based web search: insere o servidor YaCy recém criado em uma rede
global livre de censura denominada freeworld, replicando seu índice e
disponibilizando-o para consultas futuras;
 Search portal for your own web pages: apresenta em sua base de dados apenas
conteúdo indexado pelo usuário, cujo funcionamento ocorre de maneira
independente à rede de busca global (freeworld). É comumente utilizado na criação
de portais de busca orientados por assunto;
 Intranet Indexing: empregado na concepção de buscadores para intranet, pode
trabalhar de maneira integrada com servidores de troca de arquivo, o que beneficia
organizações que possuam grande quantidade de documentos dispostos de maneira
não estruturada.
YaCy, Search Engine
 Admite-se também a possibilidade de
modificar a ordem dos resultados
buscados, conferindo ênfase
diferenciada às palavras com
ocorrência em trechos distintos de
um documento.
 A figura ao lado, apresenta o sistema
de ranking, no qual é possível
observar uma atribuição numérica
em seus campos. Cada opção possui
influência direta na ordenação do
resultado pesquisado.
Apache Solr
 Solr é um projeto Open
Source de um servidor de
buscas de alta performance
do projeto Apache Lucene. É
desenvolvido em Java e
utiliza o Lucene Core como
base para indexação e
busca, além de fornecer APIs
baseadas em REST o que lhe
permite ser integrado a
praticamente qualquer
linguagem de programação.
Apache Solr
Apache Solr
 Buscas podem ser
executadas através de
query’s XML através do
próprio YaCy.
 Essa Opção pode ser
acessada na aba “Solr
Default Core”
Apache Solr
 Como padrão a seguinte consulta é apresentada:
Apache Solr
 Consultas podem ser executadas através de código XML não sendo necessário o
conhecimento da linguagem SQL.
Atividade Prática
Interação com a ferramenta YaCy
Configuração Inicial
Afim de possibilitar a
Indexação de qualquer
website sem a influência
da rede global
“freeworld”, a opção
“Search portal for your
own web pages” deve
ser escolhida.
Configuração Inicial
1- É possível iniciar o
crawling ao clicar sobre a
opção “Crawler /
Harvester”
2- A caixa de texto “Start
URL” deve ser preenchida
com o endereço do
website que pretende-se
indexar
3- O processo será iniciado
através do botão “Start
New Crawl”
Crawling
É possível acompanhar o processo de crawling através da aba “Creation
Monitor”
Buscador de Código Aberto
Após o término do processo de
varredura e indexação, o
recurso de busca se torna
operacional, possibilitando a
procura de termos através da
aba “Web Search”
Ranking
O processo de busca é
influenciado por um algoritmo
de “Ranking”.
Ao modificar os valores
apresentados na figura, pode-
se enfatizar características
distintas de busca.
Solr Filter Query
Em quantos documentos
(páginas web) a palavra “julio”
aparece no site
http://juliodellaflora.wordpress.c
om ?
R: q=julio
numFound=“157”
Solr Filter Query
Em quantos documentos
(páginas web) a palavra “julio”
aparece no site
http://juliodellaflora.wordpress.c
om em 2011?
R: q=julio&fq=sku:*/2011/*
numFound=“13”
Solr Filter Query
Em quantos documentos
(páginas web) a palavra
“segurança” aparece apenas
no título do documento?
R: q=title:segurança
numFound=“17”
Solr Filter Query
Filtrando apenas o corpo do texto nos documentos mostre na tela: titulo, corpo
do texto, frequência que o termo “segurança” aparece em cada documento
(apenas no corpo) e URL do documento.
R: q=*:*&fq=text_t:segurança&fl=title,text_t,termfreq(text_t,segurança),sku
Obrigado!
Julio Della Flora
E-mail: jcldf@hotmail.com

Mais conteúdo relacionado

Destaque

Scraping for fun and glory
Scraping for fun and gloryScraping for fun and glory
Scraping for fun and gloryitalomaia
 
Java Web Scraping
Java Web ScrapingJava Web Scraping
Java Web ScrapingSumant Raja
 
Desbravando o mundo dos webcrawlers
Desbravando o mundo dos webcrawlersDesbravando o mundo dos webcrawlers
Desbravando o mundo dos webcrawlersJoão Gabriel Lima
 
Capturando a web com Scrapy
Capturando a web com ScrapyCapturando a web com Scrapy
Capturando a web com ScrapyGabriel Freitas
 
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturado
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturadoRaspador: Biblioteca em Python para extração de dados em texto semi-estruturado
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturadoFernando Macedo
 
Desenvolvendo web crawler/scraper com Python
Desenvolvendo web crawler/scraper com PythonDesenvolvendo web crawler/scraper com Python
Desenvolvendo web crawler/scraper com PythonRoselma Mendes
 
Crawleando a web feito gente grande com o scrapy
Crawleando a web feito gente grande com o scrapyCrawleando a web feito gente grande com o scrapy
Crawleando a web feito gente grande com o scrapyBernardo Fontes
 
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...Daniel Makiyama
 

Destaque (10)

Scraping for fun and glory
Scraping for fun and gloryScraping for fun and glory
Scraping for fun and glory
 
Java Web Scraping
Java Web ScrapingJava Web Scraping
Java Web Scraping
 
Web crawler
Web crawlerWeb crawler
Web crawler
 
Desbravando o mundo dos webcrawlers
Desbravando o mundo dos webcrawlersDesbravando o mundo dos webcrawlers
Desbravando o mundo dos webcrawlers
 
Capturando a web com Scrapy
Capturando a web com ScrapyCapturando a web com Scrapy
Capturando a web com Scrapy
 
Scraping
ScrapingScraping
Scraping
 
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturado
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturadoRaspador: Biblioteca em Python para extração de dados em texto semi-estruturado
Raspador: Biblioteca em Python para extração de dados em texto semi-estruturado
 
Desenvolvendo web crawler/scraper com Python
Desenvolvendo web crawler/scraper com PythonDesenvolvendo web crawler/scraper com Python
Desenvolvendo web crawler/scraper com Python
 
Crawleando a web feito gente grande com o scrapy
Crawleando a web feito gente grande com o scrapyCrawleando a web feito gente grande com o scrapy
Crawleando a web feito gente grande com o scrapy
 
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
Aprendendo Na Prática: Aplicativos Web Com Asp.Net MVC em C# e Entity Framewo...
 

Semelhante a Curso YaCy Mecanismo de Busca de Código Aberto

Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...Leandro Borges
 
Administração de portais
Administração de portaisAdministração de portais
Administração de portaisFelipe Perin
 
Seo - Search Engine Optimization
Seo - Search Engine OptimizationSeo - Search Engine Optimization
Seo - Search Engine OptimizationHeric Tilly
 
Aplicações web acessíveis
Aplicações web acessíveisAplicações web acessíveis
Aplicações web acessíveisLeandro Borges
 
Disciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasDisciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasSociedade da Informação
 
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...Thiago Dieb
 
Web 2.0 Comunicar, Colaborar E Trabalhar V2
Web 2.0   Comunicar, Colaborar E Trabalhar V2Web 2.0   Comunicar, Colaborar E Trabalhar V2
Web 2.0 Comunicar, Colaborar E Trabalhar V2Óscar Faria
 
Sessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStoreSessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStoreFernando Rui Campos
 
Sistema de Recomendação de Páginas sobre Saúde
Sistema de Recomendação de Páginas sobre SaúdeSistema de Recomendação de Páginas sobre Saúde
Sistema de Recomendação de Páginas sobre SaúdeMauricio Volkweis Astiazara
 

Semelhante a Curso YaCy Mecanismo de Busca de Código Aberto (20)

Curso de Pesquisa na Web
Curso de Pesquisa na WebCurso de Pesquisa na Web
Curso de Pesquisa na Web
 
Motores de busca
Motores de buscaMotores de busca
Motores de busca
 
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
 
Motores de Busca
Motores de BuscaMotores de Busca
Motores de Busca
 
Web Crawlers
Web CrawlersWeb Crawlers
Web Crawlers
 
SEO
SEOSEO
SEO
 
Web crawler
Web crawlerWeb crawler
Web crawler
 
Seo Oficial
Seo OficialSeo Oficial
Seo Oficial
 
Administração de portais
Administração de portaisAdministração de portais
Administração de portais
 
Sistema de Busca em Websites
Sistema de Busca em WebsitesSistema de Busca em Websites
Sistema de Busca em Websites
 
Seo - Search Engine Optimization
Seo - Search Engine OptimizationSeo - Search Engine Optimization
Seo - Search Engine Optimization
 
Aplicações web acessíveis
Aplicações web acessíveisAplicações web acessíveis
Aplicações web acessíveis
 
Disciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e OntologiasDisciplina Sociedade da Informação Semântica e Ontologias
Disciplina Sociedade da Informação Semântica e Ontologias
 
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
TDC 2017 SP - NoSQL - Sistema de busca na administração pública, com MongoDb ...
 
Web 2.0 Comunicar, Colaborar E Trabalhar V2
Web 2.0   Comunicar, Colaborar E Trabalhar V2Web 2.0   Comunicar, Colaborar E Trabalhar V2
Web 2.0 Comunicar, Colaborar E Trabalhar V2
 
Ferramentas de pesquisa na internet
Ferramentas de pesquisa na internetFerramentas de pesquisa na internet
Ferramentas de pesquisa na internet
 
Novas Funcionalidades Liferay 6
Novas Funcionalidades Liferay 6Novas Funcionalidades Liferay 6
Novas Funcionalidades Liferay 6
 
Sessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStoreSessao 15 novembro2013 widgets widgetStore
Sessao 15 novembro2013 widgets widgetStore
 
Optimização de Conteúdos para Motores Busca 22.Out.2009
Optimização de Conteúdos para Motores Busca 22.Out.2009Optimização de Conteúdos para Motores Busca 22.Out.2009
Optimização de Conteúdos para Motores Busca 22.Out.2009
 
Sistema de Recomendação de Páginas sobre Saúde
Sistema de Recomendação de Páginas sobre SaúdeSistema de Recomendação de Páginas sobre Saúde
Sistema de Recomendação de Páginas sobre Saúde
 

Mais de Julio Della Flora

Ferramentas para hardware hacking
Ferramentas para hardware hackingFerramentas para hardware hacking
Ferramentas para hardware hackingJulio Della Flora
 
Anti tamper em maquinas de cartao pos
Anti tamper em maquinas de cartao posAnti tamper em maquinas de cartao pos
Anti tamper em maquinas de cartao posJulio Della Flora
 
hardware fault injection attacks com enfase em ultrassom
hardware fault injection attacks com enfase em ultrassomhardware fault injection attacks com enfase em ultrassom
hardware fault injection attacks com enfase em ultrassomJulio Della Flora
 
Hardware Hacking e Gadgets para Pentest
Hardware Hacking e Gadgets para PentestHardware Hacking e Gadgets para Pentest
Hardware Hacking e Gadgets para PentestJulio Della Flora
 

Mais de Julio Della Flora (10)

cyberpunk guide.pdf
cyberpunk guide.pdfcyberpunk guide.pdf
cyberpunk guide.pdf
 
Ferramentas para hardware hacking
Ferramentas para hardware hackingFerramentas para hardware hacking
Ferramentas para hardware hacking
 
Anti tamper em maquinas de cartao pos
Anti tamper em maquinas de cartao posAnti tamper em maquinas de cartao pos
Anti tamper em maquinas de cartao pos
 
Roadsec 2020
Roadsec 2020Roadsec 2020
Roadsec 2020
 
hardware fault injection attacks com enfase em ultrassom
hardware fault injection attacks com enfase em ultrassomhardware fault injection attacks com enfase em ultrassom
hardware fault injection attacks com enfase em ultrassom
 
Fault injection attacks
Fault injection attacksFault injection attacks
Fault injection attacks
 
Edc para hardware hackers
Edc para hardware hackersEdc para hardware hackers
Edc para hardware hackers
 
Hardware hacking 101
Hardware hacking 101Hardware hacking 101
Hardware hacking 101
 
Hardware Hacking e Gadgets para Pentest
Hardware Hacking e Gadgets para PentestHardware Hacking e Gadgets para Pentest
Hardware Hacking e Gadgets para Pentest
 
Gadgets malignos
Gadgets malignosGadgets malignos
Gadgets malignos
 

Último

Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxLuizHenriquedeAlmeid6
 
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdfDIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdfIedaGoethe
 
QUIZ DE MATEMATICA SHOW DO MILHÃO PREPARAÇÃO ÇPARA AVALIAÇÕES EXTERNAS
QUIZ DE MATEMATICA SHOW DO MILHÃO PREPARAÇÃO ÇPARA AVALIAÇÕES EXTERNASQUIZ DE MATEMATICA SHOW DO MILHÃO PREPARAÇÃO ÇPARA AVALIAÇÕES EXTERNAS
QUIZ DE MATEMATICA SHOW DO MILHÃO PREPARAÇÃO ÇPARA AVALIAÇÕES EXTERNASEdinardo Aguiar
 
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino FundamentalCartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamentalgeone480617
 
Bingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteirosBingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteirosAntnyoAllysson
 
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...LuizHenriquedeAlmeid6
 
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdfO Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdfPastor Robson Colaço
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditaduraAdryan Luiz
 
Mesoamérica.Astecas,inca,maias , olmecas
Mesoamérica.Astecas,inca,maias , olmecasMesoamérica.Astecas,inca,maias , olmecas
Mesoamérica.Astecas,inca,maias , olmecasRicardo Diniz campos
 
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptxSlide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptxconcelhovdragons
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
Atividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu AbrigoAtividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu AbrigoMary Alvarenga
 
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdfcartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdfIedaGoethe
 
Doutrina Deus filho e Espírito Santo.pptx
Doutrina Deus filho e Espírito Santo.pptxDoutrina Deus filho e Espírito Santo.pptx
Doutrina Deus filho e Espírito Santo.pptxThye Oliver
 
O guia definitivo para conquistar a aprovação em concurso público.pdf
O guia definitivo para conquistar a aprovação em concurso público.pdfO guia definitivo para conquistar a aprovação em concurso público.pdf
O guia definitivo para conquistar a aprovação em concurso público.pdfErasmo Portavoz
 
Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfEditoraEnovus
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxBiancaNogueira42
 
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptxÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptxDeyvidBriel
 

Último (20)

Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
 
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdfDIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
 
QUIZ DE MATEMATICA SHOW DO MILHÃO PREPARAÇÃO ÇPARA AVALIAÇÕES EXTERNAS
QUIZ DE MATEMATICA SHOW DO MILHÃO PREPARAÇÃO ÇPARA AVALIAÇÕES EXTERNASQUIZ DE MATEMATICA SHOW DO MILHÃO PREPARAÇÃO ÇPARA AVALIAÇÕES EXTERNAS
QUIZ DE MATEMATICA SHOW DO MILHÃO PREPARAÇÃO ÇPARA AVALIAÇÕES EXTERNAS
 
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino FundamentalCartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
Cartilha 1º Ano Alfabetização _ 1º Ano Ensino Fundamental
 
Bingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteirosBingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteiros
 
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
 
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -XI OLIMPÍADAS DA LÍNGUA PORTUGUESA      -
XI OLIMPÍADAS DA LÍNGUA PORTUGUESA -
 
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
Slides Lição 3, Betel, Ordenança para congregar e prestar culto racional, 2Tr...
 
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdfO Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
O Universo Cuckold - Compartilhando a Esposas Com Amigo.pdf
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditadura
 
Mesoamérica.Astecas,inca,maias , olmecas
Mesoamérica.Astecas,inca,maias , olmecasMesoamérica.Astecas,inca,maias , olmecas
Mesoamérica.Astecas,inca,maias , olmecas
 
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptxSlide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
 
Atividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu AbrigoAtividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu Abrigo
 
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdfcartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
cartilha-pdi-plano-de-desenvolvimento-individual-do-estudante.pdf
 
Doutrina Deus filho e Espírito Santo.pptx
Doutrina Deus filho e Espírito Santo.pptxDoutrina Deus filho e Espírito Santo.pptx
Doutrina Deus filho e Espírito Santo.pptx
 
O guia definitivo para conquistar a aprovação em concurso público.pdf
O guia definitivo para conquistar a aprovação em concurso público.pdfO guia definitivo para conquistar a aprovação em concurso público.pdf
O guia definitivo para conquistar a aprovação em concurso público.pdf
 
Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdf
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
 
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptxÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
 

Curso YaCy Mecanismo de Busca de Código Aberto

  • 1. YaCy Módulo I MECANISMO DE BUSCA OPEN SOURCE Mestrando Julio Della Flora – Tutor Prof. Dr. Benjamin Luiz Franklin - Coordenador Vinculado ao Projeto Uel - LabFree Projeto LabFree
  • 2. Introdução aos Buscadores  A preocupação em desenvolver ferramentas que facilitem a busca por informação cresce à medida que a rede mundial de computadores aumenta.  Para Cendón (2001) os diretórios foram ofertados como primeira alternativa para organizar e localizar conteúdo na Web, precedendo o modelo atual, baseado em motores de busca.  Oportuno salientar que aquele modelo foi introduzido quando a quantidade de informação disponível na internet ainda era pequeno.
  • 3. Introdução aos Buscadores  Os diretórios possuíam como método a divisão do conteúdo eletrônico por categorias, que, por sua vez, poderiam se desdobrar em subcategorias.  Em contrapartida, os motores de busca não se organizam consoante o método retro enunciado. Em seu lugar está a abrangência de conteúdo na sua base de dados, podendo-se alcançar bilhões de itens, os quais são localizáveis mediante busca através de palavras-chave.
  • 4. Introdução aos Buscadores  Monteiro (2009), em sua bibliografia, descreve a anatomia das máquinas de busca em três processos principais: Crawling Indexing Searching
  • 5. Introdução aos Buscadores  Primordialmente, o programa denominado crawler navega de forma autônoma através da internet, reunindo o maior número possível de páginas web, gerando, desta forma, uma base de dados e, por conseguinte, um índice, o qual será apresentado ao usuário por meio de uma interface amigável.
  • 6. Introdução aos Buscadores  Subsequentemente, a geração do índice (Indexing) associa as palavras presentes na página web ao endereço URL (Uniform Resouce Locator), gerando metadados que serão tratados de acordo com o algoritmo implementado no motor de busca. Conforme a Battelle (2006), o índice representa uma enorme base de dados onde encontram-se informações importantes a respeito de diversos sites na Web.
  • 7. Introdução aos Buscadores  Por derradeiro, no Searching, é apresentado o “motor de busca propriamente dito” citado por Cendón (2001), ao qual a interface propicia ao usuário consultar de maneira intuitiva a base de dados indexada pelo software.  Nota-se que todo o processo, executado pela máquina de busca, está intimamente atrelado à maneira como o software foi arquitetado por seu desenvolvedor.
  • 8. Modelo e Problemática  Atualmente as ferramentas de busca são tratadas como deidades do ciberespaço, detentoras e difusoras de todo o conhecimento, em sua maioria oferecidos por grandes companhias como o Google, Yahoo e Microsoft. Cujos sistemas são essencialmente fechados, resultando em uma tecnologia de indexação e classificação deveras nebulosa aos usuários deste serviço.
  • 9. Modelo e Problemática  Ao utilizar buscadores privados, não se pode arguir quanta informação será censurada, bloqueada ou removida do resultado, ficando este à critério apenas da entidade detentora do software. Caso o detentor da página web queira indexá-la por meio de um mecanismo de busca, deverá aceitar as suas regras e termos de uso, assim como a sua insubordinação, acarretará em punições severas ao website em questão, ou seja, sua não indexação.
  • 10. Modelo e Problemática “Buscas efetuadas mediante mecanismos privados são, fundamentalmente, tendenciosas, seja por políticas organizacionais, privilégios a patrocinadores do serviço ou determinações judiciais”
  • 11. YaCy, Search Engine  O sistema de busca distribuído YaCy é um software gratuito no qual o rastreamento, indexação e classificação do conteúdo é completamente transparente ao usuário, possibilitando à este, conhecer e modificar todo o processo de pesquisa, evitando, assim, alguns dos principais problemas na utilização de soluções corporativas, como a censura do conteúdo e o armazenamento de informações pessoais.
  • 12. YaCy, Search Engine  Para os desenvolvedores do projeto (YaCy, 2011), este software possui como diferencial a utilização de um modelo baseado na tecnologia par-a-par (P2P) para transferência de arquivos.  Modelos de transmissão fundamentados na tecnologia de redes P2P proporcionam uma capacidade híbrida, em que cada nó (usuário) poderá atuar tanto como cliente, quanto como servidor.
  • 13. YaCy, Search Engine É notável a semelhança entre a arquitetura citada e o rizoma de Deleuze.
  • 14. YaCy, Search Engine  O YaCy foi o software escolhido para a implantação do servidor de busca por apresentar algumas características que viabilizam sua execução, tais como ser aberto, gratuito e não oferecer censura ao índice compartilhado.
  • 15. YaCy, Search Engine  Trata-se de um mecanismo de busca com a funcionalidade de crawler, o que proporciona a capacidade de obter todas as páginas web publicadas pela revista apontada.  Entretanto, para que essa função trabalhe de maneira apropriada são necessárias configurações específicas no software.
  • 16. YaCy, Search Engine  Para usufruir dos benefícios do software são necessárias algumas configurações, conforme descrito a seguir.  Inicialmente é necessário escolher o perfil de operação do software
  • 17. YaCy, Search Engine  O propósito de uso do software é fator determinante nessa escolha, que apresenta 3 opções principais de funcionamento, conforme segue:  Community-based web search: insere o servidor YaCy recém criado em uma rede global livre de censura denominada freeworld, replicando seu índice e disponibilizando-o para consultas futuras;  Search portal for your own web pages: apresenta em sua base de dados apenas conteúdo indexado pelo usuário, cujo funcionamento ocorre de maneira independente à rede de busca global (freeworld). É comumente utilizado na criação de portais de busca orientados por assunto;  Intranet Indexing: empregado na concepção de buscadores para intranet, pode trabalhar de maneira integrada com servidores de troca de arquivo, o que beneficia organizações que possuam grande quantidade de documentos dispostos de maneira não estruturada.
  • 18. YaCy, Search Engine  Admite-se também a possibilidade de modificar a ordem dos resultados buscados, conferindo ênfase diferenciada às palavras com ocorrência em trechos distintos de um documento.  A figura ao lado, apresenta o sistema de ranking, no qual é possível observar uma atribuição numérica em seus campos. Cada opção possui influência direta na ordenação do resultado pesquisado.
  • 19. Apache Solr  Solr é um projeto Open Source de um servidor de buscas de alta performance do projeto Apache Lucene. É desenvolvido em Java e utiliza o Lucene Core como base para indexação e busca, além de fornecer APIs baseadas em REST o que lhe permite ser integrado a praticamente qualquer linguagem de programação.
  • 21. Apache Solr  Buscas podem ser executadas através de query’s XML através do próprio YaCy.  Essa Opção pode ser acessada na aba “Solr Default Core”
  • 22. Apache Solr  Como padrão a seguinte consulta é apresentada:
  • 23. Apache Solr  Consultas podem ser executadas através de código XML não sendo necessário o conhecimento da linguagem SQL.
  • 25. Configuração Inicial Afim de possibilitar a Indexação de qualquer website sem a influência da rede global “freeworld”, a opção “Search portal for your own web pages” deve ser escolhida.
  • 26. Configuração Inicial 1- É possível iniciar o crawling ao clicar sobre a opção “Crawler / Harvester” 2- A caixa de texto “Start URL” deve ser preenchida com o endereço do website que pretende-se indexar 3- O processo será iniciado através do botão “Start New Crawl”
  • 27. Crawling É possível acompanhar o processo de crawling através da aba “Creation Monitor”
  • 28. Buscador de Código Aberto Após o término do processo de varredura e indexação, o recurso de busca se torna operacional, possibilitando a procura de termos através da aba “Web Search”
  • 29. Ranking O processo de busca é influenciado por um algoritmo de “Ranking”. Ao modificar os valores apresentados na figura, pode- se enfatizar características distintas de busca.
  • 30. Solr Filter Query Em quantos documentos (páginas web) a palavra “julio” aparece no site http://juliodellaflora.wordpress.c om ? R: q=julio numFound=“157”
  • 31. Solr Filter Query Em quantos documentos (páginas web) a palavra “julio” aparece no site http://juliodellaflora.wordpress.c om em 2011? R: q=julio&fq=sku:*/2011/* numFound=“13”
  • 32. Solr Filter Query Em quantos documentos (páginas web) a palavra “segurança” aparece apenas no título do documento? R: q=title:segurança numFound=“17”
  • 33. Solr Filter Query Filtrando apenas o corpo do texto nos documentos mostre na tela: titulo, corpo do texto, frequência que o termo “segurança” aparece em cada documento (apenas no corpo) e URL do documento. R: q=*:*&fq=text_t:segurança&fl=title,text_t,termfreq(text_t,segurança),sku