SlideShare uma empresa Scribd logo
Arquivo Invertido
Vanessa Levati Biff
UNIVERSIDADE FEDERAL DE SANTA CATARINA
Departamento de Ciência da Informação
Programa de Pós-Graduação em Ciência da Informação
Disciplina: Recuperação Inteligente da Informação
Profº: Dr. Angel Godoy Vieira
Abril, 2016
ARQUIVO INVERTIDO
Arquivo invertido
É um mecanismo que utiliza palavras para indexar uma coleção
de documentos, a fim de facilitar a tarefa de busca.
A estrutura de um arquivo invertido é composta por dois
elementos vocabulário e ocorrências.
(BAEZA-YATES; RIBEIRO-NETO,
1999)
Arquivo invertido
Vocabulário
É o conjunto de todos os termos de uma coleção.
Ocorrências
Lista de endereçamento que contém a relação de documentos os
quais o determinado termo aparece.
(BAEZA-YATES; RIBEIRO-NETO,
1999)
Arquivo invertido
vocabulário Ocorrências
Além de armazenar o docID, cada ocorrência pode armazenar
outras informações que dependem do modelo de RI e do tipo de
consulta permitida pelo sistema.
- Frequência: nº de ocorrências do termo no documento.
- Exata posição do termo do documento: para uso de
algoritmos que calculem a relevância dos resultados
utilizando a proximidade de palavras, consultas por
frase.
Arquivo invertido
Arquivo invertido básico | Frequência do termo
(BAEZA-YATES; RIBEIRO-NETO,
1999)
Não é adequado para responder a perguntas de frase
e de proximidade. Por isso, precisamos adicionar as
posições de cada palavra em cada documento.
Arquivo invertido completo | + Posição do termo
Exige muito mais espaço de armazenamento.
1 2 3 4 5
6 7 8 9 10
1 2 3 4 5 6
6 7 8 9 10
(BAEZA-YATES; RIBEIRO-NETO,
1999)
Construção de
Arquivo Invertido
Arquivo invertido | Construção
Depende de algumas restrições de hardware.
- O acesso dos dados na memória é muito mais rápido do que
o acesso aos dados no disco.
- Consequentemente é desejável que se mantenha o máximo de
dados possível em memória, especialmente os mais
acessado.
(MANNING; RAGHAVAN; SCHUTZE, 2008)
Arquivo invertido | Construção
- Índices não posicionais que possuem pares (termID,
docID).
- Índices posicionais que possuem triplas (termID, docID,
(position1, position2,...))
Os métodos de construção aqui discutidos levaram em
consideração índices não posicionais, mas podem ser
aplicados aos índices posicionais, a única diferença é que
as estruturas de dados intermediárias são maiores.
(MANNING; RAGHAVAN; SCHUTZE, 2008)
Arquivo invertido | Construção
1. Coleção de documentos
Arquivo invertido | Construção
2. Pré-processamento dos documentos e determinação das
ocorrências
Arquivo invertido | Construção
3. Ordenar o vocabulário em ordem alfabética
Arquivo invertido | Construção
4. Unir as ocorrências repetidas de palavras
Arquivo invertido | Construção | Métodos
- Baseado em ordenação por blocos (BSBI) Blocked sort-based indexing
- Baseado em memória (SPIMI) Single-pass in-memory indexing
- Distribuída
- Dinâmica
(MANNING; RAGHAVAN; SCHUTZE, 2008)
Arquivo invertido | Construção | Baseado em ordenação
Analisa os documentos em pares (temID, docID) até que um
bloco esteja cheio, em seguida classifica e armazena na
memória. Posteriormente, mescla todos os blocos em um índice
final.
Arquivo invertido | Construção | Baseado em ordenação
É necessário uma estrutura de dados para fazer o mapeamento
termID-docID.
Para grandes coleções esta estrutura não é comportada pela
memória principal.
Método é considerado o melhor para coleções de tamanho
moderado.
(MANNING; RAGHAVAN; SCHUTZE, 2008)
Arquivo invertido | Construção | Baseada em memória
Adiciona o endereçamento diretamente na lista de
ocorrências, ao invés de buscar todos os pares de termID-
docID e depois ordená-los como faz o BSBI.
Arquivo invertido | Construção | Distribuída
Algumas coleções são tão grandes que não podemos realizar a
construção de um índice de forma eficiente em uma única
máquina.
O processo é dividido entre várias máquinas.
(MANNING; RAGHAVAN; SCHUTZE, 2008)
Arquivo invertido | Construção | Distribuída
Ocorre dois conjuntos de tarefas paralelas:
Pré-processadores (parsers)
Indexadores (inverters)
Lê os documentos e gera os pares (termo, doc ID)
Gravam os pares em n partições de termos
Cada partição representa uma faixa alfabética
Coletam pares (termo, docID) para uma determinada
partição.
Ordena a lista em seguida grava o resultado.
Arquivo invertido | Construção | Distribuída
(MANNING; RAGHAVAN; SCHUTZE, 2008)
Arquivo invertido | Construção | Dinâmica
Nas coleções dinâmicas, os vocabulários e as ocorrências
precisam ser constantemente atualizados.
Um caminho simples para alcançar isto, é periodicamente
reconstruir o índice a partir do zero.
Se houver a exigência de que novos documentos sejam
incluídos rapidamente, uma solução é manter dois índices: um
índice principal maior e um pequeno índice auxiliar que
armazena os novos documentos.
Arquivo invertido | Construção | Dinâmica
O índice auxiliar é mantido em memória. As buscas são
executadas em ambos os índices e seus resultados são
mesclados.
Cada vez que o índice auxiliar se torna muito grande, ele é
mesclado com o índice principal.
(MANNING; RAGHAVAN; SCHUTZE, 2008)
Referências
Kyar Nyo Aye, Ni Lar Thein. Efficient Indexing and Searching Framework for Unstructured
Data. Fourth International Conference on Machine Vision (ICMV 2011): Machine Vision, Image
Processing, and Pattern Analysis, edited by Zhu Zeng, Yuting Li, Proc. of SPIE Vol. 8349,
83493F , 2012. doi: 10.1117/12.921130
MANNING, C.D.; RAGHAVAN, P.; SCHUTZE, H. Chapter 4. Index construction. In: An introduction
to information retrieval. Cambridge: Cambridge University Press, 2008, p.61-77.
BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Chapter 8 Indexing and Searching. In: Modern
Information Retrieval. New York: Addison Wesley, 1999. p.191-199

Mais conteúdo relacionado

Mais procurados

E-Procurement & Supply Chain Management
E-Procurement & Supply Chain ManagementE-Procurement & Supply Chain Management
E-Procurement & Supply Chain Management
Thiago Andress
 
Os Desafios da Preservação de Documentos Digitais
Os Desafios da Preservação de Documentos DigitaisOs Desafios da Preservação de Documentos Digitais
Os Desafios da Preservação de Documentos Digitais
Cariniana Rede
 
Sistemas de recuperação de informação
Sistemas de recuperação de informação Sistemas de recuperação de informação
Sistemas de recuperação de informação
Célia Dias
 
Metadados: dados a respeito de dados
Metadados: dados a respeito de dadosMetadados: dados a respeito de dados
Metadados: dados a respeito de dados
Miguel Angel Mardero Arellano
 
A Preservação de Repositórios Digitais dentro do Modelo OAIS
A Preservação de Repositórios Digitais dentro do Modelo OAISA Preservação de Repositórios Digitais dentro do Modelo OAIS
A Preservação de Repositórios Digitais dentro do Modelo OAIS
Cariniana Rede
 
Logística Empresarial - Introdução
Logística Empresarial - IntroduçãoLogística Empresarial - Introdução
Logística Empresarial - Introdução
WeNova Consulting
 
Scm Gerenciamento cadeia de suprimentos
Scm Gerenciamento cadeia de suprimentos Scm Gerenciamento cadeia de suprimentos
Scm Gerenciamento cadeia de suprimentos
Alejandra Flechas
 
Gestão da informação e do conhecimento em unidades e serviços de informação
Gestão da informação e do conhecimento em unidades e serviços de informaçãoGestão da informação e do conhecimento em unidades e serviços de informação
Gestão da informação e do conhecimento em unidades e serviços de informação
FEBAB
 
2 Desenvolvimento de coleções: política
2 Desenvolvimento de coleções: política2 Desenvolvimento de coleções: política
2 Desenvolvimento de coleções: política
Leticia Strehl
 
Como fazer Atacarejo no Comércio Eletrônico.
Como fazer Atacarejo no Comércio Eletrônico. Como fazer Atacarejo no Comércio Eletrônico.
Como fazer Atacarejo no Comércio Eletrônico.
Ricardo Jordão Magalhaes
 
Warehouse Optimisation
Warehouse OptimisationWarehouse Optimisation
Repositórios Digitais Confiáveis
Repositórios Digitais ConfiáveisRepositórios Digitais Confiáveis
Repositórios Digitais Confiáveis
Miguel Angel Mardero Arellano
 
Interoperabilidade de Documentos Arquivísticos: dos Sistemas de Negócio ao SI...
Interoperabilidade de Documentos Arquivísticos: dos Sistemas de Negócio ao SI...Interoperabilidade de Documentos Arquivísticos: dos Sistemas de Negócio ao SI...
Interoperabilidade de Documentos Arquivísticos: dos Sistemas de Negócio ao SI...
Daniel Flores
 
Custos de Manutenção de Estoques
Custos de Manutenção de EstoquesCustos de Manutenção de Estoques
Custos de Manutenção de Estoques
vjoao
 
Interoperability
InteroperabilityInteroperability
Interoperability
sudhakar mandal
 
A questão de Referência - Denis Grogan
A questão de Referência - Denis GroganA questão de Referência - Denis Grogan
A questão de Referência - Denis Grogan
Patricia Neubert
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentos
Marcos Pessoa
 
Ontologies and semantic web
Ontologies and semantic webOntologies and semantic web
Ontologies and semantic web
Stanley Wang
 
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
Daniel Ribeiro dos Santos
 
Achieving Excellence in End-to-End Supply Management
Achieving Excellence  in End-to-End Supply ManagementAchieving Excellence  in End-to-End Supply Management
Achieving Excellence in End-to-End Supply Management
mubarak2009
 

Mais procurados (20)

E-Procurement & Supply Chain Management
E-Procurement & Supply Chain ManagementE-Procurement & Supply Chain Management
E-Procurement & Supply Chain Management
 
Os Desafios da Preservação de Documentos Digitais
Os Desafios da Preservação de Documentos DigitaisOs Desafios da Preservação de Documentos Digitais
Os Desafios da Preservação de Documentos Digitais
 
Sistemas de recuperação de informação
Sistemas de recuperação de informação Sistemas de recuperação de informação
Sistemas de recuperação de informação
 
Metadados: dados a respeito de dados
Metadados: dados a respeito de dadosMetadados: dados a respeito de dados
Metadados: dados a respeito de dados
 
A Preservação de Repositórios Digitais dentro do Modelo OAIS
A Preservação de Repositórios Digitais dentro do Modelo OAISA Preservação de Repositórios Digitais dentro do Modelo OAIS
A Preservação de Repositórios Digitais dentro do Modelo OAIS
 
Logística Empresarial - Introdução
Logística Empresarial - IntroduçãoLogística Empresarial - Introdução
Logística Empresarial - Introdução
 
Scm Gerenciamento cadeia de suprimentos
Scm Gerenciamento cadeia de suprimentos Scm Gerenciamento cadeia de suprimentos
Scm Gerenciamento cadeia de suprimentos
 
Gestão da informação e do conhecimento em unidades e serviços de informação
Gestão da informação e do conhecimento em unidades e serviços de informaçãoGestão da informação e do conhecimento em unidades e serviços de informação
Gestão da informação e do conhecimento em unidades e serviços de informação
 
2 Desenvolvimento de coleções: política
2 Desenvolvimento de coleções: política2 Desenvolvimento de coleções: política
2 Desenvolvimento de coleções: política
 
Como fazer Atacarejo no Comércio Eletrônico.
Como fazer Atacarejo no Comércio Eletrônico. Como fazer Atacarejo no Comércio Eletrônico.
Como fazer Atacarejo no Comércio Eletrônico.
 
Warehouse Optimisation
Warehouse OptimisationWarehouse Optimisation
Warehouse Optimisation
 
Repositórios Digitais Confiáveis
Repositórios Digitais ConfiáveisRepositórios Digitais Confiáveis
Repositórios Digitais Confiáveis
 
Interoperabilidade de Documentos Arquivísticos: dos Sistemas de Negócio ao SI...
Interoperabilidade de Documentos Arquivísticos: dos Sistemas de Negócio ao SI...Interoperabilidade de Documentos Arquivísticos: dos Sistemas de Negócio ao SI...
Interoperabilidade de Documentos Arquivísticos: dos Sistemas de Negócio ao SI...
 
Custos de Manutenção de Estoques
Custos de Manutenção de EstoquesCustos de Manutenção de Estoques
Custos de Manutenção de Estoques
 
Interoperability
InteroperabilityInteroperability
Interoperability
 
A questão de Referência - Denis Grogan
A questão de Referência - Denis GroganA questão de Referência - Denis Grogan
A questão de Referência - Denis Grogan
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentos
 
Ontologies and semantic web
Ontologies and semantic webOntologies and semantic web
Ontologies and semantic web
 
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
 
Achieving Excellence in End-to-End Supply Management
Achieving Excellence  in End-to-End Supply ManagementAchieving Excellence  in End-to-End Supply Management
Achieving Excellence in End-to-End Supply Management
 

Destaque

Desenvolvimento de coleções em centro de documentação: um relato de experiên...
Desenvolvimento de coleções em centro de documentação: um relato de experiên...Desenvolvimento de coleções em centro de documentação: um relato de experiên...
Desenvolvimento de coleções em centro de documentação: um relato de experiên...
Vanessa Biff
 
Recuperação colaborativa da informação
Recuperação colaborativa da informaçãoRecuperação colaborativa da informação
Recuperação colaborativa da informação
Vanessa Biff
 
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto CamposOrganização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Vanessa Biff
 
Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011
Patricia Neubert
 
Apresentação angel
Apresentação angelApresentação angel
Apresentação angel
Patricia Neubert
 
Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informação
Vanessa Biff
 
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticosAula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticos
Filipe Reis
 
Soft information retrieval / Modelos de recuperação alternativos
Soft information retrieval / Modelos de recuperação alternativosSoft information retrieval / Modelos de recuperação alternativos
Soft information retrieval / Modelos de recuperação alternativos
Vanessa Biff
 
Análise dos Modelos de Recuperação de Informação
Análise dos Modelos de Recuperação de InformaçãoAnálise dos Modelos de Recuperação de Informação
Análise dos Modelos de Recuperação de Informação
Diogo Benicá
 
Aula 01 - Recuperação da Informação
Aula 01 - Recuperação da InformaçãoAula 01 - Recuperação da Informação
Aula 01 - Recuperação da Informação
Nilton Heck
 
Agentes inteligentes
Agentes inteligentesAgentes inteligentes
Agentes inteligentes
Vanessa Biff
 

Destaque (11)

Desenvolvimento de coleções em centro de documentação: um relato de experiên...
Desenvolvimento de coleções em centro de documentação: um relato de experiên...Desenvolvimento de coleções em centro de documentação: um relato de experiên...
Desenvolvimento de coleções em centro de documentação: um relato de experiên...
 
Recuperação colaborativa da informação
Recuperação colaborativa da informaçãoRecuperação colaborativa da informação
Recuperação colaborativa da informação
 
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto CamposOrganização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
Organização do acervo fotográfico da biblioteca escolar Sebastião Neto Campos
 
Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011Seminário paty joana aula 12-25-05-2011
Seminário paty joana aula 12-25-05-2011
 
Apresentação angel
Apresentação angelApresentação angel
Apresentação angel
 
Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informação
 
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticosAula 2   Recuperação de Informação: operadores booleanos e aspectos linguísticos
Aula 2 Recuperação de Informação: operadores booleanos e aspectos linguísticos
 
Soft information retrieval / Modelos de recuperação alternativos
Soft information retrieval / Modelos de recuperação alternativosSoft information retrieval / Modelos de recuperação alternativos
Soft information retrieval / Modelos de recuperação alternativos
 
Análise dos Modelos de Recuperação de Informação
Análise dos Modelos de Recuperação de InformaçãoAnálise dos Modelos de Recuperação de Informação
Análise dos Modelos de Recuperação de Informação
 
Aula 01 - Recuperação da Informação
Aula 01 - Recuperação da InformaçãoAula 01 - Recuperação da Informação
Aula 01 - Recuperação da Informação
 
Agentes inteligentes
Agentes inteligentesAgentes inteligentes
Agentes inteligentes
 

Semelhante a Arquivo invertido

Bases de Dados, Metadados e Formatos de intercâmbio de dados
Bases de Dados, Metadados e Formatos de intercâmbio de dadosBases de Dados, Metadados e Formatos de intercâmbio de dados
Bases de Dados, Metadados e Formatos de intercâmbio de dados
Priscyla Patrício
 
Registros - Pascal
Registros - PascalRegistros - Pascal
Registros - Pascal
Jessica Ribeiro
 
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
Ana Carolina Simionato
 
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfAPOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
LinaKelly2
 
Construção de Índices
Construção de ÍndicesConstrução de Índices
Construção de Índices
Alexandre Duarte
 
1. Introdução a Sistemas de BD
1. Introdução a Sistemas de BD 1. Introdução a Sistemas de BD
1. Introdução a Sistemas de BD
Marília Mendes
 
Arquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicosArquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicos
Ana Carolina Simionato
 
Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...
Oficina 1  Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...Oficina 1  Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...
Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...
Conferência Luso-Brasileira de Ciência Aberta
 
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosBanco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
João Helis Bernardo
 
Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacao
cibeleac
 
Sgf
SgfSgf
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Bianca Santana
 
Repositorios
RepositoriosRepositorios
Repositorios
denilsonmello
 
Repositorios
RepositoriosRepositorios
Repositorios
denilsonmello
 
Data RepositóriUM - repositório de dados da Universidade do Minho
Data RepositóriUM - repositório de dados da Universidade do Minho Data RepositóriUM - repositório de dados da Universidade do Minho
Data RepositóriUM - repositório de dados da Universidade do Minho
Pedro Príncipe
 
Seminário de Andamento de Doutorado
Seminário de Andamento de DoutoradoSeminário de Andamento de Doutorado
Seminário de Andamento de Doutorado
Luiz Henrique Zambom Santana
 
Pesquisa sobre no sql
Pesquisa sobre no sqlPesquisa sobre no sql
Pesquisa sobre no sql
Jéssica Nathany Carvalho Freitas
 
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Joel S. Coleti
 
Introdução BD
Introdução BDIntrodução BD
Introdução BD
Jairo Duarte
 
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
Henrique Machado Santos
 

Semelhante a Arquivo invertido (20)

Bases de Dados, Metadados e Formatos de intercâmbio de dados
Bases de Dados, Metadados e Formatos de intercâmbio de dadosBases de Dados, Metadados e Formatos de intercâmbio de dados
Bases de Dados, Metadados e Formatos de intercâmbio de dados
 
Registros - Pascal
Registros - PascalRegistros - Pascal
Registros - Pascal
 
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
 
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdfAPOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
APOSTILA 1 _ ADMINISTRADOR DE BANCO DE DADOS (1).pdf
 
Construção de Índices
Construção de ÍndicesConstrução de Índices
Construção de Índices
 
1. Introdução a Sistemas de BD
1. Introdução a Sistemas de BD 1. Introdução a Sistemas de BD
1. Introdução a Sistemas de BD
 
Arquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicosArquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicos
 
Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...
Oficina 1  Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...Oficina 1  Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...
Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...
 
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas DistribuídosBanco de Dados NoSQL - Disciplina: Sistemas Distribuídos
Banco de Dados NoSQL - Disciplina: Sistemas Distribuídos
 
Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacao
 
Sgf
SgfSgf
Sgf
 
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
 
Repositorios
RepositoriosRepositorios
Repositorios
 
Repositorios
RepositoriosRepositorios
Repositorios
 
Data RepositóriUM - repositório de dados da Universidade do Minho
Data RepositóriUM - repositório de dados da Universidade do Minho Data RepositóriUM - repositório de dados da Universidade do Minho
Data RepositóriUM - repositório de dados da Universidade do Minho
 
Seminário de Andamento de Doutorado
Seminário de Andamento de DoutoradoSeminário de Andamento de Doutorado
Seminário de Andamento de Doutorado
 
Pesquisa sobre no sql
Pesquisa sobre no sqlPesquisa sobre no sql
Pesquisa sobre no sql
 
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
 
Introdução BD
Introdução BDIntrodução BD
Introdução BD
 
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
INTRODUÇÃO AOS CONCEITOS BÁSICOS DO MODELO OPEN ARCHIVAL INFORMATION SYSTEM N...
 

Mais de Vanessa Biff

O Pensamento pedagógico Renascentista ao Positivista
O Pensamento pedagógico Renascentista ao PositivistaO Pensamento pedagógico Renascentista ao Positivista
O Pensamento pedagógico Renascentista ao Positivista
Vanessa Biff
 
O papel da biblioteca escolar na formação de leitores
O papel da biblioteca escolar na formação de leitoresO papel da biblioteca escolar na formação de leitores
O papel da biblioteca escolar na formação de leitores
Vanessa Biff
 
Relações entre leitura, letramento, identidade e o papel da biblioteca escolar
Relações entre leitura, letramento, identidade  e o papel da biblioteca escolarRelações entre leitura, letramento, identidade  e o papel da biblioteca escolar
Relações entre leitura, letramento, identidade e o papel da biblioteca escolar
Vanessa Biff
 
Letramento informacional em bibliotecas públicas
Letramento informacional em bibliotecas públicasLetramento informacional em bibliotecas públicas
Letramento informacional em bibliotecas públicas
Vanessa Biff
 
Marxismo e filosofia da linguagem
Marxismo e filosofia da linguagemMarxismo e filosofia da linguagem
Marxismo e filosofia da linguagem
Vanessa Biff
 
Apresentação defesa de mestrado
Apresentação defesa de mestradoApresentação defesa de mestrado
Apresentação defesa de mestrado
Vanessa Biff
 
A Experiência do CEDRIC na gestão documental do CTCL
A Experiência do CEDRIC na gestão documental do CTCLA Experiência do CEDRIC na gestão documental do CTCL
A Experiência do CEDRIC na gestão documental do CTCL
Vanessa Biff
 

Mais de Vanessa Biff (7)

O Pensamento pedagógico Renascentista ao Positivista
O Pensamento pedagógico Renascentista ao PositivistaO Pensamento pedagógico Renascentista ao Positivista
O Pensamento pedagógico Renascentista ao Positivista
 
O papel da biblioteca escolar na formação de leitores
O papel da biblioteca escolar na formação de leitoresO papel da biblioteca escolar na formação de leitores
O papel da biblioteca escolar na formação de leitores
 
Relações entre leitura, letramento, identidade e o papel da biblioteca escolar
Relações entre leitura, letramento, identidade  e o papel da biblioteca escolarRelações entre leitura, letramento, identidade  e o papel da biblioteca escolar
Relações entre leitura, letramento, identidade e o papel da biblioteca escolar
 
Letramento informacional em bibliotecas públicas
Letramento informacional em bibliotecas públicasLetramento informacional em bibliotecas públicas
Letramento informacional em bibliotecas públicas
 
Marxismo e filosofia da linguagem
Marxismo e filosofia da linguagemMarxismo e filosofia da linguagem
Marxismo e filosofia da linguagem
 
Apresentação defesa de mestrado
Apresentação defesa de mestradoApresentação defesa de mestrado
Apresentação defesa de mestrado
 
A Experiência do CEDRIC na gestão documental do CTCL
A Experiência do CEDRIC na gestão documental do CTCLA Experiência do CEDRIC na gestão documental do CTCL
A Experiência do CEDRIC na gestão documental do CTCL
 

Último

Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
Danilo Pinotti
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
Momento da Informática
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
TomasSousa7
 
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdfEscola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Gabriel de Mattos Faustino
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
Faga1939
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
joaovmp3
 
Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
WELITONNOGUEIRA3
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
Momento da Informática
 

Último (8)

Segurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas PráticasSegurança Digital Pessoal e Boas Práticas
Segurança Digital Pessoal e Boas Práticas
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
 
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdfEscola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
Escola Virtual - Fundação Bradesco - ITIL - Gabriel Faustino.pdf
 
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
 
Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
 

Arquivo invertido

  • 1. Arquivo Invertido Vanessa Levati Biff UNIVERSIDADE FEDERAL DE SANTA CATARINA Departamento de Ciência da Informação Programa de Pós-Graduação em Ciência da Informação Disciplina: Recuperação Inteligente da Informação Profº: Dr. Angel Godoy Vieira Abril, 2016
  • 3. Arquivo invertido É um mecanismo que utiliza palavras para indexar uma coleção de documentos, a fim de facilitar a tarefa de busca. A estrutura de um arquivo invertido é composta por dois elementos vocabulário e ocorrências. (BAEZA-YATES; RIBEIRO-NETO, 1999)
  • 4. Arquivo invertido Vocabulário É o conjunto de todos os termos de uma coleção. Ocorrências Lista de endereçamento que contém a relação de documentos os quais o determinado termo aparece. (BAEZA-YATES; RIBEIRO-NETO, 1999)
  • 6. Além de armazenar o docID, cada ocorrência pode armazenar outras informações que dependem do modelo de RI e do tipo de consulta permitida pelo sistema. - Frequência: nº de ocorrências do termo no documento. - Exata posição do termo do documento: para uso de algoritmos que calculem a relevância dos resultados utilizando a proximidade de palavras, consultas por frase. Arquivo invertido
  • 7. Arquivo invertido básico | Frequência do termo (BAEZA-YATES; RIBEIRO-NETO, 1999) Não é adequado para responder a perguntas de frase e de proximidade. Por isso, precisamos adicionar as posições de cada palavra em cada documento.
  • 8. Arquivo invertido completo | + Posição do termo Exige muito mais espaço de armazenamento. 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 6 7 8 9 10 (BAEZA-YATES; RIBEIRO-NETO, 1999)
  • 10. Arquivo invertido | Construção Depende de algumas restrições de hardware. - O acesso dos dados na memória é muito mais rápido do que o acesso aos dados no disco. - Consequentemente é desejável que se mantenha o máximo de dados possível em memória, especialmente os mais acessado. (MANNING; RAGHAVAN; SCHUTZE, 2008)
  • 11. Arquivo invertido | Construção - Índices não posicionais que possuem pares (termID, docID). - Índices posicionais que possuem triplas (termID, docID, (position1, position2,...)) Os métodos de construção aqui discutidos levaram em consideração índices não posicionais, mas podem ser aplicados aos índices posicionais, a única diferença é que as estruturas de dados intermediárias são maiores. (MANNING; RAGHAVAN; SCHUTZE, 2008)
  • 12. Arquivo invertido | Construção 1. Coleção de documentos
  • 13. Arquivo invertido | Construção 2. Pré-processamento dos documentos e determinação das ocorrências
  • 14. Arquivo invertido | Construção 3. Ordenar o vocabulário em ordem alfabética
  • 15. Arquivo invertido | Construção 4. Unir as ocorrências repetidas de palavras
  • 16. Arquivo invertido | Construção | Métodos - Baseado em ordenação por blocos (BSBI) Blocked sort-based indexing - Baseado em memória (SPIMI) Single-pass in-memory indexing - Distribuída - Dinâmica (MANNING; RAGHAVAN; SCHUTZE, 2008)
  • 17. Arquivo invertido | Construção | Baseado em ordenação Analisa os documentos em pares (temID, docID) até que um bloco esteja cheio, em seguida classifica e armazena na memória. Posteriormente, mescla todos os blocos em um índice final.
  • 18. Arquivo invertido | Construção | Baseado em ordenação É necessário uma estrutura de dados para fazer o mapeamento termID-docID. Para grandes coleções esta estrutura não é comportada pela memória principal. Método é considerado o melhor para coleções de tamanho moderado. (MANNING; RAGHAVAN; SCHUTZE, 2008)
  • 19. Arquivo invertido | Construção | Baseada em memória Adiciona o endereçamento diretamente na lista de ocorrências, ao invés de buscar todos os pares de termID- docID e depois ordená-los como faz o BSBI.
  • 20. Arquivo invertido | Construção | Distribuída Algumas coleções são tão grandes que não podemos realizar a construção de um índice de forma eficiente em uma única máquina. O processo é dividido entre várias máquinas. (MANNING; RAGHAVAN; SCHUTZE, 2008)
  • 21. Arquivo invertido | Construção | Distribuída Ocorre dois conjuntos de tarefas paralelas: Pré-processadores (parsers) Indexadores (inverters) Lê os documentos e gera os pares (termo, doc ID) Gravam os pares em n partições de termos Cada partição representa uma faixa alfabética Coletam pares (termo, docID) para uma determinada partição. Ordena a lista em seguida grava o resultado.
  • 22. Arquivo invertido | Construção | Distribuída (MANNING; RAGHAVAN; SCHUTZE, 2008)
  • 23. Arquivo invertido | Construção | Dinâmica Nas coleções dinâmicas, os vocabulários e as ocorrências precisam ser constantemente atualizados. Um caminho simples para alcançar isto, é periodicamente reconstruir o índice a partir do zero. Se houver a exigência de que novos documentos sejam incluídos rapidamente, uma solução é manter dois índices: um índice principal maior e um pequeno índice auxiliar que armazena os novos documentos.
  • 24. Arquivo invertido | Construção | Dinâmica O índice auxiliar é mantido em memória. As buscas são executadas em ambos os índices e seus resultados são mesclados. Cada vez que o índice auxiliar se torna muito grande, ele é mesclado com o índice principal. (MANNING; RAGHAVAN; SCHUTZE, 2008)
  • 25. Referências Kyar Nyo Aye, Ni Lar Thein. Efficient Indexing and Searching Framework for Unstructured Data. Fourth International Conference on Machine Vision (ICMV 2011): Machine Vision, Image Processing, and Pattern Analysis, edited by Zhu Zeng, Yuting Li, Proc. of SPIE Vol. 8349, 83493F , 2012. doi: 10.1117/12.921130 MANNING, C.D.; RAGHAVAN, P.; SCHUTZE, H. Chapter 4. Index construction. In: An introduction to information retrieval. Cambridge: Cambridge University Press, 2008, p.61-77. BAEZA-YATES, Ricardo; RIBEIRO-NETO, Berthier. Chapter 8 Indexing and Searching. In: Modern Information Retrieval. New York: Addison Wesley, 1999. p.191-199