Information Retrieval
Recuperação de informação na Web
Conteúdos
• Criador
• Definição
• Archie (Fundador)
• Mediador
• Pesquisando
• IRS – [Information Retrieval Systems] (Dificuldades)
• Auxilio do Tesauro
• OPAC – [On-Line Public Access Catalog]
• Servidores
• Código Fonte do IRS em Python
• Referência
Criador
Em 1951, Calvin Mooers criou o termo “Information Retrieval”
(Recuperação de Informação) e definiu os problemas a serem abordados por
esta nova disciplina.
Definição
Identificar, em um conjunto de documentos (corpus), quais atendem à
necessidade de informação do usuário. O usuário interessado em recuperar
“informação” sobre um determinado assunto e não em recuperar registros de
dados que não satisfazem sua expressão de busca, nem tampouco documentos,
embora seja nestes que a informação estará registrada.
Essa característica é o que diferencia os sistemas de recuperação de informação
dos sistemas gerenciadores de bancos de dados.
Archie (Fundador)
A primeira ferramenta para conteúdos na WWW foi o Archie. O Archie usava
uma base de dados que incluía todos os arquivos localizados em sites públicos
de FTP (File Transfer Protocol) anónimos, permitindo desta forma a pesquisa
por nome de arquivo. Foi criado em 1990 por um aluno na McGill University,
Alan Emtage. O seu nome teve origem na palavra Archive. Nesta fase, o
Archie não era um motor de busca em toda a ascensão da palavra, mas terá sido
o pai de todos eles.
Mediador
Um sistema de recuperação de informação é um ambiente linguístico mediador
da comunicação entre um estoque de informação e os seus requisitantes.
Sua eficiência depende de um controle adequado da linguagem de
representação dos itens de informação e das buscas dos usuários.
Por meio de uma expressão de busca (consulta) o usuário comunica a sua
necessidade de informação e obtém como resultado um conjunto de
documentos que possivelmente irão satisfazer tal necessidade.
Pesquisando
Começa quando um usuário insere uma consulta no sistema. As consultas são
declarações formais de necessidade de informação , por exemplo, motores. Em
recuperação de informação a consulta não identificar um único objeto na
coleção. Em vez disso, vários objetos podem corresponder a consulta, talvez com
diferentes graus de relevância.
Ao contrário de consultas SQL clássicas de um banco de dados, em recuperação
de informação os resultados retornados podem ou não coincidir com a consulta,
por isso os resultados são normalmente classificados. Este ranking dos resultados
é uma diferença fundamental de recuperação de busca de informações em
comparação com a pesquisa de banco de dados.
IRS – [Information Retrieval Systems] (Dificuldades)
Sistemas de Recuperação de Informação (IRS) têm dificuldades em recuperar a
informação relevante que atendam às necessidades informativas do seu usuários.
Neste contexto, o dicionário de sinônimos podem servir como uma ferramenta
que vai auxiliar na organização, representação e recuperação da informação.
Auxilio do Tesauro
Tesauro é uma linguagem especializada, normalizada, pós-coordenada, usada
com fins documentários, onde os elementos linguísticos que a compõem –
termos, simples ou compostos encontram-se relacionados entre si sintática e
semanticamente.
Um tesauro lista alfabeticamente descritores controlando sinônimos,
homógrafos e mostrando as relações entre eles.
No tesauro é importante a normalização dos termos para permitir a
coincidência entre o vocabulário de indexação e o de recuperação da
informação.
OPAC – [On-Line Public Access Catalog]
CATÁLOGO ON-LINE DE ACESSO PÚBLICO [OPAC] – É o termo
utilizado para designar programas que gerenciam a recuperação e manipulação
de informações em formato eletrônico. Os OPACs têm a tarefa de facilitar a
procura do usuário, garantindo maior velocidade e qualidade no acesso à
informação, proporcionando também acessibilidade à distância.
Servidores
• AMERICA ONLINE(Estados Unidos) - com 50 bases de dados sobre jogos, correio eletrônico, teleconferência, anúncios, finanças, noticíario ( TV, teatro
etc.)
• ARUANDA/SERPRO(Brasil) - com mais de 11 bases de dados sobre cadastros industriais, marcas e patentes.
• BIREME(Brasil) - com mais de quatro bases de dados sobre área médica.
• BRS Information Technologies(Nova Iorque) - com mais de 100 bases de dados sobre medicina, química, comércio, ciências sociais e humanidades.
• CENAGRI(Brasil) - com mais de cinco bases de dados sobre ciências agrícolas
• CIN/CNEN(Brasil) - com mais de oito bases de dados sobre energia nuclear, física, eletrônica e energia elétrica.
• COMPUSERVE(Estados Unidos) - com 80 bases de dados sobre finanças, telecompras, jogos, ciência e medicina.
• DATA-STAR(Suíça) - com mais de 250 bases de dados sobre comércio, ciências biomédicas, química, engenharia e notícias.
• DIALOG Information Retrieval Services(Palo Alto, Califórnia) - com 380 bases de dados, praticamente sobre todas as áreas.
• DIMDI(Alemanha) - com mais de cinco bases de dados sobre ciências biomédicas.
• Dow-Jones(Estados Unidos) - com mais de cinco bases de dados sobre comércio e apoio à investimentos.
• ECHO (Comunidade Européia) - com 30 bases de dados, praticamente sobre todas as áreas.
• European Space Agency's Information Retrieval Service(Frascati,Itália) - com mais de 130 bases de dados sobre ciência e tecnologia, comércio e
finanças, informações sobre empresas, saúde e segurança ocupacional, patentes e notícias.
• FGV(Brasil) - com duas bases de dados sobre dados econômicos-estatísticos, catálogo de livros e dados.
• IBICT(Brasil) - com seis bases de dados em ciência da informação, catálogo coletivo de periódicos, teses.
• JOIS(Japão) - com mais de 10 bases de dados sobre diversas áreas temáticas.
• ORBIT Search Service(Santa Mônica, Califórnia) - com mais de 100 bases de dados sobre informações científicas, técnicas e sobre patentes.
• Pergamon Financial Data Service(Londres) - com mais de 30 bases de dados sobre serviços destinados à comunidade comercial européia,
incluindo marketing e prospecção de vendas, finanças e proteção ao crédito e informações sobre empresas.
• PRODASEN(Brasil) - com mais de 12 bases de dados nas áreas de direito e jurisprudência.
• QUESTEL(França) - com mais de 60 bases de dados sobre patentes, química, marcas registradas, medicina, ciência e tecnologia, comércio e notícias.
• STN International(Alemanha) - com 132 bases de dados em ciência e tecnologia.
Servidores
Código Fonte do IRS em Python
print (' > Conexão estabelecida. Obtendo código HTML…)'
#Obtém o código HTML
HTML = con.read()
##Obtendo as informações
print (' > Filtrando informações...n')
#Valida a página buscando o padrão "cidade - estado", que só é exibido em páginas válidas
#EXEMPLO HTML: Barbacena - MG
if re.search(r'[A-Z][^-]+- [A-Z]{2}' , HTML) == None:
print ('Cidade inválida!n')
exit(1)
#Busca a condição climática, que é informada entre os fragmentos de tags %;"> e <
#EXEMPLO HTML: <div style="float:left; width:450px; height:100%;">Predomínio de sol, apenas com pouca variação de
nuvens</div>
status = re.search(r'%;">(.*?)<' , HTML)
#Obtém a data e a hora da última atualização
#EXEMPLO HTML: <p>Atualizado em: 14/09/2016 @ 20:30:00</p>
atualizado = re.search(r'Atualizado em: .*[0-9]' , HTML)
##Exibindo o resultado
Código Fonte do IRS em Python
Created on 7 de nov de 2016
@author: Hilquias'
import urllib2, re
import urllib2.URLError
site = 'http://tempoagora.uol.com.br/previsaodotempo.html/brasil/'
cidade = raw_input('Forneça o nome da cidade: ')
estado = raw_input('Forneça a sigla do estado: ')
#Remove os espaços que possam existir em um nome de cidade composto
cidade = cidade.replace(' ' , '')
#Aborta a execução caso a sigla do estado tenha mais de dois caracteres
if len(estado) != 2:
print ('nA sigla do estado deve ter duas letras!n')
exit(1)
#Estabelecendo a conexão:
#Formata a URL da cidade, garantindo que as siglas do estado serão maiúsculas
url = site + cidade + '-' + estado.upper()
print (' > Conectando-se a %s...' % url)
#Estabelece a conexão, com timeout de 5 segundos
Código Fonte do IRS em Python
print ( '*** CONDIÇÃO CLIMÁTICA EM %s - %s ***' % (cidade.upper() , estado.upper()))
print (status.group(1))
print (atualizado.group(0) , 'n')
if __name__ == '__main__':
urllib2(site, cidade, estado)
assert isinstance(raw_input, object)
print ("Tempo Agora!n")
site = 'http://tempoagora.uol.com.br/previsaodotempo.html/brasil/'
cidade = raw_input('Forneca o nome da cidade: ')
estado = raw_input('Forneca a sigla do estado: ')
try:
print (' > Conectando-se a %s...' % url)
con = urllib2.urlopen(url , None , 5)
print ' > Conexão estabelecida. Obtendo código HTML...'
HTML = con.read()
print '*** CONDIÇÃO CLIMÁTICA EM %s - %s ***' % (cidade.upper() , estado.upper())
print status.group(1)
print atualizado.group(0) , 'n'
except:
urllib2.URLError:
print ('> Falha na conexão!')
Referência
https://pt.wikipedia.org/wiki/Recupera%C3%A7%C3%A3o_de_informa%C3%A7%C3%A3o
https://www.marilia.unesp.br/Home/Instituicao/Docentes/EdbertoFerneda/mrip02-
recuperacaoinformacao.pdf
https://books.google.com.br/books?id=xBeO9LSlK7UC&pg=PA469&lpg=PA469&dq=o+que+%C3%A9
+retrieval&source=bl&ots=xaSFj-Dg6I&sig=rk7vh2-dofekILBUJ350C1B-OkY&hl=pt-
BR&sa=X&ved=0ahUKEwiqle6crJrQAhWMHJAKHTDpAv04ChDoAQhJMAg#v=onepage&q=o%20q
ue%20%C3%A9%20retrieval&f=false
https://en.wikipedia.org/wiki/Information_retrieval
periodicos.ufpb.br/index.php/biblio/article/download/9629/5238
http://www.ibict.br/publicacoes-e-institucionais/tesauro-brasileiro-de-ciencia-da-informacao-1
http://pt.slideshare.net/izalima733/tesauro-origem-evoluo-e-relaes
https://firebase.google.com/docs/database/server/retrieve-data?hl=pt-br
https://www2.senado.leg.br/bdsf/bitstream/handle/id/70270/Monografia_.pdf?sequence=5
http://ssti1-1112.wikidot.com/sistemas-de-recuperacao-de-informacao
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-19651997000100009
http://www.revistas.usp.br/incid/article/view/42374
http://pt.slideshare.net/Re_Biblio/slides-opac
Integrantes
Fábio Albino de Almeida
Guilherme Loss da Silva
Hilquias da Silva de Almeida
Osmar Noronha Júnior
Renato Luis Gomes Coutinho

Information retrieval

  • 1.
  • 2.
    Conteúdos • Criador • Definição •Archie (Fundador) • Mediador • Pesquisando • IRS – [Information Retrieval Systems] (Dificuldades) • Auxilio do Tesauro • OPAC – [On-Line Public Access Catalog] • Servidores • Código Fonte do IRS em Python • Referência
  • 3.
    Criador Em 1951, CalvinMooers criou o termo “Information Retrieval” (Recuperação de Informação) e definiu os problemas a serem abordados por esta nova disciplina.
  • 4.
    Definição Identificar, em umconjunto de documentos (corpus), quais atendem à necessidade de informação do usuário. O usuário interessado em recuperar “informação” sobre um determinado assunto e não em recuperar registros de dados que não satisfazem sua expressão de busca, nem tampouco documentos, embora seja nestes que a informação estará registrada. Essa característica é o que diferencia os sistemas de recuperação de informação dos sistemas gerenciadores de bancos de dados.
  • 5.
    Archie (Fundador) A primeiraferramenta para conteúdos na WWW foi o Archie. O Archie usava uma base de dados que incluía todos os arquivos localizados em sites públicos de FTP (File Transfer Protocol) anónimos, permitindo desta forma a pesquisa por nome de arquivo. Foi criado em 1990 por um aluno na McGill University, Alan Emtage. O seu nome teve origem na palavra Archive. Nesta fase, o Archie não era um motor de busca em toda a ascensão da palavra, mas terá sido o pai de todos eles.
  • 6.
    Mediador Um sistema derecuperação de informação é um ambiente linguístico mediador da comunicação entre um estoque de informação e os seus requisitantes. Sua eficiência depende de um controle adequado da linguagem de representação dos itens de informação e das buscas dos usuários. Por meio de uma expressão de busca (consulta) o usuário comunica a sua necessidade de informação e obtém como resultado um conjunto de documentos que possivelmente irão satisfazer tal necessidade.
  • 7.
    Pesquisando Começa quando umusuário insere uma consulta no sistema. As consultas são declarações formais de necessidade de informação , por exemplo, motores. Em recuperação de informação a consulta não identificar um único objeto na coleção. Em vez disso, vários objetos podem corresponder a consulta, talvez com diferentes graus de relevância. Ao contrário de consultas SQL clássicas de um banco de dados, em recuperação de informação os resultados retornados podem ou não coincidir com a consulta, por isso os resultados são normalmente classificados. Este ranking dos resultados é uma diferença fundamental de recuperação de busca de informações em comparação com a pesquisa de banco de dados.
  • 8.
    IRS – [InformationRetrieval Systems] (Dificuldades) Sistemas de Recuperação de Informação (IRS) têm dificuldades em recuperar a informação relevante que atendam às necessidades informativas do seu usuários. Neste contexto, o dicionário de sinônimos podem servir como uma ferramenta que vai auxiliar na organização, representação e recuperação da informação.
  • 9.
    Auxilio do Tesauro Tesauroé uma linguagem especializada, normalizada, pós-coordenada, usada com fins documentários, onde os elementos linguísticos que a compõem – termos, simples ou compostos encontram-se relacionados entre si sintática e semanticamente. Um tesauro lista alfabeticamente descritores controlando sinônimos, homógrafos e mostrando as relações entre eles. No tesauro é importante a normalização dos termos para permitir a coincidência entre o vocabulário de indexação e o de recuperação da informação.
  • 10.
    OPAC – [On-LinePublic Access Catalog] CATÁLOGO ON-LINE DE ACESSO PÚBLICO [OPAC] – É o termo utilizado para designar programas que gerenciam a recuperação e manipulação de informações em formato eletrônico. Os OPACs têm a tarefa de facilitar a procura do usuário, garantindo maior velocidade e qualidade no acesso à informação, proporcionando também acessibilidade à distância.
  • 11.
    Servidores • AMERICA ONLINE(EstadosUnidos) - com 50 bases de dados sobre jogos, correio eletrônico, teleconferência, anúncios, finanças, noticíario ( TV, teatro etc.) • ARUANDA/SERPRO(Brasil) - com mais de 11 bases de dados sobre cadastros industriais, marcas e patentes. • BIREME(Brasil) - com mais de quatro bases de dados sobre área médica. • BRS Information Technologies(Nova Iorque) - com mais de 100 bases de dados sobre medicina, química, comércio, ciências sociais e humanidades. • CENAGRI(Brasil) - com mais de cinco bases de dados sobre ciências agrícolas • CIN/CNEN(Brasil) - com mais de oito bases de dados sobre energia nuclear, física, eletrônica e energia elétrica. • COMPUSERVE(Estados Unidos) - com 80 bases de dados sobre finanças, telecompras, jogos, ciência e medicina. • DATA-STAR(Suíça) - com mais de 250 bases de dados sobre comércio, ciências biomédicas, química, engenharia e notícias. • DIALOG Information Retrieval Services(Palo Alto, Califórnia) - com 380 bases de dados, praticamente sobre todas as áreas. • DIMDI(Alemanha) - com mais de cinco bases de dados sobre ciências biomédicas. • Dow-Jones(Estados Unidos) - com mais de cinco bases de dados sobre comércio e apoio à investimentos. • ECHO (Comunidade Européia) - com 30 bases de dados, praticamente sobre todas as áreas. • European Space Agency's Information Retrieval Service(Frascati,Itália) - com mais de 130 bases de dados sobre ciência e tecnologia, comércio e finanças, informações sobre empresas, saúde e segurança ocupacional, patentes e notícias.
  • 12.
    • FGV(Brasil) -com duas bases de dados sobre dados econômicos-estatísticos, catálogo de livros e dados. • IBICT(Brasil) - com seis bases de dados em ciência da informação, catálogo coletivo de periódicos, teses. • JOIS(Japão) - com mais de 10 bases de dados sobre diversas áreas temáticas. • ORBIT Search Service(Santa Mônica, Califórnia) - com mais de 100 bases de dados sobre informações científicas, técnicas e sobre patentes. • Pergamon Financial Data Service(Londres) - com mais de 30 bases de dados sobre serviços destinados à comunidade comercial européia, incluindo marketing e prospecção de vendas, finanças e proteção ao crédito e informações sobre empresas. • PRODASEN(Brasil) - com mais de 12 bases de dados nas áreas de direito e jurisprudência. • QUESTEL(França) - com mais de 60 bases de dados sobre patentes, química, marcas registradas, medicina, ciência e tecnologia, comércio e notícias. • STN International(Alemanha) - com 132 bases de dados em ciência e tecnologia. Servidores
  • 13.
    Código Fonte doIRS em Python print (' > Conexão estabelecida. Obtendo código HTML…)' #Obtém o código HTML HTML = con.read() ##Obtendo as informações print (' > Filtrando informações...n') #Valida a página buscando o padrão "cidade - estado", que só é exibido em páginas válidas #EXEMPLO HTML: Barbacena - MG if re.search(r'[A-Z][^-]+- [A-Z]{2}' , HTML) == None: print ('Cidade inválida!n') exit(1) #Busca a condição climática, que é informada entre os fragmentos de tags %;"> e < #EXEMPLO HTML: <div style="float:left; width:450px; height:100%;">Predomínio de sol, apenas com pouca variação de nuvens</div> status = re.search(r'%;">(.*?)<' , HTML) #Obtém a data e a hora da última atualização #EXEMPLO HTML: <p>Atualizado em: 14/09/2016 @ 20:30:00</p> atualizado = re.search(r'Atualizado em: .*[0-9]' , HTML) ##Exibindo o resultado
  • 14.
    Código Fonte doIRS em Python Created on 7 de nov de 2016 @author: Hilquias' import urllib2, re import urllib2.URLError site = 'http://tempoagora.uol.com.br/previsaodotempo.html/brasil/' cidade = raw_input('Forneça o nome da cidade: ') estado = raw_input('Forneça a sigla do estado: ') #Remove os espaços que possam existir em um nome de cidade composto cidade = cidade.replace(' ' , '') #Aborta a execução caso a sigla do estado tenha mais de dois caracteres if len(estado) != 2: print ('nA sigla do estado deve ter duas letras!n') exit(1) #Estabelecendo a conexão: #Formata a URL da cidade, garantindo que as siglas do estado serão maiúsculas url = site + cidade + '-' + estado.upper() print (' > Conectando-se a %s...' % url) #Estabelece a conexão, com timeout de 5 segundos
  • 15.
    Código Fonte doIRS em Python print ( '*** CONDIÇÃO CLIMÁTICA EM %s - %s ***' % (cidade.upper() , estado.upper())) print (status.group(1)) print (atualizado.group(0) , 'n') if __name__ == '__main__': urllib2(site, cidade, estado) assert isinstance(raw_input, object) print ("Tempo Agora!n") site = 'http://tempoagora.uol.com.br/previsaodotempo.html/brasil/' cidade = raw_input('Forneca o nome da cidade: ') estado = raw_input('Forneca a sigla do estado: ') try: print (' > Conectando-se a %s...' % url) con = urllib2.urlopen(url , None , 5) print ' > Conexão estabelecida. Obtendo código HTML...' HTML = con.read() print '*** CONDIÇÃO CLIMÁTICA EM %s - %s ***' % (cidade.upper() , estado.upper()) print status.group(1) print atualizado.group(0) , 'n' except: urllib2.URLError: print ('> Falha na conexão!')
  • 16.
    Referência https://pt.wikipedia.org/wiki/Recupera%C3%A7%C3%A3o_de_informa%C3%A7%C3%A3o https://www.marilia.unesp.br/Home/Instituicao/Docentes/EdbertoFerneda/mrip02- recuperacaoinformacao.pdf https://books.google.com.br/books?id=xBeO9LSlK7UC&pg=PA469&lpg=PA469&dq=o+que+%C3%A9 +retrieval&source=bl&ots=xaSFj-Dg6I&sig=rk7vh2-dofekILBUJ350C1B-OkY&hl=pt- BR&sa=X&ved=0ahUKEwiqle6crJrQAhWMHJAKHTDpAv04ChDoAQhJMAg#v=onepage&q=o%20q ue%20%C3%A9%20retrieval&f=false https://en.wikipedia.org/wiki/Information_retrieval periodicos.ufpb.br/index.php/biblio/article/download/9629/5238 http://www.ibict.br/publicacoes-e-institucionais/tesauro-brasileiro-de-ciencia-da-informacao-1 http://pt.slideshare.net/izalima733/tesauro-origem-evoluo-e-relaes https://firebase.google.com/docs/database/server/retrieve-data?hl=pt-br https://www2.senado.leg.br/bdsf/bitstream/handle/id/70270/Monografia_.pdf?sequence=5 http://ssti1-1112.wikidot.com/sistemas-de-recuperacao-de-informacao http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100-19651997000100009 http://www.revistas.usp.br/incid/article/view/42374 http://pt.slideshare.net/Re_Biblio/slides-opac
  • 17.
    Integrantes Fábio Albino deAlmeida Guilherme Loss da Silva Hilquias da Silva de Almeida Osmar Noronha Júnior Renato Luis Gomes Coutinho