SlideShare uma empresa Scribd logo
1 de 15
Baixar para ler offline
XXIV Salão de Iniciação Científica



              Tags como fonte de coleta de
                 candidatos a termos para
                elaboração de vocabulários
                  controlados na área da
                        Pediatria
                                           Luciana Monteiro Krebs - Bolsista Voluntária IC
                                      Profª Drª Regina Helena van der Laan - Orientadora
                                         Profª Drª Sônia Elisa Caregnato - Co-orientadora
                                     Me. Rita do Carmo Ferreira Laipelt - Co-orientadora
                                                                                      1
1 Introdução
Necessidade de informação => Agilidade e precisão na
recuperação dos documentos
Segunda lei de Ranganathan “Para cada Leitor, seu Livro” inclui
a adoção de uma terminologia mais próxima do leitor.
                                                            (Gomes et al., 2006)

        Muita                   Pouco tempo                  Exigência alta
     informação

      Descentralização dos agentes                           Acesso remoto
       produtores de informação

  Linguagens documentárias voltadas para bibliotecário,
                 distantes do usuário
(Le Coadic, 2004)                                               Como superar?
         INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 2
1 Introdução
       Propomos uma reflexão sobre a possível contribuição da
folksonomia nos processos formais de indexação de
documentos, enquanto fontes de coleta de candidatos a
termos, objetivando aproximar a linguagem utilizada nestes
processos daquela conhecida pelo usuário. Almeja-se com isso,
alcançar maior assertividade no momento da busca, poupando
o tempo do leitor.
•   Folksonomia     (Thomas Vander Wal, 2007)
Resultado da marcação livre e pessoal de informações e objetos (qualquer coisa com uma
URL) para uma recuperação própria [tradução nossa].


•   Tags (Lacerda e Valente, 2007, p.23)
Palavras, siglas ou qualquer código pessoal, determinado livremente pelo usuário, de
acordo com a sua conveniência. Um objeto pode receber um número ilimitado de tags.


Alternativa de gerenciamento de informação (Amaral e Aquino, 2008)


          INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 3
2 Objetivo
Analisar se tags podem ser fonte de coleta de
candidatos a termos para a elaboração de
vocabulários controlados.

                                                    Usuários
                                       Tags



                            Corpus
  Especialistas             textual
                                                                   Profissionais da
                                          Vocabulários             informação
                                          controlados



     INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 4
3 Metodologia
Tipo de estudo: Quantitativo
Corpus de pesquisa: 200 tags
Coleta de dados (agosto/2011)
Cite U Like (http://www.citeulike.com) é uma ferramenta de
armazenamento e compartilhamento online de
documentos com o recurso de social tagging.
•   Estratégia de busca pelo tema Pediatria (através da
    expressão de busca “Pediatric”) e compartilhados por pelo
    menos 2 (dois) usuários.
•   Coleta de meta-dados atribuídos aos artigos
    o dados de identificação do documento (título, autor, editora, data, etc)
    o as tags (etiquetas) atribuídas por usuários aos mesmos
•   De posse de meta-dados dos documentos buscamos na web
    os documentos na íntegra, para constituir o corpus textual.

         INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 5
3 Metodologia
Tratamento de dados (agosto/2011 a janeiro/2012)
• Limpeza e normalização manual do corpus de
   pesquisa
•   Planilha Microsoft Excel
     o Repetições: 979 => 493 tags únicas (diferentes entre si)
     o Siglas, erros de grafia (ex. “childrens”), sem sentido claro quando
       empregadas ao assunto Pediatria, muito genéricas ou que transitam em
       várias áreas do conhecimento (ex. “treatment”): 493 => 200 tags

• Limpeza e normalização manual do corpus textual
•   Conversor, Notepad, e-Termos
     o Conversão dos documentos (artigos) de PDF para TXT
     o Retiradas informações não relevantes para a pesquisa (como
       paginação, referências, notas de rodapé, ilustrações, currículo dos
       autores, etc.)
     o Upload do corpus textual no e-Termos.
e-Termos (http://www.etermos.cnptia.embrapa.br) é um ambiente
colaborativo online de acesso gratuito cujo objetivo é
auxiliar na gestão terminológica.
           INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 6
3 Metodologia
Tratamento de dados (janeiro/2012 a junho/2012)
• Validação no corpus textual
  Verificação de ocorrência das tags coletadas no discurso dos
  especialistas (se eram citadas dentro dos artigos). Para isto, utilizamos
  os recursos “Frequência” e “Consulta termos” do e-Termos.

• Validação no vocabulário controlado
O DeCS (Descritores em Ciências da Saúde,
disponível em http://decs.bvs.br/) é um vocabulário
estruturado e trilíngue, criado pela Bireme e desenvolvido
a partir do MeSH (Medical Subject Headings). Tem o objetivo de servir
como uma linguagem única na indexação de documentos técnico-
científicos de toda natureza, além de ser uma fonte de pesquisa e
recuperação de assuntos da literatura na área das Ciências da Saúde.

Análise dos resultados (agosto/2012)

        INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 7
4 Resultados
  Tabela 4 – Tabela de percentuais de ocorrência das tags no corpus textual.
  E-Termos               Freq.     Freq.                           Freq.        Freq.
                        Absoluta Relativa                         Absoluta     Relativa
  ocorrência em                112   56% ocorrência em                 178          89%
  frequência                              consulta termos

  não aparece em                88      44% não aparece em                22         11%
  frequência                                consulta termos

  Fonte: as autoras.

      Ocorrência de tags no corpus                   Ocorrência de tags no corpus textual
      textual através da ferramenta                   através da ferramenta e-Termos -
          e-Termos - Frequência                               Consulta termos
                                                  11%

44%               ocorre em frequência                           ocorre em consulta termos
         56%                                                     não ocorre em consulta termos
                  não ocorre em frequência
                                                      89%


            INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 8
4 Resultados
Tabela 5 – Tabela de percentuais compilados de ocorrência das tags no
corpus textual.

 e-Termos                                                     Freq.          Freq.
                                                             Absoluta       Relativa
 ocorrência em frequência ou consulta termos                        180           90%
 não aparece em nenhuma das ferramentas                               20           10%

Fonte: as autoras.


                 Ocorrência de tags no corpus textual através
                     de ambas ferramentas do e-Termos
                     10%

                                     ocorre em frequência ou consulta termos
                                     não ocorre em nenhuma das ferramentas
                           90%


          INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 9
4 Resultados
 Tabela 6 – Tabela de percentual de ocorrência das tags no vocabulário
 controlado.
 DeCs                                                       Freq.      Freq. Rel. Freq.
                                                            Absoluta Individual Relativa
 Encontrado                                                         72        36%       64%
 Encontrado como variante                                           18         9%
 Encontrado como parte de descritor                                 38        19%
 Não encontrado                                                     72        36%       36%
 Fonte: as autoras.


      Ocorrência de tags no vocabulário                    Validação DeCS compilada
             controlado DeCS
                                                                Encontrado   Não encontrado
                      Encontrado
36%          36%
                      Encontrado como variante                               36%
                      Encontrado como parte de descritor
                                                                    64%
            9%        Não encontrado
      19%


             INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 10
4 Resultados
                                                     Ocorrência de tags no corpus
                                                   textual e vocabulário controlado
•   180 tags foram validadas no e-Termos
    (corpus textual);                              186         180
•   128 tags foram validadas no DeCS                                       128
    (vocabulário controlado);
•   186 tags foram validadas no
     e-Termos ou no DeCS;                                                               14
•   14 tags não foram encontradas em
                                                validado no   validado  validado       não
    nenhuma das ferramentas.                    e-Termos ou somente no somente no encontrado
                                                  no DeCS    e-Termos    DeCS     em nenhuma
                                                                                       das
                                                                                  ferramentas

                                       Freq. Relativa
              validado no e-Termos ou no DeCS                                           93%

                 validado somente no e-Termos                                          90%

                    validado somente no DeCS                               64%

    não encontrado em nenhuma das ferramentas     7%

               INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 11
5 Considerações parciais
         Com 93% das tags validadas no corpus textual ou no
vocabulário controlado, confirmamos nosso pressuposto de
pesquisa, concluindo que as tags são ótimas fontes não só para
a identificação de candidatos a termos, como para a
identificação de variantes terminológicas (equivalentes) que
são importantes para alimentar um sistema de remissivas. Assim,
podem incrementar processos de indexação auxiliando os
profissionais da informação na elaboração de tesauros.
         As tags atribuídas pelos usuários do CiteULike a
documentos compartilhados no ambiente, em sua maioria, tem
alguma relação com os assuntos dos documentos.




       INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 12
5 Considerações parciais
Perspectivas de continuidade ou desdobramento do trabalho
•   A análise das tags que não apareceram no corpus textual e/ou no
    vocabulário controlado pode originar uma futura pesquisa, que
    possibilitará trazer para os sistemas de informação novos termos da
    linguagem dos usuários especializados.
•   Constata-se a oportunidade de ampliação da pesquisa somando-se
    à este estudo outras áreas do conhecimento (além da Pediatria) e o
    aprofundamento do estudo das tags já coletadas por outras
    entidades de validação, como especialistas da área (Pediatras).
•   As variações de numeral identificadas, se normalizadas, poderiam
    resolver futuros problemas de recuperação
     o adolescent (8 / 199), adolescents (2 / 417)
     o immunization (2 / 81), immunizations (1 / 47)
     o infant (2 / 458), infants (5 / 1697)
•   Tags em idioma turco trazem questões sobre a amplitude da web e
    necessidades específicas deste ambiente para nativos de outros
    idiomas.

         INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 13
Referências
AMARAL, Adriana; AQUINO, Maria Clara. Práticas de folksonomia e social tagging no Last.fm. In: SIMPÓSIO BRASILEIRO
DE FATORES HUMANOS EM SISTEMAS COMPUTACIONAIS, 8., 2008. Anais... Paraná: PUC, 2008. Disponível em:
<http://www.din.uem.br/gsii/downloads/waihcws/Praticas-Folksonomia-Social-TaggingLastfm.pdf>. Acesso em: 02 jan.
2012.
CAMPOS, Maria Luiza Almeida; GOMES, Hagar Espanha. Metodologia de elaboração de tesauro conceitual: a
categorização como princípio norteador. Perspectivas em Ciência da Informação, Belo Horizonte, v. 11, n. 3, p. 348-
359, set./dez. 2006. Disponível em: <http://www.scielo.br/pdf/%0D/pci/v11n3/a05v11n3.pdf>. Acesso em: 16 out. 2011.
CiteULike. Disponível em < www.citeulike.com >. Acesso em 21 ago. 2011.
Cutter, Charles A. Rules for a dictionary catalogue. Washington : Government Printing Office, 1889. Disponível em <
http://babel.hathitrust.org/cgi/pt?id=wu.89101448975 >. Acesso em 25 jan. 2012.
GOMES, H. E. et al. Revisitando Ranganathan: a classificação na rede. In: GOMES, H. E. (Coord.) Biblioteconomia,
Informação & Tecnologia da Informação. Rio de Janeiro, 2006. Disponível em:
<http://www.conexaorio.com/biti/revisitando/revisitando.htm>. Acesso em: 07 jan. 2012.
LAAN van der, Regina Helena; FERREIRA, Glória Isabel Sattamini; BONOTTO, Martha E. K. Kling; NEVES, Iara Conceição
Bitencourt; GASPERIN, Inês M. de. Avaliação de descritores relativos às ciências da informação: relato de pesquisa. Em
Questão, Porto Alegre, v. 10, n.2, p. 337-347, jul./dez. 2004.
TEIXEIRA, José Carlos Abreu. Cabeçalhos de Assunto: manual para estudantes. Rio de Janeiro: Universidade Federal
Fluminense, 1979.
UNIVERSITY OF CALIFORNIA, SCHOOL OF INFORMATION MANAGEMENT AND SYSTEMS. How much information?. 2003.
Disponível em: <http://www.sims.berkeley.edu/research/projects/how-much-info-2003/>. Acesso em: 21 fev. 2004.
VAN DER LAAN, Regina Helena. Tesauro e terminologia: uma inter-relação lógica. 2002. 262 f. : il. Tese (doutorado)-
Universidade Federal do Rio Grande do Sul. Instituto de Letras. Programa de Pós-Graduação em Letras. Porto Alegre,
BR-RS, 2002. Ori.: Krieger, Maria da Graça. Disponível em:
<http://www.biblioteca.ufrgs.br/bibliotecadigital/2002-2/tese-bscsh-0339228.pdf> Acesso em 12 ago. 2012.
Vander Wal, T. Folsonomy definition and Wikipedia. 2007. Disponível em
<http://www.vanderwal.net/random/entrysel.php?blog=1750>. Acesso em: 02 jan. 2012.


              INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 14
Obrigada pela atenção!
                   Luciana Monteiro Krebs
                   luciana.monteiro@ufrgs.br
                            @lumk_

INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 15

Mais conteúdo relacionado

Semelhante a Tags como fonte para vocabulários controlados em Pediatria

Folksonomias: a Informação e a Metainformação
Folksonomias: a Informação e a MetainformaçãoFolksonomias: a Informação e a Metainformação
Folksonomias: a Informação e a MetainformaçãoLuísa Alvim
 
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSPSNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSPSIBiUSP
 
Apresentacao I3 G Eng. Ontologias
Apresentacao I3 G   Eng. OntologiasApresentacao I3 G   Eng. Ontologias
Apresentacao I3 G Eng. OntologiasWeb2 Brasil
 
Tag Suggestion using Multiple Sources of Knowledge
Tag Suggestion using Multiple Sources of KnowledgeTag Suggestion using Multiple Sources of Knowledge
Tag Suggestion using Multiple Sources of KnowledgeÍcaro Medeiros
 
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...Ahirton Lopes
 
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Documentar Tecnologia e Informação
 
Apresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EADApresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EADienh
 
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...Ana Carolina Simionato
 
Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacaocibeleac
 
Indexacao - Manual e Politica - 09.04.18.pdf
Indexacao - Manual e Politica - 09.04.18.pdfIndexacao - Manual e Politica - 09.04.18.pdf
Indexacao - Manual e Politica - 09.04.18.pdfAdrianoC8
 
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...Felipe Benevenutto
 
Estudo comparativo entre tesauros museológicos internacionais disponíveis online
Estudo comparativo entre tesauros museológicos internacionais disponíveis onlineEstudo comparativo entre tesauros museológicos internacionais disponíveis online
Estudo comparativo entre tesauros museológicos internacionais disponíveis onlineLuciana Monteblanco
 
Estudo cientométrico dos Congressos Brasileiros de Agroecologia
Estudo cientométrico dos Congressos Brasileiros de AgroecologiaEstudo cientométrico dos Congressos Brasileiros de Agroecologia
Estudo cientométrico dos Congressos Brasileiros de Agroecologiapascal aventurier
 
Sistemas de recuperação de informação
Sistemas de recuperação de informação Sistemas de recuperação de informação
Sistemas de recuperação de informação Célia Dias
 
Expansão semântica de consultas
Expansão semântica de consultasExpansão semântica de consultas
Expansão semântica de consultasStartup Cursos
 

Semelhante a Tags como fonte para vocabulários controlados em Pediatria (20)

Folksonomias: a Informação e a Metainformação
Folksonomias: a Informação e a MetainformaçãoFolksonomias: a Informação e a Metainformação
Folksonomias: a Informação e a Metainformação
 
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSPSNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
SNBU 2012 - Plano de Inovação para o Vocabulário Controlado do SIBiUSP
 
Apresentacao I3 G Eng. Ontologias
Apresentacao I3 G   Eng. OntologiasApresentacao I3 G   Eng. Ontologias
Apresentacao I3 G Eng. Ontologias
 
Tag Suggestion using Multiple Sources of Knowledge
Tag Suggestion using Multiple Sources of KnowledgeTag Suggestion using Multiple Sources of Knowledge
Tag Suggestion using Multiple Sources of Knowledge
 
ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...
ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...
ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...
 
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
 
DeCs 2009
DeCs 2009DeCs 2009
DeCs 2009
 
Análise de Assunto
Análise de Assunto Análise de Assunto
Análise de Assunto
 
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
 
Apresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EADApresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EAD
 
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
 
Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacao
 
Avaliação de qualidade de repositórios institucionais brasileiros e portugueses
Avaliação de qualidade de repositórios institucionais brasileiros e portuguesesAvaliação de qualidade de repositórios institucionais brasileiros e portugueses
Avaliação de qualidade de repositórios institucionais brasileiros e portugueses
 
Indexacao - Manual e Politica - 09.04.18.pdf
Indexacao - Manual e Politica - 09.04.18.pdfIndexacao - Manual e Politica - 09.04.18.pdf
Indexacao - Manual e Politica - 09.04.18.pdf
 
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
 
Estudo comparativo entre tesauros museológicos internacionais disponíveis online
Estudo comparativo entre tesauros museológicos internacionais disponíveis onlineEstudo comparativo entre tesauros museológicos internacionais disponíveis online
Estudo comparativo entre tesauros museológicos internacionais disponíveis online
 
A importância das palavras-chave dos artigos científicos
A importância das palavras-chave dos artigos científicosA importância das palavras-chave dos artigos científicos
A importância das palavras-chave dos artigos científicos
 
Estudo cientométrico dos Congressos Brasileiros de Agroecologia
Estudo cientométrico dos Congressos Brasileiros de AgroecologiaEstudo cientométrico dos Congressos Brasileiros de Agroecologia
Estudo cientométrico dos Congressos Brasileiros de Agroecologia
 
Sistemas de recuperação de informação
Sistemas de recuperação de informação Sistemas de recuperação de informação
Sistemas de recuperação de informação
 
Expansão semântica de consultas
Expansão semântica de consultasExpansão semântica de consultas
Expansão semântica de consultas
 

Tags como fonte para vocabulários controlados em Pediatria

  • 1. XXIV Salão de Iniciação Científica Tags como fonte de coleta de candidatos a termos para elaboração de vocabulários controlados na área da Pediatria Luciana Monteiro Krebs - Bolsista Voluntária IC Profª Drª Regina Helena van der Laan - Orientadora Profª Drª Sônia Elisa Caregnato - Co-orientadora Me. Rita do Carmo Ferreira Laipelt - Co-orientadora 1
  • 2. 1 Introdução Necessidade de informação => Agilidade e precisão na recuperação dos documentos Segunda lei de Ranganathan “Para cada Leitor, seu Livro” inclui a adoção de uma terminologia mais próxima do leitor. (Gomes et al., 2006) Muita Pouco tempo Exigência alta informação Descentralização dos agentes Acesso remoto produtores de informação Linguagens documentárias voltadas para bibliotecário, distantes do usuário (Le Coadic, 2004) Como superar? INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 2
  • 3. 1 Introdução Propomos uma reflexão sobre a possível contribuição da folksonomia nos processos formais de indexação de documentos, enquanto fontes de coleta de candidatos a termos, objetivando aproximar a linguagem utilizada nestes processos daquela conhecida pelo usuário. Almeja-se com isso, alcançar maior assertividade no momento da busca, poupando o tempo do leitor. • Folksonomia (Thomas Vander Wal, 2007) Resultado da marcação livre e pessoal de informações e objetos (qualquer coisa com uma URL) para uma recuperação própria [tradução nossa]. • Tags (Lacerda e Valente, 2007, p.23) Palavras, siglas ou qualquer código pessoal, determinado livremente pelo usuário, de acordo com a sua conveniência. Um objeto pode receber um número ilimitado de tags. Alternativa de gerenciamento de informação (Amaral e Aquino, 2008) INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 3
  • 4. 2 Objetivo Analisar se tags podem ser fonte de coleta de candidatos a termos para a elaboração de vocabulários controlados. Usuários Tags Corpus Especialistas textual Profissionais da Vocabulários informação controlados INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 4
  • 5. 3 Metodologia Tipo de estudo: Quantitativo Corpus de pesquisa: 200 tags Coleta de dados (agosto/2011) Cite U Like (http://www.citeulike.com) é uma ferramenta de armazenamento e compartilhamento online de documentos com o recurso de social tagging. • Estratégia de busca pelo tema Pediatria (através da expressão de busca “Pediatric”) e compartilhados por pelo menos 2 (dois) usuários. • Coleta de meta-dados atribuídos aos artigos o dados de identificação do documento (título, autor, editora, data, etc) o as tags (etiquetas) atribuídas por usuários aos mesmos • De posse de meta-dados dos documentos buscamos na web os documentos na íntegra, para constituir o corpus textual. INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 5
  • 6. 3 Metodologia Tratamento de dados (agosto/2011 a janeiro/2012) • Limpeza e normalização manual do corpus de pesquisa • Planilha Microsoft Excel o Repetições: 979 => 493 tags únicas (diferentes entre si) o Siglas, erros de grafia (ex. “childrens”), sem sentido claro quando empregadas ao assunto Pediatria, muito genéricas ou que transitam em várias áreas do conhecimento (ex. “treatment”): 493 => 200 tags • Limpeza e normalização manual do corpus textual • Conversor, Notepad, e-Termos o Conversão dos documentos (artigos) de PDF para TXT o Retiradas informações não relevantes para a pesquisa (como paginação, referências, notas de rodapé, ilustrações, currículo dos autores, etc.) o Upload do corpus textual no e-Termos. e-Termos (http://www.etermos.cnptia.embrapa.br) é um ambiente colaborativo online de acesso gratuito cujo objetivo é auxiliar na gestão terminológica. INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 6
  • 7. 3 Metodologia Tratamento de dados (janeiro/2012 a junho/2012) • Validação no corpus textual Verificação de ocorrência das tags coletadas no discurso dos especialistas (se eram citadas dentro dos artigos). Para isto, utilizamos os recursos “Frequência” e “Consulta termos” do e-Termos. • Validação no vocabulário controlado O DeCS (Descritores em Ciências da Saúde, disponível em http://decs.bvs.br/) é um vocabulário estruturado e trilíngue, criado pela Bireme e desenvolvido a partir do MeSH (Medical Subject Headings). Tem o objetivo de servir como uma linguagem única na indexação de documentos técnico- científicos de toda natureza, além de ser uma fonte de pesquisa e recuperação de assuntos da literatura na área das Ciências da Saúde. Análise dos resultados (agosto/2012) INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 7
  • 8. 4 Resultados Tabela 4 – Tabela de percentuais de ocorrência das tags no corpus textual. E-Termos Freq. Freq. Freq. Freq. Absoluta Relativa Absoluta Relativa ocorrência em 112 56% ocorrência em 178 89% frequência consulta termos não aparece em 88 44% não aparece em 22 11% frequência consulta termos Fonte: as autoras. Ocorrência de tags no corpus Ocorrência de tags no corpus textual textual através da ferramenta através da ferramenta e-Termos - e-Termos - Frequência Consulta termos 11% 44% ocorre em frequência ocorre em consulta termos 56% não ocorre em consulta termos não ocorre em frequência 89% INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 8
  • 9. 4 Resultados Tabela 5 – Tabela de percentuais compilados de ocorrência das tags no corpus textual. e-Termos Freq. Freq. Absoluta Relativa ocorrência em frequência ou consulta termos 180 90% não aparece em nenhuma das ferramentas 20 10% Fonte: as autoras. Ocorrência de tags no corpus textual através de ambas ferramentas do e-Termos 10% ocorre em frequência ou consulta termos não ocorre em nenhuma das ferramentas 90% INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 9
  • 10. 4 Resultados Tabela 6 – Tabela de percentual de ocorrência das tags no vocabulário controlado. DeCs Freq. Freq. Rel. Freq. Absoluta Individual Relativa Encontrado 72 36% 64% Encontrado como variante 18 9% Encontrado como parte de descritor 38 19% Não encontrado 72 36% 36% Fonte: as autoras. Ocorrência de tags no vocabulário Validação DeCS compilada controlado DeCS Encontrado Não encontrado Encontrado 36% 36% Encontrado como variante 36% Encontrado como parte de descritor 64% 9% Não encontrado 19% INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 10
  • 11. 4 Resultados Ocorrência de tags no corpus textual e vocabulário controlado • 180 tags foram validadas no e-Termos (corpus textual); 186 180 • 128 tags foram validadas no DeCS 128 (vocabulário controlado); • 186 tags foram validadas no e-Termos ou no DeCS; 14 • 14 tags não foram encontradas em validado no validado validado não nenhuma das ferramentas. e-Termos ou somente no somente no encontrado no DeCS e-Termos DeCS em nenhuma das ferramentas Freq. Relativa validado no e-Termos ou no DeCS 93% validado somente no e-Termos 90% validado somente no DeCS 64% não encontrado em nenhuma das ferramentas 7% INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 11
  • 12. 5 Considerações parciais Com 93% das tags validadas no corpus textual ou no vocabulário controlado, confirmamos nosso pressuposto de pesquisa, concluindo que as tags são ótimas fontes não só para a identificação de candidatos a termos, como para a identificação de variantes terminológicas (equivalentes) que são importantes para alimentar um sistema de remissivas. Assim, podem incrementar processos de indexação auxiliando os profissionais da informação na elaboração de tesauros. As tags atribuídas pelos usuários do CiteULike a documentos compartilhados no ambiente, em sua maioria, tem alguma relação com os assuntos dos documentos. INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 12
  • 13. 5 Considerações parciais Perspectivas de continuidade ou desdobramento do trabalho • A análise das tags que não apareceram no corpus textual e/ou no vocabulário controlado pode originar uma futura pesquisa, que possibilitará trazer para os sistemas de informação novos termos da linguagem dos usuários especializados. • Constata-se a oportunidade de ampliação da pesquisa somando-se à este estudo outras áreas do conhecimento (além da Pediatria) e o aprofundamento do estudo das tags já coletadas por outras entidades de validação, como especialistas da área (Pediatras). • As variações de numeral identificadas, se normalizadas, poderiam resolver futuros problemas de recuperação o adolescent (8 / 199), adolescents (2 / 417) o immunization (2 / 81), immunizations (1 / 47) o infant (2 / 458), infants (5 / 1697) • Tags em idioma turco trazem questões sobre a amplitude da web e necessidades específicas deste ambiente para nativos de outros idiomas. INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 13
  • 14. Referências AMARAL, Adriana; AQUINO, Maria Clara. Práticas de folksonomia e social tagging no Last.fm. In: SIMPÓSIO BRASILEIRO DE FATORES HUMANOS EM SISTEMAS COMPUTACIONAIS, 8., 2008. Anais... Paraná: PUC, 2008. Disponível em: <http://www.din.uem.br/gsii/downloads/waihcws/Praticas-Folksonomia-Social-TaggingLastfm.pdf>. Acesso em: 02 jan. 2012. CAMPOS, Maria Luiza Almeida; GOMES, Hagar Espanha. Metodologia de elaboração de tesauro conceitual: a categorização como princípio norteador. Perspectivas em Ciência da Informação, Belo Horizonte, v. 11, n. 3, p. 348- 359, set./dez. 2006. Disponível em: <http://www.scielo.br/pdf/%0D/pci/v11n3/a05v11n3.pdf>. Acesso em: 16 out. 2011. CiteULike. Disponível em < www.citeulike.com >. Acesso em 21 ago. 2011. Cutter, Charles A. Rules for a dictionary catalogue. Washington : Government Printing Office, 1889. Disponível em < http://babel.hathitrust.org/cgi/pt?id=wu.89101448975 >. Acesso em 25 jan. 2012. GOMES, H. E. et al. Revisitando Ranganathan: a classificação na rede. In: GOMES, H. E. (Coord.) Biblioteconomia, Informação & Tecnologia da Informação. Rio de Janeiro, 2006. Disponível em: <http://www.conexaorio.com/biti/revisitando/revisitando.htm>. Acesso em: 07 jan. 2012. LAAN van der, Regina Helena; FERREIRA, Glória Isabel Sattamini; BONOTTO, Martha E. K. Kling; NEVES, Iara Conceição Bitencourt; GASPERIN, Inês M. de. Avaliação de descritores relativos às ciências da informação: relato de pesquisa. Em Questão, Porto Alegre, v. 10, n.2, p. 337-347, jul./dez. 2004. TEIXEIRA, José Carlos Abreu. Cabeçalhos de Assunto: manual para estudantes. Rio de Janeiro: Universidade Federal Fluminense, 1979. UNIVERSITY OF CALIFORNIA, SCHOOL OF INFORMATION MANAGEMENT AND SYSTEMS. How much information?. 2003. Disponível em: <http://www.sims.berkeley.edu/research/projects/how-much-info-2003/>. Acesso em: 21 fev. 2004. VAN DER LAAN, Regina Helena. Tesauro e terminologia: uma inter-relação lógica. 2002. 262 f. : il. Tese (doutorado)- Universidade Federal do Rio Grande do Sul. Instituto de Letras. Programa de Pós-Graduação em Letras. Porto Alegre, BR-RS, 2002. Ori.: Krieger, Maria da Graça. Disponível em: <http://www.biblioteca.ufrgs.br/bibliotecadigital/2002-2/tese-bscsh-0339228.pdf> Acesso em 12 ago. 2012. Vander Wal, T. Folsonomy definition and Wikipedia. 2007. Disponível em <http://www.vanderwal.net/random/entrysel.php?blog=1750>. Acesso em: 02 jan. 2012. INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 14
  • 15. Obrigada pela atenção! Luciana Monteiro Krebs luciana.monteiro@ufrgs.br @lumk_ INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 15