Apresentação para XXIV Salão de Iniciação Científica do projeto de Pesquisa Folksonomias na Organização do Conhecimento, de autoria de Luciana Monteiro Krebs (Bolsista Voluntária de Iniciação Científica), com a orientação da Profª Drª Regina Helena van der Laan e colaboração da Profª Drª Sônia Elisa Caregnato e Rita do Carmo Ferreira Laipelt. Trabalho indicado para Prêmio Jovem Cientista da UFRGS como finalista nas Ciências Sociais Aplicadas.
Tags como fonte para vocabulários controlados em Pediatria
1. XXIV Salão de Iniciação Científica
Tags como fonte de coleta de
candidatos a termos para
elaboração de vocabulários
controlados na área da
Pediatria
Luciana Monteiro Krebs - Bolsista Voluntária IC
Profª Drª Regina Helena van der Laan - Orientadora
Profª Drª Sônia Elisa Caregnato - Co-orientadora
Me. Rita do Carmo Ferreira Laipelt - Co-orientadora
1
2. 1 Introdução
Necessidade de informação => Agilidade e precisão na
recuperação dos documentos
Segunda lei de Ranganathan “Para cada Leitor, seu Livro” inclui
a adoção de uma terminologia mais próxima do leitor.
(Gomes et al., 2006)
Muita Pouco tempo Exigência alta
informação
Descentralização dos agentes Acesso remoto
produtores de informação
Linguagens documentárias voltadas para bibliotecário,
distantes do usuário
(Le Coadic, 2004) Como superar?
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 2
3. 1 Introdução
Propomos uma reflexão sobre a possível contribuição da
folksonomia nos processos formais de indexação de
documentos, enquanto fontes de coleta de candidatos a
termos, objetivando aproximar a linguagem utilizada nestes
processos daquela conhecida pelo usuário. Almeja-se com isso,
alcançar maior assertividade no momento da busca, poupando
o tempo do leitor.
• Folksonomia (Thomas Vander Wal, 2007)
Resultado da marcação livre e pessoal de informações e objetos (qualquer coisa com uma
URL) para uma recuperação própria [tradução nossa].
• Tags (Lacerda e Valente, 2007, p.23)
Palavras, siglas ou qualquer código pessoal, determinado livremente pelo usuário, de
acordo com a sua conveniência. Um objeto pode receber um número ilimitado de tags.
Alternativa de gerenciamento de informação (Amaral e Aquino, 2008)
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 3
4. 2 Objetivo
Analisar se tags podem ser fonte de coleta de
candidatos a termos para a elaboração de
vocabulários controlados.
Usuários
Tags
Corpus
Especialistas textual
Profissionais da
Vocabulários informação
controlados
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 4
5. 3 Metodologia
Tipo de estudo: Quantitativo
Corpus de pesquisa: 200 tags
Coleta de dados (agosto/2011)
Cite U Like (http://www.citeulike.com) é uma ferramenta de
armazenamento e compartilhamento online de
documentos com o recurso de social tagging.
• Estratégia de busca pelo tema Pediatria (através da
expressão de busca “Pediatric”) e compartilhados por pelo
menos 2 (dois) usuários.
• Coleta de meta-dados atribuídos aos artigos
o dados de identificação do documento (título, autor, editora, data, etc)
o as tags (etiquetas) atribuídas por usuários aos mesmos
• De posse de meta-dados dos documentos buscamos na web
os documentos na íntegra, para constituir o corpus textual.
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 5
6. 3 Metodologia
Tratamento de dados (agosto/2011 a janeiro/2012)
• Limpeza e normalização manual do corpus de
pesquisa
• Planilha Microsoft Excel
o Repetições: 979 => 493 tags únicas (diferentes entre si)
o Siglas, erros de grafia (ex. “childrens”), sem sentido claro quando
empregadas ao assunto Pediatria, muito genéricas ou que transitam em
várias áreas do conhecimento (ex. “treatment”): 493 => 200 tags
• Limpeza e normalização manual do corpus textual
• Conversor, Notepad, e-Termos
o Conversão dos documentos (artigos) de PDF para TXT
o Retiradas informações não relevantes para a pesquisa (como
paginação, referências, notas de rodapé, ilustrações, currículo dos
autores, etc.)
o Upload do corpus textual no e-Termos.
e-Termos (http://www.etermos.cnptia.embrapa.br) é um ambiente
colaborativo online de acesso gratuito cujo objetivo é
auxiliar na gestão terminológica.
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 6
7. 3 Metodologia
Tratamento de dados (janeiro/2012 a junho/2012)
• Validação no corpus textual
Verificação de ocorrência das tags coletadas no discurso dos
especialistas (se eram citadas dentro dos artigos). Para isto, utilizamos
os recursos “Frequência” e “Consulta termos” do e-Termos.
• Validação no vocabulário controlado
O DeCS (Descritores em Ciências da Saúde,
disponível em http://decs.bvs.br/) é um vocabulário
estruturado e trilíngue, criado pela Bireme e desenvolvido
a partir do MeSH (Medical Subject Headings). Tem o objetivo de servir
como uma linguagem única na indexação de documentos técnico-
científicos de toda natureza, além de ser uma fonte de pesquisa e
recuperação de assuntos da literatura na área das Ciências da Saúde.
Análise dos resultados (agosto/2012)
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 7
8. 4 Resultados
Tabela 4 – Tabela de percentuais de ocorrência das tags no corpus textual.
E-Termos Freq. Freq. Freq. Freq.
Absoluta Relativa Absoluta Relativa
ocorrência em 112 56% ocorrência em 178 89%
frequência consulta termos
não aparece em 88 44% não aparece em 22 11%
frequência consulta termos
Fonte: as autoras.
Ocorrência de tags no corpus Ocorrência de tags no corpus textual
textual através da ferramenta através da ferramenta e-Termos -
e-Termos - Frequência Consulta termos
11%
44% ocorre em frequência ocorre em consulta termos
56% não ocorre em consulta termos
não ocorre em frequência
89%
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 8
9. 4 Resultados
Tabela 5 – Tabela de percentuais compilados de ocorrência das tags no
corpus textual.
e-Termos Freq. Freq.
Absoluta Relativa
ocorrência em frequência ou consulta termos 180 90%
não aparece em nenhuma das ferramentas 20 10%
Fonte: as autoras.
Ocorrência de tags no corpus textual através
de ambas ferramentas do e-Termos
10%
ocorre em frequência ou consulta termos
não ocorre em nenhuma das ferramentas
90%
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 9
10. 4 Resultados
Tabela 6 – Tabela de percentual de ocorrência das tags no vocabulário
controlado.
DeCs Freq. Freq. Rel. Freq.
Absoluta Individual Relativa
Encontrado 72 36% 64%
Encontrado como variante 18 9%
Encontrado como parte de descritor 38 19%
Não encontrado 72 36% 36%
Fonte: as autoras.
Ocorrência de tags no vocabulário Validação DeCS compilada
controlado DeCS
Encontrado Não encontrado
Encontrado
36% 36%
Encontrado como variante 36%
Encontrado como parte de descritor
64%
9% Não encontrado
19%
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 10
11. 4 Resultados
Ocorrência de tags no corpus
textual e vocabulário controlado
• 180 tags foram validadas no e-Termos
(corpus textual); 186 180
• 128 tags foram validadas no DeCS 128
(vocabulário controlado);
• 186 tags foram validadas no
e-Termos ou no DeCS; 14
• 14 tags não foram encontradas em
validado no validado validado não
nenhuma das ferramentas. e-Termos ou somente no somente no encontrado
no DeCS e-Termos DeCS em nenhuma
das
ferramentas
Freq. Relativa
validado no e-Termos ou no DeCS 93%
validado somente no e-Termos 90%
validado somente no DeCS 64%
não encontrado em nenhuma das ferramentas 7%
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 11
12. 5 Considerações parciais
Com 93% das tags validadas no corpus textual ou no
vocabulário controlado, confirmamos nosso pressuposto de
pesquisa, concluindo que as tags são ótimas fontes não só para
a identificação de candidatos a termos, como para a
identificação de variantes terminológicas (equivalentes) que
são importantes para alimentar um sistema de remissivas. Assim,
podem incrementar processos de indexação auxiliando os
profissionais da informação na elaboração de tesauros.
As tags atribuídas pelos usuários do CiteULike a
documentos compartilhados no ambiente, em sua maioria, tem
alguma relação com os assuntos dos documentos.
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 12
13. 5 Considerações parciais
Perspectivas de continuidade ou desdobramento do trabalho
• A análise das tags que não apareceram no corpus textual e/ou no
vocabulário controlado pode originar uma futura pesquisa, que
possibilitará trazer para os sistemas de informação novos termos da
linguagem dos usuários especializados.
• Constata-se a oportunidade de ampliação da pesquisa somando-se
à este estudo outras áreas do conhecimento (além da Pediatria) e o
aprofundamento do estudo das tags já coletadas por outras
entidades de validação, como especialistas da área (Pediatras).
• As variações de numeral identificadas, se normalizadas, poderiam
resolver futuros problemas de recuperação
o adolescent (8 / 199), adolescents (2 / 417)
o immunization (2 / 81), immunizations (1 / 47)
o infant (2 / 458), infants (5 / 1697)
• Tags em idioma turco trazem questões sobre a amplitude da web e
necessidades específicas deste ambiente para nativos de outros
idiomas.
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 13
14. Referências
AMARAL, Adriana; AQUINO, Maria Clara. Práticas de folksonomia e social tagging no Last.fm. In: SIMPÓSIO BRASILEIRO
DE FATORES HUMANOS EM SISTEMAS COMPUTACIONAIS, 8., 2008. Anais... Paraná: PUC, 2008. Disponível em:
<http://www.din.uem.br/gsii/downloads/waihcws/Praticas-Folksonomia-Social-TaggingLastfm.pdf>. Acesso em: 02 jan.
2012.
CAMPOS, Maria Luiza Almeida; GOMES, Hagar Espanha. Metodologia de elaboração de tesauro conceitual: a
categorização como princípio norteador. Perspectivas em Ciência da Informação, Belo Horizonte, v. 11, n. 3, p. 348-
359, set./dez. 2006. Disponível em: <http://www.scielo.br/pdf/%0D/pci/v11n3/a05v11n3.pdf>. Acesso em: 16 out. 2011.
CiteULike. Disponível em < www.citeulike.com >. Acesso em 21 ago. 2011.
Cutter, Charles A. Rules for a dictionary catalogue. Washington : Government Printing Office, 1889. Disponível em <
http://babel.hathitrust.org/cgi/pt?id=wu.89101448975 >. Acesso em 25 jan. 2012.
GOMES, H. E. et al. Revisitando Ranganathan: a classificação na rede. In: GOMES, H. E. (Coord.) Biblioteconomia,
Informação & Tecnologia da Informação. Rio de Janeiro, 2006. Disponível em:
<http://www.conexaorio.com/biti/revisitando/revisitando.htm>. Acesso em: 07 jan. 2012.
LAAN van der, Regina Helena; FERREIRA, Glória Isabel Sattamini; BONOTTO, Martha E. K. Kling; NEVES, Iara Conceição
Bitencourt; GASPERIN, Inês M. de. Avaliação de descritores relativos às ciências da informação: relato de pesquisa. Em
Questão, Porto Alegre, v. 10, n.2, p. 337-347, jul./dez. 2004.
TEIXEIRA, José Carlos Abreu. Cabeçalhos de Assunto: manual para estudantes. Rio de Janeiro: Universidade Federal
Fluminense, 1979.
UNIVERSITY OF CALIFORNIA, SCHOOL OF INFORMATION MANAGEMENT AND SYSTEMS. How much information?. 2003.
Disponível em: <http://www.sims.berkeley.edu/research/projects/how-much-info-2003/>. Acesso em: 21 fev. 2004.
VAN DER LAAN, Regina Helena. Tesauro e terminologia: uma inter-relação lógica. 2002. 262 f. : il. Tese (doutorado)-
Universidade Federal do Rio Grande do Sul. Instituto de Letras. Programa de Pós-Graduação em Letras. Porto Alegre,
BR-RS, 2002. Ori.: Krieger, Maria da Graça. Disponível em:
<http://www.biblioteca.ufrgs.br/bibliotecadigital/2002-2/tese-bscsh-0339228.pdf> Acesso em 12 ago. 2012.
Vander Wal, T. Folsonomy definition and Wikipedia. 2007. Disponível em
<http://www.vanderwal.net/random/entrysel.php?blog=1750>. Acesso em: 02 jan. 2012.
INTRODUÇÃO | OBJETIVO | METODOLOGIA | RESULTADOS | CONSIDERAÇÕES | REFERÊNCIAS 14