Funções e disfunções das bases de
dados em levantamentos
bibliométricos
Letícia Strehl
Sumário
• Bases de dados e levantamentos bibliométricos
– Componentes das bases de dados:
•
•
•
•

cobertura
indexação
busca
resultado

– A produção e o impacto como dado:
• autores
• instituições
• referências
Componentes das bases de dados
1. Cobertura: o conjunto de registros ou
documentos (conjunto de documentos)
2. Indexação: o método de indexação ou acesso
ao conjunto de documentos (método de
acesso)
3. Busca: a verbalização desta necessidade em
uma seqüência de expressões de busca
(estratégia de busca)
Três do 6 componentes enumerados por: TAGUE-SUTCLIFFE, J. M. Em: Some perspectives on the evaluation of
information retrieval systems. Journal of the American Society for Information Science , v. 47, n. 1, p. 1-3, 1996.
Requisitos das bases de dados para estudos
de produção e impacto
• Indexação de:
– uma quantidade representativa de documentos
(cobertura);
– identificação consiste de
autores, assuntos, instituições e referências citadas
nas publicações.
Atualmente, as principais bases de dados para o
cumprimento desta finalidade são a Web of Science
(WoS), a Scopus e o Google Acadêmico (GA)
Componente das bases de dados (1)

COBERTURA
Definição da cobertura
• Identificação:
– da produção ONDE
– do impacto DO que NO que
Cobertura:
O conjunto de registros ou documentos
– Número de registros:
• Total
• Por tipo de documento (artigos de revistas, trabalhos
em eventos, teses, livros, etc.)
• Por idioma
• Por país responsável pela publicação das fontes

– Período de cobertura das fontes
– Periodicidade de atualização

Adaptado de: JACSO, P. Content evaluation of databases. Annual Review of Information Science and
Technology, v. 32, p. 231-267, 1997.
Análise quantitativa da composição de
bases de dados: um exemplo
Periódicos arbitrados
≈30 mil

Scopus
≈18 mil

Web os Science

≈10 mil

Bustos-González, Atilio. Edición de revistas científicas con visibilidad ficas internacional: criterios para ser incluidos en bases de datos comprensivas.
Apresentação realizada no "Seminário de Comunicação Científica, São Paulo, 13 de junho de 2008".
ELSEVIER. About Scopus. 2011.
THOMSON REUTERS. Web of Science. 2011.
A importância da cobertura
retrospectiva

WoS:
1945, 1956- e
1975-Scopus:
1996
-GA
?????

LARIVIERE, V.; ARCHAMBAULT, E.; GINGRAS, Y. Long-term patterns in the aging of the scientific literature, 1900–2004. 2007.
Trabalho apresentado no 11th International Conference on Scientometrics and Informetrics, 2007, Madrid.
O Índice H como uma prova do impacto da
cobertura da base no resultado bibliométrico
Índice H:
– relação entre o número de trabalhos que o pesquisador publica e o número de
citações que recebe
– 1 fórmula, várias fontes de dados

Índice H:
Scopus= 23
Google Scholar= 103
Web of Science=74
Os dados e os indicadores:

Fator de impacto
SCI E SSCI NA WEB OF
SCIENCE

Acesso via:

JOURNAL CITATION
REPORTS

Acesso via:
Os dados e os indicadores
SJR
Scopus

Acesso via:

Scimago

Acesso livre!
Os dados e os indicadores
SNIP
Scopus

Acesso via:

CWTS Journal Indicators

Acesso livre!
A cobertura:
seletiva versus exaustiva
bom e ruim em ambas

O seletivo bom e o seletivo ruim
Produção em
periódicos que
adotam
criteriosa
avaliação por
pares

Destes, apena
s os que
tratam de
interesse
internacional
Todavia, a busca
retrospectiva
continua um
problema.
A competição instaurada em 2005 entre WoS e
Scopus alterou o quadro em 2009.
A cobertura:
seletiva versus exaustiva
bom e ruim em ambas

O exaustivo bom e o exaustivo ruim
Produção em
periódicos que
adotam
criteriosa
avaliação por
pares

Produção em
periódicos que
adotam
duvidosa
avaliação por
?
pares
da produção ONDE
do impacto DO que NO que
J Bohannon Science 2013;342:60-65
Componente das bases de dados (2)

INDEXAÇÃO
Indexação
• A forma de representação que dá acesso ao
conjunto de dados
• Recursos cada vez mais sofisticados

• Todavia, em regra, os dados tem a qualidade
limitada à própria informação dada pelos autores
A qualidade dos dados e a precisão das
informações dos próprios autores
Autor

Referência

Instituição
Soluções para autores:
identificadores digitais (1)

Variações do
nome do
autor

Ao invés disso, um
número:
0000-0001-9723-9576
Soluções para autores:
identificadores digitais (2)
Integrados com a
Soluções para instituições:
padronização pela Web of Science
Soluções para autores e instituições:
a contribuição do usuário da base Scopus

O usuário informa à base que os
diferentes registros identificam
um único autor ou instituição
A precisa identificação das referências:
situações agravantes
Disponibilidade dos artigos nos sites publishers antes da publicação

A identificação do DOI
nas referências é um
atenuante.

Disponibilidade dos manuscritos nos repositórios sem identificação dos dados de publicação
Ferramentas de RECUPERAÇÃO

Mais importantes

Exemplos
Um artigo, duas bases de dados:

Web of Science
Um artigo, duas bases de dados:

Pubmed
O controle de vocabulário como requisito
para análise da produção por temáticas
As inconsistências particulares do
Multiplicação de produção

1 em 4
Multiplicação de impacto

3 em 7
Autores?
• Autor fantasma: P Login ou seja Please Login (2.340 artigos)

• Autores perdidos

Problema aparentemente
resolvido!
A precisa identificação da produção:
recursos atenuantes
Perfil do pesquisador no GA:
o pesquisador reune as diferentes
versões que correspondem a uma
única produção
Algumas ressalvas para o uso do
Google Acadêmico
• Nem todos os periódicos importantes indexados
pelas bases de dados tradicionais estão
indexados pelo GA;
• as citação a documentos recentes são mais
comuns no GA uma vez que documentos mais
antigos estão disponíveis em menor quantidade
na Web;
• algumas áreas estão melhor representadas por
contarem tradicionalmente com repositórios
mais antigos e exaustivos, um exemplo é a física
como a pioneira base de pré-prints arXiv.org.
TODAS AS BASES POSSUEM
INCONSISTÊNCIAS!
TODO O LEVANTAMENTO
BIBLIOMÉTRICO EXIGE LIMPEZA DE
DADOS!
Todavia, para PeterJácso as inconsistências do
GA são tantas que inviabilizam por completo o
uso dos dados para cálculo de índices
bibliométricos
Mas, para a recuperação, o GA é uma excelente
ferramenta
As inconsistências no GA estão diminuindo!!!!!!!
Jacsó, P. Google Scholar's Ghost Authors. Library Journal. 2009.
Componente das bases de dados (3)

BUSCA
A busca
• Limitação do universo de documentos a ser
estudado por sua representação em
expressões de busca
• As inconsistências na indexação requerem a
realização de uma série buscas intermediárias
para contemplar todas as diferentes formas de
representação do objeto de estudo
Recursos das bases de dados para a
reunião de registros dispersos pelas
inconsistências
Depois de identificar “todas” as formas
possíveis de representação:
use e abuse dos operadores booleanos, de proximidade e truncagem:
o “help” das bases de dados será o seu único amigo
Um exemplo de expressão de busca
para recuperar a produção da UFRGS
OG=(Universidade Federal do Rio Grande do Sul) OR OO=(Univ Fed Rio
Grande Sul OR UFRGS OR Federal University Rio Grande do Sul OR Fed Univ
Rio Grande do Sul OR Fed Univ Rio Grande Sul OR Rio Grande do Sul Fed Univ
OR Rio Grande Sul Fed Univ OR Agron Univ Fed Rio Grande do Sul OR Fed
Univ RS OR Univ Fed Rio Grande do Sul OR Fdn Univ Fed Rio Grande Sul OR
URFGS OR UFGRS OR Univ Fed Rio Do Sul OR Fed Univ Rio Grande Sul UFRGS
OR Fdn Univ Fed Rio Grande Sul OR Fed Univ Hosp Rio Grande Sul OR Fed
Univ Rio Grande Sul State OR Fed Univ Fed Rio Grande Sul OR IF UFRGS) OR
AD=(Univ Fed Rio Grande Sul OR UFRGS OR Federal University Rio Grande do
Sul OR Fed Univ Rio Grande do Sul OR Fed Univ Rio Grande Sul OR Rio Grande
do Sul Fed Univ OR Rio Grande Sul Fed Univ OR Agron Univ Fed Rio Grande do
Sul OR Fed Univ RS OR Univ Fed Rio Grande do Sul OR Fdn Univ Fed Rio
Grande Sul OR URFGS OR UFGRS OR Univ Fed Rio Do Sul OR Fed Univ Rio
Grande Sul UFRGS OR Fdn Univ Fed Rio Grande Sul OR Fed Univ Hosp Rio
Grande Sul OR Fed Univ Rio Grande Sul State OR Fed Univ Fed Rio Grande Sul
OR IF UFRGS)
445 registros são não recuperados pelo campo padronizado
Muito obrigada!
leticia.strehl@ufrg.br

Funções e disfunções das bases de dados em levantamentos bibliométricos (atualização 2013)

  • 1.
    Funções e disfunçõesdas bases de dados em levantamentos bibliométricos Letícia Strehl
  • 2.
    Sumário • Bases dedados e levantamentos bibliométricos – Componentes das bases de dados: • • • • cobertura indexação busca resultado – A produção e o impacto como dado: • autores • instituições • referências
  • 3.
    Componentes das basesde dados 1. Cobertura: o conjunto de registros ou documentos (conjunto de documentos) 2. Indexação: o método de indexação ou acesso ao conjunto de documentos (método de acesso) 3. Busca: a verbalização desta necessidade em uma seqüência de expressões de busca (estratégia de busca) Três do 6 componentes enumerados por: TAGUE-SUTCLIFFE, J. M. Em: Some perspectives on the evaluation of information retrieval systems. Journal of the American Society for Information Science , v. 47, n. 1, p. 1-3, 1996.
  • 4.
    Requisitos das basesde dados para estudos de produção e impacto • Indexação de: – uma quantidade representativa de documentos (cobertura); – identificação consiste de autores, assuntos, instituições e referências citadas nas publicações. Atualmente, as principais bases de dados para o cumprimento desta finalidade são a Web of Science (WoS), a Scopus e o Google Acadêmico (GA)
  • 5.
    Componente das basesde dados (1) COBERTURA
  • 6.
    Definição da cobertura •Identificação: – da produção ONDE – do impacto DO que NO que
  • 7.
    Cobertura: O conjunto deregistros ou documentos – Número de registros: • Total • Por tipo de documento (artigos de revistas, trabalhos em eventos, teses, livros, etc.) • Por idioma • Por país responsável pela publicação das fontes – Período de cobertura das fontes – Periodicidade de atualização Adaptado de: JACSO, P. Content evaluation of databases. Annual Review of Information Science and Technology, v. 32, p. 231-267, 1997.
  • 8.
    Análise quantitativa dacomposição de bases de dados: um exemplo Periódicos arbitrados ≈30 mil Scopus ≈18 mil Web os Science ≈10 mil Bustos-González, Atilio. Edición de revistas científicas con visibilidad ficas internacional: criterios para ser incluidos en bases de datos comprensivas. Apresentação realizada no "Seminário de Comunicação Científica, São Paulo, 13 de junho de 2008". ELSEVIER. About Scopus. 2011. THOMSON REUTERS. Web of Science. 2011.
  • 9.
    A importância dacobertura retrospectiva WoS: 1945, 1956- e 1975-Scopus: 1996 -GA ????? LARIVIERE, V.; ARCHAMBAULT, E.; GINGRAS, Y. Long-term patterns in the aging of the scientific literature, 1900–2004. 2007. Trabalho apresentado no 11th International Conference on Scientometrics and Informetrics, 2007, Madrid.
  • 10.
    O Índice Hcomo uma prova do impacto da cobertura da base no resultado bibliométrico Índice H: – relação entre o número de trabalhos que o pesquisador publica e o número de citações que recebe – 1 fórmula, várias fontes de dados Índice H: Scopus= 23 Google Scholar= 103 Web of Science=74
  • 11.
    Os dados eos indicadores: Fator de impacto SCI E SSCI NA WEB OF SCIENCE Acesso via: JOURNAL CITATION REPORTS Acesso via:
  • 12.
    Os dados eos indicadores SJR Scopus Acesso via: Scimago Acesso livre!
  • 13.
    Os dados eos indicadores SNIP Scopus Acesso via: CWTS Journal Indicators Acesso livre!
  • 14.
    A cobertura: seletiva versusexaustiva bom e ruim em ambas O seletivo bom e o seletivo ruim Produção em periódicos que adotam criteriosa avaliação por pares Destes, apena s os que tratam de interesse internacional
  • 15.
    Todavia, a busca retrospectiva continuaum problema. A competição instaurada em 2005 entre WoS e Scopus alterou o quadro em 2009.
  • 16.
    A cobertura: seletiva versusexaustiva bom e ruim em ambas O exaustivo bom e o exaustivo ruim Produção em periódicos que adotam criteriosa avaliação por pares Produção em periódicos que adotam duvidosa avaliação por ? pares da produção ONDE do impacto DO que NO que
  • 17.
    J Bohannon Science2013;342:60-65
  • 18.
    Componente das basesde dados (2) INDEXAÇÃO
  • 19.
    Indexação • A formade representação que dá acesso ao conjunto de dados • Recursos cada vez mais sofisticados • Todavia, em regra, os dados tem a qualidade limitada à própria informação dada pelos autores
  • 20.
    A qualidade dosdados e a precisão das informações dos próprios autores Autor Referência Instituição
  • 21.
    Soluções para autores: identificadoresdigitais (1) Variações do nome do autor Ao invés disso, um número: 0000-0001-9723-9576
  • 22.
    Soluções para autores: identificadoresdigitais (2) Integrados com a
  • 23.
  • 24.
    Soluções para autorese instituições: a contribuição do usuário da base Scopus O usuário informa à base que os diferentes registros identificam um único autor ou instituição
  • 25.
    A precisa identificaçãodas referências: situações agravantes Disponibilidade dos artigos nos sites publishers antes da publicação A identificação do DOI nas referências é um atenuante. Disponibilidade dos manuscritos nos repositórios sem identificação dos dados de publicação
  • 26.
  • 27.
    Um artigo, duasbases de dados: Web of Science
  • 28.
    Um artigo, duasbases de dados: Pubmed
  • 29.
    O controle devocabulário como requisito para análise da produção por temáticas
  • 30.
  • 31.
  • 32.
  • 33.
    Autores? • Autor fantasma:P Login ou seja Please Login (2.340 artigos) • Autores perdidos Problema aparentemente resolvido!
  • 34.
    A precisa identificaçãoda produção: recursos atenuantes Perfil do pesquisador no GA: o pesquisador reune as diferentes versões que correspondem a uma única produção
  • 35.
    Algumas ressalvas parao uso do Google Acadêmico • Nem todos os periódicos importantes indexados pelas bases de dados tradicionais estão indexados pelo GA; • as citação a documentos recentes são mais comuns no GA uma vez que documentos mais antigos estão disponíveis em menor quantidade na Web; • algumas áreas estão melhor representadas por contarem tradicionalmente com repositórios mais antigos e exaustivos, um exemplo é a física como a pioneira base de pré-prints arXiv.org.
  • 36.
    TODAS AS BASESPOSSUEM INCONSISTÊNCIAS! TODO O LEVANTAMENTO BIBLIOMÉTRICO EXIGE LIMPEZA DE DADOS!
  • 37.
    Todavia, para PeterJácsoas inconsistências do GA são tantas que inviabilizam por completo o uso dos dados para cálculo de índices bibliométricos Mas, para a recuperação, o GA é uma excelente ferramenta As inconsistências no GA estão diminuindo!!!!!!! Jacsó, P. Google Scholar's Ghost Authors. Library Journal. 2009.
  • 38.
    Componente das basesde dados (3) BUSCA
  • 39.
    A busca • Limitaçãodo universo de documentos a ser estudado por sua representação em expressões de busca • As inconsistências na indexação requerem a realização de uma série buscas intermediárias para contemplar todas as diferentes formas de representação do objeto de estudo
  • 40.
    Recursos das basesde dados para a reunião de registros dispersos pelas inconsistências
  • 41.
    Depois de identificar“todas” as formas possíveis de representação: use e abuse dos operadores booleanos, de proximidade e truncagem: o “help” das bases de dados será o seu único amigo
  • 42.
    Um exemplo deexpressão de busca para recuperar a produção da UFRGS OG=(Universidade Federal do Rio Grande do Sul) OR OO=(Univ Fed Rio Grande Sul OR UFRGS OR Federal University Rio Grande do Sul OR Fed Univ Rio Grande do Sul OR Fed Univ Rio Grande Sul OR Rio Grande do Sul Fed Univ OR Rio Grande Sul Fed Univ OR Agron Univ Fed Rio Grande do Sul OR Fed Univ RS OR Univ Fed Rio Grande do Sul OR Fdn Univ Fed Rio Grande Sul OR URFGS OR UFGRS OR Univ Fed Rio Do Sul OR Fed Univ Rio Grande Sul UFRGS OR Fdn Univ Fed Rio Grande Sul OR Fed Univ Hosp Rio Grande Sul OR Fed Univ Rio Grande Sul State OR Fed Univ Fed Rio Grande Sul OR IF UFRGS) OR AD=(Univ Fed Rio Grande Sul OR UFRGS OR Federal University Rio Grande do Sul OR Fed Univ Rio Grande do Sul OR Fed Univ Rio Grande Sul OR Rio Grande do Sul Fed Univ OR Rio Grande Sul Fed Univ OR Agron Univ Fed Rio Grande do Sul OR Fed Univ RS OR Univ Fed Rio Grande do Sul OR Fdn Univ Fed Rio Grande Sul OR URFGS OR UFGRS OR Univ Fed Rio Do Sul OR Fed Univ Rio Grande Sul UFRGS OR Fdn Univ Fed Rio Grande Sul OR Fed Univ Hosp Rio Grande Sul OR Fed Univ Rio Grande Sul State OR Fed Univ Fed Rio Grande Sul OR IF UFRGS) 445 registros são não recuperados pelo campo padronizado
  • 43.