O documento descreve um estudo que utilizou técnicas de mineração de texto para caracterizar e analisar redes de colaboração científica baseadas em publicações na revista Scientometrics. Os autores extraíram dados sobre instituições e colaborações entre elas, e geraram grafos mostrando as redes de colaboração identificadas. Os resultados indicaram que as instituições com mais publicações tendem a publicar em conjunto, e que as colaborações ocorrem com mais frequência entre instituições geograficamente próximas.
Fluxo de citações inter-nacional: fontes de informação para avaliação de impa...
Pk 3 c_santos
1. Adoção de Técnicas de Mineração de
Texto para Caracterização e Análise de
Redes de Colaboração Científica
1
Rafael Aparecido Santos³, Jhonatan Fernando de Oliveira¹, Thiago Magela Rodrigues Dias²
¹ Universidade Federal de São João Del Rei - UFSJ
² Centro Federal de Educação Tecnológica de Minas Gerais - CEFET-MG
³ Universidade do Estado de Minas Gerais - UEMG
2. Analisar a colaboração entre as instituições de pesquisa com
publicações na revista Scientometrics.
Problema
8
3. Solução
Utilizar técnicas de mineração de texto para extrair, caracterizar e analisar a
base de artigos publicados na revista Sientometrics, e apresentar a interação
entre as instituições de pesquisa, baseado nas afiliações dos autores dos
artigos.
9
5. Extração dos Dados
11
Fonte: Print do código HTML da página da revista Scientometrics.
Figura 2 – Exemplo de código fonte original
6. Remoção de Ambiguidade
12
• NIFU (Nordic Institute for Studies in Innovation, Research and Education)
• Nordic Institute for Studies in Innovation, Research and Education (NIFU)
• The Australian National University
• Australian National University
• UFSCar—Universidade Federal de São Carlos
• Universidade Federal de São Carlos
7. Geração dos Grafos
13
Nodes.csv
id; label; country
0; University of Natural Resources and Life Sciences Vienna (BOKU); Austria
1; Slovak Academy of Sciences; Slovakia
2; University of Copenhagen; Denmark
3; KU Leuven; Belgium
4; University of Antwerp (UA); Belgium
5; Zhejiang University; China
6; University of Salamanca; Spain
7; University of Zaragoza; Spain
9. Justificativa
A falta de trabalhos correlatos que utilizam a base de dados da revista
Scientometrics.
A escolha dessa base de dados se dá pela relevância dessa revista na
comunidade científica mundial.
15
10. Resultados
• 5036 artigos;
• 3339 nós
(instituições);
• 5071 arestas
(colaborações);
16
Figura 3 – Grafo apresentando todos os nós e arestas encontrados
Fonte: Elaborado pelo autor
11. Resultados
17
Figura 4 – Grafo apresentando os nós que possuem mais de 20 colaborações.
Fonte: Elaborado pelo autor
12. Resultados
18
Figura 5 – Grafo mostrando a colaboração entre instituições brasileiras
Fonte: Elaborado pelo autor
13. Conclusões
19
Através do uso de técnicas de mineração de texto foi possível obter e
padronizar informações contidas em todo o repositório de artigos da
revista Scientometrics.
As instituições com mais publicações na revista, não só publicam mais,
mas também publicam em conjunto.
As colaborações tendem a ocorrer com maior frequência entre
instituições que são geograficamente próximas.
14. Referências Bibliográficas
BORKO, H. Information Science: what is it? American Documentation, Santa
Monica, v. 19, n. 1, p. 3-5, Janeiro 1968.
DIAS, T. M. R. et al. Identificação e Caracterização de Redes Científicas de Dados
Curriculares. iSys - Revista Brasileira de Sistemas de Informação, Rio de Janeiro, v.
7, n. 3, p. 5-18, 2014.
HEARST, M. A. Untangling text data mining. In: ASSOCIATION FOR COMPUTATIONAL
LINGUISTICS. Proceedings of the 37th annual meeting of the Association for
Computational Linguistics on Computational Linguistics. [S.l.], 1999. p. 3–10.
NUDELMAN, A. E.; LANDERS, C. E. The failure of 100 divided by 3 to equal 33-1/3.
The American Sociologist, JSTOR, p. 9–9, 1972.
SENGUPTA, I. N. Bibliometrics, Informetrics, Scientometrics and Librametrics: Na
Overview. Libri, v. 42, n. 2, p. 75-98, Outubro 2009.
20