Este documento descreve um sistema de recuperação de informação e processamento de linguagem natural em currículos científicos. Ele tem como objetivos extrair dados de currículos Lattes usando regex ou Beautiful Soup, estudar como minimizar inconsistências, e desenvolver métodos para resolver inconsistências. O sistema usa distâncias de edição e baseadas em tokens para comparar strings similares.
Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos
1. Recuperação da Informação e
Processamento de Linguagem
Natural em Currículos Científicos
JONATHAN O. DIAS
BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO – PONTIFÍCIA UNIVERSIDADE C ATÓLICA DO PARANÁ
(PUCPR) – CURITIBA, PR – BRASIL
3. Objetivos
1. Desenvolver uma ferramenta capaz de extrair dados e informações de currículos Lattes.
2. Estudar formas de minimizar as ocorrências de inconsistências
3. Desenvolver um método de resolução para eventuais inconsistências
5. Funções de Distância
Distancia de Edição:
Funções de distância resultam em um valor r a partir de um par de strings 𝑠 e 𝑡, onde esse valor
indica o quão similar as strings são. Como regra, quanto menor o valor resultado dessas funções,
maior é a similaridade.
a distância é o custo da menor sequência de operações de edição (Inserir, excluir e substituir)
para converter 𝑠 em 𝑡.
6. Distância Baseada em Token
As strings 𝑠𝑠 e 𝑡𝑡 também podem ser vistas como um conjunto de palavras ou caracteres
(conhecidos como tokens).
Função de Jaccard
7. Serviços e Aplicações Similares
ScriptLattes - Jesús P. Mena-Chalco e Roberto M. Cesar-Jr (2005).
LucyLattes - Rafael Tieppo (2019).
10. Resultados
Em si, o software consegue realizar as funções básicas determinadas anteriormente. Ele permite
a extração e a leitura dos dados dos currículos, mas ele não é desprovido de falhas.
Currículos Lattes apresentam muitos problemas inerentes da plataforma (mal estruturação de
informações e erros nas nomenclaturas de atributos).
aconselhado que deve se encontrar um método mais eficiente de processamento.