Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos

Recuperação da Informação e
Processamento de Linguagem
Natural em Currículos Científicos
JONATHAN O. DIAS
BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO – PONTIFÍCIA UNIVERSIDADE C ATÓLICA DO PARANÁ
(PUCPR) – CURITIBA, PR – BRASIL

Objetivos
1. Desenvolver uma ferramenta capaz de extrair dados e informações de currículos Lattes.
2. Estudar formas de minimizar as ocorrências de inconsistências
3. Desenvolver um método de resolução para eventuais inconsistências

Extração de Dados
Dois métodos disponíveis:
Regex
BeautifulSoup

Funções de Distância
Distancia de Edição:
Funções de distância resultam em um valor r a partir de um par de strings 𝑠 e 𝑡, onde esse valor
indica o quão similar as strings são. Como regra, quanto menor o valor resultado dessas funções,
maior é a similaridade.
a distância é o custo da menor sequência de operações de edição (Inserir, excluir e substituir)
para converter 𝑠 em 𝑡.

Distância Baseada em Token
As strings 𝑠𝑠 e 𝑡𝑡 também podem ser vistas como um conjunto de palavras ou caracteres
(conhecidos como tokens).
Função de Jaccard

Serviços e Aplicações Similares
 ScriptLattes - Jesús P. Mena-Chalco e Roberto M. Cesar-Jr (2005).
LucyLattes - Rafael Tieppo (2019).

Resultados
Em si, o software consegue realizar as funções básicas determinadas anteriormente. Ele permite
a extração e a leitura dos dados dos currículos, mas ele não é desprovido de falhas.
Currículos Lattes apresentam muitos problemas inerentes da plataforma (mal estruturação de
informações e erros nas nomenclaturas de atributos).
aconselhado que deve se encontrar um método mais eficiente de processamento.

Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos

Semelhante a Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos (6)

Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos