SlideShare uma empresa Scribd logo
1 de 10
Recuperação da Informação e
Processamento de Linguagem
Natural em Currículos Científicos
JONATHAN O. DIAS
BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO – PONTIFÍCIA UNIVERSIDADE C ATÓLICA DO PARANÁ
(PUCPR) – CURITIBA, PR – BRASIL
Cv Lattes
Objetivos
1. Desenvolver uma ferramenta capaz de extrair dados e informações de currículos Lattes.
2. Estudar formas de minimizar as ocorrências de inconsistências
3. Desenvolver um método de resolução para eventuais inconsistências
Extração de Dados
Dois métodos disponíveis:
Regex
BeautifulSoup
Funções de Distância
Distancia de Edição:
Funções de distância resultam em um valor r a partir de um par de strings 𝑠 e 𝑡, onde esse valor
indica o quão similar as strings são. Como regra, quanto menor o valor resultado dessas funções,
maior é a similaridade.
a distância é o custo da menor sequência de operações de edição (Inserir, excluir e substituir)
para converter 𝑠 em 𝑡.
Distância Baseada em Token
As strings 𝑠𝑠 e 𝑡𝑡 também podem ser vistas como um conjunto de palavras ou caracteres
(conhecidos como tokens).
Função de Jaccard
Serviços e Aplicações Similares
 ScriptLattes - Jesús P. Mena-Chalco e Roberto M. Cesar-Jr (2005).
LucyLattes - Rafael Tieppo (2019).
Arquitetura do Sistema
Leitura e Processamento
Resultados
Em si, o software consegue realizar as funções básicas determinadas anteriormente. Ele permite
a extração e a leitura dos dados dos currículos, mas ele não é desprovido de falhas.
Currículos Lattes apresentam muitos problemas inerentes da plataforma (mal estruturação de
informações e erros nas nomenclaturas de atributos).
aconselhado que deve se encontrar um método mais eficiente de processamento.

Mais conteúdo relacionado

Semelhante a Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos

Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Avelino Ferreira Gomes Filho
 
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Documentar Tecnologia e Informação
 

Semelhante a Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos (6)

Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...
 
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
Indexação Automática e Semântica: estudo da análise do conteúdo de teses e di...
 
Algoritmo de Rabin-Karp
Algoritmo de Rabin-KarpAlgoritmo de Rabin-Karp
Algoritmo de Rabin-Karp
 
Artigo tecnico RNA Iris
Artigo tecnico RNA IrisArtigo tecnico RNA Iris
Artigo tecnico RNA Iris
 
Pesquisa ppi 2
Pesquisa ppi 2Pesquisa ppi 2
Pesquisa ppi 2
 
Modelos de previsão de Ocorrências
Modelos de previsão de OcorrênciasModelos de previsão de Ocorrências
Modelos de previsão de Ocorrências
 

Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos

  • 1. Recuperação da Informação e Processamento de Linguagem Natural em Currículos Científicos JONATHAN O. DIAS BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO – PONTIFÍCIA UNIVERSIDADE C ATÓLICA DO PARANÁ (PUCPR) – CURITIBA, PR – BRASIL
  • 3. Objetivos 1. Desenvolver uma ferramenta capaz de extrair dados e informações de currículos Lattes. 2. Estudar formas de minimizar as ocorrências de inconsistências 3. Desenvolver um método de resolução para eventuais inconsistências
  • 4. Extração de Dados Dois métodos disponíveis: Regex BeautifulSoup
  • 5. Funções de Distância Distancia de Edição: Funções de distância resultam em um valor r a partir de um par de strings 𝑠 e 𝑡, onde esse valor indica o quão similar as strings são. Como regra, quanto menor o valor resultado dessas funções, maior é a similaridade. a distância é o custo da menor sequência de operações de edição (Inserir, excluir e substituir) para converter 𝑠 em 𝑡.
  • 6. Distância Baseada em Token As strings 𝑠𝑠 e 𝑡𝑡 também podem ser vistas como um conjunto de palavras ou caracteres (conhecidos como tokens). Função de Jaccard
  • 7. Serviços e Aplicações Similares  ScriptLattes - Jesús P. Mena-Chalco e Roberto M. Cesar-Jr (2005). LucyLattes - Rafael Tieppo (2019).
  • 10. Resultados Em si, o software consegue realizar as funções básicas determinadas anteriormente. Ele permite a extração e a leitura dos dados dos currículos, mas ele não é desprovido de falhas. Currículos Lattes apresentam muitos problemas inerentes da plataforma (mal estruturação de informações e erros nas nomenclaturas de atributos). aconselhado que deve se encontrar um método mais eficiente de processamento.