1. Globalcode – Open4educationGlobalcode – Open4education
Data Science – Processamento de
Linguagem Natural como uma ferramenta
poderosa nas mãos de um data scientist
André Camargo do Amaral
Python Developer
2. Globalcode – Open4education
André Camargo do Amaral
Palestrante
Entusiasta da área de recuperação de informação e seu
processamento, trabalha a 3 anos com desenvolvimento
nessa área na Elabora Info. É formado em Ciência da
Computação pela Universidade Presbiteriana Mackenzie.
Contatos:
/amaralandre
/andrecamaral
@acamarel
andre.amaral@elabsis.com
6. Globalcode – Open4education
Uma aplicação Possível
Dados Estruturados Relatórios Automáticos
● Vamos ver como poderíamos utilizar as técnicas
apresentadas em um contexto real, tendo como
objetivo obter:
● Nossa fonte de dados será os diários oficiais da união
Clipping e Alertas por
E-mail Personalizados
7. Globalcode – Open4education
CTNBio - “Autorizações” para
desenvolvimento de biotecnologia
Como Extrair e Processar?
● Regex
● Dicionários Léxicos
● Corpus Linguisticos
● Inteligência Artificial
12. Globalcode – Open4education
Para concluir,
Alguns “probleminhas”
● Dificuldade em processar textos extremamente técnicos em português
(dependendo da Abordagem)
● Necessidade de especialistas nos assuntos dos conteúdos publicados
● Em algumas abordagens estatísticas, conjunto de treinamento é necessário
● Falta de estruturação de dados em algumas fontes
● Grande quantidade de PDFs que precisam ser convertidos e nesse processo
perdem a formatação original
● Necessidade de Dicionários técnicos sobre determinados assuntos para
ajudar o processamento do texto
● *Dificuldades especificas para determinado objetivo
14. Globalcode – Open4education
Links
1. Overview of Natural Language Processing
2. O que são os Diários da União
3. O que são e quais são os orgãos do Governo
4. Diario Livre
5. Expressões Regulares
6. Sumarização Automática baseada em Grafos
7. NLP and Big Data: A Powerful Combination
8. Machine Learning Methods in NLP