Globalcode – Open4educationGlobalcode – Open4education
Data Science – Processamento de
Linguagem Natural como uma ferramenta
poderosa nas mãos de um data scientist
André Camargo do Amaral
Python Developer
Globalcode – Open4education
André Camargo do Amaral
Palestrante
Entusiasta da área de recuperação de informação e seu
processamento, trabalha a 3 anos com desenvolvimento
nessa área na Elabora Info. É formado em Ciência da
Computação pela Universidade Presbiteriana Mackenzie.
Contatos:
/amaralandre
/andrecamaral
@acamarel
andre.amaral@elabsis.com
Globalcode – Open4education
Roteiro
•Overview - NLP
•Um exemplo básico
•Definindo uma aplicação real
•Conclusão
Globalcode – Open4education
Overview - NLP
ComputadorLinguagem Linguagem
Computadores usam Linguagem Natural como input
e/ou output
Processamento para
entender linguagem
natural Processamento para
gerar linguagem
natural
Globalcode – Open4education
“Estou cansado”
Um exemplo básico:
Globalcode – Open4education
Uma aplicação Possível
Dados Estruturados Relatórios Automáticos
● Vamos ver como poderíamos utilizar as técnicas
apresentadas em um contexto real, tendo como
objetivo obter:
● Nossa fonte de dados será os diários oficiais da união
Clipping e Alertas por
E-mail Personalizados
Globalcode – Open4education
CTNBio - “Autorizações” para
desenvolvimento de biotecnologia
Como Extrair e Processar?
● Regex
● Dicionários Léxicos
● Corpus Linguisticos
● Inteligência Artificial
Globalcode – Open4education
Estruturação possibilita
diversas aplicações
Globalcode – Open4education
Relatório por cultura
Globalcode – Open4education
Relatório por periodo
Globalcode – Open4education
Relatório estratégico
Globalcode – Open4education
Para concluir,
Alguns “probleminhas”
● Dificuldade em processar textos extremamente técnicos em português
(dependendo da Abordagem)
● Necessidade de especialistas nos assuntos dos conteúdos publicados
● Em algumas abordagens estatísticas, conjunto de treinamento é necessário
● Falta de estruturação de dados em algumas fontes
● Grande quantidade de PDFs que precisam ser convertidos e nesse processo
perdem a formatação original
● Necessidade de Dicionários técnicos sobre determinados assuntos para
ajudar o processamento do texto
● *Dificuldades especificas para determinado objetivo
Globalcode – Open4education
Perguntas!?
Globalcode – Open4education
Links
1. Overview of Natural Language Processing
2. O que são os Diários da União
3. O que são e quais são os orgãos do Governo
4. Diario Livre
5. Expressões Regulares
6. Sumarização Automática baseada em Grafos
7. NLP and Big Data: A Powerful Combination
8. Machine Learning Methods in NLP

TDC2016SP - Trilha Data Science

  • 1.
    Globalcode – Open4educationGlobalcode– Open4education Data Science – Processamento de Linguagem Natural como uma ferramenta poderosa nas mãos de um data scientist André Camargo do Amaral Python Developer
  • 2.
    Globalcode – Open4education AndréCamargo do Amaral Palestrante Entusiasta da área de recuperação de informação e seu processamento, trabalha a 3 anos com desenvolvimento nessa área na Elabora Info. É formado em Ciência da Computação pela Universidade Presbiteriana Mackenzie. Contatos: /amaralandre /andrecamaral @acamarel andre.amaral@elabsis.com
  • 3.
    Globalcode – Open4education Roteiro •Overview- NLP •Um exemplo básico •Definindo uma aplicação real •Conclusão
  • 4.
    Globalcode – Open4education Overview- NLP ComputadorLinguagem Linguagem Computadores usam Linguagem Natural como input e/ou output Processamento para entender linguagem natural Processamento para gerar linguagem natural
  • 5.
    Globalcode – Open4education “Estoucansado” Um exemplo básico:
  • 6.
    Globalcode – Open4education Umaaplicação Possível Dados Estruturados Relatórios Automáticos ● Vamos ver como poderíamos utilizar as técnicas apresentadas em um contexto real, tendo como objetivo obter: ● Nossa fonte de dados será os diários oficiais da união Clipping e Alertas por E-mail Personalizados
  • 7.
    Globalcode – Open4education CTNBio- “Autorizações” para desenvolvimento de biotecnologia Como Extrair e Processar? ● Regex ● Dicionários Léxicos ● Corpus Linguisticos ● Inteligência Artificial
  • 8.
    Globalcode – Open4education Estruturaçãopossibilita diversas aplicações
  • 9.
  • 10.
  • 11.
  • 12.
    Globalcode – Open4education Paraconcluir, Alguns “probleminhas” ● Dificuldade em processar textos extremamente técnicos em português (dependendo da Abordagem) ● Necessidade de especialistas nos assuntos dos conteúdos publicados ● Em algumas abordagens estatísticas, conjunto de treinamento é necessário ● Falta de estruturação de dados em algumas fontes ● Grande quantidade de PDFs que precisam ser convertidos e nesse processo perdem a formatação original ● Necessidade de Dicionários técnicos sobre determinados assuntos para ajudar o processamento do texto ● *Dificuldades especificas para determinado objetivo
  • 13.
  • 14.
    Globalcode – Open4education Links 1.Overview of Natural Language Processing 2. O que são os Diários da União 3. O que são e quais são os orgãos do Governo 4. Diario Livre 5. Expressões Regulares 6. Sumarização Automática baseada em Grafos 7. NLP and Big Data: A Powerful Combination 8. Machine Learning Methods in NLP