SlideShare uma empresa Scribd logo
1 de 30
Baixar para ler offline
Processamento de Linguagem Natural
Primeiro Encontro em Computa¸c˜ao Semˆantica - Tutoriais
Danilo S. Carvalho
Hugo C. C. Carneiro
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
O que ´e
Ramo de estudo resultante da uni˜ao de esfor¸cos entre a
Ciˆencia da Computa¸c˜ao, Ciˆencia da Informa¸c˜ao e Lingu´ıstica.
Compreende a an´alise, manipula¸c˜ao e gera¸c˜ao da linguagem
humana atrav´es de computador.
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
N´ıveis da an´alise: A informa¸c˜ao desejada
A informa¸c˜ao contida no texto pode ser analisada de mais de
um ponto de vista.
Do que fala?
Quem fala?
Como fala?
Podemos descobrir o assunto de um texto olhando apenas
para uma senten¸ca?
Podemos descobrir o autor de um texto observando todas as
suas palavras?
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
N´ıveis da an´alise: Discurso X palavra
A sequˆencia de senten¸cas ou de documentos inteiros pode ser
t˜ao importante quanto as sequˆencias de palavras que os
formam.
Da palavra ao discurso, h´a informa¸c˜ao ´util a ser obtida.
Entretanto, as t´ecnicas tendem a ser diferentes para cada
n´ıvel.
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
N´ıveis da an´alise: Unidade de significado
´E aquilo ao qual podemos atribuir um significado. Exemplos:
A opini˜ao de uma carta sobre a pol´ıtica econˆomica atual
(discurso).
Uso de voz passiva para amenizar um fato contundente
(senten¸ca).
Nome (palavra).
A escolha da unidade de significado depende da informa¸c˜ao
desejada.
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Aplica¸c˜oes do Processamento de Linguagem Natural
Corre¸c˜ao de texto (ortografia, gram´atica)
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Aplica¸c˜oes do Processamento de Linguagem Natural
Classifica¸c˜ao de textos
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Aplica¸c˜oes do Processamento de Linguagem Natural
Extra¸c˜ao de informa¸c˜oes
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Aplica¸c˜oes do Processamento de Linguagem Natural
Outros
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Modelos para a linguagem
Representa¸c˜ao da l´ıngua humana para o computador deve ao
mesmo tempo manter a expressividade e flexibilidade, mas
proporcionando a consistˆencia matem´atica necess´aria para
aplica¸c˜ao de algoritmos diversos.
Essa ´e uma tarefa dif´ıcil, para a qual existem muitas respostas
poss´ıveis, mas nenhuma definitiva.
Modelos computacionais para a l´ıngua podem ser classificados
em dois tipos principais:
Estat´ısticos
N˜ao estat´ısticos
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Modelos estat´ısticos
n-gramas: Cada sequˆencia de n termos possui uma
probabilidade de ocorrer. Logo pode-se prever o pr´oximo
termo de uma sequˆencia conhecendo os anteriores.
Posicionais: Cada termo (ou sequˆencia) possui uma
probabilidade de ocorrer dado sua posi¸c˜ao relativa aos outros
termos.
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Modelos n˜ao estat´ısticos
Simb´olico: Cada termo (ou
sequˆencia) ´e associado a um s´ımbolo,
cujas intera¸c˜oes s˜ao definidas por
regras.
Vetorial: Cada termo, sequˆencia ou
documento ´e associado a uma
coordenada de um espa¸co
multidimensional. Por exemplo, um
documento pode ser representado por
um vetor, onde as coordenadas s˜ao
preenchidas com as frequˆencias
relativas de ocorrˆencia dos termos.
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Recursos
Listas de palavras
Stopwords
Palavras muito comuns
Pouca relevˆancia
e, mas, como, n˜ao, tudo, cada, pode, deve, ´e, h´a, um, a, o
Mais stopwords dependendo do contexto
computador, m´aquina, c´odigo
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Recursos
Dicion´arios
Conjunto de palavras e suas defini¸c˜oes
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Recursos
´Indices
Referˆencias para simplifica¸c˜ao na busca por conte´udos
Sum´arios, ´ındices remissivos, palavras-chave
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Recursos
Tesauros
Listagem de palavras agrupadas de acordo com similaridade
sinˆonimos, antˆonimos
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Recursos
Wordnet
Banco de dados l´exicos
Termos agrupados em synsets
hipern´ımia (gato → felino)
hipon´ımia (felino → le˜ao)
coordena¸c˜ao (gato ↔ le˜ao)
meron´ımia (casa → porta)
holon´ımia (porta → casa)
tropon´ımia (dialogar → falar)
implica¸c˜ao (roncar → dormir)
partic´ıpios (cansado → cansar)
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Recursos
Corpora
Conjuntos grandes e estruturados de textos
anotados / n˜ao anotados
textuais / orais
corpora paralelos
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Recursos
Treebanks
Corpora com anota¸c˜oes sint´aticas e/ou semˆanticas
Mais conhecido/utilizado → Penn Treebank
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Tokeniza¸c˜ao
Detec¸c˜ao de termos
Palavras com muitos termos
Donaudampfschifffahrtsgesellschaftskapit¨an
Donau dampf schiff fahrts gesellschafts kapit¨an
Termos que possuem pontua¸c˜ao em sua composi¸c˜ao
siglas, quantias etc
Scriptio continua
Foto por Vincent Ramos, sob licen¸ca da GNU Free Documentation License.
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Stemming
Qual radical de uma palavra?
Como extrair sua informa¸c˜ao relevante?
menino / menina
cantar / canta / canto
felizmente / felicidade / feliz
inconstitucionalissimamente / constitucional / constitui¸c˜ao
Um stemming mal feito pode prejudicar a extra¸c˜ao de
informa¸c˜oes relevantes
idade / ir / i ?
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
POS-tagging
Classifica¸c˜ao gramatical
As palavras mais comuns podem ter diversas classes
a, o, se, que, como
Classifica¸c˜ao depende do contexto
Como devo proceder?
Ele ´e alto como um poste.
Como arroz todo dia.
Palavras novas surgem o tempo todo
linguagem t´ecnica, jarg˜oes, neologismos, g´ırias
classes abertas (substantivos, adjetivos, adv´erbios e verbos)
classes fechadas (preposi¸c˜oes, conjun¸c˜oes, pronomes etc)
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Segmenta¸c˜ao de senten¸cas
Detec¸c˜ao de limites entre senten¸cas
Ponto (.) e uso de letras mai´usculas ajudam a descobrir o
limite de uma senten¸ca, contudo:
Senten¸cas com termos que possuem pontua¸c˜ao: Fechei um
acordo com o Sr. Silva.
Senten¸cas aninhadas: ”Nos encontramos amanh˜a.”, disseram
ao se despedir.
Textos mal pontuados
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
An´alise sint´atica
Superficial (Chunking)
Identifica¸c˜ao de constituintes
Sintagmas
Nominais
Verbais
Preposicionais
...
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
An´alise sint´atica
Profunda
Identifica¸c˜ao de toda deriva¸c˜ao sint´atica at´e o n´ıvel de classes
gramaticais
Determina¸c˜ao de n´ucleos e adjuntos dos sintagmas
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Entidades nomeadas
Nomes, datas, quantias etc
Entidades nomeadas podem ser compostas por muitos termos
P˜ao de A¸c´ucar
Rep´ublica Federativa do Brasil
Pode conter pontua¸c˜ao
1,99%
23:59:00
D. Pedro I
Pode conter numerais e letras ao mesmo tempo
C3PO
W3C
Algumas entidades nomeadas, `a primeira vista, podem parecer
n˜ao concordar com os termos adjacentes
As mil e uma noites ´e um livro muito conhecido.
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Resolu¸c˜ao de co-referˆencias
An´aforas
Jo˜ao cuida muito bem de seu c˜ao. Este, por sua vez, tamb´em
o adora.
A bab´a cuida do bebˆe doente. Ela est´a muito preocupada,
pois ele n˜ao para de chorar.
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Significado: Modelos Semˆanticos
S˜ao os modelos lingu´ısticos usados quando a informa¸c˜ao
desejada ´e o significado dos termos do texto.
Sequˆencias, s´ımbolos, regras, posi¸c˜oes ou vetores destinam-se
a elucidar o sentido do texto em vez da estrutura.
Podem conter um aspecto adicional: rela¸c˜oes semˆanticas.
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Significado: Rela¸c˜oes semˆanticas
Expressam as intera¸c˜oes existentes entre o significado de duas
ou mais palavras os express˜oes.
Permitem aproximar textos estruturalmente diferentes, mas
pr´oximos em significado.
Exemplo:
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural
Processamento de Linguagem Natural
Primeiro Encontro em Computa¸c˜ao Semˆantica - Tutoriais
Danilo S. Carvalho
Hugo C. C. Carneiro
Danilo S. Carvalho Hugo C. C. Carneiro
Processamento de Linguagem Natural

Mais conteúdo relacionado

Mais procurados

Processamento da linguagem escrita
Processamento da linguagem escritaProcessamento da linguagem escrita
Processamento da linguagem escritaguest6e881ccf
 
Inglês instrumental apresentação
Inglês instrumental apresentaçãoInglês instrumental apresentação
Inglês instrumental apresentaçãoGioliano
 
Prova concurso ufpe - programador de computador
Prova concurso   ufpe - programador de computadorProva concurso   ufpe - programador de computador
Prova concurso ufpe - programador de computadorJ M
 
3º ANO - ENSINO FUNDAMENTAL - EDUCAÇÃO ESPECIAL
3º ANO - ENSINO FUNDAMENTAL - EDUCAÇÃO ESPECIAL3º ANO - ENSINO FUNDAMENTAL - EDUCAÇÃO ESPECIAL
3º ANO - ENSINO FUNDAMENTAL - EDUCAÇÃO ESPECIALJakes Paulo
 
O uso da Internet no ensino de ingles instrumental
O uso da Internet no ensino de ingles instrumentalO uso da Internet no ensino de ingles instrumental
O uso da Internet no ensino de ingles instrumentalClaudio Franco
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaAlberto Simões
 
08 linguagens recursivamente enumeraveis e sensiveis ao contexto
08   linguagens recursivamente enumeraveis e sensiveis ao contexto08   linguagens recursivamente enumeraveis e sensiveis ao contexto
08 linguagens recursivamente enumeraveis e sensiveis ao contextoComputação Depressão
 
Breve história da língua portuguesa
Breve história da língua portuguesaBreve história da língua portuguesa
Breve história da língua portuguesaFabiana Pinto
 
04 propriedades das linguagens regulares
04   propriedades das linguagens regulares04   propriedades das linguagens regulares
04 propriedades das linguagens regularesComputação Depressão
 
09 hierarquia de classes e linguagens e conclusoes
09   hierarquia de classes e linguagens e conclusoes09   hierarquia de classes e linguagens e conclusoes
09 hierarquia de classes e linguagens e conclusoesComputação Depressão
 
Linguagem de programação
Linguagem de programaçãoLinguagem de programação
Linguagem de programaçãoMarcia Poposki
 
Apostila de ingles_informatica_pronatec
Apostila de ingles_informatica_pronatecApostila de ingles_informatica_pronatec
Apostila de ingles_informatica_pronatecDiego Oliveira
 
Aula 1 - Apresentação da disciplina e metodologia de trabalho. aspectos teori...
Aula 1 - Apresentação da disciplina e metodologia de trabalho. aspectos teori...Aula 1 - Apresentação da disciplina e metodologia de trabalho. aspectos teori...
Aula 1 - Apresentação da disciplina e metodologia de trabalho. aspectos teori...wab030
 
Analise textual online
Analise textual onlineAnalise textual online
Analise textual onlineplanejando
 
Pet português instrumental e e geraldino r cunha
Pet português instrumental e e geraldino r cunhaPet português instrumental e e geraldino r cunha
Pet português instrumental e e geraldino r cunhaMariaLusadeJesusRodo1
 

Mais procurados (20)

Processamento da linguagem escrita
Processamento da linguagem escritaProcessamento da linguagem escrita
Processamento da linguagem escrita
 
Inglês instrumental apresentação
Inglês instrumental apresentaçãoInglês instrumental apresentação
Inglês instrumental apresentação
 
Prova concurso ufpe - programador de computador
Prova concurso   ufpe - programador de computadorProva concurso   ufpe - programador de computador
Prova concurso ufpe - programador de computador
 
02 linguagens e gramaticas
02   linguagens e gramaticas02   linguagens e gramaticas
02 linguagens e gramaticas
 
3º ANO - ENSINO FUNDAMENTAL - EDUCAÇÃO ESPECIAL
3º ANO - ENSINO FUNDAMENTAL - EDUCAÇÃO ESPECIAL3º ANO - ENSINO FUNDAMENTAL - EDUCAÇÃO ESPECIAL
3º ANO - ENSINO FUNDAMENTAL - EDUCAÇÃO ESPECIAL
 
O uso da Internet no ensino de ingles instrumental
O uso da Internet no ensino de ingles instrumentalO uso da Internet no ensino de ingles instrumental
O uso da Internet no ensino de ingles instrumental
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
 
Aula 2
Aula 2Aula 2
Aula 2
 
08 linguagens recursivamente enumeraveis e sensiveis ao contexto
08   linguagens recursivamente enumeraveis e sensiveis ao contexto08   linguagens recursivamente enumeraveis e sensiveis ao contexto
08 linguagens recursivamente enumeraveis e sensiveis ao contexto
 
Breve história da língua portuguesa
Breve história da língua portuguesaBreve história da língua portuguesa
Breve história da língua portuguesa
 
04 propriedades das linguagens regulares
04   propriedades das linguagens regulares04   propriedades das linguagens regulares
04 propriedades das linguagens regulares
 
06 linguagens livres do contexto
06   linguagens livres do contexto06   linguagens livres do contexto
06 linguagens livres do contexto
 
09 hierarquia de classes e linguagens e conclusoes
09   hierarquia de classes e linguagens e conclusoes09   hierarquia de classes e linguagens e conclusoes
09 hierarquia de classes e linguagens e conclusoes
 
Linguagem de programação
Linguagem de programaçãoLinguagem de programação
Linguagem de programação
 
01 introducao e conceitos basicos
01   introducao e conceitos basicos01   introducao e conceitos basicos
01 introducao e conceitos basicos
 
Apostila de ingles_informatica_pronatec
Apostila de ingles_informatica_pronatecApostila de ingles_informatica_pronatec
Apostila de ingles_informatica_pronatec
 
Aula 1 - Apresentação da disciplina e metodologia de trabalho. aspectos teori...
Aula 1 - Apresentação da disciplina e metodologia de trabalho. aspectos teori...Aula 1 - Apresentação da disciplina e metodologia de trabalho. aspectos teori...
Aula 1 - Apresentação da disciplina e metodologia de trabalho. aspectos teori...
 
Prosodia en la clase
Prosodia en la clase Prosodia en la clase
Prosodia en la clase
 
Analise textual online
Analise textual onlineAnalise textual online
Analise textual online
 
Pet português instrumental e e geraldino r cunha
Pet português instrumental e e geraldino r cunhaPet português instrumental e e geraldino r cunha
Pet português instrumental e e geraldino r cunha
 

Destaque

Processamento de Linguagem Natural
Processamento de Linguagem NaturalProcessamento de Linguagem Natural
Processamento de Linguagem NaturalThiago Reis da Silva
 
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...Laís Berlatto
 
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuais
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuaisFalando com a máquina: Desenvolvimento de assistentes pessoais virtuais
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuaisWilliam Colen
 
Processamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHPProcessamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHPIvo Nascimento
 
Processamento da linguagem no c+ërebro
Processamento da linguagem no c+ërebroProcessamento da linguagem no c+ërebro
Processamento da linguagem no c+ërebroUPE
 
Modelo de Dados: Entendendo e “re-”construindo...
Modelo de Dados: Entendendo e “re-”construindo...Modelo de Dados: Entendendo e “re-”construindo...
Modelo de Dados: Entendendo e “re-”construindo...Wesley Seidel
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Adolfo Guimaraes
 

Destaque (10)

Processamento de Linguagem Natural
Processamento de Linguagem NaturalProcessamento de Linguagem Natural
Processamento de Linguagem Natural
 
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
 
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuais
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuaisFalando com a máquina: Desenvolvimento de assistentes pessoais virtuais
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuais
 
Processamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHPProcessamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHP
 
Adaptando, Aprendendo e Integrando Modelos Semânticos.
Adaptando, Aprendendo e Integrando Modelos Semânticos.Adaptando, Aprendendo e Integrando Modelos Semânticos.
Adaptando, Aprendendo e Integrando Modelos Semânticos.
 
Processamento da linguagem no c+ërebro
Processamento da linguagem no c+ërebroProcessamento da linguagem no c+ërebro
Processamento da linguagem no c+ërebro
 
Modelo de Dados: Entendendo e “re-”construindo...
Modelo de Dados: Entendendo e “re-”construindo...Modelo de Dados: Entendendo e “re-”construindo...
Modelo de Dados: Entendendo e “re-”construindo...
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
 
Função de Linguagem
Função de LinguagemFunção de Linguagem
Função de Linguagem
 

Semelhante a Tutorial em Processamento de Linguagem Natural

Processamento da linguagem escrita
Processamento da linguagem escritaProcessamento da linguagem escrita
Processamento da linguagem escritaAna Vogeley
 
As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...Diogoncosta
 
Apostila de Portugues para banca Cesgranrio
Apostila de Portugues para banca CesgranrioApostila de Portugues para banca Cesgranrio
Apostila de Portugues para banca CesgranrioNathalie Vieira
 
Bndes apostila português - prof. carlos zambelli
Bndes   apostila português - prof. carlos zambelliBndes   apostila português - prof. carlos zambelli
Bndes apostila português - prof. carlos zambelliWilliam Soph
 
Casa bndes-portugues-zambeli
Casa bndes-portugues-zambeliCasa bndes-portugues-zambeli
Casa bndes-portugues-zambeliVanessa Mello
 
Casa bndes-portugues-zambeli
Casa bndes-portugues-zambeliCasa bndes-portugues-zambeli
Casa bndes-portugues-zambelimarcosdcl
 
Português para concurso
Português para concursoPortuguês para concurso
Português para concursorackgbseason11
 
Casa bndes-portugues-zambeli
Casa bndes-portugues-zambeliCasa bndes-portugues-zambeli
Casa bndes-portugues-zambeliHope Anjo
 
Aula 00 português
Aula 00   portuguêsAula 00   português
Aula 00 portuguêsricardo17754
 
Planificacao_PLNM_A1.docx
Planificacao_PLNM_A1.docxPlanificacao_PLNM_A1.docx
Planificacao_PLNM_A1.docxMarisaDobres
 
Apostila correios 2014
Apostila correios 2014Apostila correios 2014
Apostila correios 2014gildivan lima
 
Apostila gratis dos correios corr
Apostila gratis dos correios  corrApostila gratis dos correios  corr
Apostila gratis dos correios corrLucilene Carvalho
 
Inglês para Leitura Instrumental.pdf
Inglês para Leitura Instrumental.pdfInglês para Leitura Instrumental.pdf
Inglês para Leitura Instrumental.pdfJonas185568
 
Leia_Digital_TRT14.pdf
Leia_Digital_TRT14.pdfLeia_Digital_TRT14.pdf
Leia_Digital_TRT14.pdfValmir Valll
 
Linguagem e interpretação de textos
Linguagem e interpretação de textos  Linguagem e interpretação de textos
Linguagem e interpretação de textos Renato Souza
 

Semelhante a Tutorial em Processamento de Linguagem Natural (20)

Análise textual av1
Análise textual av1Análise textual av1
Análise textual av1
 
Processamento da linguagem escrita
Processamento da linguagem escritaProcessamento da linguagem escrita
Processamento da linguagem escrita
 
As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...As ferramentas, os percursos e as estratégias de tradução no universo digital...
As ferramentas, os percursos e as estratégias de tradução no universo digital...
 
Apostila de Portugues para banca Cesgranrio
Apostila de Portugues para banca CesgranrioApostila de Portugues para banca Cesgranrio
Apostila de Portugues para banca Cesgranrio
 
Bndes apostila português - prof. carlos zambelli
Bndes   apostila português - prof. carlos zambelliBndes   apostila português - prof. carlos zambelli
Bndes apostila português - prof. carlos zambelli
 
Casa bndes-portugues-zambeli
Casa bndes-portugues-zambeliCasa bndes-portugues-zambeli
Casa bndes-portugues-zambeli
 
Casa bndes-portugues-zambeli
Casa bndes-portugues-zambeliCasa bndes-portugues-zambeli
Casa bndes-portugues-zambeli
 
Português para concurso
Português para concursoPortuguês para concurso
Português para concurso
 
Casa bndes-portugues-zambeli
Casa bndes-portugues-zambeliCasa bndes-portugues-zambeli
Casa bndes-portugues-zambeli
 
Aula 00 português
Aula 00   portuguêsAula 00   português
Aula 00 português
 
Aula 00
Aula 00Aula 00
Aula 00
 
Simulado agora2013-2
Simulado agora2013-2Simulado agora2013-2
Simulado agora2013-2
 
Inglies.At2
Inglies.At2Inglies.At2
Inglies.At2
 
Planificacao_PLNM_A1.docx
Planificacao_PLNM_A1.docxPlanificacao_PLNM_A1.docx
Planificacao_PLNM_A1.docx
 
Apostila correios 2014
Apostila correios 2014Apostila correios 2014
Apostila correios 2014
 
Apostila gratis dos correios corr
Apostila gratis dos correios  corrApostila gratis dos correios  corr
Apostila gratis dos correios corr
 
Inglês para Leitura Instrumental.pdf
Inglês para Leitura Instrumental.pdfInglês para Leitura Instrumental.pdf
Inglês para Leitura Instrumental.pdf
 
Pdf apostilha
Pdf apostilhaPdf apostilha
Pdf apostilha
 
Leia_Digital_TRT14.pdf
Leia_Digital_TRT14.pdfLeia_Digital_TRT14.pdf
Leia_Digital_TRT14.pdf
 
Linguagem e interpretação de textos
Linguagem e interpretação de textos  Linguagem e interpretação de textos
Linguagem e interpretação de textos
 

Tutorial em Processamento de Linguagem Natural

  • 1. Processamento de Linguagem Natural Primeiro Encontro em Computa¸c˜ao Semˆantica - Tutoriais Danilo S. Carvalho Hugo C. C. Carneiro Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 2. O que ´e Ramo de estudo resultante da uni˜ao de esfor¸cos entre a Ciˆencia da Computa¸c˜ao, Ciˆencia da Informa¸c˜ao e Lingu´ıstica. Compreende a an´alise, manipula¸c˜ao e gera¸c˜ao da linguagem humana atrav´es de computador. Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 3. N´ıveis da an´alise: A informa¸c˜ao desejada A informa¸c˜ao contida no texto pode ser analisada de mais de um ponto de vista. Do que fala? Quem fala? Como fala? Podemos descobrir o assunto de um texto olhando apenas para uma senten¸ca? Podemos descobrir o autor de um texto observando todas as suas palavras? Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 4. N´ıveis da an´alise: Discurso X palavra A sequˆencia de senten¸cas ou de documentos inteiros pode ser t˜ao importante quanto as sequˆencias de palavras que os formam. Da palavra ao discurso, h´a informa¸c˜ao ´util a ser obtida. Entretanto, as t´ecnicas tendem a ser diferentes para cada n´ıvel. Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 5. N´ıveis da an´alise: Unidade de significado ´E aquilo ao qual podemos atribuir um significado. Exemplos: A opini˜ao de uma carta sobre a pol´ıtica econˆomica atual (discurso). Uso de voz passiva para amenizar um fato contundente (senten¸ca). Nome (palavra). A escolha da unidade de significado depende da informa¸c˜ao desejada. Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 6. Aplica¸c˜oes do Processamento de Linguagem Natural Corre¸c˜ao de texto (ortografia, gram´atica) Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 7. Aplica¸c˜oes do Processamento de Linguagem Natural Classifica¸c˜ao de textos Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 8. Aplica¸c˜oes do Processamento de Linguagem Natural Extra¸c˜ao de informa¸c˜oes Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 9. Aplica¸c˜oes do Processamento de Linguagem Natural Outros Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 10. Modelos para a linguagem Representa¸c˜ao da l´ıngua humana para o computador deve ao mesmo tempo manter a expressividade e flexibilidade, mas proporcionando a consistˆencia matem´atica necess´aria para aplica¸c˜ao de algoritmos diversos. Essa ´e uma tarefa dif´ıcil, para a qual existem muitas respostas poss´ıveis, mas nenhuma definitiva. Modelos computacionais para a l´ıngua podem ser classificados em dois tipos principais: Estat´ısticos N˜ao estat´ısticos Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 11. Modelos estat´ısticos n-gramas: Cada sequˆencia de n termos possui uma probabilidade de ocorrer. Logo pode-se prever o pr´oximo termo de uma sequˆencia conhecendo os anteriores. Posicionais: Cada termo (ou sequˆencia) possui uma probabilidade de ocorrer dado sua posi¸c˜ao relativa aos outros termos. Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 12. Modelos n˜ao estat´ısticos Simb´olico: Cada termo (ou sequˆencia) ´e associado a um s´ımbolo, cujas intera¸c˜oes s˜ao definidas por regras. Vetorial: Cada termo, sequˆencia ou documento ´e associado a uma coordenada de um espa¸co multidimensional. Por exemplo, um documento pode ser representado por um vetor, onde as coordenadas s˜ao preenchidas com as frequˆencias relativas de ocorrˆencia dos termos. Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 13. Recursos Listas de palavras Stopwords Palavras muito comuns Pouca relevˆancia e, mas, como, n˜ao, tudo, cada, pode, deve, ´e, h´a, um, a, o Mais stopwords dependendo do contexto computador, m´aquina, c´odigo Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 14. Recursos Dicion´arios Conjunto de palavras e suas defini¸c˜oes Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 15. Recursos ´Indices Referˆencias para simplifica¸c˜ao na busca por conte´udos Sum´arios, ´ındices remissivos, palavras-chave Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 16. Recursos Tesauros Listagem de palavras agrupadas de acordo com similaridade sinˆonimos, antˆonimos Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 17. Recursos Wordnet Banco de dados l´exicos Termos agrupados em synsets hipern´ımia (gato → felino) hipon´ımia (felino → le˜ao) coordena¸c˜ao (gato ↔ le˜ao) meron´ımia (casa → porta) holon´ımia (porta → casa) tropon´ımia (dialogar → falar) implica¸c˜ao (roncar → dormir) partic´ıpios (cansado → cansar) Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 18. Recursos Corpora Conjuntos grandes e estruturados de textos anotados / n˜ao anotados textuais / orais corpora paralelos Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 19. Recursos Treebanks Corpora com anota¸c˜oes sint´aticas e/ou semˆanticas Mais conhecido/utilizado → Penn Treebank Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 20. Tokeniza¸c˜ao Detec¸c˜ao de termos Palavras com muitos termos Donaudampfschifffahrtsgesellschaftskapit¨an Donau dampf schiff fahrts gesellschafts kapit¨an Termos que possuem pontua¸c˜ao em sua composi¸c˜ao siglas, quantias etc Scriptio continua Foto por Vincent Ramos, sob licen¸ca da GNU Free Documentation License. Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 21. Stemming Qual radical de uma palavra? Como extrair sua informa¸c˜ao relevante? menino / menina cantar / canta / canto felizmente / felicidade / feliz inconstitucionalissimamente / constitucional / constitui¸c˜ao Um stemming mal feito pode prejudicar a extra¸c˜ao de informa¸c˜oes relevantes idade / ir / i ? Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 22. POS-tagging Classifica¸c˜ao gramatical As palavras mais comuns podem ter diversas classes a, o, se, que, como Classifica¸c˜ao depende do contexto Como devo proceder? Ele ´e alto como um poste. Como arroz todo dia. Palavras novas surgem o tempo todo linguagem t´ecnica, jarg˜oes, neologismos, g´ırias classes abertas (substantivos, adjetivos, adv´erbios e verbos) classes fechadas (preposi¸c˜oes, conjun¸c˜oes, pronomes etc) Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 23. Segmenta¸c˜ao de senten¸cas Detec¸c˜ao de limites entre senten¸cas Ponto (.) e uso de letras mai´usculas ajudam a descobrir o limite de uma senten¸ca, contudo: Senten¸cas com termos que possuem pontua¸c˜ao: Fechei um acordo com o Sr. Silva. Senten¸cas aninhadas: ”Nos encontramos amanh˜a.”, disseram ao se despedir. Textos mal pontuados Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 24. An´alise sint´atica Superficial (Chunking) Identifica¸c˜ao de constituintes Sintagmas Nominais Verbais Preposicionais ... Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 25. An´alise sint´atica Profunda Identifica¸c˜ao de toda deriva¸c˜ao sint´atica at´e o n´ıvel de classes gramaticais Determina¸c˜ao de n´ucleos e adjuntos dos sintagmas Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 26. Entidades nomeadas Nomes, datas, quantias etc Entidades nomeadas podem ser compostas por muitos termos P˜ao de A¸c´ucar Rep´ublica Federativa do Brasil Pode conter pontua¸c˜ao 1,99% 23:59:00 D. Pedro I Pode conter numerais e letras ao mesmo tempo C3PO W3C Algumas entidades nomeadas, `a primeira vista, podem parecer n˜ao concordar com os termos adjacentes As mil e uma noites ´e um livro muito conhecido. Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 27. Resolu¸c˜ao de co-referˆencias An´aforas Jo˜ao cuida muito bem de seu c˜ao. Este, por sua vez, tamb´em o adora. A bab´a cuida do bebˆe doente. Ela est´a muito preocupada, pois ele n˜ao para de chorar. Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 28. Significado: Modelos Semˆanticos S˜ao os modelos lingu´ısticos usados quando a informa¸c˜ao desejada ´e o significado dos termos do texto. Sequˆencias, s´ımbolos, regras, posi¸c˜oes ou vetores destinam-se a elucidar o sentido do texto em vez da estrutura. Podem conter um aspecto adicional: rela¸c˜oes semˆanticas. Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 29. Significado: Rela¸c˜oes semˆanticas Expressam as intera¸c˜oes existentes entre o significado de duas ou mais palavras os express˜oes. Permitem aproximar textos estruturalmente diferentes, mas pr´oximos em significado. Exemplo: Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural
  • 30. Processamento de Linguagem Natural Primeiro Encontro em Computa¸c˜ao Semˆantica - Tutoriais Danilo S. Carvalho Hugo C. C. Carneiro Danilo S. Carvalho Hugo C. C. Carneiro Processamento de Linguagem Natural