Processamento Probabilístico de Linguagem

MESTRADO EM CIÊNCIA DA COMPUTAÇÃO
UNIVERSIDADE ESTADUAL DO RIO GRANDE DO NORTE - UERN
UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO - UFERSA

PROCESSAMENTO PROBABILÍSTICO
DE LINGUAGEM
Capítulo 23

Diego Grosmann e Thiago Reis

Agenda
2

 Introdução
 Modelo probabilístico de linguagem
 Gramática probabilística livre de contexto (GPLC)
 GPLC lexicalizada
 Recuperação de Informação
 Problemas de PLN
 Extração de Informação
 Tradução automática
 Estado da arte
 Aplicações
 Referências bibliográficas

Introdução
3

 Processamento probabilístico de linguagem tenta
facilitar a localização de informações em textos
escritos por seres humanos e para seres humanos;

 Essa abordagem utiliza estatística e
aprendizagem nos dados existentes e gera
probabilidades para o uso de sentenças (modelo
probabilístico).

Modelo Probabilístico de Linguagem
4

 Define a distribuição da probabilidade sobre um
conjunto de cadeias;
 Modelos:
 Unigramas;

 Bigramas;

 Trigramas.

5

 Unigramas:
 Atribui probabilidade P(w) a cada palavra;
 A probabilidade de uma cadeia de palavras é apenas
o produto da probabilidade de cada palavra;
 logical are as are confusion a may right tries agent
goal the was diesel more object then information-
gathering search is

6

 Bigramas:
A probabilidade de cada palavra dada a palavra
anterior.
 P(wi|wi -1)

 planning purely diagnostic expert systems are very
similar computational approach would be represented
compactly using tic tac toe a predicate

7

 N-gramas:
 Considera n-1 palavras anteriores;
 P(wi|wi – (n-1) ... wi – 1);

 Trigramas

 planning and scheduling are integrated the success
of naive Bayes model is just a possible prior source
by that time.

8

 Suavização:
 Conta igual a zero
 Suavização soma um
 (c + 1)/(N + B);
 N  número de palavras;
 B  bigramas possíveis;
 c  contagem real;
 (elimina a possibilidade de uma combinação de uma
palavras nunca sair).

9

 Suavização:
 Suavização de interpolação linear
 Combinação dos modelos Unigramas, Bigramas e
Trigramas.
 P(wi|wi – 2 wi – 1) =
c3 P(wi|wi – 2 wi – 1)+ c2P(wi|wi -1)+ c1 P(w)

Método de avaliação
 Utilização de área de treinamento e área de
testes.
 Problemas: P(Palavras) é muito pequena, os números
poderiam causar underflow.

 Calcular Perplexidade
 Quanto mais baixa a perplexidade melhor o modelo
−��2 (��
 �� = 2 )
��
N = Numero de palavras

Underflow: Erro de memoria, valor abaixo do esperado

Gramática probabilística livre de
11
contexto (GPLC)
 Utiliza os formalismos gramaticais para gerar
uma árvore de probabilidades de palavras;
 A probabilidade de uma cadeia, P(palavras), é
apenas a probabilidade de sua árvore;
 Para percorrer a árvore podemos utilizar:
 Algoritmo de Viterbi;
 A* (busca pelo melhor esforço).

GPLC lexicalizadas
12

 Tenta resolver o problema de contexto
 P(come uma banana) e P(come uma bandana) depende
de P(banana) vs P(bandana);
 SV  SV SN
 SV  cabeça do SV (comer)
 SN  cabeça do SN (banana)

 SV sintagmas verbais
 SN sintagmas nominais
 Sintagma é um segmento linguístico que expressa uma relação
de dependência

Problemas no GPLC
 Dificuldade de se construir a GPL
 Problemas na atribuição de probabilidade

 Aprendizagem
 Com arvore sintática utiliza uma regra para a
combinação dos filhos
 Maximização de expectativas (EM)

14 Recuperação de Informação
É a tarefa de encontrar informações
relevantes para as necessidade de
informação de um usuário;

Recuperação de Informação
15

 Características:
 Uma coleção de documentos;
 Uma consulta apresentada em uma linguagem de
consulta;
 Um conjunto de resultados;

 Uma apresentação do conjunto de resultado;

16

 Modelo booleano de palavras chaves:
O modelo é verdadeiro para a palavra em um
documento se ela ocorre e falso se ela não ocorre;
 Simples;

 Mas, não apresenta grau de relevância;

 Pouca familiaridade de usuários leigos com as
excreções;
 Resultados ruim (muito especifica).

P(r | D, Q) P( r | D)
 P(r | D, Q) 
P(r | D, Q) P(r | D)
18

Divide a quantidade de Representa as chances
resultados relevantes no Probabilidade de r ser independentes da
documento pela quantidade de verdadeiro dado um consulta do documento ser
resultados irrelevantes documento D e uma relevante
consulta Q

 r  variável booleana aleatória que indica Relevância
= verdadeiro
A relevância do documento
 D  Documento independente da consulta pode ser
 Q  Consulta dada pela quantidade de links que
apontam para ele como (se for um
artigo) o numero de citações do
periódico

20

 Refinamento de RI
 Problema
 Sistemasunigrama tratam todas as palavras como se fossem
independentes;
 poltrona, POLTRONA, poltronas, sofá, Poltrona.
 Solução
 Utilizar
só letras maiúsculas/minúsculas;
 Procurar pelo radical;
 Problema: stocking (meia), Stock (estoque);
 Solução: uso de dicionário;
 Dicionário de sinônimos;
 Problema: Modificação do significado;
 Uso de corretor ortográfico e metadados.

21

 Apresentação do conjunto de resultados:
 Até o momento só o problema de relevância foi visto a
utilidade não foi avaliada;
 Qual a utilidade de dois documentos iguais?
 Realimentação de relevância: o usuário informa os
dados relevantes;
 Classificação de documentos
 Formação de agrupamentos de documentos;

22

 Apresentação do conjunto de resultados:
 Classificação de documentos
 Problema de aprendizagem supervisionada
 Agrupamento de documentos

 Problema de aprendizagem não-supervisionada
 Agrupamentos aglomerativo
 Agrupamentos K-média

23

 Implementação de sistemas RI:
 Como fazer uma pesquisa eficiente na web onde
existem bilhões de documentos?
 Léxico
 Lista todas as palavras da coleção de documentos;
 Pode armazenar o número de ocorrências;
 Utiliza lista de palavras ignoráveis (o, de, ou);

 Índice invertido (lista de acertos)
 Lista
o lugar em que cada palavra aparece (link);
 Para a busca de frases ele deve guardar a localização da
palavra no documento.

24

 Como funciona:
 Fazemos uma busca no léxico para obter o endereço
da lista de acertos;
 Em seguida percorremos a lista de acerto de cada
documento e verificamos a contagem para cada
documento.

25

 Na prática:
 750.000 documentos totalizando 2 GB;
 Léxico contem 500.00 palavras 7 a 10 MB;

 Indicie invertido (documento, contagem) ocupa 324MB;

 O suporte a consulta de frases (e, ou, etc.) eleva o Índice
Invertido a 1200 MB;
 Na Web existem cerca de 3.000 vezes mais documentos;

 Solução: segmentação e distribuição de copias.

Problemas do PLN
26

 Ambiguidade:
uh!
Eitcha Piula,
Qual é a dele??!
Reiou...

Problemas do PLN
27

 Ambiguidade léxica: diferentes interpretação para uma
palavra;
 Ex: João procurou um banco;
 Ambiguidade sintática: uma sentença pode ser
mapeada de diferentes formas;
 Ex: O menino viu o homem de binóculo;
 Ambiguidade semântica: diferentes significado para
uma frase;
 Ex: Pedro viu Maria passeando;
 Ambiguidade anafórica: anáfora pronominal
relacionada a duas os mais palavras distintas:
 Ex: o ladrão entrou na casa do prefeito e tirou sua roupa;

28 Extração de Informação
É originalmente a tarefa de encontrar
informações a partir de grandes volumes
de documentos ou textos;
 Documentos ou textos: estruturados ou livres;

Extração de Informação
29

 Características:
 EI visa localizar e extrair de forma automática
informações relevantes;
 Banco de dados;
 Sistemas de Extração de Informação (SEI) não realizar o
entendimento completo do documento;
 Objetivo: construir sistemas que encontrem e combinem
informações relevantes;
 EI é diferente de RI;

30

 Arquitetura:
 Definidapor Grishhan (1997 apud ÁLVARES, 2007);
 6 módulos presentes em SEI;
 Processador léxico;
 Reconhecimento de nomes;
 Analisador sintático/semântico;
 Padrão de extração;
 Analisador de discurso;
 Templates.

31

 Arquitetura:
 Processador léxico:
 Textodividindo em sentenças e termos;
 Separação dos termos (tokenização);

 Reconhecimento de nomes:
 Identifica vários tipos de nomes próprios;
 Analisador sintático/semântico:
 Receber itens léxicos e tenta construir uma estrutura sintática;

32

 Arquitetura:
 Extração de padrão:
 Indução de um conjunto de regras de extração;
 Análise de Discurso:
 Relacionar diferentes elementos do texto;
 Inclusão de algumas tarefas:
 Análise de frases nominais;
 Resolução de recorrência;
 Templates:
 Preenchimento com as informações relevantes;

33

 Arquitetura:

Figura. Arquitetura. Fonte: Grishhan (1997 apud ÁLVARES, 2007)

34

 Tipos de textos:
 o tipo de texto influência na escolha da técnica;
 Estruturado: quando apresenta regularidade das
informações;
 Ex: formulário;
 Semi-estrurado: alguma regularidade dos dados;
 Ex: artigo;
 Não-estruturado: não exibe regularidade;
 Ex: páginas web;

35 Tradução automática
É umas das atividades que mais utiliza o
conhecimento de linguística;
 Necessidade de fazer a codificação da língua fonte (LF) para a
língua alvo (LA);

Tradução automática
36

 Processos de TA:
 Tradução bruta: obter um significado de uma sentença;
 Ex: navegação na web;
 Tradução de origem restrita: conteúdo dos textos é
restrito;
 Ex: Taum-meteo;
 Tradução pré-editada: realiza uma edição prévia do
conteúdo;
 Ex: manuais de empresas;
 Tradução literária: está além do estado da arte de TA;

37

 Processos de TA:
 Problema: idiomas;
 A dificuldade encontrar-se no processo de análise e
interpretação do enunciado da LN;
 Estratégias:
 Tradução baseada exclusivamente em conhecimento linguístico
(LBMT);
 Tradução baseada em conhecimento (KBMT);
 Tradução baseada em exemplo (EBMT);

38

 Sistemas de TA;
 Comercias: translator pro, power translator pro;
 Gratuitos: altavista, google translator;
 Sistemas preliminares;
 Metodologias
 Sistemas transferenciais: mantém um BD com regras de
tradução;
 Sistemas interlíngua: representação intermediária entre LF e
LA;
 Sistemas diretos: tradução direta;

39

 Tradução direta e indireta;
 Direta:
A própria LA é considerada um instrumento para a LF;
 Indireta:
 São desenvolvidas formas para a representação
intermediária;

Estado da Arte
40

 AIML - Artificial Intelligence Markup Language
 Linguagem Baseada em XML;
 Desenvolvida Richard S. Wallace;

 Comunidades mundial de software livre;

 Foi a base pro ChatterBot Alice, Antigamente chamado
de Eliza;
 Interpretada em Phyton, C, C++, Entre outras
Linguagens;
 Padronizada pelo W3C XML;

Estado da Arte
41

 WordTree:
 Ferramenta de busca para texto não-estruturado;
 Analisadores de Texto baseados em palavras;

 Visualização de Textos baseados em Concordância;

Aplicações
43

 Chatter Bot
 ALICE

 Sistemas Operacionais que interpretam LN
 DOSVOX e Virtual Vision
 Mecanismos de Busca que utilizam PLN
 PowerSet

Referências bibliográficas
44

 RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A
Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003.
 ÁLVARES, Alberto Cáceres. Extração de informação de
artigos científicos: uma abordagem baseada em indução de
regras de etiquetagem. 131p. Dissertação (mestrado),
Universidade de São Paulo - USP, São Carlos, SP, fevereiro de
2007.

Processamento Probabilístico de Linguagem

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (7)

Mais de Thiago Reis da Silva

Mais de Thiago Reis da Silva (20)

Processamento Probabilístico de Linguagem