Processamento de Linguagem Natural

2.344 visualizações

Publicada em

Publicada em: Tecnologia
0 comentários
4 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
2.344
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
47
Comentários
0
Gostaram
4
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Processamento de Linguagem Natural

  1. 1. MESTRADO EM CIÊNCIA DA COMPUTAÇÃOUNIVERSIDADE ESTADUAL DO RIO GRANDE DO NORTE - UERN UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO - UFERSAPROCESSAMENTO PROBABILÍSTICO DE LINGUAGEM Capítulo 23 Diego Grosmann e Thiago Reis
  2. 2. Agenda2  Introdução  Modelo probabilístico de linguagem  Gramática probabilística livre de contexto (GPLC)  GPLC lexicalizada  Recuperação de Informação  Problemas de PLN  Extração de Informação  Tradução automática  Estado da arte  Aplicações  Referências bibliográficas
  3. 3. Introdução3  Processamento probabilístico de linguagem tenta facilitar a localização de informações em textos escritos por seres humanos e para seres humanos;  Essa abordagem utiliza estatística e aprendizagem nos dados existentes e gera probabilidades para o uso de sentenças (modelo probabilístico).
  4. 4. Modelo Probabilístico de Linguagem4  Define a distribuição da probabilidade sobre um conjunto de cadeias;  Modelos:  Unigramas;  Bigramas;  Trigramas.
  5. 5. Modelo Probabilístico de Linguagem5  Unigramas:  Atribui probabilidade P(w) a cada palavra;  A probabilidade de uma cadeia de palavras é apenas o produto da probabilidade de cada palavra;  logical are as are confusion a may right tries agent goal the was diesel more object then information- gathering search is
  6. 6. Modelo Probabilístico de Linguagem6  Bigramas: A probabilidade de cada palavra dada a palavra anterior.  P(wi|wi -1)  planning purely diagnostic expert systems are very similar computational approach would be represented compactly using tic tac toe a predicate
  7. 7. Modelo Probabilístico de Linguagem7  N-gramas:  Considera n-1 palavras anteriores;  P(wi|wi – (n-1) ... wi – 1);  Trigramas  planning and scheduling are integrated the success of naive Bayes model is just a possible prior source by that time.
  8. 8. Modelo Probabilístico de Linguagem8  Suavização:  Conta igual a zero  Suavização soma um  (c + 1)/(N + B);  N  número de palavras;  B  bigramas possíveis;  c  contagem real;  (elimina a possibilidade de uma combinação de uma palavras nunca sair).
  9. 9. Modelo Probabilístico de Linguagem9  Suavização:  Suavização de interpolação linear  Combinação dos modelos Unigramas, Bigramas e Trigramas.  P(wi|wi – 2 wi – 1) = c3 P(wi|wi – 2 wi – 1)+ c2P(wi|wi -1)+ c1 P(w)
  10. 10. Método de avaliação Utilização de área de treinamento e área de testes.  Problemas: P(Palavras) é muito pequena, os números poderiam causar underflow. Calcular Perplexidade  Quanto mais baixa a perplexidade melhor o modelo −2 (  = 2 ) N = Numero de palavras Underflow: Erro de memoria, valor abaixo do esperado
  11. 11. Gramática probabilística livre de11 contexto (GPLC)  Utiliza os formalismos gramaticais para gerar uma árvore de probabilidades de palavras;  A probabilidade de uma cadeia, P(palavras), é apenas a probabilidade de sua árvore;  Para percorrer a árvore podemos utilizar:  Algoritmo de Viterbi;  A* (busca pelo melhor esforço).
  12. 12. GPLC lexicalizadas12  Tenta resolver o problema de contexto  P(come uma banana) e P(come uma bandana) depende de P(banana) vs P(bandana);  SV  SV SN  SV  cabeça do SV (comer)  SN  cabeça do SN (banana)  SV sintagmas verbais  SN sintagmas nominais  Sintagma é um segmento linguístico que expressa uma relação de dependência
  13. 13. Problemas no GPLC Dificuldade de se construir a GPL Problemas na atribuição de probabilidade Aprendizagem  Com arvore sintática utiliza uma regra para a combinação dos filhos  Maximização de expectativas (EM)
  14. 14. 14 Recuperação de Informação É a tarefa de encontrar informações relevantes para as necessidade de informação de um usuário;
  15. 15. Recuperação de Informação15  Características:  Uma coleção de documentos;  Uma consulta apresentada em uma linguagem de consulta;  Um conjunto de resultados;  Uma apresentação do conjunto de resultado;
  16. 16. Recuperação de Informação16  Modelo booleano de palavras chaves: O modelo é verdadeiro para a palavra em um documento se ela ocorre e falso se ela não ocorre;  Simples;  Mas, não apresenta grau de relevância;  Pouca familiaridade de usuários leigos com as excreções;  Resultados ruim (muito especifica).
  17. 17. Recuperação de Informação17  Modelagem de linguagem:  Tenta definir uma regra de ordenação dos resultados P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D)  r  variável booleana aleatória que indica Relevância = verdadeiro  D  Documento  Q  Consulta
  18. 18. P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D)18 Divide a quantidade de Representa as chances resultados relevantes no Probabilidade de r ser independentes da documento pela quantidade de verdadeiro dado um consulta do documento ser resultados irrelevantes documento D e uma relevante consulta Q  r  variável booleana aleatória que indica Relevância = verdadeiro A relevância do documento  D  Documento independente da consulta pode ser  Q  Consulta dada pela quantidade de links que apontam para ele como (se for um artigo) o numero de citações do periódico
  19. 19. P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D)19  Modelo de saco de palavras  Utiliza unigrama para contar o numero de ocorrências;  Documentos com mais ocorrências individuais são mais relevantes; P(r | D, Q)   jP(Qj | D, r )  Calcula a probabilidade de uma consulta dado um documento relevante multiplicado pela probabilidade das palavras na consulta P(r | D, Q) P ( r | D)   jP(Qj | D, r )  P(r | D, Q) P(r | D)
  20. 20. Recuperação de Informação20  Refinamento de RI  Problema  Sistemasunigrama tratam todas as palavras como se fossem independentes;  poltrona, POLTRONA, poltronas, sofá, Poltrona.  Solução  Utilizar só letras maiúsculas/minúsculas;  Procurar pelo radical;  Problema: stocking (meia), Stock (estoque);  Solução: uso de dicionário;  Dicionário de sinônimos;  Problema: Modificação do significado;  Uso de corretor ortográfico e metadados.
  21. 21. Recuperação de Informação21  Apresentação do conjunto de resultados:  Até o momento só o problema de relevância foi visto a utilidade não foi avaliada;  Qual a utilidade de dois documentos iguais?  Realimentação de relevância: o usuário informa os dados relevantes;  Classificação de documentos  Formação de agrupamentos de documentos;
  22. 22. Recuperação de Informação22  Apresentação do conjunto de resultados:  Classificação de documentos  Problema de aprendizagem supervisionada  Agrupamento de documentos  Problema de aprendizagem não-supervisionada  Agrupamentos aglomerativo  Agrupamentos K-média
  23. 23. Recuperação de Informação23  Implementação de sistemas RI:  Como fazer uma pesquisa eficiente na web onde existem bilhões de documentos?  Léxico  Lista todas as palavras da coleção de documentos;  Pode armazenar o número de ocorrências;  Utiliza lista de palavras ignoráveis (o, de, ou);  Índice invertido (lista de acertos)  Lista o lugar em que cada palavra aparece (link);  Para a busca de frases ele deve guardar a localização da palavra no documento.
  24. 24. Recuperação de Informação24  Como funciona:  Fazemos uma busca no léxico para obter o endereço da lista de acertos;  Em seguida percorremos a lista de acerto de cada documento e verificamos a contagem para cada documento.
  25. 25. Recuperação de Informação25  Na prática:  750.000 documentos totalizando 2 GB;  Léxico contem 500.00 palavras 7 a 10 MB;  Indicie invertido (documento, contagem) ocupa 324MB;  O suporte a consulta de frases (e, ou, etc.) eleva o Índice Invertido a 1200 MB;  Na Web existem cerca de 3.000 vezes mais documentos;  Solução: segmentação e distribuição de copias.
  26. 26. Problemas do PLN26  Ambiguidade: uh! Eitcha Piula, Qual é a dele??! Reiou...
  27. 27. Problemas do PLN27  Ambiguidade léxica: diferentes interpretação para uma palavra;  Ex: João procurou um banco;  Ambiguidade sintática: uma sentença pode ser mapeada de diferentes formas;  Ex: O menino viu o homem de binóculo;  Ambiguidade semântica: diferentes significado para uma frase;  Ex: Pedro viu Maria passeando;  Ambiguidade anafórica: anáfora pronominal relacionada a duas os mais palavras distintas:  Ex: o ladrão entrou na casa do prefeito e tirou sua roupa;
  28. 28. 28 Extração de Informação É originalmente a tarefa de encontrar informações a partir de grandes volumes de documentos ou textos;  Documentos ou textos: estruturados ou livres;
  29. 29. Extração de Informação29  Características:  EI visa localizar e extrair de forma automática informações relevantes;  Banco de dados;  Sistemas de Extração de Informação (SEI) não realizar o entendimento completo do documento;  Objetivo: construir sistemas que encontrem e combinem informações relevantes;  EI é diferente de RI;
  30. 30. Extração de Informação30  Arquitetura:  Definidapor Grishhan (1997 apud ÁLVARES, 2007);  6 módulos presentes em SEI;  Processador léxico;  Reconhecimento de nomes;  Analisador sintático/semântico;  Padrão de extração;  Analisador de discurso;  Templates.
  31. 31. Extração de Informação31  Arquitetura:  Processador léxico:  Textodividindo em sentenças e termos;  Separação dos termos (tokenização);  Reconhecimento de nomes:  Identifica vários tipos de nomes próprios;  Analisador sintático/semântico:  Receber itens léxicos e tenta construir uma estrutura sintática;
  32. 32. Extração de Informação32  Arquitetura:  Extração de padrão:  Indução de um conjunto de regras de extração;  Análise de Discurso:  Relacionar diferentes elementos do texto;  Inclusão de algumas tarefas:  Análise de frases nominais;  Resolução de recorrência;  Templates:  Preenchimento com as informações relevantes;
  33. 33. Extração de Informação33  Arquitetura: Figura. Arquitetura. Fonte: Grishhan (1997 apud ÁLVARES, 2007)
  34. 34. Extração de Informação34  Tipos de textos:  o tipo de texto influência na escolha da técnica;  Estruturado: quando apresenta regularidade das informações;  Ex: formulário;  Semi-estrurado: alguma regularidade dos dados;  Ex: artigo;  Não-estruturado: não exibe regularidade;  Ex: páginas web;
  35. 35. 35 Tradução automática É umas das atividades que mais utiliza o conhecimento de linguística;  Necessidade de fazer a codificação da língua fonte (LF) para a língua alvo (LA);
  36. 36. Tradução automática36  Processos de TA:  Tradução bruta: obter um significado de uma sentença;  Ex: navegação na web;  Tradução de origem restrita: conteúdo dos textos é restrito;  Ex: Taum-meteo;  Tradução pré-editada: realiza uma edição prévia do conteúdo;  Ex: manuais de empresas;  Tradução literária: está além do estado da arte de TA;
  37. 37. Tradução automática37  Processos de TA:  Problema: idiomas;  A dificuldade encontrar-se no processo de análise e interpretação do enunciado da LN;  Estratégias:  Tradução baseada exclusivamente em conhecimento linguístico (LBMT);  Tradução baseada em conhecimento (KBMT);  Tradução baseada em exemplo (EBMT);
  38. 38. Tradução automática38  Sistemas de TA;  Comercias: translator pro, power translator pro;  Gratuitos: altavista, google translator;  Sistemas preliminares;  Metodologias  Sistemas transferenciais: mantém um BD com regras de tradução;  Sistemas interlíngua: representação intermediária entre LF e LA;  Sistemas diretos: tradução direta;
  39. 39. Tradução automática39  Tradução direta e indireta;  Direta: A própria LA é considerada um instrumento para a LF;  Indireta:  São desenvolvidas formas para a representação intermediária;
  40. 40. Estado da Arte40  AIML - Artificial Intelligence Markup Language  Linguagem Baseada em XML;  Desenvolvida Richard S. Wallace;  Comunidades mundial de software livre;  Foi a base pro ChatterBot Alice, Antigamente chamado de Eliza;  Interpretada em Phyton, C, C++, Entre outras Linguagens;  Padronizada pelo W3C XML;
  41. 41. Estado da Arte41  WordTree:  Ferramenta de busca para texto não-estruturado;  Analisadores de Texto baseados em palavras;  Visualização de Textos baseados em Concordância;
  42. 42. Estado da Arte42
  43. 43. Aplicações43  Chatter Bot  ALICE  Sistemas Operacionais que interpretam LN  DOSVOX e Virtual Vision  Mecanismos de Busca que utilizam PLN  PowerSet
  44. 44. Referências bibliográficas44  RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003.  ÁLVARES, Alberto Cáceres. Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem. 131p. Dissertação (mestrado), Universidade de São Paulo - USP, São Carlos, SP, fevereiro de 2007.

×