SlideShare uma empresa Scribd logo
1 de 44
Baixar para ler offline
MESTRADO EM CIÊNCIA DA COMPUTAÇÃO
UNIVERSIDADE ESTADUAL DO RIO GRANDE DO NORTE - UERN
 UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO - UFERSA




PROCESSAMENTO PROBABILÍSTICO
       DE LINGUAGEM
                   Capítulo 23




            Diego Grosmann e Thiago Reis
Agenda
2


       Introdução
       Modelo probabilístico de linguagem
       Gramática probabilística livre de contexto (GPLC)
       GPLC lexicalizada
       Recuperação de Informação
       Problemas de PLN
       Extração de Informação
       Tradução automática
       Estado da arte
       Aplicações
       Referências bibliográficas
Introdução
3


       Processamento probabilístico de linguagem tenta
        facilitar a localização de informações em textos
        escritos por seres humanos e para seres humanos;

       Essa    abordagem     utiliza  estatística   e
        aprendizagem nos dados existentes e gera
        probabilidades para o uso de sentenças (modelo
        probabilístico).
Modelo Probabilístico de Linguagem
4


       Define a distribuição da probabilidade sobre um
        conjunto de cadeias;
       Modelos:
         Unigramas;

         Bigramas;

         Trigramas.
Modelo Probabilístico de Linguagem
5


       Unigramas:
         Atribui probabilidade P(w) a cada palavra;
         A probabilidade de uma cadeia de palavras é apenas
          o produto da probabilidade de cada palavra;
         logical are as are confusion a may right tries agent
          goal the was diesel more object then information-
          gathering search is
Modelo Probabilístico de Linguagem
6


       Bigramas:
        A   probabilidade de cada palavra dada a palavra
          anterior.
         P(wi|wi -1)

         planning purely diagnostic expert systems are very
          similar computational approach would be represented
          compactly using tic tac toe a predicate
Modelo Probabilístico de Linguagem
7


       N-gramas:
         Considera    n-1 palavras anteriores;
         P(wi|wi – (n-1) ... wi – 1);

         Trigramas

         planning and scheduling are integrated the success
          of naive Bayes model is just a possible prior source
          by that time.
Modelo Probabilístico de Linguagem
8


       Suavização:
         Conta igual a zero
         Suavização soma um
           (c + 1)/(N + B);
           N  número de palavras;
           B  bigramas possíveis;
           c  contagem real;
           (elimina a possibilidade de uma combinação de uma
            palavras nunca sair).
Modelo Probabilístico de Linguagem
9


       Suavização:
           Suavização de interpolação linear
             Combinação dos modelos Unigramas, Bigramas e
              Trigramas.
             P(wi|wi – 2 wi – 1) =
                                c3 P(wi|wi – 2 wi – 1)+ c2P(wi|wi -1)+ c1 P(w)
Método de avaliação
   Utilização de área de treinamento e área de
    testes.
     Problemas: P(Palavras) é muito pequena, os números
       poderiam causar underflow.

   Calcular Perplexidade
     Quanto       mais baixa a perplexidade melhor o modelo
                                                       −������������������2 (������ ������������������������������������������������
     ������������������������������������������������������������������������   ������������������������������������������������ =   2                                )
                                                                         ������
    N    = Numero de palavras

            Underflow: Erro de memoria, valor abaixo do esperado
Gramática probabilística                livre   de
11
     contexto (GPLC)
        Utiliza os formalismos gramaticais para gerar
         uma árvore de probabilidades de palavras;
        A probabilidade de uma cadeia, P(palavras), é
         apenas a probabilidade de sua árvore;
        Para percorrer a árvore podemos utilizar:
          Algoritmo de Viterbi;
          A* (busca pelo melhor esforço).
GPLC lexicalizadas
12

        Tenta resolver o problema de contexto
          P(come uma banana) e P(come uma bandana) depende
           de P(banana) vs P(bandana);
        SV  SV SN
          SV  cabeça do SV (comer)
          SN  cabeça do SN (banana)



          SV sintagmas verbais
          SN sintagmas nominais
                   Sintagma é um segmento linguístico que expressa uma relação
                    de dependência
Problemas no GPLC
   Dificuldade de se construir a GPL
   Problemas na atribuição de probabilidade

   Aprendizagem
     Com arvore sintática utiliza uma regra para a
      combinação dos filhos
       Maximização   de expectativas (EM)
14   Recuperação de Informação
     É a tarefa de encontrar informações
     relevantes para as necessidade de
     informação de um usuário;
Recuperação de Informação
15


        Características:
          Uma coleção de documentos;
          Uma consulta apresentada em uma linguagem de
           consulta;
          Um conjunto de resultados;

          Uma apresentação do conjunto de resultado;
Recuperação de Informação
16


        Modelo booleano de palavras chaves:
         O   modelo é verdadeiro para a palavra em um
           documento se ela ocorre e falso se ela não ocorre;
          Simples;

          Mas, não apresenta grau de relevância;

          Pouca familiaridade de usuários leigos com as
           excreções;
          Resultados ruim (muito especifica).
Recuperação de Informação
17


        Modelagem de linguagem:
          Tenta   definir uma regra de ordenação dos resultados


                P(r | D, Q)                  P( r | D)
                             P(r | D, Q) 
               P(r | D, Q)                 P(r | D)
              r  variável booleana aleatória que indica
               Relevância = verdadeiro
              D  Documento
              Q  Consulta
P(r | D, Q)                  P( r | D)
                          P(r | D, Q) 
            P(r | D, Q)                 P(r | D)
18




    Divide a quantidade de                                   Representa as chances
    resultados relevantes no    Probabilidade de r ser         independentes da
 documento pela quantidade de    verdadeiro dado um        consulta do documento ser
     resultados irrelevantes      documento D e uma                 relevante
                                      consulta Q


         r  variável booleana aleatória que indica Relevância
          = verdadeiro
                                            A relevância do documento
         D  Documento                 independente da consulta pode ser
         Q  Consulta                 dada pela quantidade de links que
                                         apontam para ele como (se for um
                                                   artigo) o numero de citações do
                                                               periódico
P(r | D, Q)                  P( r | D)
                             P(r | D, Q) 
               P(r | D, Q)                 P(r | D)
19

        Modelo de saco de palavras
           Utiliza unigrama para contar o numero de ocorrências;
           Documentos com mais ocorrências individuais são mais
            relevantes;

                 P(r | D, Q)   jP(Qj | D, r )
              Calcula a probabilidade de uma consulta dado um
               documento relevante multiplicado pela probabilidade das
               palavras na consulta

                  P(r | D, Q)                       P ( r | D)
                                jP(Qj | D, r ) 
                 P(r | D, Q)                      P(r | D)
Recuperação de Informação
20

        Refinamento de RI
          Problema
            Sistemasunigrama tratam todas as palavras como se fossem
             independentes;
                  poltrona, POLTRONA, poltronas, sofá, Poltrona.
          Solução
            Utilizar
                    só letras maiúsculas/minúsculas;
            Procurar pelo radical;
                  Problema: stocking (meia), Stock (estoque);
                  Solução: uso de dicionário;
            Dicionário   de sinônimos;
                  Problema: Modificação do significado;
            Uso   de corretor ortográfico e metadados.
Recuperação de Informação
21


        Apresentação do conjunto de resultados:
          Até o momento só o problema de relevância foi visto a
          utilidade não foi avaliada;
            Qual   a utilidade de dois documentos iguais?
          Realimentação   de relevância: o usuário informa os
           dados relevantes;
          Classificação de documentos
            Formação   de agrupamentos de documentos;
Recuperação de Informação
22


        Apresentação do conjunto de resultados:
          Classificação de documentos
            Problema de aprendizagem supervisionada
          Agrupamento de documentos

            Problema de aprendizagem não-supervisionada
                Agrupamentos aglomerativo
                Agrupamentos K-média
Recuperação de Informação
23


        Implementação de sistemas RI:
          Como   fazer uma pesquisa eficiente na web onde
           existem bilhões de documentos?
          Léxico
            Lista todas as palavras da coleção de documentos;
            Pode armazenar o número de ocorrências;
            Utiliza lista de palavras ignoráveis (o, de, ou);

          Índice    invertido (lista de acertos)
            Lista
                 o lugar em que cada palavra aparece (link);
            Para a busca de frases ele deve guardar a localização da
             palavra no documento.
Recuperação de Informação
24


        Como funciona:
          Fazemos   uma busca no léxico para obter o endereço
           da lista de acertos;
          Em seguida percorremos a lista de acerto de cada
           documento e verificamos a contagem para cada
           documento.
Recuperação de Informação
25


        Na prática:
          750.000    documentos totalizando 2 GB;
          Léxico contem 500.00 palavras 7 a 10 MB;

          Indicie invertido (documento, contagem) ocupa 324MB;

          O suporte a consulta de frases (e, ou, etc.) eleva o Índice
           Invertido a 1200 MB;
          Na Web existem cerca de 3.000 vezes mais documentos;

          Solução: segmentação e distribuição de copias.
Problemas do PLN
26


        Ambiguidade:
                                uh!
                Eitcha Piula,
                                Qual é a dele??!
                Reiou...
Problemas do PLN
27

      Ambiguidade       léxica: diferentes interpretação para uma
      palavra;
        Ex:   João procurou um banco;
      Ambiguidade  sintática: uma               sentença    pode       ser
      mapeada de diferentes formas;
        Ex:   O menino viu o homem de binóculo;
      Ambiguidade        semântica: diferentes significado para
      uma frase;
        Ex:   Pedro viu Maria passeando;
      Ambiguidade     anafórica:     anáfora        pronominal
      relacionada a duas os mais palavras distintas:
        Ex:   o ladrão entrou na casa do prefeito e tirou sua roupa;
28   Extração de Informação
     É originalmente a tarefa de encontrar
     informações a partir de grandes volumes
     de documentos ou textos;
          Documentos ou textos: estruturados ou livres;
Extração de Informação
29


        Características:
          EI  visa localizar e extrair de forma automática
           informações relevantes;
            Banco   de dados;
          Sistemas  de Extração de Informação (SEI) não realizar o
           entendimento completo do documento;
          Objetivo: construir sistemas que encontrem e combinem
           informações relevantes;
          EI é diferente de RI;
Extração de Informação
30


        Arquitetura:
          Definidapor Grishhan (1997 apud ÁLVARES, 2007);
          6 módulos presentes em SEI;
            Processador  léxico;
            Reconhecimento de nomes;
            Analisador sintático/semântico;
            Padrão de extração;
            Analisador de discurso;
            Templates.
Extração de Informação
31


        Arquitetura:
          Processador      léxico:
            Textodividindo em sentenças e termos;
            Separação dos termos (tokenização);

          Reconhecimento       de nomes:
            Identifica   vários tipos de nomes próprios;
          Analisador     sintático/semântico:
            Receber   itens léxicos e tenta construir uma estrutura sintática;
Extração de Informação
32


        Arquitetura:
          Extração    de padrão:
            Indução   de um conjunto de regras de extração;
          Análise   de Discurso:
            Relacionar diferentes elementos do texto;
            Inclusão de algumas tarefas:
                 Análise de frases nominais;
                 Resolução de recorrência;
          Templates:
            Preenchimento    com as informações relevantes;
Extração de Informação
33


        Arquitetura:




                 Figura. Arquitetura. Fonte: Grishhan (1997 apud ÁLVARES, 2007)
Extração de Informação
34


        Tipos de textos:
        o tipo de texto influência na escolha da técnica;
          Estruturado:      quando     apresenta   regularidade   das
           informações;
            Ex:   formulário;
          Semi-estrurado:       alguma regularidade dos dados;
            Ex:   artigo;
          Não-estruturado:       não exibe regularidade;
            Ex:   páginas web;
35   Tradução automática
     É umas das atividades que mais utiliza o
     conhecimento de linguística;
          Necessidade de fazer a codificação da língua fonte (LF) para a
           língua alvo (LA);
Tradução automática
36


        Processos de TA:
          Tradução    bruta: obter um significado de uma sentença;
            Ex:   navegação na web;
          Tradução     de origem restrita: conteúdo dos textos é
          restrito;
            Ex:   Taum-meteo;
          Tradução     pré-editada: realiza uma edição prévia do
          conteúdo;
            Ex:   manuais de empresas;
          Tradução    literária: está além do estado da arte de TA;
Tradução automática
37


        Processos de TA:
          Problema:  idiomas;
          A dificuldade encontrar-se no processo de análise e
           interpretação do enunciado da LN;
          Estratégias:
            Tradução   baseada exclusivamente em conhecimento linguístico
             (LBMT);
            Tradução baseada em conhecimento (KBMT);
            Tradução baseada em exemplo (EBMT);
Tradução automática
38


        Sistemas de TA;
          Comercias:  translator pro, power translator pro;
          Gratuitos: altavista, google translator;
            Sistemas   preliminares;
          Metodologias
            Sistemas    transferenciais: mantém um BD com regras de
             tradução;
            Sistemas interlíngua: representação intermediária entre LF e
             LA;
            Sistemas diretos: tradução direta;
Tradução automática
39


        Tradução direta e indireta;
          Direta:
           A   própria LA é considerada um instrumento para a LF;
          Indireta:
            São    desenvolvidas    formas    para    a    representação
             intermediária;
Estado da Arte
40


        AIML - Artificial Intelligence Markup Language
          Linguagem  Baseada em XML;
          Desenvolvida Richard S. Wallace;

          Comunidades mundial de software livre;

          Foi a base pro ChatterBot Alice, Antigamente chamado
           de Eliza;
          Interpretada em Phyton, C, C++, Entre outras
           Linguagens;
          Padronizada pelo W3C XML;
Estado da Arte
41


        WordTree:
          Ferramenta  de busca para texto não-estruturado;
          Analisadores de Texto baseados em palavras;

          Visualização de Textos baseados em Concordância;
Estado da Arte
42
Aplicações
43


        Chatter Bot
          ALICE

        Sistemas Operacionais que interpretam LN
          DOSVOX     e Virtual Vision
        Mecanismos de Busca que utilizam PLN
          PowerSet
Referências bibliográficas
44


        RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A
         Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003.
        ÁLVARES, Alberto Cáceres. Extração de informação de
         artigos científicos: uma abordagem baseada em indução de
         regras de etiquetagem. 131p. Dissertação (mestrado),
         Universidade de São Paulo - USP, São Carlos, SP, fevereiro de
         2007.

Mais conteúdo relacionado

Mais procurados

Natural language processing with python and amharic syntax parse tree by dani...
Natural language processing with python and amharic syntax parse tree by dani...Natural language processing with python and amharic syntax parse tree by dani...
Natural language processing with python and amharic syntax parse tree by dani...Daniel Adenew
 
Artificial Intelligence: Natural Language Processing
Artificial Intelligence: Natural Language ProcessingArtificial Intelligence: Natural Language Processing
Artificial Intelligence: Natural Language ProcessingFrank Cunha
 
Natural Language Processing with Python
Natural Language Processing with PythonNatural Language Processing with Python
Natural Language Processing with PythonBenjamin Bengfort
 
State of NLP and Amazon Comprehend
State of NLP and Amazon ComprehendState of NLP and Amazon Comprehend
State of NLP and Amazon ComprehendEgor Pushkin
 
Natural language processing (Python)
Natural language processing (Python)Natural language processing (Python)
Natural language processing (Python)Sumit Raj
 
Link Analysis for Web Information Retrieval
Link Analysis for Web Information RetrievalLink Analysis for Web Information Retrieval
Link Analysis for Web Information RetrievalCarlos Castillo (ChaTo)
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processingsaurabhnarhe
 
Natural language processing
Natural language processingNatural language processing
Natural language processingAbash shah
 
Natural language processing
Natural language processing Natural language processing
Natural language processing Md.Sumon Sarder
 
Recommender Systems from A to Z – Model Training
Recommender Systems from A to Z – Model TrainingRecommender Systems from A to Z – Model Training
Recommender Systems from A to Z – Model TrainingCrossing Minds
 
Stemming And Lemmatization Tutorial | Natural Language Processing (NLP) With ...
Stemming And Lemmatization Tutorial | Natural Language Processing (NLP) With ...Stemming And Lemmatization Tutorial | Natural Language Processing (NLP) With ...
Stemming And Lemmatization Tutorial | Natural Language Processing (NLP) With ...Edureka!
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language ProcessingVeenaSKumar2
 
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systemsQi He
 
(Paper seminar)real-time personalization using embedding for search ranking a...
(Paper seminar)real-time personalization using embedding for search ranking a...(Paper seminar)real-time personalization using embedding for search ranking a...
(Paper seminar)real-time personalization using embedding for search ranking a...hyunyoung Lee
 
Tutorial: Context-awareness In Information Retrieval and Recommender Systems
Tutorial: Context-awareness In Information Retrieval and Recommender SystemsTutorial: Context-awareness In Information Retrieval and Recommender Systems
Tutorial: Context-awareness In Information Retrieval and Recommender SystemsYONG ZHENG
 
HT2014 Tutorial: Evaluating Recommender Systems - Ensuring Replicability of E...
HT2014 Tutorial: Evaluating Recommender Systems - Ensuring Replicability of E...HT2014 Tutorial: Evaluating Recommender Systems - Ensuring Replicability of E...
HT2014 Tutorial: Evaluating Recommender Systems - Ensuring Replicability of E...Alejandro Bellogin
 

Mais procurados (20)

Natural language processing with python and amharic syntax parse tree by dani...
Natural language processing with python and amharic syntax parse tree by dani...Natural language processing with python and amharic syntax parse tree by dani...
Natural language processing with python and amharic syntax parse tree by dani...
 
Artificial Intelligence: Natural Language Processing
Artificial Intelligence: Natural Language ProcessingArtificial Intelligence: Natural Language Processing
Artificial Intelligence: Natural Language Processing
 
Natural Language Processing with Python
Natural Language Processing with PythonNatural Language Processing with Python
Natural Language Processing with Python
 
State of NLP and Amazon Comprehend
State of NLP and Amazon ComprehendState of NLP and Amazon Comprehend
State of NLP and Amazon Comprehend
 
Textmining Introduction
Textmining IntroductionTextmining Introduction
Textmining Introduction
 
Natural language processing (Python)
Natural language processing (Python)Natural language processing (Python)
Natural language processing (Python)
 
Link Analysis for Web Information Retrieval
Link Analysis for Web Information RetrievalLink Analysis for Web Information Retrieval
Link Analysis for Web Information Retrieval
 
Intro to nlp
Intro to nlpIntro to nlp
Intro to nlp
 
NLP.pptx
NLP.pptxNLP.pptx
NLP.pptx
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processing
 
Natural language processing
Natural language processingNatural language processing
Natural language processing
 
Natural language processing
Natural language processing Natural language processing
Natural language processing
 
Recommender Systems from A to Z – Model Training
Recommender Systems from A to Z – Model TrainingRecommender Systems from A to Z – Model Training
Recommender Systems from A to Z – Model Training
 
Stemming And Lemmatization Tutorial | Natural Language Processing (NLP) With ...
Stemming And Lemmatization Tutorial | Natural Language Processing (NLP) With ...Stemming And Lemmatization Tutorial | Natural Language Processing (NLP) With ...
Stemming And Lemmatization Tutorial | Natural Language Processing (NLP) With ...
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processing
 
NLP PPT.pptx
NLP PPT.pptxNLP PPT.pptx
NLP PPT.pptx
 
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
[AAAI 2019 tutorial] End-to-end goal-oriented question answering systems
 
(Paper seminar)real-time personalization using embedding for search ranking a...
(Paper seminar)real-time personalization using embedding for search ranking a...(Paper seminar)real-time personalization using embedding for search ranking a...
(Paper seminar)real-time personalization using embedding for search ranking a...
 
Tutorial: Context-awareness In Information Retrieval and Recommender Systems
Tutorial: Context-awareness In Information Retrieval and Recommender SystemsTutorial: Context-awareness In Information Retrieval and Recommender Systems
Tutorial: Context-awareness In Information Retrieval and Recommender Systems
 
HT2014 Tutorial: Evaluating Recommender Systems - Ensuring Replicability of E...
HT2014 Tutorial: Evaluating Recommender Systems - Ensuring Replicability of E...HT2014 Tutorial: Evaluating Recommender Systems - Ensuring Replicability of E...
HT2014 Tutorial: Evaluating Recommender Systems - Ensuring Replicability of E...
 

Destaque

Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...Laís Berlatto
 
Construção de ontologia com protégé owl
Construção de ontologia com protégé owlConstrução de ontologia com protégé owl
Construção de ontologia com protégé owlAndréa Bordin
 
NEC presentation Paulo Januzzi
NEC presentation Paulo JanuzziNEC presentation Paulo Januzzi
NEC presentation Paulo JanuzziUNDP Policy Centre
 
Processamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHPProcessamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHPIvo Nascimento
 
Linguagem da Arte
Linguagem da ArteLinguagem da Arte
Linguagem da ArteJoão Gomes
 

Destaque (7)

Tutorial em Processamento de Linguagem Natural
Tutorial em Processamento de Linguagem NaturalTutorial em Processamento de Linguagem Natural
Tutorial em Processamento de Linguagem Natural
 
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
 
Construção de ontologia com protégé owl
Construção de ontologia com protégé owlConstrução de ontologia com protégé owl
Construção de ontologia com protégé owl
 
NEC presentation Paulo Januzzi
NEC presentation Paulo JanuzziNEC presentation Paulo Januzzi
NEC presentation Paulo Januzzi
 
Adaptando, Aprendendo e Integrando Modelos Semânticos.
Adaptando, Aprendendo e Integrando Modelos Semânticos.Adaptando, Aprendendo e Integrando Modelos Semânticos.
Adaptando, Aprendendo e Integrando Modelos Semânticos.
 
Processamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHPProcessamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHP
 
Linguagem da Arte
Linguagem da ArteLinguagem da Arte
Linguagem da Arte
 

Mais de Thiago Reis da Silva

Apostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoApostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoThiago Reis da Silva
 
The use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThe use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThiago Reis da Silva
 
Desenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloDesenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloThiago Reis da Silva
 
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Thiago Reis da Silva
 
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemO uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemThiago Reis da Silva
 
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemIntegrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemThiago Reis da Silva
 
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Thiago Reis da Silva
 
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleUm modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleThiago Reis da Silva
 
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
Aplicação de uma técnica de visualização de dados baseado  em árvores para au...Aplicação de uma técnica de visualização de dados baseado  em árvores para au...
Aplicação de uma técnica de visualização de dados baseado em árvores para au...Thiago Reis da Silva
 
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...Thiago Reis da Silva
 
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Thiago Reis da Silva
 
Ampliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaAmpliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaThiago Reis da Silva
 
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...Thiago Reis da Silva
 
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...Thiago Reis da Silva
 
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Thiago Reis da Silva
 
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareScrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareThiago Reis da Silva
 

Mais de Thiago Reis da Silva (20)

Apostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoApostila de Introdução a Programação
Apostila de Introdução a Programação
 
Introdução a Programação
Introdução a ProgramaçãoIntrodução a Programação
Introdução a Programação
 
The use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThe use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic review
 
Desenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloDesenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de módulo
 
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
 
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemO uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
 
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemIntegrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
 
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
 
Survey e Análise Estatística
Survey e Análise Estatística Survey e Análise Estatística
Survey e Análise Estatística
 
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleUm modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
 
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
Aplicação de uma técnica de visualização de dados baseado  em árvores para au...Aplicação de uma técnica de visualização de dados baseado  em árvores para au...
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
 
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
 
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
 
Ampliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaAmpliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e ginga
 
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
 
Minicurso SCRUM
Minicurso SCRUMMinicurso SCRUM
Minicurso SCRUM
 
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
 
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
 
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareScrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
 
Artigo
ArtigoArtigo
Artigo
 

Processamento Probabilístico de Linguagem

  • 1. MESTRADO EM CIÊNCIA DA COMPUTAÇÃO UNIVERSIDADE ESTADUAL DO RIO GRANDE DO NORTE - UERN UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO - UFERSA PROCESSAMENTO PROBABILÍSTICO DE LINGUAGEM Capítulo 23 Diego Grosmann e Thiago Reis
  • 2. Agenda 2  Introdução  Modelo probabilístico de linguagem  Gramática probabilística livre de contexto (GPLC)  GPLC lexicalizada  Recuperação de Informação  Problemas de PLN  Extração de Informação  Tradução automática  Estado da arte  Aplicações  Referências bibliográficas
  • 3. Introdução 3  Processamento probabilístico de linguagem tenta facilitar a localização de informações em textos escritos por seres humanos e para seres humanos;  Essa abordagem utiliza estatística e aprendizagem nos dados existentes e gera probabilidades para o uso de sentenças (modelo probabilístico).
  • 4. Modelo Probabilístico de Linguagem 4  Define a distribuição da probabilidade sobre um conjunto de cadeias;  Modelos:  Unigramas;  Bigramas;  Trigramas.
  • 5. Modelo Probabilístico de Linguagem 5  Unigramas:  Atribui probabilidade P(w) a cada palavra;  A probabilidade de uma cadeia de palavras é apenas o produto da probabilidade de cada palavra;  logical are as are confusion a may right tries agent goal the was diesel more object then information- gathering search is
  • 6. Modelo Probabilístico de Linguagem 6  Bigramas: A probabilidade de cada palavra dada a palavra anterior.  P(wi|wi -1)  planning purely diagnostic expert systems are very similar computational approach would be represented compactly using tic tac toe a predicate
  • 7. Modelo Probabilístico de Linguagem 7  N-gramas:  Considera n-1 palavras anteriores;  P(wi|wi – (n-1) ... wi – 1);  Trigramas  planning and scheduling are integrated the success of naive Bayes model is just a possible prior source by that time.
  • 8. Modelo Probabilístico de Linguagem 8  Suavização:  Conta igual a zero  Suavização soma um  (c + 1)/(N + B);  N  número de palavras;  B  bigramas possíveis;  c  contagem real;  (elimina a possibilidade de uma combinação de uma palavras nunca sair).
  • 9. Modelo Probabilístico de Linguagem 9  Suavização:  Suavização de interpolação linear  Combinação dos modelos Unigramas, Bigramas e Trigramas.  P(wi|wi – 2 wi – 1) = c3 P(wi|wi – 2 wi – 1)+ c2P(wi|wi -1)+ c1 P(w)
  • 10. Método de avaliação  Utilização de área de treinamento e área de testes.  Problemas: P(Palavras) é muito pequena, os números poderiam causar underflow.  Calcular Perplexidade  Quanto mais baixa a perplexidade melhor o modelo −������������������2 (������ ������������������������������������������������  ������������������������������������������������������������������������ ������������������������������������������������ = 2 ) ������ N = Numero de palavras Underflow: Erro de memoria, valor abaixo do esperado
  • 11. Gramática probabilística livre de 11 contexto (GPLC)  Utiliza os formalismos gramaticais para gerar uma árvore de probabilidades de palavras;  A probabilidade de uma cadeia, P(palavras), é apenas a probabilidade de sua árvore;  Para percorrer a árvore podemos utilizar:  Algoritmo de Viterbi;  A* (busca pelo melhor esforço).
  • 12. GPLC lexicalizadas 12  Tenta resolver o problema de contexto  P(come uma banana) e P(come uma bandana) depende de P(banana) vs P(bandana);  SV  SV SN  SV  cabeça do SV (comer)  SN  cabeça do SN (banana)  SV sintagmas verbais  SN sintagmas nominais  Sintagma é um segmento linguístico que expressa uma relação de dependência
  • 13. Problemas no GPLC  Dificuldade de se construir a GPL  Problemas na atribuição de probabilidade  Aprendizagem  Com arvore sintática utiliza uma regra para a combinação dos filhos  Maximização de expectativas (EM)
  • 14. 14 Recuperação de Informação É a tarefa de encontrar informações relevantes para as necessidade de informação de um usuário;
  • 15. Recuperação de Informação 15  Características:  Uma coleção de documentos;  Uma consulta apresentada em uma linguagem de consulta;  Um conjunto de resultados;  Uma apresentação do conjunto de resultado;
  • 16. Recuperação de Informação 16  Modelo booleano de palavras chaves: O modelo é verdadeiro para a palavra em um documento se ela ocorre e falso se ela não ocorre;  Simples;  Mas, não apresenta grau de relevância;  Pouca familiaridade de usuários leigos com as excreções;  Resultados ruim (muito especifica).
  • 17. Recuperação de Informação 17  Modelagem de linguagem:  Tenta definir uma regra de ordenação dos resultados P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D)  r  variável booleana aleatória que indica Relevância = verdadeiro  D  Documento  Q  Consulta
  • 18. P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D) 18 Divide a quantidade de Representa as chances resultados relevantes no Probabilidade de r ser independentes da documento pela quantidade de verdadeiro dado um consulta do documento ser resultados irrelevantes documento D e uma relevante consulta Q  r  variável booleana aleatória que indica Relevância = verdadeiro A relevância do documento  D  Documento independente da consulta pode ser  Q  Consulta dada pela quantidade de links que apontam para ele como (se for um artigo) o numero de citações do periódico
  • 19. P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D) 19  Modelo de saco de palavras  Utiliza unigrama para contar o numero de ocorrências;  Documentos com mais ocorrências individuais são mais relevantes; P(r | D, Q)   jP(Qj | D, r )  Calcula a probabilidade de uma consulta dado um documento relevante multiplicado pela probabilidade das palavras na consulta P(r | D, Q) P ( r | D)   jP(Qj | D, r )  P(r | D, Q) P(r | D)
  • 20. Recuperação de Informação 20  Refinamento de RI  Problema  Sistemasunigrama tratam todas as palavras como se fossem independentes;  poltrona, POLTRONA, poltronas, sofá, Poltrona.  Solução  Utilizar só letras maiúsculas/minúsculas;  Procurar pelo radical;  Problema: stocking (meia), Stock (estoque);  Solução: uso de dicionário;  Dicionário de sinônimos;  Problema: Modificação do significado;  Uso de corretor ortográfico e metadados.
  • 21. Recuperação de Informação 21  Apresentação do conjunto de resultados:  Até o momento só o problema de relevância foi visto a utilidade não foi avaliada;  Qual a utilidade de dois documentos iguais?  Realimentação de relevância: o usuário informa os dados relevantes;  Classificação de documentos  Formação de agrupamentos de documentos;
  • 22. Recuperação de Informação 22  Apresentação do conjunto de resultados:  Classificação de documentos  Problema de aprendizagem supervisionada  Agrupamento de documentos  Problema de aprendizagem não-supervisionada  Agrupamentos aglomerativo  Agrupamentos K-média
  • 23. Recuperação de Informação 23  Implementação de sistemas RI:  Como fazer uma pesquisa eficiente na web onde existem bilhões de documentos?  Léxico  Lista todas as palavras da coleção de documentos;  Pode armazenar o número de ocorrências;  Utiliza lista de palavras ignoráveis (o, de, ou);  Índice invertido (lista de acertos)  Lista o lugar em que cada palavra aparece (link);  Para a busca de frases ele deve guardar a localização da palavra no documento.
  • 24. Recuperação de Informação 24  Como funciona:  Fazemos uma busca no léxico para obter o endereço da lista de acertos;  Em seguida percorremos a lista de acerto de cada documento e verificamos a contagem para cada documento.
  • 25. Recuperação de Informação 25  Na prática:  750.000 documentos totalizando 2 GB;  Léxico contem 500.00 palavras 7 a 10 MB;  Indicie invertido (documento, contagem) ocupa 324MB;  O suporte a consulta de frases (e, ou, etc.) eleva o Índice Invertido a 1200 MB;  Na Web existem cerca de 3.000 vezes mais documentos;  Solução: segmentação e distribuição de copias.
  • 26. Problemas do PLN 26  Ambiguidade: uh! Eitcha Piula, Qual é a dele??! Reiou...
  • 27. Problemas do PLN 27  Ambiguidade léxica: diferentes interpretação para uma palavra;  Ex: João procurou um banco;  Ambiguidade sintática: uma sentença pode ser mapeada de diferentes formas;  Ex: O menino viu o homem de binóculo;  Ambiguidade semântica: diferentes significado para uma frase;  Ex: Pedro viu Maria passeando;  Ambiguidade anafórica: anáfora pronominal relacionada a duas os mais palavras distintas:  Ex: o ladrão entrou na casa do prefeito e tirou sua roupa;
  • 28. 28 Extração de Informação É originalmente a tarefa de encontrar informações a partir de grandes volumes de documentos ou textos;  Documentos ou textos: estruturados ou livres;
  • 29. Extração de Informação 29  Características:  EI visa localizar e extrair de forma automática informações relevantes;  Banco de dados;  Sistemas de Extração de Informação (SEI) não realizar o entendimento completo do documento;  Objetivo: construir sistemas que encontrem e combinem informações relevantes;  EI é diferente de RI;
  • 30. Extração de Informação 30  Arquitetura:  Definidapor Grishhan (1997 apud ÁLVARES, 2007);  6 módulos presentes em SEI;  Processador léxico;  Reconhecimento de nomes;  Analisador sintático/semântico;  Padrão de extração;  Analisador de discurso;  Templates.
  • 31. Extração de Informação 31  Arquitetura:  Processador léxico:  Textodividindo em sentenças e termos;  Separação dos termos (tokenização);  Reconhecimento de nomes:  Identifica vários tipos de nomes próprios;  Analisador sintático/semântico:  Receber itens léxicos e tenta construir uma estrutura sintática;
  • 32. Extração de Informação 32  Arquitetura:  Extração de padrão:  Indução de um conjunto de regras de extração;  Análise de Discurso:  Relacionar diferentes elementos do texto;  Inclusão de algumas tarefas:  Análise de frases nominais;  Resolução de recorrência;  Templates:  Preenchimento com as informações relevantes;
  • 33. Extração de Informação 33  Arquitetura: Figura. Arquitetura. Fonte: Grishhan (1997 apud ÁLVARES, 2007)
  • 34. Extração de Informação 34  Tipos de textos:  o tipo de texto influência na escolha da técnica;  Estruturado: quando apresenta regularidade das informações;  Ex: formulário;  Semi-estrurado: alguma regularidade dos dados;  Ex: artigo;  Não-estruturado: não exibe regularidade;  Ex: páginas web;
  • 35. 35 Tradução automática É umas das atividades que mais utiliza o conhecimento de linguística;  Necessidade de fazer a codificação da língua fonte (LF) para a língua alvo (LA);
  • 36. Tradução automática 36  Processos de TA:  Tradução bruta: obter um significado de uma sentença;  Ex: navegação na web;  Tradução de origem restrita: conteúdo dos textos é restrito;  Ex: Taum-meteo;  Tradução pré-editada: realiza uma edição prévia do conteúdo;  Ex: manuais de empresas;  Tradução literária: está além do estado da arte de TA;
  • 37. Tradução automática 37  Processos de TA:  Problema: idiomas;  A dificuldade encontrar-se no processo de análise e interpretação do enunciado da LN;  Estratégias:  Tradução baseada exclusivamente em conhecimento linguístico (LBMT);  Tradução baseada em conhecimento (KBMT);  Tradução baseada em exemplo (EBMT);
  • 38. Tradução automática 38  Sistemas de TA;  Comercias: translator pro, power translator pro;  Gratuitos: altavista, google translator;  Sistemas preliminares;  Metodologias  Sistemas transferenciais: mantém um BD com regras de tradução;  Sistemas interlíngua: representação intermediária entre LF e LA;  Sistemas diretos: tradução direta;
  • 39. Tradução automática 39  Tradução direta e indireta;  Direta: A própria LA é considerada um instrumento para a LF;  Indireta:  São desenvolvidas formas para a representação intermediária;
  • 40. Estado da Arte 40  AIML - Artificial Intelligence Markup Language  Linguagem Baseada em XML;  Desenvolvida Richard S. Wallace;  Comunidades mundial de software livre;  Foi a base pro ChatterBot Alice, Antigamente chamado de Eliza;  Interpretada em Phyton, C, C++, Entre outras Linguagens;  Padronizada pelo W3C XML;
  • 41. Estado da Arte 41  WordTree:  Ferramenta de busca para texto não-estruturado;  Analisadores de Texto baseados em palavras;  Visualização de Textos baseados em Concordância;
  • 43. Aplicações 43  Chatter Bot  ALICE  Sistemas Operacionais que interpretam LN  DOSVOX e Virtual Vision  Mecanismos de Busca que utilizam PLN  PowerSet
  • 44. Referências bibliográficas 44  RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003.  ÁLVARES, Alberto Cáceres. Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem. 131p. Dissertação (mestrado), Universidade de São Paulo - USP, São Carlos, SP, fevereiro de 2007.