SlideShare uma empresa Scribd logo
1 de 26
Baixar para ler offline
Corpora para Processamento de Linguagem Natura

           Alberto Manuel Brand˜o Sim˜es
                               a     o
                ambs@di.uminho.pt



           17 de Outubro de 2008            (v0.1)




               Alberto Sim˜es
                          o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Compar´veis
                 a




Corpora Compar´veis
                 a
Os Corpora Compar´veis s˜o conjuntos de textos em diferentes
                    a    a
l´
 ınguas que, embora n˜o correspondam directamente a tradu¸˜es
                      a                                   co
literais, focam um mesmo assunto.




                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Compar´veis
                              a



Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto
ou evento, e que estejam escritos em l´ınguas diferentes podem ser
vistos como corpora compar´veis.
                            a

Outro exemplo ser´ um conjunto de artigos cient´
                 a                             ıficos sobre um
mesmo micro-organismo.

Estes corpora s˜o essencialmente utilizados para o estudo e
               a
extrac¸˜o de terminologia espec´
      ca                       ıfica da ´rea a que os corpora se
                                        a
referem.




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos na Rede


´
E habitual a disponibiliza¸˜o de Corpora para consulta de
                          ca
concordˆncias na Internet.
       a

Alguns exemplos:
    AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora
                                            ca
    http://www.linguateca.pt/acesso/corpus.php
    COMPARA — Corpus Paralelo de Obras Liter´rias
                                            a
    http://www.linguateca.pt/COMPARA/psimples.php
    NATools — Natura Alignment Tools
    http://linguateca.di.uminho.pt/nat




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Aplica¸oes de Corpora
      c˜



Aprendizagem Autom´tica:
                  a
    modelos estat´
                 ısticos de l´
                             ıngua;
Extrac¸˜o de terminologia:
      ca
    detec¸˜o de palavras espec´
         ca                   ıficas de uma ´rea;
                                           a
    extrac¸˜o de terminologia bilingue;
          ca
Tradu¸˜o Autom´tica:
     ca       a
    extrac¸˜o de dicion´rios bilingues;
          ca            a
    extrac¸˜o de terminologia bilingue;
          ca
    extrac¸˜o de exemplos de tradu¸˜o;
          ca                         ca
    modelos estat´ısticos de tradu¸˜o;
                                  ca




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura

Mais conteúdo relacionado

Mais procurados

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraicouverlan
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaVanessa Dagostim
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinarMaluco Rafael
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)Clovis Bombardelli
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodosJessiely Soares
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentoscarlinhosreis
 
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico peSalvia Fontinha
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraicayasmin fonseca
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tvMaluco Rafael
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70luisprista
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivosaly pereira
 

Mais procurados (19)

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraico
 
INICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO IINICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO I
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 Vanessa
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinar
 
Curso De Hebraico
Curso De HebraicoCurso De Hebraico
Curso De Hebraico
 
Curso-de-latim-completo
 Curso-de-latim-completo Curso-de-latim-completo
Curso-de-latim-completo
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)
 
Livro do gênesis
Livro do gênesisLivro do gênesis
Livro do gênesis
 
Lingua Hebraica V
Lingua Hebraica VLingua Hebraica V
Lingua Hebraica V
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodos
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentos
 
PEX- Novo Acordo Ortográfico
PEX- Novo Acordo OrtográficoPEX- Novo Acordo Ortográfico
PEX- Novo Acordo Ortográfico
 
Q06
Q06Q06
Q06
 
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico pe
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraica
 
Crop10 abdu
Crop10 abduCrop10 abdu
Crop10 abdu
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tv
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivos
 

Destaque

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAlberto Simões
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryAlberto Simões
 
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesAlberto Simões
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationAlberto Simões
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAlberto Simões
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approachAlberto Simões
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVNAlberto Simões
 

Destaque (9)

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionary
 
TPF GC
TPF GCTPF GC
TPF GC
 
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation Dictionaries
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVN
 
Source Code Quality
Source Code QualitySource Code Quality
Source Code Quality
 

Mais de Alberto Simões

EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesAlberto Simões
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAlberto Simões
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAlberto Simões
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with PerlAlberto Simões
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approachAlberto Simões
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaAlberto Simões
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaAlberto Simões
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsAlberto Simões
 

Mais de Alberto Simões (20)

Google Maps JS API
Google Maps JS APIGoogle Maps JS API
Google Maps JS API
 
EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized Dictionaries
 
Modelação de Dados
Modelação de DadosModelação de Dados
Modelação de Dados
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with Perl
 
PLN em Perl
PLN em PerlPLN em Perl
PLN em Perl
 
Classification Systems
Classification SystemsClassification Systems
Classification Systems
 
Redes de Pert
Redes de PertRedes de Pert
Redes de Pert
 
Dancing Tutorial
Dancing TutorialDancing Tutorial
Dancing Tutorial
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approach
 
Sistemas de Numeração
Sistemas de NumeraçãoSistemas de Numeração
Sistemas de Numeração
 
Álgebra de Boole
Álgebra de BooleÁlgebra de Boole
Álgebra de Boole
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução Automática
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
 
Dicionário Aberto
Dicionário AbertoDicionário Aberto
Dicionário Aberto
 
Keynote Globs
Keynote GlobsKeynote Globs
Keynote Globs
 
Workshop GLOBS
Workshop GLOBSWorkshop GLOBS
Workshop GLOBS
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation Patterns
 
Remote secure backups
Remote secure backupsRemote secure backups
Remote secure backups
 

Último

5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdfLeloIurk1
 
Atividade sobre os Pronomes Pessoais.pptx
Atividade sobre os Pronomes Pessoais.pptxAtividade sobre os Pronomes Pessoais.pptx
Atividade sobre os Pronomes Pessoais.pptxDianaSheila2
 
o ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfo ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfCamillaBrito19
 
Discurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxDiscurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxferreirapriscilla84
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelGilber Rubim Rangel
 
GEOGRAFIA - ENSINO FUNDAMENTAL ANOS FINAIS.pdf
GEOGRAFIA - ENSINO FUNDAMENTAL ANOS FINAIS.pdfGEOGRAFIA - ENSINO FUNDAMENTAL ANOS FINAIS.pdf
GEOGRAFIA - ENSINO FUNDAMENTAL ANOS FINAIS.pdfElianeElika
 
Libras Jogo da memória em LIBRAS Memoria
Libras Jogo da memória em LIBRAS MemoriaLibras Jogo da memória em LIBRAS Memoria
Libras Jogo da memória em LIBRAS Memorialgrecchi
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfLeloIurk1
 
Noções de Farmacologia - Flávia Soares.pdf
Noções de Farmacologia - Flávia Soares.pdfNoções de Farmacologia - Flávia Soares.pdf
Noções de Farmacologia - Flávia Soares.pdflucassilva721057
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdfAna Lemos
 
Ficha de trabalho com palavras- simples e complexas.pdf
Ficha de trabalho com palavras- simples e complexas.pdfFicha de trabalho com palavras- simples e complexas.pdf
Ficha de trabalho com palavras- simples e complexas.pdfFtimaMoreira35
 
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESCOMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESEduardaReis50
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...IsabelPereira2010
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãIlda Bicacro
 
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamentalAntônia marta Silvestre da Silva
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...Rosalina Simão Nunes
 
FASE 1 MÉTODO LUMA E PONTO. TUDO SOBRE REDAÇÃO
FASE 1 MÉTODO LUMA E PONTO. TUDO SOBRE REDAÇÃOFASE 1 MÉTODO LUMA E PONTO. TUDO SOBRE REDAÇÃO
FASE 1 MÉTODO LUMA E PONTO. TUDO SOBRE REDAÇÃOAulasgravadas3
 
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfPRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfprofesfrancleite
 
VARIEDADES LINGUÍSTICAS - 1. pptx
VARIEDADES        LINGUÍSTICAS - 1. pptxVARIEDADES        LINGUÍSTICAS - 1. pptx
VARIEDADES LINGUÍSTICAS - 1. pptxMarlene Cunhada
 

Último (20)

5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
 
Atividade sobre os Pronomes Pessoais.pptx
Atividade sobre os Pronomes Pessoais.pptxAtividade sobre os Pronomes Pessoais.pptx
Atividade sobre os Pronomes Pessoais.pptx
 
o ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdfo ciclo do contato Jorge Ponciano Ribeiro.pdf
o ciclo do contato Jorge Ponciano Ribeiro.pdf
 
Discurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptxDiscurso Direto, Indireto e Indireto Livre.pptx
Discurso Direto, Indireto e Indireto Livre.pptx
 
Dicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim RangelDicionário de Genealogia, autor Gilber Rubim Rangel
Dicionário de Genealogia, autor Gilber Rubim Rangel
 
GEOGRAFIA - ENSINO FUNDAMENTAL ANOS FINAIS.pdf
GEOGRAFIA - ENSINO FUNDAMENTAL ANOS FINAIS.pdfGEOGRAFIA - ENSINO FUNDAMENTAL ANOS FINAIS.pdf
GEOGRAFIA - ENSINO FUNDAMENTAL ANOS FINAIS.pdf
 
Libras Jogo da memória em LIBRAS Memoria
Libras Jogo da memória em LIBRAS MemoriaLibras Jogo da memória em LIBRAS Memoria
Libras Jogo da memória em LIBRAS Memoria
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
 
Noções de Farmacologia - Flávia Soares.pdf
Noções de Farmacologia - Flávia Soares.pdfNoções de Farmacologia - Flávia Soares.pdf
Noções de Farmacologia - Flávia Soares.pdf
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdf
 
Ficha de trabalho com palavras- simples e complexas.pdf
Ficha de trabalho com palavras- simples e complexas.pdfFicha de trabalho com palavras- simples e complexas.pdf
Ficha de trabalho com palavras- simples e complexas.pdf
 
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕESCOMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
COMPETÊNCIA 4 NO ENEM: O TEXTO E SUAS AMARRACÕES
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! Sertã
 
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
 
FASE 1 MÉTODO LUMA E PONTO. TUDO SOBRE REDAÇÃO
FASE 1 MÉTODO LUMA E PONTO. TUDO SOBRE REDAÇÃOFASE 1 MÉTODO LUMA E PONTO. TUDO SOBRE REDAÇÃO
FASE 1 MÉTODO LUMA E PONTO. TUDO SOBRE REDAÇÃO
 
Bullying, sai pra lá
Bullying,  sai pra láBullying,  sai pra lá
Bullying, sai pra lá
 
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdfPRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
PRÉDIOS HISTÓRICOS DE ASSARÉ Prof. Francisco Leite.pdf
 
VARIEDADES LINGUÍSTICAS - 1. pptx
VARIEDADES        LINGUÍSTICAS - 1. pptxVARIEDADES        LINGUÍSTICAS - 1. pptx
VARIEDADES LINGUÍSTICAS - 1. pptx
 

Corpora para Processamento de Linguagem Natural

  • 1. Corpora para Processamento de Linguagem Natura Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt 17 de Outubro de 2008 (v0.1) Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 2. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 3. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 4. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 5. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 6. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 7. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 8. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 9. Corpora Compar´veis a Corpora Compar´veis a Os Corpora Compar´veis s˜o conjuntos de textos em diferentes a a l´ ınguas que, embora n˜o correspondam directamente a tradu¸˜es a co literais, focam um mesmo assunto. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 10. Exemplos de Corpora Compar´veis a Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto ou evento, e que estejam escritos em l´ınguas diferentes podem ser vistos como corpora compar´veis. a Outro exemplo ser´ um conjunto de artigos cient´ a ıficos sobre um mesmo micro-organismo. Estes corpora s˜o essencialmente utilizados para o estudo e a extrac¸˜o de terminologia espec´ ca ıfica da ´rea a que os corpora se a referem. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 11. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 12. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 13. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 14. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 15. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 16. Corpora Paralelos na Rede ´ E habitual a disponibiliza¸˜o de Corpora para consulta de ca concordˆncias na Internet. a Alguns exemplos: AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora ca http://www.linguateca.pt/acesso/corpus.php COMPARA — Corpus Paralelo de Obras Liter´rias a http://www.linguateca.pt/COMPARA/psimples.php NATools — Natura Alignment Tools http://linguateca.di.uminho.pt/nat Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 17. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 18. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 19. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 20. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 21. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 22. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 23. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 24. Aplica¸oes de Corpora c˜ Aprendizagem Autom´tica: a modelos estat´ ısticos de l´ ıngua; Extrac¸˜o de terminologia: ca detec¸˜o de palavras espec´ ca ıficas de uma ´rea; a extrac¸˜o de terminologia bilingue; ca Tradu¸˜o Autom´tica: ca a extrac¸˜o de dicion´rios bilingues; ca a extrac¸˜o de terminologia bilingue; ca extrac¸˜o de exemplos de tradu¸˜o; ca ca modelos estat´ısticos de tradu¸˜o; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 25. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 26. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura