SlideShare uma empresa Scribd logo
1 de 26
Baixar para ler offline
Corpora para Processamento de Linguagem Natura

           Alberto Manuel Brand˜o Sim˜es
                               a     o
                ambs@di.uminho.pt



           17 de Outubro de 2008            (v0.1)




               Alberto Sim˜es
                          o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Compar´veis
                 a




Corpora Compar´veis
                 a
Os Corpora Compar´veis s˜o conjuntos de textos em diferentes
                    a    a
l´
 ınguas que, embora n˜o correspondam directamente a tradu¸˜es
                      a                                   co
literais, focam um mesmo assunto.




                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Compar´veis
                              a



Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto
ou evento, e que estejam escritos em l´ınguas diferentes podem ser
vistos como corpora compar´veis.
                            a

Outro exemplo ser´ um conjunto de artigos cient´
                 a                             ıficos sobre um
mesmo micro-organismo.

Estes corpora s˜o essencialmente utilizados para o estudo e
               a
extrac¸˜o de terminologia espec´
      ca                       ıfica da ´rea a que os corpora se
                                        a
referem.




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos na Rede


´
E habitual a disponibiliza¸˜o de Corpora para consulta de
                          ca
concordˆncias na Internet.
       a

Alguns exemplos:
    AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora
                                            ca
    http://www.linguateca.pt/acesso/corpus.php
    COMPARA — Corpus Paralelo de Obras Liter´rias
                                            a
    http://www.linguateca.pt/COMPARA/psimples.php
    NATools — Natura Alignment Tools
    http://linguateca.di.uminho.pt/nat




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Aplica¸oes de Corpora
      c˜



Aprendizagem Autom´tica:
                  a
    modelos estat´
                 ısticos de l´
                             ıngua;
Extrac¸˜o de terminologia:
      ca
    detec¸˜o de palavras espec´
         ca                   ıficas de uma ´rea;
                                           a
    extrac¸˜o de terminologia bilingue;
          ca
Tradu¸˜o Autom´tica:
     ca       a
    extrac¸˜o de dicion´rios bilingues;
          ca            a
    extrac¸˜o de terminologia bilingue;
          ca
    extrac¸˜o de exemplos de tradu¸˜o;
          ca                         ca
    modelos estat´ısticos de tradu¸˜o;
                                  ca




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura

Mais conteúdo relacionado

Mais procurados

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraicouverlan
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaVanessa Dagostim
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinarMaluco Rafael
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)Clovis Bombardelli
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodosJessiely Soares
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentoscarlinhosreis
 
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico peSalvia Fontinha
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraicayasmin fonseca
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tvMaluco Rafael
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70luisprista
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivosaly pereira
 

Mais procurados (19)

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraico
 
INICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO IINICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO I
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 Vanessa
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinar
 
Curso De Hebraico
Curso De HebraicoCurso De Hebraico
Curso De Hebraico
 
Curso-de-latim-completo
 Curso-de-latim-completo Curso-de-latim-completo
Curso-de-latim-completo
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)
 
Livro do gênesis
Livro do gênesisLivro do gênesis
Livro do gênesis
 
Lingua Hebraica V
Lingua Hebraica VLingua Hebraica V
Lingua Hebraica V
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodos
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentos
 
PEX- Novo Acordo Ortográfico
PEX- Novo Acordo OrtográficoPEX- Novo Acordo Ortográfico
PEX- Novo Acordo Ortográfico
 
Q06
Q06Q06
Q06
 
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico pe
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraica
 
Crop10 abdu
Crop10 abduCrop10 abdu
Crop10 abdu
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tv
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivos
 

Destaque

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAlberto Simões
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryAlberto Simões
 
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesAlberto Simões
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationAlberto Simões
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAlberto Simões
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approachAlberto Simões
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVNAlberto Simões
 

Destaque (9)

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionary
 
TPF GC
TPF GCTPF GC
TPF GC
 
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation Dictionaries
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVN
 
Source Code Quality
Source Code QualitySource Code Quality
Source Code Quality
 

Mais de Alberto Simões

EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesAlberto Simões
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAlberto Simões
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAlberto Simões
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with PerlAlberto Simões
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approachAlberto Simões
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaAlberto Simões
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaAlberto Simões
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsAlberto Simões
 

Mais de Alberto Simões (20)

Google Maps JS API
Google Maps JS APIGoogle Maps JS API
Google Maps JS API
 
EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized Dictionaries
 
Modelação de Dados
Modelação de DadosModelação de Dados
Modelação de Dados
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with Perl
 
PLN em Perl
PLN em PerlPLN em Perl
PLN em Perl
 
Classification Systems
Classification SystemsClassification Systems
Classification Systems
 
Redes de Pert
Redes de PertRedes de Pert
Redes de Pert
 
Dancing Tutorial
Dancing TutorialDancing Tutorial
Dancing Tutorial
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approach
 
Sistemas de Numeração
Sistemas de NumeraçãoSistemas de Numeração
Sistemas de Numeração
 
Álgebra de Boole
Álgebra de BooleÁlgebra de Boole
Álgebra de Boole
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução Automática
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
 
Dicionário Aberto
Dicionário AbertoDicionário Aberto
Dicionário Aberto
 
Keynote Globs
Keynote GlobsKeynote Globs
Keynote Globs
 
Workshop GLOBS
Workshop GLOBSWorkshop GLOBS
Workshop GLOBS
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation Patterns
 
Remote secure backups
Remote secure backupsRemote secure backups
Remote secure backups
 

Último

atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfAutonoma
 
Sistema de Bibliotecas UCS - Cantos do fim do século
Sistema de Bibliotecas UCS  - Cantos do fim do séculoSistema de Bibliotecas UCS  - Cantos do fim do século
Sistema de Bibliotecas UCS - Cantos do fim do séculoBiblioteca UCS
 
Questões de Língua Portuguesa - gincana da LP
Questões de Língua Portuguesa - gincana da LPQuestões de Língua Portuguesa - gincana da LP
Questões de Língua Portuguesa - gincana da LPEli Gonçalves
 
Sistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturasSistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturasrfmbrandao
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptxJssicaCassiano2
 
Acessibilidade, inclusão e valorização da diversidade
Acessibilidade, inclusão e valorização da diversidadeAcessibilidade, inclusão e valorização da diversidade
Acessibilidade, inclusão e valorização da diversidadeLEONIDES PEREIRA DE SOUZA
 
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...AnaAugustaLagesZuqui
 
Apresentação | Símbolos e Valores da União Europeia
Apresentação | Símbolos e Valores da União EuropeiaApresentação | Símbolos e Valores da União Europeia
Apresentação | Símbolos e Valores da União EuropeiaCentro Jacques Delors
 
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...marcelafinkler
 
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...SileideDaSilvaNascim
 
Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)Centro Jacques Delors
 
M0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptxM0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptxJustinoTeixeira1
 
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.docGUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.docPauloHenriqueGarciaM
 
Slides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptx
Slides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptxSlides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptx
Slides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptxLuizHenriquedeAlmeid6
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticash5kpmr7w7
 
Sopa de letras | Dia da Europa 2024 (nível 1)
Sopa de letras | Dia da Europa 2024 (nível 1)Sopa de letras | Dia da Europa 2024 (nível 1)
Sopa de letras | Dia da Europa 2024 (nível 1)Centro Jacques Delors
 
Aprender as diferentes formas de classificar as habilidades motoras é de extr...
Aprender as diferentes formas de classificar as habilidades motoras é de extr...Aprender as diferentes formas de classificar as habilidades motoras é de extr...
Aprender as diferentes formas de classificar as habilidades motoras é de extr...azulassessoria9
 
Missa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdfMissa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdfFbioFerreira207918
 
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdfMESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdfprofesfrancleite
 
INTERTEXTUALIDADE atividade muito boa para
INTERTEXTUALIDADE   atividade muito boa paraINTERTEXTUALIDADE   atividade muito boa para
INTERTEXTUALIDADE atividade muito boa paraAndreaPassosMascaren
 

Último (20)

atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdfatividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
atividade-de-portugues-paronimos-e-homonimos-4º-e-5º-ano-respostas.pdf
 
Sistema de Bibliotecas UCS - Cantos do fim do século
Sistema de Bibliotecas UCS  - Cantos do fim do séculoSistema de Bibliotecas UCS  - Cantos do fim do século
Sistema de Bibliotecas UCS - Cantos do fim do século
 
Questões de Língua Portuguesa - gincana da LP
Questões de Língua Portuguesa - gincana da LPQuestões de Língua Portuguesa - gincana da LP
Questões de Língua Portuguesa - gincana da LP
 
Sistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturasSistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturas
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx
 
Acessibilidade, inclusão e valorização da diversidade
Acessibilidade, inclusão e valorização da diversidadeAcessibilidade, inclusão e valorização da diversidade
Acessibilidade, inclusão e valorização da diversidade
 
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
 
Apresentação | Símbolos e Valores da União Europeia
Apresentação | Símbolos e Valores da União EuropeiaApresentação | Símbolos e Valores da União Europeia
Apresentação | Símbolos e Valores da União Europeia
 
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
 
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...apostila filosofia 1 ano  1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
apostila filosofia 1 ano 1s (1).pdf 1 ANO DO ENSINO MEDIO . CONCEITOSE CARAC...
 
Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)Sopa de letras | Dia da Europa 2024 (nível 2)
Sopa de letras | Dia da Europa 2024 (nível 2)
 
M0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptxM0 Atendimento – Definição, Importância .pptx
M0 Atendimento – Definição, Importância .pptx
 
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.docGUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
GUIA DE APRENDIZAGEM 2024 9º A - História 1 BI.doc
 
Slides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptx
Slides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptxSlides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptx
Slides Lição 06, Central Gospel, O Anticristo, 1Tr24.pptx
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
 
Sopa de letras | Dia da Europa 2024 (nível 1)
Sopa de letras | Dia da Europa 2024 (nível 1)Sopa de letras | Dia da Europa 2024 (nível 1)
Sopa de letras | Dia da Europa 2024 (nível 1)
 
Aprender as diferentes formas de classificar as habilidades motoras é de extr...
Aprender as diferentes formas de classificar as habilidades motoras é de extr...Aprender as diferentes formas de classificar as habilidades motoras é de extr...
Aprender as diferentes formas de classificar as habilidades motoras é de extr...
 
Missa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdfMissa catequese para o dia da mãe 2025.pdf
Missa catequese para o dia da mãe 2025.pdf
 
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdfMESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
 
INTERTEXTUALIDADE atividade muito boa para
INTERTEXTUALIDADE   atividade muito boa paraINTERTEXTUALIDADE   atividade muito boa para
INTERTEXTUALIDADE atividade muito boa para
 

Corpora para Processamento de Linguagem Natural

  • 1. Corpora para Processamento de Linguagem Natura Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt 17 de Outubro de 2008 (v0.1) Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 2. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 3. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 4. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 5. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 6. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 7. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 8. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 9. Corpora Compar´veis a Corpora Compar´veis a Os Corpora Compar´veis s˜o conjuntos de textos em diferentes a a l´ ınguas que, embora n˜o correspondam directamente a tradu¸˜es a co literais, focam um mesmo assunto. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 10. Exemplos de Corpora Compar´veis a Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto ou evento, e que estejam escritos em l´ınguas diferentes podem ser vistos como corpora compar´veis. a Outro exemplo ser´ um conjunto de artigos cient´ a ıficos sobre um mesmo micro-organismo. Estes corpora s˜o essencialmente utilizados para o estudo e a extrac¸˜o de terminologia espec´ ca ıfica da ´rea a que os corpora se a referem. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 11. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 12. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 13. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 14. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 15. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 16. Corpora Paralelos na Rede ´ E habitual a disponibiliza¸˜o de Corpora para consulta de ca concordˆncias na Internet. a Alguns exemplos: AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora ca http://www.linguateca.pt/acesso/corpus.php COMPARA — Corpus Paralelo de Obras Liter´rias a http://www.linguateca.pt/COMPARA/psimples.php NATools — Natura Alignment Tools http://linguateca.di.uminho.pt/nat Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 17. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 18. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 19. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 20. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 21. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 22. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 23. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 24. Aplica¸oes de Corpora c˜ Aprendizagem Autom´tica: a modelos estat´ ısticos de l´ ıngua; Extrac¸˜o de terminologia: ca detec¸˜o de palavras espec´ ca ıficas de uma ´rea; a extrac¸˜o de terminologia bilingue; ca Tradu¸˜o Autom´tica: ca a extrac¸˜o de dicion´rios bilingues; ca a extrac¸˜o de terminologia bilingue; ca extrac¸˜o de exemplos de tradu¸˜o; ca ca modelos estat´ısticos de tradu¸˜o; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 25. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 26. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura