SlideShare uma empresa Scribd logo
Corpora para Processamento de Linguagem Natura

           Alberto Manuel Brand˜o Sim˜es
                               a     o
                ambs@di.uminho.pt



           17 de Outubro de 2008            (v0.1)




               Alberto Sim˜es
                          o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Compar´veis
                 a




Corpora Compar´veis
                 a
Os Corpora Compar´veis s˜o conjuntos de textos em diferentes
                    a    a
l´
 ınguas que, embora n˜o correspondam directamente a tradu¸˜es
                      a                                   co
literais, focam um mesmo assunto.




                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Compar´veis
                              a



Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto
ou evento, e que estejam escritos em l´ınguas diferentes podem ser
vistos como corpora compar´veis.
                            a

Outro exemplo ser´ um conjunto de artigos cient´
                 a                             ıficos sobre um
mesmo micro-organismo.

Estes corpora s˜o essencialmente utilizados para o estudo e
               a
extrac¸˜o de terminologia espec´
      ca                       ıfica da ´rea a que os corpora se
                                        a
referem.




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos na Rede


´
E habitual a disponibiliza¸˜o de Corpora para consulta de
                          ca
concordˆncias na Internet.
       a

Alguns exemplos:
    AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora
                                            ca
    http://www.linguateca.pt/acesso/corpus.php
    COMPARA — Corpus Paralelo de Obras Liter´rias
                                            a
    http://www.linguateca.pt/COMPARA/psimples.php
    NATools — Natura Alignment Tools
    http://linguateca.di.uminho.pt/nat




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Aplica¸oes de Corpora
      c˜



Aprendizagem Autom´tica:
                  a
    modelos estat´
                 ısticos de l´
                             ıngua;
Extrac¸˜o de terminologia:
      ca
    detec¸˜o de palavras espec´
         ca                   ıficas de uma ´rea;
                                           a
    extrac¸˜o de terminologia bilingue;
          ca
Tradu¸˜o Autom´tica:
     ca       a
    extrac¸˜o de dicion´rios bilingues;
          ca            a
    extrac¸˜o de terminologia bilingue;
          ca
    extrac¸˜o de exemplos de tradu¸˜o;
          ca                         ca
    modelos estat´ısticos de tradu¸˜o;
                                  ca




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura

Mais conteúdo relacionado

Mais procurados

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraico
uverlan
 
INICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO IINICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO I
Yossef Levy Najman
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 Vanessa
Vanessa Dagostim
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinar
Maluco Rafael
 
Curso De Hebraico
Curso De HebraicoCurso De Hebraico
Curso De Hebraico
Alexandre Santos
 
Curso-de-latim-completo
 Curso-de-latim-completo Curso-de-latim-completo
Curso-de-latim-completo
Brazilian Air Force
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)
Clovis Bombardelli
 
Livro do gênesis
Livro do gênesisLivro do gênesis
Livro do gênesis
valmir severo
 
Lingua Hebraica V
Lingua Hebraica VLingua Hebraica V
Lingua Hebraica V
Aldenei Barros
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodos
Jessiely Soares
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentos
carlinhosreis
 
PEX- Novo Acordo Ortográfico
PEX- Novo Acordo OrtográficoPEX- Novo Acordo Ortográfico
PEX- Novo Acordo Ortográfico
Tércio De Santana
 
Q06
Q06Q06
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico pe
Salvia Fontinha
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraica
yasmin fonseca
 
Crop10 abdu
Crop10 abduCrop10 abdu
Crop10 abdu
caculocaculo
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tv
Maluco Rafael
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70
luisprista
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivos
aly pereira
 

Mais procurados (19)

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraico
 
INICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO IINICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO I
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 Vanessa
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinar
 
Curso De Hebraico
Curso De HebraicoCurso De Hebraico
Curso De Hebraico
 
Curso-de-latim-completo
 Curso-de-latim-completo Curso-de-latim-completo
Curso-de-latim-completo
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)
 
Livro do gênesis
Livro do gênesisLivro do gênesis
Livro do gênesis
 
Lingua Hebraica V
Lingua Hebraica VLingua Hebraica V
Lingua Hebraica V
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodos
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentos
 
PEX- Novo Acordo Ortográfico
PEX- Novo Acordo OrtográficoPEX- Novo Acordo Ortográfico
PEX- Novo Acordo Ortográfico
 
Q06
Q06Q06
Q06
 
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico pe
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraica
 
Crop10 abdu
Crop10 abduCrop10 abdu
Crop10 abdu
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tv
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivos
 

Destaque

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
Alberto Simões
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionary
Alberto Simões
 
TPF GC
TPF GCTPF GC
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation Dictionaries
Alberto Simões
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
Alberto Simões
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
Alberto Simões
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
Alberto Simões
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVN
Alberto Simões
 
Source Code Quality
Source Code QualitySource Code Quality
Source Code Quality
Alberto Simões
 

Destaque (9)

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionary
 
TPF GC
TPF GCTPF GC
TPF GC
 
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation Dictionaries
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVN
 
Source Code Quality
Source Code QualitySource Code Quality
Source Code Quality
 

Mais de Alberto Simões

Google Maps JS API
Google Maps JS APIGoogle Maps JS API
Google Maps JS API
Alberto Simões
 
EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized Dictionaries
Alberto Simões
 
Modelação de Dados
Modelação de DadosModelação de Dados
Modelação de Dados
Alberto Simões
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
Alberto Simões
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
Alberto Simões
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with Perl
Alberto Simões
 
PLN em Perl
PLN em PerlPLN em Perl
PLN em Perl
Alberto Simões
 
Classification Systems
Classification SystemsClassification Systems
Classification Systems
Alberto Simões
 
Redes de Pert
Redes de PertRedes de Pert
Redes de Pert
Alberto Simões
 
Dancing Tutorial
Dancing TutorialDancing Tutorial
Dancing Tutorial
Alberto Simões
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approach
Alberto Simões
 
Sistemas de Numeração
Sistemas de NumeraçãoSistemas de Numeração
Sistemas de Numeração
Alberto Simões
 
Álgebra de Boole
Álgebra de BooleÁlgebra de Boole
Álgebra de Boole
Alberto Simões
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução Automática
Alberto Simões
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
Alberto Simões
 
Dicionário Aberto
Dicionário AbertoDicionário Aberto
Dicionário Aberto
Alberto Simões
 
Keynote Globs
Keynote GlobsKeynote Globs
Keynote Globs
Alberto Simões
 
Workshop GLOBS
Workshop GLOBSWorkshop GLOBS
Workshop GLOBS
Alberto Simões
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation Patterns
Alberto Simões
 
Remote secure backups
Remote secure backupsRemote secure backups
Remote secure backups
Alberto Simões
 

Mais de Alberto Simões (20)

Google Maps JS API
Google Maps JS APIGoogle Maps JS API
Google Maps JS API
 
EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized Dictionaries
 
Modelação de Dados
Modelação de DadosModelação de Dados
Modelação de Dados
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with Perl
 
PLN em Perl
PLN em PerlPLN em Perl
PLN em Perl
 
Classification Systems
Classification SystemsClassification Systems
Classification Systems
 
Redes de Pert
Redes de PertRedes de Pert
Redes de Pert
 
Dancing Tutorial
Dancing TutorialDancing Tutorial
Dancing Tutorial
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approach
 
Sistemas de Numeração
Sistemas de NumeraçãoSistemas de Numeração
Sistemas de Numeração
 
Álgebra de Boole
Álgebra de BooleÁlgebra de Boole
Álgebra de Boole
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução Automática
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
 
Dicionário Aberto
Dicionário AbertoDicionário Aberto
Dicionário Aberto
 
Keynote Globs
Keynote GlobsKeynote Globs
Keynote Globs
 
Workshop GLOBS
Workshop GLOBSWorkshop GLOBS
Workshop GLOBS
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation Patterns
 
Remote secure backups
Remote secure backupsRemote secure backups
Remote secure backups
 

Último

Relatório de Atividades 2011 CENSIPAM.pdf
Relatório de Atividades 2011 CENSIPAM.pdfRelatório de Atividades 2011 CENSIPAM.pdf
Relatório de Atividades 2011 CENSIPAM.pdf
Falcão Brasil
 
Ideais do Ministério jovem Adventista pdf
Ideais do Ministério jovem Adventista pdfIdeais do Ministério jovem Adventista pdf
Ideais do Ministério jovem Adventista pdf
Anesio2
 
Slide | Eurodeputados Portugueses (2024-2029) - Parlamento Europeu (atualiz. ...
Slide | Eurodeputados Portugueses (2024-2029) - Parlamento Europeu (atualiz. ...Slide | Eurodeputados Portugueses (2024-2029) - Parlamento Europeu (atualiz. ...
Slide | Eurodeputados Portugueses (2024-2029) - Parlamento Europeu (atualiz. ...
Centro Jacques Delors
 
EBOOK_HORA DO CONTO_O MONSTRO DAS CORES_ANGELINA & MÓNICA_22_23
EBOOK_HORA DO CONTO_O MONSTRO DAS CORES_ANGELINA & MÓNICA_22_23EBOOK_HORA DO CONTO_O MONSTRO DAS CORES_ANGELINA & MÓNICA_22_23
EBOOK_HORA DO CONTO_O MONSTRO DAS CORES_ANGELINA & MÓNICA_22_23
Sandra Pratas
 
Acróstico - Bullying é crime!
Acróstico - Bullying é crime!Acróstico - Bullying é crime!
Acróstico - Bullying é crime!
Mary Alvarenga
 
Slides Lição 2, Betel, A Igreja e a relevância, para a adoração verdadeira no...
Slides Lição 2, Betel, A Igreja e a relevância, para a adoração verdadeira no...Slides Lição 2, Betel, A Igreja e a relevância, para a adoração verdadeira no...
Slides Lição 2, Betel, A Igreja e a relevância, para a adoração verdadeira no...
LuizHenriquedeAlmeid6
 
Apostila em LIBRAS - Curso Básico ENAP 2019.pdf
Apostila em LIBRAS - Curso Básico ENAP 2019.pdfApostila em LIBRAS - Curso Básico ENAP 2019.pdf
Apostila em LIBRAS - Curso Básico ENAP 2019.pdf
pattyhsilva271204
 
A experiência do professor. Publicado EM 08.07.2024
A experiência do professor. Publicado EM 08.07.2024A experiência do professor. Publicado EM 08.07.2024
A experiência do professor. Publicado EM 08.07.2024
Espanhol Online
 
Trabalho Colaborativo na educação especial.pdf
Trabalho Colaborativo na educação especial.pdfTrabalho Colaborativo na educação especial.pdf
Trabalho Colaborativo na educação especial.pdf
marcos oliveira
 
farmacologia-segura-em-mapas-mentais-reduzindo-os-riscos-da-terapeutica-24040...
farmacologia-segura-em-mapas-mentais-reduzindo-os-riscos-da-terapeutica-24040...farmacologia-segura-em-mapas-mentais-reduzindo-os-riscos-da-terapeutica-24040...
farmacologia-segura-em-mapas-mentais-reduzindo-os-riscos-da-terapeutica-24040...
AngelicaCostaMeirele2
 
Atividade Dias dos Pais - Meu Pai, Razão da Minha História.
Atividade Dias dos Pais -  Meu Pai, Razão da Minha História.Atividade Dias dos Pais -  Meu Pai, Razão da Minha História.
Atividade Dias dos Pais - Meu Pai, Razão da Minha História.
Mary Alvarenga
 
Temática – Projeto para Empreendedores Locais
Temática – Projeto para Empreendedores LocaisTemática – Projeto para Empreendedores Locais
Temática – Projeto para Empreendedores Locais
Colaborar Educacional
 
Alfabetização de adultos.pdf
Alfabetização de             adultos.pdfAlfabetização de             adultos.pdf
Alfabetização de adultos.pdf
arodatos81
 
Caça-palavras e cruzadinha - Encontros consonantais.
Caça-palavras e cruzadinha -  Encontros consonantais.Caça-palavras e cruzadinha -  Encontros consonantais.
Caça-palavras e cruzadinha - Encontros consonantais.
Mary Alvarenga
 
As Ideias Têm Consequências - Richard M. Weaver
As Ideias Têm Consequências - Richard M. WeaverAs Ideias Têm Consequências - Richard M. Weaver
As Ideias Têm Consequências - Richard M. Weaver
C4io99
 
Aprendizagem Imersiva: Conceitos e Caminhos
Aprendizagem Imersiva: Conceitos e CaminhosAprendizagem Imersiva: Conceitos e Caminhos
Aprendizagem Imersiva: Conceitos e Caminhos
Leonel Morgado
 
Mini livro sanfona - Minha Escola Tem História.
Mini livro  sanfona - Minha Escola Tem História. Mini livro  sanfona - Minha Escola Tem História.
Mini livro sanfona - Minha Escola Tem História.
Mary Alvarenga
 
Relatório de Atividades 2015 CENSIPAM.pdf
Relatório de Atividades 2015 CENSIPAM.pdfRelatório de Atividades 2015 CENSIPAM.pdf
Relatório de Atividades 2015 CENSIPAM.pdf
Falcão Brasil
 
Oceano, Fonte de Vida e Beleza Maria Inês Aroeira Braga.ppsx
Oceano, Fonte de Vida e Beleza Maria Inês Aroeira Braga.ppsxOceano, Fonte de Vida e Beleza Maria Inês Aroeira Braga.ppsx
Oceano, Fonte de Vida e Beleza Maria Inês Aroeira Braga.ppsx
Luzia Gabriele
 
Noite Alva! José Ernesto Ferraresso.ppsx
Noite Alva! José Ernesto Ferraresso.ppsxNoite Alva! José Ernesto Ferraresso.ppsx
Noite Alva! José Ernesto Ferraresso.ppsx
Luzia Gabriele
 

Último (20)

Relatório de Atividades 2011 CENSIPAM.pdf
Relatório de Atividades 2011 CENSIPAM.pdfRelatório de Atividades 2011 CENSIPAM.pdf
Relatório de Atividades 2011 CENSIPAM.pdf
 
Ideais do Ministério jovem Adventista pdf
Ideais do Ministério jovem Adventista pdfIdeais do Ministério jovem Adventista pdf
Ideais do Ministério jovem Adventista pdf
 
Slide | Eurodeputados Portugueses (2024-2029) - Parlamento Europeu (atualiz. ...
Slide | Eurodeputados Portugueses (2024-2029) - Parlamento Europeu (atualiz. ...Slide | Eurodeputados Portugueses (2024-2029) - Parlamento Europeu (atualiz. ...
Slide | Eurodeputados Portugueses (2024-2029) - Parlamento Europeu (atualiz. ...
 
EBOOK_HORA DO CONTO_O MONSTRO DAS CORES_ANGELINA & MÓNICA_22_23
EBOOK_HORA DO CONTO_O MONSTRO DAS CORES_ANGELINA & MÓNICA_22_23EBOOK_HORA DO CONTO_O MONSTRO DAS CORES_ANGELINA & MÓNICA_22_23
EBOOK_HORA DO CONTO_O MONSTRO DAS CORES_ANGELINA & MÓNICA_22_23
 
Acróstico - Bullying é crime!
Acróstico - Bullying é crime!Acróstico - Bullying é crime!
Acróstico - Bullying é crime!
 
Slides Lição 2, Betel, A Igreja e a relevância, para a adoração verdadeira no...
Slides Lição 2, Betel, A Igreja e a relevância, para a adoração verdadeira no...Slides Lição 2, Betel, A Igreja e a relevância, para a adoração verdadeira no...
Slides Lição 2, Betel, A Igreja e a relevância, para a adoração verdadeira no...
 
Apostila em LIBRAS - Curso Básico ENAP 2019.pdf
Apostila em LIBRAS - Curso Básico ENAP 2019.pdfApostila em LIBRAS - Curso Básico ENAP 2019.pdf
Apostila em LIBRAS - Curso Básico ENAP 2019.pdf
 
A experiência do professor. Publicado EM 08.07.2024
A experiência do professor. Publicado EM 08.07.2024A experiência do professor. Publicado EM 08.07.2024
A experiência do professor. Publicado EM 08.07.2024
 
Trabalho Colaborativo na educação especial.pdf
Trabalho Colaborativo na educação especial.pdfTrabalho Colaborativo na educação especial.pdf
Trabalho Colaborativo na educação especial.pdf
 
farmacologia-segura-em-mapas-mentais-reduzindo-os-riscos-da-terapeutica-24040...
farmacologia-segura-em-mapas-mentais-reduzindo-os-riscos-da-terapeutica-24040...farmacologia-segura-em-mapas-mentais-reduzindo-os-riscos-da-terapeutica-24040...
farmacologia-segura-em-mapas-mentais-reduzindo-os-riscos-da-terapeutica-24040...
 
Atividade Dias dos Pais - Meu Pai, Razão da Minha História.
Atividade Dias dos Pais -  Meu Pai, Razão da Minha História.Atividade Dias dos Pais -  Meu Pai, Razão da Minha História.
Atividade Dias dos Pais - Meu Pai, Razão da Minha História.
 
Temática – Projeto para Empreendedores Locais
Temática – Projeto para Empreendedores LocaisTemática – Projeto para Empreendedores Locais
Temática – Projeto para Empreendedores Locais
 
Alfabetização de adultos.pdf
Alfabetização de             adultos.pdfAlfabetização de             adultos.pdf
Alfabetização de adultos.pdf
 
Caça-palavras e cruzadinha - Encontros consonantais.
Caça-palavras e cruzadinha -  Encontros consonantais.Caça-palavras e cruzadinha -  Encontros consonantais.
Caça-palavras e cruzadinha - Encontros consonantais.
 
As Ideias Têm Consequências - Richard M. Weaver
As Ideias Têm Consequências - Richard M. WeaverAs Ideias Têm Consequências - Richard M. Weaver
As Ideias Têm Consequências - Richard M. Weaver
 
Aprendizagem Imersiva: Conceitos e Caminhos
Aprendizagem Imersiva: Conceitos e CaminhosAprendizagem Imersiva: Conceitos e Caminhos
Aprendizagem Imersiva: Conceitos e Caminhos
 
Mini livro sanfona - Minha Escola Tem História.
Mini livro  sanfona - Minha Escola Tem História. Mini livro  sanfona - Minha Escola Tem História.
Mini livro sanfona - Minha Escola Tem História.
 
Relatório de Atividades 2015 CENSIPAM.pdf
Relatório de Atividades 2015 CENSIPAM.pdfRelatório de Atividades 2015 CENSIPAM.pdf
Relatório de Atividades 2015 CENSIPAM.pdf
 
Oceano, Fonte de Vida e Beleza Maria Inês Aroeira Braga.ppsx
Oceano, Fonte de Vida e Beleza Maria Inês Aroeira Braga.ppsxOceano, Fonte de Vida e Beleza Maria Inês Aroeira Braga.ppsx
Oceano, Fonte de Vida e Beleza Maria Inês Aroeira Braga.ppsx
 
Noite Alva! José Ernesto Ferraresso.ppsx
Noite Alva! José Ernesto Ferraresso.ppsxNoite Alva! José Ernesto Ferraresso.ppsx
Noite Alva! José Ernesto Ferraresso.ppsx
 

Corpora para Processamento de Linguagem Natural

  • 1. Corpora para Processamento de Linguagem Natura Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt 17 de Outubro de 2008 (v0.1) Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 2. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 3. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 4. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 5. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 6. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 7. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 8. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 9. Corpora Compar´veis a Corpora Compar´veis a Os Corpora Compar´veis s˜o conjuntos de textos em diferentes a a l´ ınguas que, embora n˜o correspondam directamente a tradu¸˜es a co literais, focam um mesmo assunto. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 10. Exemplos de Corpora Compar´veis a Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto ou evento, e que estejam escritos em l´ınguas diferentes podem ser vistos como corpora compar´veis. a Outro exemplo ser´ um conjunto de artigos cient´ a ıficos sobre um mesmo micro-organismo. Estes corpora s˜o essencialmente utilizados para o estudo e a extrac¸˜o de terminologia espec´ ca ıfica da ´rea a que os corpora se a referem. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 11. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 12. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 13. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 14. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 15. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 16. Corpora Paralelos na Rede ´ E habitual a disponibiliza¸˜o de Corpora para consulta de ca concordˆncias na Internet. a Alguns exemplos: AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora ca http://www.linguateca.pt/acesso/corpus.php COMPARA — Corpus Paralelo de Obras Liter´rias a http://www.linguateca.pt/COMPARA/psimples.php NATools — Natura Alignment Tools http://linguateca.di.uminho.pt/nat Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 17. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 18. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 19. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 20. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 21. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 22. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 23. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 24. Aplica¸oes de Corpora c˜ Aprendizagem Autom´tica: a modelos estat´ ısticos de l´ ıngua; Extrac¸˜o de terminologia: ca detec¸˜o de palavras espec´ ca ıficas de uma ´rea; a extrac¸˜o de terminologia bilingue; ca Tradu¸˜o Autom´tica: ca a extrac¸˜o de dicion´rios bilingues; ca a extrac¸˜o de terminologia bilingue; ca extrac¸˜o de exemplos de tradu¸˜o; ca ca modelos estat´ısticos de tradu¸˜o; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 25. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 26. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura