SlideShare uma empresa Scribd logo
1 de 65
Baixar para ler offline
Curs urgent de traducci´ autom`tica
                        o      a

               Mikel L. Forcada
Departament de Llenguatges i Sistemes Inform`tics
                                            a
             Universitat d’Alacant
            E-03071 Alacant, Spain

 Traducci´ Autom`tica: Fonaments i Aplicacions
         o        a
           Universitat d’Alacant, 2004




                                                    1
´
Index


1. Qu` ´s la traducci´ autom`tica (TA)? Aplicacions
     e e             o      a

2. Formats de text

3. Com funciona la TA?

4. Per qu` ´s dif´ la TA?
         e e     ıcil

5. Avaluaci´ de la traducci´ autom`tica
           o               o      a

6. TA de p`gines web
          a

7. Mem`ries de traducci´
      o                o


                                                      2
Qu` ´s la traducci´ autom`tica (TA)? /1
  e e             o      a

La traducci´, . . .
           o

. . . mitjan¸ant un sistema inform`tic . . .
            c                     a

. . . (ordinador(s) + programes) . . .

. . . de textos informatitzats en la llengua origen (LO). . .

. . . a textos informatitzats en la llengua meta (LM).

[Atenci´ al format dels textos!!]
       o

                                                                3
Qu` ´s la traducci´ autom`tica (TA)? /2
  e e             o      a

Esquem`ticament:
      a

                       Sistema de
                                        Text LM
        Text LO    →   traducci´
                               o    →
                                        (en brut)
                       autom`tica
                             a




                                                    4
Aplicacions de la TA /1

Dos grans grups:


 • Assimilaci´: traducci´ ef´
              o          o ımera, idealment instant`nia, per a
                                                    a
   la revisi´ o la comprensi´ de documents en una altra llengua.
            o               o
   P.e., navegaci´ per internet, xat (chat), etc.
                   o


 • Disseminaci´: traducci´ permanent, idealment amb pocs er-
                o          o
   rors, per a la publicaci´. P.e., producci´ d’esborranys per a
                           o                o
   posteditar .


                                                          5
Aplicacions de la TA /2

Preedici´ i postedici´: els professionals col·laboren amb el siste-
        o            o
ma de TA en aplicacions de disseminaci´:  o


 • Preedici´: preparaci´ del text per a evitar l`xic o construc-
           o           o                        e
   cions que donen problemes de traducci´ amb un sistema de
                                          o
   traducci´ autom`tica.
           o       a


 • Postedici´: correcci´ del text tradu¨ en brut per a fer-lo
            o          o               ıt
   adequat al prop`sit previst.
                  o


Con´ixer b´ com funciona el sistema de TA ajuda molt en amb-
    e     e
dues tasques.
                                                             6
Aplicacions de la TA /3

Alternativa a la preedici´: llenguatge controlat.
                         o


 • Els autors escriuen ja pensant en el tractament automatitzat
   del text.

 • S’eviten l`xic i construccions problem`tiques.
             e                           a

 • Es minimitza la postedici´.
                            o

 • Consist`ncia d’estil, comprensibilitat, mantenibilitat.
          e

 • Per` els autors l’han de con´ixer i aplicar!
      o                        e

 • Se’ls pot ajudar amb eines inform`tiques.
                                    a

                                                             7
Aplicacions de la TA /4

La postedici´ ´s convenient quan
            o e
                              
         traducci´ autom`tica
                  o        a
  cost             +           < cost(traducci´ humana).
                                                o
                postedici´
                         o


Perqu` siga eficient:
     e


 • cal ser competent en la llengua meta → generar un text genu´
                                                              ı
   a partir del text en brut

 • cal con´ixer el sistema de TA → recon´ixer l’origen dels er-
           e                            e
   rors, predir-ne el comportament

                                                         8
Formats de text /1

Un text informatitzat ´s, com qualsevol porci´ de dades in-
                       e                      o
formatitzada, una seq¨`ncia de bits, ´s a dir, d’uns i zeros:
                      ue             e
000101010010100111101001010010....

Els bits van normalment en grups de 8 (bytes o octets). Amb 8
bits es poden fer 2×2×2×2×2×2×2×2×2= 28= 256 combinacions:
00000000 (0), 00000001 (1), 00000010 (2), . . . , 11111111 (255).

Hi ha moltes maneres d’organitzar els octets per a emmagatze-
mar textos. Molts problemes provenen de discrep`ncies quant a
                                                 a
la manera de fer-ho.

                                                           9
Formats de text /2

Dos aspectes importants: codificaci´ i format propiament dit.
                                  o


 • Codificaci´: Assignaci´ d’un codi (una seq¨`ncia d’un o
            o            o                   ue
   m´s octets concreta) a cada car`cter possible de la llen-
     e                             a
   gua corresponent (per exemple: “a” → 01100001 (97); “?”
   → “00111111” (63), etc.)




                                                        10
Formats de text /3


 • Format propiament dit: Els textos, a m´s de car`cters, con-
                                         e        a
   tenen informaci´ de format.
                  o
  ´
  Es necess`ria l’assignaci´ de codis per a regular altres carac-
            a              o
  ter´
     ıstiques del text:

   – Per a codificar l’aparen¸a visual o de presentaci´, per
                              c                         o
     exemple, “inici cursives”, “final negretes”, “lletra de 16
     punts”), o
   – Per a codificar l’estructura (´s a dir, l’organitzaci´ del con-
                                  e                      o
     tingut, per exemple, “t´ıtol de secci´”, “llista numerada”,
                                           o
     “nota a peu de p`gina”, “fila d’una taula”, etc.).
                       a

                                                             11
Formats de text /4

Codificacions d’1 octet (“unibyte”):


 • ASCII: Assigna codis de 7 bits, del 0000000 (0) al 1111111
   (127), (sobra un bit de l’octet) als car`cters anglesos (sense
                                           a
   accents, etc.)

 • ANSI o ISO: familia de codificacions que aprofiten els codis
   del 128 al 255 per a car`cters internacionals.
                           a

   En Europa occidental: ISO-8859-1 (o Latin-1); m´s recent-
                                                   e
   ment, ISO-8859-15 (o Latin-9; cont´ el s´
                                     e     ımbol de l’euro)

   En Windows s’usa CP-1252 que ´s molt similar (per` no
                                e                   o
   id`ntic) a l’ISO-8859-1.
     e

                                                           12
Formats de text /5

Codificacions de m´s d’1 octet (“multibyte”: japon´s, xin´s,
                     e                           e      e
core`, devanagari. . . :)
    a


 • Unicode (ISO-10646): Assigna codis de 31 bits (4 octets) i
   permet codificar 231 = 2 147 483 648 car`cters.
                                          a

 • UTF-8: Versi´ d’Unicode que nom´s usa m´s d’un octet
               o                  e       e
   quan cal:

    – codis del 0 al 127: 1 octet (compatible amb ASCII):
    – codis del 128 al 2047: 2 octets;
    – codis del 2048 al 65535: 3 octets, etc.

                                                        13
Formats de text /6

Necessitat de format (estructural o presentacional) m´s enll`
                                                     e      a
de la codificaci´ de car`cters. La informaci´ de format es pot
               o       a                   o
codificar:


 • Com a seq¨`ncies de car`cters (anomenades marques) que es
             ue              a
   poden llegir amb un editor senzill de text com el Bloc de no-
   tes: La fam´ SGML (ara XML): HTML i XHTML (p`gines
               ılia                                       a
   web), NewsML (not´   ıcies), etc.; RTF, TeX (processadors de
   textos); Postscript (impressores), etc. Un exemple:

    <p>Un par`graf curt amb un mot <em>emfatitzat</em>.</p>
             a
            (HTML vist a trav´s d’un editor de text)
                              e

                                                          14
Formats de text /7


 • Amb codis no interpretables com a car`cters: (no visibles
                                            a
   a trav´s d’un editor de text senzill) Adobe PDF (impressi´,
         e                                                  o
   presentaci´), formats semisecrets de processadors de textos
             o
   comercials com .doc de Microsoft, etc.




                                                         15
Formats de text /8

El problema wysiwyg (“what you see is what you get”: “el que
veus ´s el que obtindr`s”):
     e                a

Les persones usen la presentaci´ visual per a comunicar l’estruc-
                               o
tura l`gica dels documents (a persones vidents!).
      o

Els processadors de textos actuals ens mostren el document tal
com quedar` impr´s mentres l’estem editant.
           a      e

Sucumbim a la temptaci´ de treballar directament sobre la pre-
                           o
sentaci´ (negretes, m`rgens, tipus) en comptes de sobre l’estructura
       o               a
l`gica (seccions, t´
 o                 ıtols, etc.)
                                                           16
Formats de text /9

El problema wysiwyg:

Si fem aix`, i m´s endavant volem canviar el tipus de lletra dels
           o     e
t´
 ıtols de secci´ o de les paraules estrangeres. . .
               o

. . . ens toca canviar-los un per un!

Resultat: “el que veus ´s tot el que tens”
                       e

Podem evitar-ho? S´
                  ı.


                                                           17
Formats de text /10

Com? Usant estils.

Marquem estructuralment les parts (elements): t´
                                               ıtol de segon
nivell, text emfatitzat, exemple, etc.

I despr´s assignem un estil de presentaci´ a cada part (per exem-
        e                                  o
ple, els t´
          ıtols de segon nivell pode anar numerats autom`ticament
                                                         a
i en Helv`tica de 14 punts, l’`mfasi pot ser en negreta i l’exemple
           e                    e
en cursiva)

Canviar la presentaci´ de totes les aparicions d’un element ´s
                     o                                      e
f`cil: nom´s cal canviar l’estil associat a l’element.
 a        e
                                                             18
Formats de text /11

En aplicacions d’internet, la separaci´ estructura–presentaci´ es
                                      o                      o
fa aix´
      ı:


 • La informaci´ —el contingut— s’estructura usant XML o
               o
   HTML


 • La presentaci´ es genera (en el servidor o en el navegador)
                 o
   usant fulls d’estil escrits en CSS o en XSL



                                                           19
Formats de text /12


                               Processador
 document (XML o HTML) →
                               de      fulls → presentaci´
                                                         o
    full d’estil (XSL o CSS) →
                               d’estil




                                                        20
Formats de text /13

      Accessibilitat (no tots els receptors s´n vidents):
                                             o

                       Document XML



          ?                     ?                     ?



   Full d’estil 1        Full d’estil 2        Full d’estil 3


          ?                     ?                     ?


                              Ò                     H
   Fitxer de so       Document Braille Document per a m`bils
                                                       o

                                                            21
Formats de text /14

Els sistemes de TA han de ser capa¸os:
                                  c


 • De separar del text a traduir la informaci´ de format;
                                             o

 • de reintegrar adequadament la informaci´ de format al text
                                          o
   despr´s de traduir-lo;
        e

 • i, idealment, d’usar la informaci´ de format per a decidir
                                    o
   quines parts cal traduir.


La preservaci´ del format estalvia temps a la persona traduc-
             o
tora/correctora (que es concentra en la part ling¨´
                                                 uıstica de la
faena).
                                                            22
Com funciona la TA? /1

Primera aproximaci´ [!!]: Traduir textos ´s traduir oracions.
                  o                      e

Traduir oracions suposa:


 • Construir una interpretaci´ (un significat) a partir de l’oraci´
                             o                                   o
   en LO.


 • Construir una oraci´ en LM a partir de la interpretaci´.
                      o                                  o



                                                            23
Com funciona la TA? /2

Principi de composicionalitat [sem`ntica]:
                                  a

La interpretaci´ d’una oraci´ es construeix . . .
               o            o

. . . a partir de les interpretacions dels mots . . .

                Escriuen cartes = Escriuen articles

. . . component-les seguint les agrupacions indicades per l’estruc-
tura sint`ctica de l’oraci´.
          a               o

      Israel amena¸a Palestina = Palestina amena¸a Israel
                  c                             c
                                                             25
Com funciona la TA? /3
Per` alerta! Les oracions poden ser ambig¨es (´s a dir, tenir
   o                                     u    e
m´s d’una interpretaci´):
 e                    o


 • perqu` els mots tenen m´s d’una interpretaci´ (ambig¨itat
         e                e                    o       u
   l`xica)
    e
 • perqu` l’oraci´ t´ m´s d’una possible an`lisi sint`ctica (am-
         e        o e e                    a         a
   big¨itat sint`ctica)
      u         a
 • per ambdues coses alhora.


(en veurem exemples m´s endavant)
                     e

Elegir la interpretaci´ correcta no ´s trivial per a un sistema
                      o             e
inform`tic (normalment nom´s pot usar part del cotext).
       a                     e
                                                          25
Com funciona la TA? /4

Esquem`ticament:
      a

              Oraci´
                   o                         Oraci´
                                                  o
                     →   interpretaci´
                                     o   →
              LO                             LM

En alguns sistemes de TA s’intenta representar directament les
interpretacions amb una interlingua (un llenguatge estructurat
artificial).




                                                         26
Com funciona la TA? /5

Per`... els traductors professionals realment necessiten interpre-
    o
tar o comprendre completament una oraci´ per a traduir-la?
                                           o

 “... interacciones independientes del esp´ en unidades de la
                                           ın
            secci´n eficaz del neutrino de Dirac...” →
                 o
“... interaccions independents de l’esp´ en unitats de la secci´
                                        ın                     o
                   efica¸ del neutr´ de Dirac...”
                       c          ı

“. . . tornillos que unen el volante de inercia al ´rbol de levas →
                                                   a
 “. . . caragols que uneixen el volant d’in`rcia a l’arbre de lleves
                                           e
                                 ...”

No: Transformen estructures o patrons i substitueixen el l`xic
                                                          e
(parant especial esment al terminol`gic).
                                   o
                                                              27
Com funciona la TA? /6

Aix` permet fer la segona aproximaci´ [!!]:
   o                                o


   La majoria dels sistemes de TA no construeixen completa-
   ment la interpretaci´, . . .
                       o

   . . . sin´ que transformen l’estructura sint`ctica de l’oraci´ en
            o                                  a                o
   LO en una estructura sint`ctica v`lida per a l’oraci´ en LM
                                a       a                  o
   i. . .

   . . . substitueixen els mots de l’oraci´ en LO per equivalents
                                          o
   adequats en LM. . .

   . . . fent les dues operacions bastant independentment.

                                                              28
Com funciona la TA? /7

Per a programar un sistema de TA cal formular tots els proces-
sos de traducci´ de forma expl´
                o             ıcita i mecanitzable (ad´u “intu¨ o
                                                      e       ıci´
ling¨´
    uıstica”!).

A m´s, la mecanitzaci´ ha de ser eficient (programes r`pids i
   e                  o                                a
compactes) i s’ha de dur a terme en un temps raonable:


 • Aix` exigeix una reflexi´ ling¨´
      o                    o     uıstica (traductol`gica) sobre els
                                                   o
   processos de traducci´ per part dels dissenyadors del sistema.
                         o


 • A m´s, pot comportar m´s aproximacions, simplificacions,
      e                      e
   compromisos i sacrificis.

                                                             29
Com funciona la TA? /8

Per tant...

Podem esperar que un bon sistema de TA ens allibere de la part
m´s mec`nica (mecanitzable) de la tasca de traducci´.
 e     a                                           o

Per` no podem esperar —per bo que siga— que comprenga el
   o
text, resolga les ambig¨itats sempre correctament i produ¨
                       u                                 ısca
textos en una variant genu¨ de la llengua meta.
                          ına



                                                         30
Per qu` ´s dif´ la TA? /1
      e e     ıcil

Els quatre problemes de la traducci´ autom`tica (Arnold 2003):
                                   o      a


1. El problema de l’an`lisi
                      a


2. El problema de la s´
                      ıntesi


3. El problema de la transfer`ncia
                             e


4. El problema de la descripci´
                              o

                                                         31
Per qu` ´s dif´ la TA? /2
      e e     ıcil

El problema de l’an`lisi: La forma no determina completament
                      a
el contingut (la interpretaci´). Tamb´ s’anomena ambig¨itat:
                             o       e                u


 • Portaven not´
               ıcies de Gr`cia (tema o proced`ncia?)
                          e                  e


 • Ha venut les taronges que ha comprat a Joan (Joan ven o
   compra?)


 • Treballa en l’estudi que li han encarregat (prepara un docu-
   ment o dissenya un taller d’artista?)

                                                         32
Per qu` ´s dif´ la TA? /3
      e e     ıcil
El problema de la s´ıntesi: El contingut no determina comple-
tament la forma (hi ha m´s d’una manera de dir el mateix en
                         e
qualsevol llengua):


 • Quina hora ´s?
              e


 • Com ´s de tard? (de: Wie sp¨t ist es?)
       e                      a


 • Quines hores s´n (pt: Que horas s˜o?
                 o                  a


Els expedients s’obrin o s’inicien?

Les sessions es clouen, es tanquen, es rematen o s’alcen?
                                                            33
Per qu` ´s dif´ la TA? /4
      e e     ıcil

El problema de la transfer`ncia: Les lleng¨es divergeixen. Es
                                e               u                ´
a dir, hi ha difer`ncies irreductibles en la manera en que el mateix
                  e
contingut s’expressa en lleng¨es diferents:
                                u


 • ca: M’agrada nadar (M’ objecte, agrada, verb, nadar sub-
   jecte)

 • en: I like swimming (I subjecte, like verb, swimming objecte)

 • de: Ich schwimme gern (Ich subjecte, schwimme, verb, gern,
   adverbi)


Totes volen dir produir plaer(agent=nadar(agent=jo),destinatari=jo)
                                                              34
Per qu` ´s dif´ la TA? /5
      e e     ıcil

El problema de la descripci´ (represa): construir un sistema de
                             o
traducci´ autom`tica comporta la gesti´ d’una gran quantitat de
        o       a                       o
coneixement, que s’ha d’elicitar, aplegar, descriure, i representar
en una forma ´til i computable.
              u




                                                             35
Avaluaci´ de la traducci´ autom`tica /1
        o               o      a

Volem avaluar l’adopci´ d’un sistema de traducci´ autom`tica
                       o                        o      a
per a la disseminaci´.
                    o

Les traduccions en brut s’hauran de posteditar (corregir): com
menys correccions, m´s qualitat: millor.
                     e

D’acord: com avaluem la qualitat?




                                                         36
Avaluaci´ de la traducci´ autom`tica /2
        o               o      a

Per avaluar la qualitat, cal:


 • elegir una mostra suficient de textos representatius,

 • traduir-la autom`ticament,
                   a

 • i comptar la quantitat de correcci´ m´
                                     o ınima necess`ria per a
                                                      a
   fer que la traducci´ siga adequada al prop`sit previst.
                      o                      o


Sembla senzill, per`...
                   o


                                                          37
Avaluaci´ de la traducci´ autom`tica /3
        o               o      a

...no ho ´s gens!
         e


 • ´s dif´ elegir prou text representatiu per endavant;
   e     ıcil

 • la noci´ d’adequaci´ ´s de vegades dif´ d’especificar:
          o           o e                ıcil

 • ´s dif´ fer el m´
   e     ıcil      ınim de correccions (cal buscar traduccions
   adequades que se n’obtinguen amb poques correccions);

 • tot el proc´s ´s molt cost´s (temps de correcci´).
              e e            o                    o



                                                           38
Avaluaci´ de la traducci´ autom`tica /4
        o               o      a

Per` la qualitat dels textos tradu¨ en brut no ho ´s tot!
   o                              ıts             e

Fem un pressupost: si adoptem la traducci´ autom`tica,
                                         o      a

d’una banda, ens estalviem els costos de traducci´ humana,
                                                 o

per` tenim despeses noves:
   o


 • despeses de funcionament i

 • despeses de formaci´ (s’ha d’aprendre a usar una nova tec-
                      o
   nologia)

                                                            39
Avaluaci´ de la traducci´ autom`tica /5
        o               o      a

Despeses de funcionament:


 • Cost del sistema de TA (cost efectiu per mot): amortit-
   zaci´ (sistema en propietat), cost per mot (sistema llogat),
       o
   servei t`cnic i manteniment, costos de migraci´ (adaptaci´
           e                                       o           o
   de programes, adquisici´ de sistemes), i (no oblidem) el cost
                          o
   d’avaluaci´!
              o

 • Cost de preedici´ i preparaci´: cal preparar i potser pree-
                       o            o
   ditar els textos i aix` ho ha de fer alg´, cobrant.
                         o                 u

 • Cost de postedici´: dep´n de la qualitat; pot baixar amb
                      o     e
   la formaci´; dep´n de com paguem als posteditors (per mot,
             o     e
   per temps), etc.

                                                          40
Avaluaci´ de la traducci´ autom`tica /6
        o               o      a

Despeses de formaci´:
                   o


 • Formaci´ en ´s del programa de TA: ´s pr`piament dit,
           o     u                        u   o
   configuraci´ i manteniment; ´s de nou programari associat.
             o                u

 • Formaci´ en postedici´:
          o             o

    – coneixement del programa de TA (errors t´
                                              ıpics);
    – t`cniques de correcci´, ´s avan¸at del processador de tex-
       e                   o u       c
      tos, macroinstruccions, substituci´ de patrons, etc.
                                        o


                                                          41
Avaluaci´ de la traducci´ autom`tica /7
        o               o      a

I potser ens hem deixat encara alguna cosa!

Avaluar la traducci´ autom`tica no ´s f`cil.
                   o      a        e a

La lli¸`? Desconfieu de les primeres impressions.
      co




                                                   42
TA de p`gines web/1
       a

La traducci´ autom`tica de p`gines web ´s com la TA d’altres
           o       a         a           e
documents de text, per` hi ha algunes difer`ncies:
                      o                    e


 • les p`gines web s´n hipertextos: contenen enlla¸os a d’altres
        a           o                             c
   p`gines web
     a

 • de vegades s´n actives: contenen programes que s’executen
                o
   durant la presentaci´
                       o

 • de vegades s´n din`miques: el servidor no les t´ guardades
                o     a                           e
   sin´ que les genera autom`ticament quan se sol·liciten
      o                     a


                                                          43
TA de p`gines web/2
       a

Dos usos b`sics de la TA de p`gines web:
          a                  a


 • Disseminaci´: TA per a construir i mantenir servidors d’in-
               o
   ternet multiling¨es
                   u

 • Assimilaci´: TA durant la navegaci´ (”navegaci´ tradu¨
              o                        o           o       ıda”),
   en el client, en el servidor que cont´ la informaci´, o en un
                                         e            o
   altre servidor (p.e., interNOSTRUM)




                                                           44
TA de p`gines web/3
       a

Els requisits s´n diferents en cada cas:
               o


 • Disseminaci´: la TA ha de ser de qualitat, potser seguida de
               o
   postedici´ (la web tradu¨ ´s percebuda com a definitiva)
            o              ıda e

 • Assimilaci´: la TA ha de ser molt r`pida, “instant`nia”, com
             o                         a             a
   si formara part del proc´s de presentaci´ de la traducci´: la
                           e                o              o
   qualitat no ´s tan crucial (la traducci´ ´s percebuda com a
                e                         o e
   provisional)



                                                          45
Un inc´ el format de les p`gines web/1
      ıs:                 a

Les p`gines web s´n documents especials:
     a           o


 • La majoria de les p`gines web estan escrites en (algun dialec-
                      a
   te no est`ndard de) HTML (HyperText Markup Language,
            a
   “llenguatge de marques per a hipertextos”).

 • HTML cont´, a m´s de text senzill, marques per a controlar
               e      e
   la presentaci´ i per a enlla¸ar altres documents.
                o              c

 • Quan editem amb programes especialitzats (Composer, Front-
   page, Dreamweaver, etc.) no veiem les marques sin´ l’apa-
                                                    o
   ren¸a aproximada del document.
      c


La transpar`ncia seg¨ent cont´ un exemple.
           e        u        e
                                                           46
Un inc´ el format de les p`gines web/2
      ıs:                 a
<HTML>
<HEAD>
<TITLE>T´tol del document</TITLE>
        ı
</HEAD>
<BODY>
<H1>Encap¸alament de nivell 1</H1>
          c
<H2>Encap¸alament de nivell 2</H2>
          c
<P>Aquest ´s el <EM>primer</EM> par`graf
            e                       a
d’aquest document. El navegador decideix com dividir-lo
en l´nies per a presentar-lo. Idealment, hauria
    ı
d’acabar amb una marca de final de par`graf.</P>
                                       a
<H2>Un altre encap¸alament de nivell 2</H2>
                  c
<P>Aquest ´s l’<EM>´ltim</EM> par`graf
            e      u              a
d’aquest document HTML. Els documents HTML poden contenir
<A HREF=quot;http://www.internostrum.comquot;>enlla¸os</A>
                                           c
a altres documents HTML, locals o remots.</P>
</BODY>
</HTML>

                                                            47
Un inc´ el format de les p`gines web/3
      ıs:                 a

Encap¸alament de nivell 1
     c
Encap¸alament de nivell 2
     c

Aquest ´s el primer par`graf d’aquest document. El navegador decideix com
         e               a
dividir-lo en l´
               ınies per a presentar-lo. Idealment, hauria d’acabar amb una
marca de final de par`graf.
                       a

Un altre encap¸alament de nivell 2
              c

Aquest ´s l’´ltim par`graf d’aquest document HTML. Els documents HTML
       e u           a
poden contenir enlla¸os a d’altres documents HTML, locals o remots.
                     c




                                                                     48
TA de p`gines web (represa)/4
       a

Traduir un document HTML comporta:


 • Identificar les porcions del document que corresponen a text
   que ha de ser llegit i traduir-les;


 • Adaptar els enlla¸os a la nova situaci´ (potser ja no poden
                     c                   o
   enlla¸ar el mateix document!).
        c


L’adaptaci´ d’enlla¸os dep´n de la situaci´.
          o        c      e               o

                                                         49
TA de p`gines web /5
       a

Els enlla¸os contenen URIs (adreces d’altres documents):
         c

Podeu visitar tamb´ els nostres
                  e
<a href=quot;http://www.servidor.ct/es/prod/ta.htmlquot;>
productes</a>.




                                                           50
TA de p`gines web/6
       a

Una miradeta als URIs dels enlla¸os:
                                c

           http://www.servidor.ct/es/prod/ta.html

L’URI (localitzador) indica:


 • L’esquema (http: protocol de transfer`ncia d’hipertext)
                                        e

 • El nom de la m`quina que fa de servidor (www.servidor.ct).
                 a

 • La ruta que identifica el recurs concret (/es/prod/ta.html)
   dins del servidor

                                                         51
TA de p`gines web/7
       a

Traduir suposa adaptar els URIs dels enlla¸os. Per exemple,
                                            c
en un servidor biling¨e espanyol–catal`, si un enlla¸ des d’una
                     u                a             c
p`gina en espanyol apunta a l’URI
 a

            http://www.servidor.ct/es/prod/ta.html

La traducci´ catalana hauria d’apuntar a l’URI:
           o

            http://www.servidor.ct/ca/prod/ta.html


                                                         52
TA de p`gines web/8
       a

Per` el text mateix de les p`gines web cont´ de vegades material
   o                        a              e
especial que no cal traduir:


 • URIs: www.pujol.com (no ´s “www.colina.como”)
                           e

 • Adreces de correu electr`nic: andreu.fuster@correu.com (no
                           o
   ´s “andr´s.carpintero@correo.como”)
   e       e




                                                          53
TA de p`gines web/9: p`gines generades al ser-
       a              a
vidor

Moltes vegades els documents HTML no s´n al disc dur, sin´
                                         o                  o
que s´n generats per un programa que s’executa en el servidor
     o
durant la navegaci´.
                  o

Possiblement es generen p`gines diferents per a cada perfil de
                         a
visitant.

Els detalls de la traducci´ d’aquest tipus de documents queden
                          o
fora de l’abast d’aquest curs, per` presenten reptes considera-
                                   o
bles.

                                                         54
Webs preparades per a la TA: aspectes ling¨´
                                          uıstics/1

Si preveiem que una web ha de ser tradu¨  ıda autom`ticament a
                                                   a
una altra llengua, podem preparar el text origen.

Con´ixer el sistema concret de TA ens pot ajudar a evitar els
   e
mots o les construccions que donen lloc a problemes.

La noci´ ´s coneguda de fa temps i s’anomena llenguatge con-
        o e
trolat.



                                                         55
Webs preparades per a la TA: aspectes ling¨´
                                          uıstics/2

Alguns consells independents de l’idioma:


 • Fer p`gines i par`grafs curts.
        a           a

 • No usar textos en gr`fics (imatges), sin´ icones.
                       a                  o

 • Usar estructures gramaticals senzilles.

 • Usar vocabulari b`sic (freq¨ent, quotidi`), per`. . .
                    a         u            a      o

 • Evitar els mots polis`mics i els hom`grafs (hom`nims).
                        e              o          o

 • Evitar les abreviatures.

                                                           56
Webs preparades per a la TA: aspectes ling¨´
                                          uıstics/3

M´s consells independents de l’idioma:
 e


 • No usar el format per a transmetre informaci´ crucial; millor
                                               o
   usar text.

 • Repassar l’ortografia.

 • Evitar les expressions idiom`tiques (no `bviament composi-
                               a           o
   cionals).



                                                          57
Mem`ries de traducci´/1
   o                o

Els traductors (humans) han generat molt´
                                        ıssimes traduccions.

Hi ha a l’abast nombrosos textos electr`nics biling¨es on la versi´
                                       o           u              o
en un idioma ´s una bona traducci´ de la versi´ en l’altre i
                e                     o              o
viceversa.

No es podria aprofitar aquest treball per a traduir documents
nous (reciclatge autom`tic de traduccions?) → Alternativa a la
                      a
traducci´ autom`tica.
        o        a


                                                             58
Mem`ries de traducci´ /2
   o                o

Per a aprofitar aquests bitextos cal:


 • Alinear-los (indicar quines parts s´n traducci´ de quines);
                                      o          o

 • Segmentar-los en unitats de traducci´ (UT);
                                       o

 • Organitzar les UT en una base de dades eficient.


Totes aquestes tasques, tan autom`ticament com siga possible.
                                 a



                                                           59
Mem`ries de traducci´/3
   o                o

Esquema del proc´s de segmentaci´ i d’alineament d’un parell
                   e                o
de textos existent per a alimentar una mem`ria de traducci´.
                                          o               o



                  segmen-
text esquerre E →         → alineador-              Mem`ria
                                                         o
                  taci´
                      o                  UTs
                            corrector  →          → de tra-
                  segmen-                (e, d)
    text dret D →         → assistit                ducci´
                                                         o
                  taci´
                      o




                                                       60
Mem`ries de traducci´/4
   o                o

Per a traduir textos nous cal:


 • Segmentar-los en unitats que puguen correspondre amb les
   UT existents

 • Substituir els segments trobats per les traduccions correspo-
   nents.


Aquest ´s el fonament de les mem`ries de traducci´.
       e                        o                o


                                                          61
Mem`ries de traducci´/5
   o                o

Esquema del proc´s de pretraducci´ d’un nou text esquerre E
                e                o
usant una mem`ria de traducci´.
              o              o



                                                    text   dret
text esquerre E → segmentaci´ →
                            o      pretraducci´
                                              o   → pretradu¨ i
                                                            ıt
                                                    segmentat
                                      ↑↓ UTs

                                   Mem`ria de
                                        o
                                   traducci´
                                           o


                                                       62
Mem`ries de traducci´/6
   o                o

Alguns productes comercials (preus de 600 euros cap amunt):


 • D´j` Vu d’Atril (http://www.atril.com/ca/)
    ea

 • Transit de Star (http://www.star-transit.com/es/)

 • Trados (www.trados.com)

 • SDLX (www.sdlintl.com)


Solen contenir, a m´s de la mem`ria de traducci´, altres ´tils
                   e              o              o         u
com ara bases de dades l`xiques (“terminol`giques”), etc. Hi ha
                        e                 o
productes Open Source com ara OmegaT.
                                                         63
Mem`ries de traducci´/7
   o                o
Quan funcionen b´ les mem`ries de traducci´?
                e        o                o


 • Quan tenim moltes traduccions alineades en la mem`ria
                                                    o
 • Quan els tipus de textos a traduir s´n molt repetitius
                                       o
 • Quan la terminologia i la fraseologia s´n estables en la mem`ria
                                          o                    o


Per`:
   o


 • sempre cal revisar la pretraducci´
                                    o
 • A canvi: la pretraducci´ revisada es pot afegir ja a la mem`ria
                          o                                   o
   de traducci´ per usar-la en el futur.
               o

                                                            64
Mem`ries de traducci´/8
   o                o

Sobre la segmentaci´:
                   o


 • Els programes de MT segmenten els textos en “oracions”
   usant la puntuaci´ i el format.
                    o

 • A canvi, troben en la mem`ria segments aproximats a m´s
                                o                        e
   dels id`ntics (i produeixen traduccions aproximades).
          e

 • Hi ha (des de 1998) un format est`ndard internacional de
                                       a
   MT independent del programa: TMX (Translation Memory
   eXchange), que permet l’intercanvi de mem`ries entre equips
                                            o
   de traducci´.
              o

                                                         65

Mais conteúdo relacionado

Semelhante a Curs urgent de traducció automàtica

Itineraris IT Academy (2020)
Itineraris IT Academy (2020)Itineraris IT Academy (2020)
Itineraris IT Academy (2020)Barcelona Activa
 
Suports digitals per aprendre a llegir i escriure (Acte 2011)
Suports digitals per aprendre a llegir i escriure (Acte 2011)Suports digitals per aprendre a llegir i escriure (Acte 2011)
Suports digitals per aprendre a llegir i escriure (Acte 2011)Joaquin Fonoll
 
Història i característiques del llenguatge C
Història i característiques del llenguatge CHistòria i característiques del llenguatge C
Història i característiques del llenguatge CRoger Casadejús Pérez
 
Implantació de Sistemes Operatius
Implantació de Sistemes Operatius Implantació de Sistemes Operatius
Implantació de Sistemes Operatius DGS
 
Internet
InternetInternet
InternetPatri97
 
Internet
InternetInternet
InternetPatri97
 
Internet david lorente
Internet david lorenteInternet david lorente
Internet david lorenteDavid Lorente
 
Manual OpenOffice
Manual OpenOfficeManual OpenOffice
Manual OpenOfficeacobero
 
Anna coberó manual
Anna coberó manualAnna coberó manual
Anna coberó manualacobero
 
Fonaments i Evolució de la Mutimedia PAC 2
Fonaments i Evolució de la Mutimedia PAC 2Fonaments i Evolució de la Mutimedia PAC 2
Fonaments i Evolució de la Mutimedia PAC 2Marcos Baldovi
 
Noves tecnologies per a persones amb discapacitat visual[1]
Noves tecnologies per a persones amb discapacitat visual[1]Noves tecnologies per a persones amb discapacitat visual[1]
Noves tecnologies per a persones amb discapacitat visual[1]Emma Sellarès
 
Noves tecnologies per_a_persones_amb_discapacitat_visual[1]
Noves tecnologies per_a_persones_amb_discapacitat_visual[1]Noves tecnologies per_a_persones_amb_discapacitat_visual[1]
Noves tecnologies per_a_persones_amb_discapacitat_visual[1]Anais Gironès
 

Semelhante a Curs urgent de traducció automàtica (20)

softcatala.pdf
softcatala.pdfsoftcatala.pdf
softcatala.pdf
 
Programari
ProgramariProgramari
Programari
 
Programari
ProgramariProgramari
Programari
 
Treball oppen office
Treball oppen officeTreball oppen office
Treball oppen office
 
OpenOffice
OpenOfficeOpenOffice
OpenOffice
 
Itineraris IT Academy (2020)
Itineraris IT Academy (2020)Itineraris IT Academy (2020)
Itineraris IT Academy (2020)
 
Suports digitals per aprendre a llegir i escriure (Acte 2011)
Suports digitals per aprendre a llegir i escriure (Acte 2011)Suports digitals per aprendre a llegir i escriure (Acte 2011)
Suports digitals per aprendre a llegir i escriure (Acte 2011)
 
Història i característiques del llenguatge C
Història i característiques del llenguatge CHistòria i característiques del llenguatge C
Història i característiques del llenguatge C
 
Implantació de Sistemes Operatius
Implantació de Sistemes Operatius Implantació de Sistemes Operatius
Implantació de Sistemes Operatius
 
Internet
InternetInternet
Internet
 
Internet
InternetInternet
Internet
 
Ri03 programacio basica_robots
Ri03 programacio basica_robotsRi03 programacio basica_robots
Ri03 programacio basica_robots
 
Internet david lorente
Internet david lorenteInternet david lorente
Internet david lorente
 
Activitat 3
Activitat 3Activitat 3
Activitat 3
 
UD3 Programació
UD3 ProgramacióUD3 Programació
UD3 Programació
 
Manual OpenOffice
Manual OpenOfficeManual OpenOffice
Manual OpenOffice
 
Anna coberó manual
Anna coberó manualAnna coberó manual
Anna coberó manual
 
Fonaments i Evolució de la Mutimedia PAC 2
Fonaments i Evolució de la Mutimedia PAC 2Fonaments i Evolució de la Mutimedia PAC 2
Fonaments i Evolució de la Mutimedia PAC 2
 
Noves tecnologies per a persones amb discapacitat visual[1]
Noves tecnologies per a persones amb discapacitat visual[1]Noves tecnologies per a persones amb discapacitat visual[1]
Noves tecnologies per a persones amb discapacitat visual[1]
 
Noves tecnologies per_a_persones_amb_discapacitat_visual[1]
Noves tecnologies per_a_persones_amb_discapacitat_visual[1]Noves tecnologies per_a_persones_amb_discapacitat_visual[1]
Noves tecnologies per_a_persones_amb_discapacitat_visual[1]
 

Mais de Forcada Mikel

Statistical machine translation in a few slides
Statistical machine translation in a few slidesStatistical machine translation in a few slides
Statistical machine translation in a few slidesForcada Mikel
 
Integrating corpus-based and rule-based approaches in an open-source machine ...
Integrating corpus-based and rule-based approaches in an open-source machine ...Integrating corpus-based and rule-based approaches in an open-source machine ...
Integrating corpus-based and rule-based approaches in an open-source machine ...Forcada Mikel
 
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...Forcada Mikel
 
Open-source machine translation for Icelandic: the Apertium platform as an o...
Open-source machine translation for Icelandic:
 the Apertium platform as an o...Open-source machine translation for Icelandic:
 the Apertium platform as an o...
Open-source machine translation for Icelandic: the Apertium platform as an o...Forcada Mikel
 
Curso urgente de traducción automática
Curso urgente de traducción automáticaCurso urgente de traducción automática
Curso urgente de traducción automáticaForcada Mikel
 
Traducción automática de código abierto: una oportunidad para lenguas menores
Traducción automática de código abierto: una oportunidad para lenguas menoresTraducción automática de código abierto: una oportunidad para lenguas menores
Traducción automática de código abierto: una oportunidad para lenguas menoresForcada Mikel
 

Mais de Forcada Mikel (8)

Cairo 2019-seminar
Cairo 2019-seminarCairo 2019-seminar
Cairo 2019-seminar
 
Smt in-a-few-slides
Smt in-a-few-slidesSmt in-a-few-slides
Smt in-a-few-slides
 
Statistical machine translation in a few slides
Statistical machine translation in a few slidesStatistical machine translation in a few slides
Statistical machine translation in a few slides
 
Integrating corpus-based and rule-based approaches in an open-source machine ...
Integrating corpus-based and rule-based approaches in an open-source machine ...Integrating corpus-based and rule-based approaches in an open-source machine ...
Integrating corpus-based and rule-based approaches in an open-source machine ...
 
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
 
Open-source machine translation for Icelandic: the Apertium platform as an o...
Open-source machine translation for Icelandic:
 the Apertium platform as an o...Open-source machine translation for Icelandic:
 the Apertium platform as an o...
Open-source machine translation for Icelandic: the Apertium platform as an o...
 
Curso urgente de traducción automática
Curso urgente de traducción automáticaCurso urgente de traducción automática
Curso urgente de traducción automática
 
Traducción automática de código abierto: una oportunidad para lenguas menores
Traducción automática de código abierto: una oportunidad para lenguas menoresTraducción automática de código abierto: una oportunidad para lenguas menores
Traducción automática de código abierto: una oportunidad para lenguas menores
 

Curs urgent de traducció automàtica

  • 1. Curs urgent de traducci´ autom`tica o a Mikel L. Forcada Departament de Llenguatges i Sistemes Inform`tics a Universitat d’Alacant E-03071 Alacant, Spain Traducci´ Autom`tica: Fonaments i Aplicacions o a Universitat d’Alacant, 2004 1
  • 2. ´ Index 1. Qu` ´s la traducci´ autom`tica (TA)? Aplicacions e e o a 2. Formats de text 3. Com funciona la TA? 4. Per qu` ´s dif´ la TA? e e ıcil 5. Avaluaci´ de la traducci´ autom`tica o o a 6. TA de p`gines web a 7. Mem`ries de traducci´ o o 2
  • 3. Qu` ´s la traducci´ autom`tica (TA)? /1 e e o a La traducci´, . . . o . . . mitjan¸ant un sistema inform`tic . . . c a . . . (ordinador(s) + programes) . . . . . . de textos informatitzats en la llengua origen (LO). . . . . . a textos informatitzats en la llengua meta (LM). [Atenci´ al format dels textos!!] o 3
  • 4. Qu` ´s la traducci´ autom`tica (TA)? /2 e e o a Esquem`ticament: a Sistema de Text LM Text LO → traducci´ o → (en brut) autom`tica a 4
  • 5. Aplicacions de la TA /1 Dos grans grups: • Assimilaci´: traducci´ ef´ o o ımera, idealment instant`nia, per a a la revisi´ o la comprensi´ de documents en una altra llengua. o o P.e., navegaci´ per internet, xat (chat), etc. o • Disseminaci´: traducci´ permanent, idealment amb pocs er- o o rors, per a la publicaci´. P.e., producci´ d’esborranys per a o o posteditar . 5
  • 6. Aplicacions de la TA /2 Preedici´ i postedici´: els professionals col·laboren amb el siste- o o ma de TA en aplicacions de disseminaci´: o • Preedici´: preparaci´ del text per a evitar l`xic o construc- o o e cions que donen problemes de traducci´ amb un sistema de o traducci´ autom`tica. o a • Postedici´: correcci´ del text tradu¨ en brut per a fer-lo o o ıt adequat al prop`sit previst. o Con´ixer b´ com funciona el sistema de TA ajuda molt en amb- e e dues tasques. 6
  • 7. Aplicacions de la TA /3 Alternativa a la preedici´: llenguatge controlat. o • Els autors escriuen ja pensant en el tractament automatitzat del text. • S’eviten l`xic i construccions problem`tiques. e a • Es minimitza la postedici´. o • Consist`ncia d’estil, comprensibilitat, mantenibilitat. e • Per` els autors l’han de con´ixer i aplicar! o e • Se’ls pot ajudar amb eines inform`tiques. a 7
  • 8. Aplicacions de la TA /4 La postedici´ ´s convenient quan o e   traducci´ autom`tica o a cost  +  < cost(traducci´ humana). o postedici´ o Perqu` siga eficient: e • cal ser competent en la llengua meta → generar un text genu´ ı a partir del text en brut • cal con´ixer el sistema de TA → recon´ixer l’origen dels er- e e rors, predir-ne el comportament 8
  • 9. Formats de text /1 Un text informatitzat ´s, com qualsevol porci´ de dades in- e o formatitzada, una seq¨`ncia de bits, ´s a dir, d’uns i zeros: ue e 000101010010100111101001010010.... Els bits van normalment en grups de 8 (bytes o octets). Amb 8 bits es poden fer 2×2×2×2×2×2×2×2×2= 28= 256 combinacions: 00000000 (0), 00000001 (1), 00000010 (2), . . . , 11111111 (255). Hi ha moltes maneres d’organitzar els octets per a emmagatze- mar textos. Molts problemes provenen de discrep`ncies quant a a la manera de fer-ho. 9
  • 10. Formats de text /2 Dos aspectes importants: codificaci´ i format propiament dit. o • Codificaci´: Assignaci´ d’un codi (una seq¨`ncia d’un o o o ue m´s octets concreta) a cada car`cter possible de la llen- e a gua corresponent (per exemple: “a” → 01100001 (97); “?” → “00111111” (63), etc.) 10
  • 11. Formats de text /3 • Format propiament dit: Els textos, a m´s de car`cters, con- e a tenen informaci´ de format. o ´ Es necess`ria l’assignaci´ de codis per a regular altres carac- a o ter´ ıstiques del text: – Per a codificar l’aparen¸a visual o de presentaci´, per c o exemple, “inici cursives”, “final negretes”, “lletra de 16 punts”), o – Per a codificar l’estructura (´s a dir, l’organitzaci´ del con- e o tingut, per exemple, “t´ıtol de secci´”, “llista numerada”, o “nota a peu de p`gina”, “fila d’una taula”, etc.). a 11
  • 12. Formats de text /4 Codificacions d’1 octet (“unibyte”): • ASCII: Assigna codis de 7 bits, del 0000000 (0) al 1111111 (127), (sobra un bit de l’octet) als car`cters anglesos (sense a accents, etc.) • ANSI o ISO: familia de codificacions que aprofiten els codis del 128 al 255 per a car`cters internacionals. a En Europa occidental: ISO-8859-1 (o Latin-1); m´s recent- e ment, ISO-8859-15 (o Latin-9; cont´ el s´ e ımbol de l’euro) En Windows s’usa CP-1252 que ´s molt similar (per` no e o id`ntic) a l’ISO-8859-1. e 12
  • 13. Formats de text /5 Codificacions de m´s d’1 octet (“multibyte”: japon´s, xin´s, e e e core`, devanagari. . . :) a • Unicode (ISO-10646): Assigna codis de 31 bits (4 octets) i permet codificar 231 = 2 147 483 648 car`cters. a • UTF-8: Versi´ d’Unicode que nom´s usa m´s d’un octet o e e quan cal: – codis del 0 al 127: 1 octet (compatible amb ASCII): – codis del 128 al 2047: 2 octets; – codis del 2048 al 65535: 3 octets, etc. 13
  • 14. Formats de text /6 Necessitat de format (estructural o presentacional) m´s enll` e a de la codificaci´ de car`cters. La informaci´ de format es pot o a o codificar: • Com a seq¨`ncies de car`cters (anomenades marques) que es ue a poden llegir amb un editor senzill de text com el Bloc de no- tes: La fam´ SGML (ara XML): HTML i XHTML (p`gines ılia a web), NewsML (not´ ıcies), etc.; RTF, TeX (processadors de textos); Postscript (impressores), etc. Un exemple: <p>Un par`graf curt amb un mot <em>emfatitzat</em>.</p> a (HTML vist a trav´s d’un editor de text) e 14
  • 15. Formats de text /7 • Amb codis no interpretables com a car`cters: (no visibles a a trav´s d’un editor de text senzill) Adobe PDF (impressi´, e o presentaci´), formats semisecrets de processadors de textos o comercials com .doc de Microsoft, etc. 15
  • 16. Formats de text /8 El problema wysiwyg (“what you see is what you get”: “el que veus ´s el que obtindr`s”): e a Les persones usen la presentaci´ visual per a comunicar l’estruc- o tura l`gica dels documents (a persones vidents!). o Els processadors de textos actuals ens mostren el document tal com quedar` impr´s mentres l’estem editant. a e Sucumbim a la temptaci´ de treballar directament sobre la pre- o sentaci´ (negretes, m`rgens, tipus) en comptes de sobre l’estructura o a l`gica (seccions, t´ o ıtols, etc.) 16
  • 17. Formats de text /9 El problema wysiwyg: Si fem aix`, i m´s endavant volem canviar el tipus de lletra dels o e t´ ıtols de secci´ o de les paraules estrangeres. . . o . . . ens toca canviar-los un per un! Resultat: “el que veus ´s tot el que tens” e Podem evitar-ho? S´ ı. 17
  • 18. Formats de text /10 Com? Usant estils. Marquem estructuralment les parts (elements): t´ ıtol de segon nivell, text emfatitzat, exemple, etc. I despr´s assignem un estil de presentaci´ a cada part (per exem- e o ple, els t´ ıtols de segon nivell pode anar numerats autom`ticament a i en Helv`tica de 14 punts, l’`mfasi pot ser en negreta i l’exemple e e en cursiva) Canviar la presentaci´ de totes les aparicions d’un element ´s o e f`cil: nom´s cal canviar l’estil associat a l’element. a e 18
  • 19. Formats de text /11 En aplicacions d’internet, la separaci´ estructura–presentaci´ es o o fa aix´ ı: • La informaci´ —el contingut— s’estructura usant XML o o HTML • La presentaci´ es genera (en el servidor o en el navegador) o usant fulls d’estil escrits en CSS o en XSL 19
  • 20. Formats de text /12 Processador document (XML o HTML) → de fulls → presentaci´ o full d’estil (XSL o CSS) → d’estil 20
  • 21. Formats de text /13 Accessibilitat (no tots els receptors s´n vidents): o Document XML ? ? ? Full d’estil 1 Full d’estil 2 Full d’estil 3 ? ? ? Ò H Fitxer de so Document Braille Document per a m`bils o 21
  • 22. Formats de text /14 Els sistemes de TA han de ser capa¸os: c • De separar del text a traduir la informaci´ de format; o • de reintegrar adequadament la informaci´ de format al text o despr´s de traduir-lo; e • i, idealment, d’usar la informaci´ de format per a decidir o quines parts cal traduir. La preservaci´ del format estalvia temps a la persona traduc- o tora/correctora (que es concentra en la part ling¨´ uıstica de la faena). 22
  • 23. Com funciona la TA? /1 Primera aproximaci´ [!!]: Traduir textos ´s traduir oracions. o e Traduir oracions suposa: • Construir una interpretaci´ (un significat) a partir de l’oraci´ o o en LO. • Construir una oraci´ en LM a partir de la interpretaci´. o o 23
  • 24. Com funciona la TA? /2 Principi de composicionalitat [sem`ntica]: a La interpretaci´ d’una oraci´ es construeix . . . o o . . . a partir de les interpretacions dels mots . . . Escriuen cartes = Escriuen articles . . . component-les seguint les agrupacions indicades per l’estruc- tura sint`ctica de l’oraci´. a o Israel amena¸a Palestina = Palestina amena¸a Israel c c 25
  • 25. Com funciona la TA? /3 Per` alerta! Les oracions poden ser ambig¨es (´s a dir, tenir o u e m´s d’una interpretaci´): e o • perqu` els mots tenen m´s d’una interpretaci´ (ambig¨itat e e o u l`xica) e • perqu` l’oraci´ t´ m´s d’una possible an`lisi sint`ctica (am- e o e e a a big¨itat sint`ctica) u a • per ambdues coses alhora. (en veurem exemples m´s endavant) e Elegir la interpretaci´ correcta no ´s trivial per a un sistema o e inform`tic (normalment nom´s pot usar part del cotext). a e 25
  • 26. Com funciona la TA? /4 Esquem`ticament: a Oraci´ o Oraci´ o → interpretaci´ o → LO LM En alguns sistemes de TA s’intenta representar directament les interpretacions amb una interlingua (un llenguatge estructurat artificial). 26
  • 27. Com funciona la TA? /5 Per`... els traductors professionals realment necessiten interpre- o tar o comprendre completament una oraci´ per a traduir-la? o “... interacciones independientes del esp´ en unidades de la ın secci´n eficaz del neutrino de Dirac...” → o “... interaccions independents de l’esp´ en unitats de la secci´ ın o efica¸ del neutr´ de Dirac...” c ı “. . . tornillos que unen el volante de inercia al ´rbol de levas → a “. . . caragols que uneixen el volant d’in`rcia a l’arbre de lleves e ...” No: Transformen estructures o patrons i substitueixen el l`xic e (parant especial esment al terminol`gic). o 27
  • 28. Com funciona la TA? /6 Aix` permet fer la segona aproximaci´ [!!]: o o La majoria dels sistemes de TA no construeixen completa- ment la interpretaci´, . . . o . . . sin´ que transformen l’estructura sint`ctica de l’oraci´ en o a o LO en una estructura sint`ctica v`lida per a l’oraci´ en LM a a o i. . . . . . substitueixen els mots de l’oraci´ en LO per equivalents o adequats en LM. . . . . . fent les dues operacions bastant independentment. 28
  • 29. Com funciona la TA? /7 Per a programar un sistema de TA cal formular tots els proces- sos de traducci´ de forma expl´ o ıcita i mecanitzable (ad´u “intu¨ o e ıci´ ling¨´ uıstica”!). A m´s, la mecanitzaci´ ha de ser eficient (programes r`pids i e o a compactes) i s’ha de dur a terme en un temps raonable: • Aix` exigeix una reflexi´ ling¨´ o o uıstica (traductol`gica) sobre els o processos de traducci´ per part dels dissenyadors del sistema. o • A m´s, pot comportar m´s aproximacions, simplificacions, e e compromisos i sacrificis. 29
  • 30. Com funciona la TA? /8 Per tant... Podem esperar que un bon sistema de TA ens allibere de la part m´s mec`nica (mecanitzable) de la tasca de traducci´. e a o Per` no podem esperar —per bo que siga— que comprenga el o text, resolga les ambig¨itats sempre correctament i produ¨ u ısca textos en una variant genu¨ de la llengua meta. ına 30
  • 31. Per qu` ´s dif´ la TA? /1 e e ıcil Els quatre problemes de la traducci´ autom`tica (Arnold 2003): o a 1. El problema de l’an`lisi a 2. El problema de la s´ ıntesi 3. El problema de la transfer`ncia e 4. El problema de la descripci´ o 31
  • 32. Per qu` ´s dif´ la TA? /2 e e ıcil El problema de l’an`lisi: La forma no determina completament a el contingut (la interpretaci´). Tamb´ s’anomena ambig¨itat: o e u • Portaven not´ ıcies de Gr`cia (tema o proced`ncia?) e e • Ha venut les taronges que ha comprat a Joan (Joan ven o compra?) • Treballa en l’estudi que li han encarregat (prepara un docu- ment o dissenya un taller d’artista?) 32
  • 33. Per qu` ´s dif´ la TA? /3 e e ıcil El problema de la s´ıntesi: El contingut no determina comple- tament la forma (hi ha m´s d’una manera de dir el mateix en e qualsevol llengua): • Quina hora ´s? e • Com ´s de tard? (de: Wie sp¨t ist es?) e a • Quines hores s´n (pt: Que horas s˜o? o a Els expedients s’obrin o s’inicien? Les sessions es clouen, es tanquen, es rematen o s’alcen? 33
  • 34. Per qu` ´s dif´ la TA? /4 e e ıcil El problema de la transfer`ncia: Les lleng¨es divergeixen. Es e u ´ a dir, hi ha difer`ncies irreductibles en la manera en que el mateix e contingut s’expressa en lleng¨es diferents: u • ca: M’agrada nadar (M’ objecte, agrada, verb, nadar sub- jecte) • en: I like swimming (I subjecte, like verb, swimming objecte) • de: Ich schwimme gern (Ich subjecte, schwimme, verb, gern, adverbi) Totes volen dir produir plaer(agent=nadar(agent=jo),destinatari=jo) 34
  • 35. Per qu` ´s dif´ la TA? /5 e e ıcil El problema de la descripci´ (represa): construir un sistema de o traducci´ autom`tica comporta la gesti´ d’una gran quantitat de o a o coneixement, que s’ha d’elicitar, aplegar, descriure, i representar en una forma ´til i computable. u 35
  • 36. Avaluaci´ de la traducci´ autom`tica /1 o o a Volem avaluar l’adopci´ d’un sistema de traducci´ autom`tica o o a per a la disseminaci´. o Les traduccions en brut s’hauran de posteditar (corregir): com menys correccions, m´s qualitat: millor. e D’acord: com avaluem la qualitat? 36
  • 37. Avaluaci´ de la traducci´ autom`tica /2 o o a Per avaluar la qualitat, cal: • elegir una mostra suficient de textos representatius, • traduir-la autom`ticament, a • i comptar la quantitat de correcci´ m´ o ınima necess`ria per a a fer que la traducci´ siga adequada al prop`sit previst. o o Sembla senzill, per`... o 37
  • 38. Avaluaci´ de la traducci´ autom`tica /3 o o a ...no ho ´s gens! e • ´s dif´ elegir prou text representatiu per endavant; e ıcil • la noci´ d’adequaci´ ´s de vegades dif´ d’especificar: o o e ıcil • ´s dif´ fer el m´ e ıcil ınim de correccions (cal buscar traduccions adequades que se n’obtinguen amb poques correccions); • tot el proc´s ´s molt cost´s (temps de correcci´). e e o o 38
  • 39. Avaluaci´ de la traducci´ autom`tica /4 o o a Per` la qualitat dels textos tradu¨ en brut no ho ´s tot! o ıts e Fem un pressupost: si adoptem la traducci´ autom`tica, o a d’una banda, ens estalviem els costos de traducci´ humana, o per` tenim despeses noves: o • despeses de funcionament i • despeses de formaci´ (s’ha d’aprendre a usar una nova tec- o nologia) 39
  • 40. Avaluaci´ de la traducci´ autom`tica /5 o o a Despeses de funcionament: • Cost del sistema de TA (cost efectiu per mot): amortit- zaci´ (sistema en propietat), cost per mot (sistema llogat), o servei t`cnic i manteniment, costos de migraci´ (adaptaci´ e o o de programes, adquisici´ de sistemes), i (no oblidem) el cost o d’avaluaci´! o • Cost de preedici´ i preparaci´: cal preparar i potser pree- o o ditar els textos i aix` ho ha de fer alg´, cobrant. o u • Cost de postedici´: dep´n de la qualitat; pot baixar amb o e la formaci´; dep´n de com paguem als posteditors (per mot, o e per temps), etc. 40
  • 41. Avaluaci´ de la traducci´ autom`tica /6 o o a Despeses de formaci´: o • Formaci´ en ´s del programa de TA: ´s pr`piament dit, o u u o configuraci´ i manteniment; ´s de nou programari associat. o u • Formaci´ en postedici´: o o – coneixement del programa de TA (errors t´ ıpics); – t`cniques de correcci´, ´s avan¸at del processador de tex- e o u c tos, macroinstruccions, substituci´ de patrons, etc. o 41
  • 42. Avaluaci´ de la traducci´ autom`tica /7 o o a I potser ens hem deixat encara alguna cosa! Avaluar la traducci´ autom`tica no ´s f`cil. o a e a La lli¸`? Desconfieu de les primeres impressions. co 42
  • 43. TA de p`gines web/1 a La traducci´ autom`tica de p`gines web ´s com la TA d’altres o a a e documents de text, per` hi ha algunes difer`ncies: o e • les p`gines web s´n hipertextos: contenen enlla¸os a d’altres a o c p`gines web a • de vegades s´n actives: contenen programes que s’executen o durant la presentaci´ o • de vegades s´n din`miques: el servidor no les t´ guardades o a e sin´ que les genera autom`ticament quan se sol·liciten o a 43
  • 44. TA de p`gines web/2 a Dos usos b`sics de la TA de p`gines web: a a • Disseminaci´: TA per a construir i mantenir servidors d’in- o ternet multiling¨es u • Assimilaci´: TA durant la navegaci´ (”navegaci´ tradu¨ o o o ıda”), en el client, en el servidor que cont´ la informaci´, o en un e o altre servidor (p.e., interNOSTRUM) 44
  • 45. TA de p`gines web/3 a Els requisits s´n diferents en cada cas: o • Disseminaci´: la TA ha de ser de qualitat, potser seguida de o postedici´ (la web tradu¨ ´s percebuda com a definitiva) o ıda e • Assimilaci´: la TA ha de ser molt r`pida, “instant`nia”, com o a a si formara part del proc´s de presentaci´ de la traducci´: la e o o qualitat no ´s tan crucial (la traducci´ ´s percebuda com a e o e provisional) 45
  • 46. Un inc´ el format de les p`gines web/1 ıs: a Les p`gines web s´n documents especials: a o • La majoria de les p`gines web estan escrites en (algun dialec- a te no est`ndard de) HTML (HyperText Markup Language, a “llenguatge de marques per a hipertextos”). • HTML cont´, a m´s de text senzill, marques per a controlar e e la presentaci´ i per a enlla¸ar altres documents. o c • Quan editem amb programes especialitzats (Composer, Front- page, Dreamweaver, etc.) no veiem les marques sin´ l’apa- o ren¸a aproximada del document. c La transpar`ncia seg¨ent cont´ un exemple. e u e 46
  • 47. Un inc´ el format de les p`gines web/2 ıs: a <HTML> <HEAD> <TITLE>T´tol del document</TITLE> ı </HEAD> <BODY> <H1>Encap¸alament de nivell 1</H1> c <H2>Encap¸alament de nivell 2</H2> c <P>Aquest ´s el <EM>primer</EM> par`graf e a d’aquest document. El navegador decideix com dividir-lo en l´nies per a presentar-lo. Idealment, hauria ı d’acabar amb una marca de final de par`graf.</P> a <H2>Un altre encap¸alament de nivell 2</H2> c <P>Aquest ´s l’<EM>´ltim</EM> par`graf e u a d’aquest document HTML. Els documents HTML poden contenir <A HREF=quot;http://www.internostrum.comquot;>enlla¸os</A> c a altres documents HTML, locals o remots.</P> </BODY> </HTML> 47
  • 48. Un inc´ el format de les p`gines web/3 ıs: a Encap¸alament de nivell 1 c Encap¸alament de nivell 2 c Aquest ´s el primer par`graf d’aquest document. El navegador decideix com e a dividir-lo en l´ ınies per a presentar-lo. Idealment, hauria d’acabar amb una marca de final de par`graf. a Un altre encap¸alament de nivell 2 c Aquest ´s l’´ltim par`graf d’aquest document HTML. Els documents HTML e u a poden contenir enlla¸os a d’altres documents HTML, locals o remots. c 48
  • 49. TA de p`gines web (represa)/4 a Traduir un document HTML comporta: • Identificar les porcions del document que corresponen a text que ha de ser llegit i traduir-les; • Adaptar els enlla¸os a la nova situaci´ (potser ja no poden c o enlla¸ar el mateix document!). c L’adaptaci´ d’enlla¸os dep´n de la situaci´. o c e o 49
  • 50. TA de p`gines web /5 a Els enlla¸os contenen URIs (adreces d’altres documents): c Podeu visitar tamb´ els nostres e <a href=quot;http://www.servidor.ct/es/prod/ta.htmlquot;> productes</a>. 50
  • 51. TA de p`gines web/6 a Una miradeta als URIs dels enlla¸os: c http://www.servidor.ct/es/prod/ta.html L’URI (localitzador) indica: • L’esquema (http: protocol de transfer`ncia d’hipertext) e • El nom de la m`quina que fa de servidor (www.servidor.ct). a • La ruta que identifica el recurs concret (/es/prod/ta.html) dins del servidor 51
  • 52. TA de p`gines web/7 a Traduir suposa adaptar els URIs dels enlla¸os. Per exemple, c en un servidor biling¨e espanyol–catal`, si un enlla¸ des d’una u a c p`gina en espanyol apunta a l’URI a http://www.servidor.ct/es/prod/ta.html La traducci´ catalana hauria d’apuntar a l’URI: o http://www.servidor.ct/ca/prod/ta.html 52
  • 53. TA de p`gines web/8 a Per` el text mateix de les p`gines web cont´ de vegades material o a e especial que no cal traduir: • URIs: www.pujol.com (no ´s “www.colina.como”) e • Adreces de correu electr`nic: andreu.fuster@correu.com (no o ´s “andr´s.carpintero@correo.como”) e e 53
  • 54. TA de p`gines web/9: p`gines generades al ser- a a vidor Moltes vegades els documents HTML no s´n al disc dur, sin´ o o que s´n generats per un programa que s’executa en el servidor o durant la navegaci´. o Possiblement es generen p`gines diferents per a cada perfil de a visitant. Els detalls de la traducci´ d’aquest tipus de documents queden o fora de l’abast d’aquest curs, per` presenten reptes considera- o bles. 54
  • 55. Webs preparades per a la TA: aspectes ling¨´ uıstics/1 Si preveiem que una web ha de ser tradu¨ ıda autom`ticament a a una altra llengua, podem preparar el text origen. Con´ixer el sistema concret de TA ens pot ajudar a evitar els e mots o les construccions que donen lloc a problemes. La noci´ ´s coneguda de fa temps i s’anomena llenguatge con- o e trolat. 55
  • 56. Webs preparades per a la TA: aspectes ling¨´ uıstics/2 Alguns consells independents de l’idioma: • Fer p`gines i par`grafs curts. a a • No usar textos en gr`fics (imatges), sin´ icones. a o • Usar estructures gramaticals senzilles. • Usar vocabulari b`sic (freq¨ent, quotidi`), per`. . . a u a o • Evitar els mots polis`mics i els hom`grafs (hom`nims). e o o • Evitar les abreviatures. 56
  • 57. Webs preparades per a la TA: aspectes ling¨´ uıstics/3 M´s consells independents de l’idioma: e • No usar el format per a transmetre informaci´ crucial; millor o usar text. • Repassar l’ortografia. • Evitar les expressions idiom`tiques (no `bviament composi- a o cionals). 57
  • 58. Mem`ries de traducci´/1 o o Els traductors (humans) han generat molt´ ıssimes traduccions. Hi ha a l’abast nombrosos textos electr`nics biling¨es on la versi´ o u o en un idioma ´s una bona traducci´ de la versi´ en l’altre i e o o viceversa. No es podria aprofitar aquest treball per a traduir documents nous (reciclatge autom`tic de traduccions?) → Alternativa a la a traducci´ autom`tica. o a 58
  • 59. Mem`ries de traducci´ /2 o o Per a aprofitar aquests bitextos cal: • Alinear-los (indicar quines parts s´n traducci´ de quines); o o • Segmentar-los en unitats de traducci´ (UT); o • Organitzar les UT en una base de dades eficient. Totes aquestes tasques, tan autom`ticament com siga possible. a 59
  • 60. Mem`ries de traducci´/3 o o Esquema del proc´s de segmentaci´ i d’alineament d’un parell e o de textos existent per a alimentar una mem`ria de traducci´. o o segmen- text esquerre E → → alineador- Mem`ria o taci´ o UTs corrector → → de tra- segmen- (e, d) text dret D → → assistit ducci´ o taci´ o 60
  • 61. Mem`ries de traducci´/4 o o Per a traduir textos nous cal: • Segmentar-los en unitats que puguen correspondre amb les UT existents • Substituir els segments trobats per les traduccions correspo- nents. Aquest ´s el fonament de les mem`ries de traducci´. e o o 61
  • 62. Mem`ries de traducci´/5 o o Esquema del proc´s de pretraducci´ d’un nou text esquerre E e o usant una mem`ria de traducci´. o o text dret text esquerre E → segmentaci´ → o pretraducci´ o → pretradu¨ i ıt segmentat ↑↓ UTs Mem`ria de o traducci´ o 62
  • 63. Mem`ries de traducci´/6 o o Alguns productes comercials (preus de 600 euros cap amunt): • D´j` Vu d’Atril (http://www.atril.com/ca/) ea • Transit de Star (http://www.star-transit.com/es/) • Trados (www.trados.com) • SDLX (www.sdlintl.com) Solen contenir, a m´s de la mem`ria de traducci´, altres ´tils e o o u com ara bases de dades l`xiques (“terminol`giques”), etc. Hi ha e o productes Open Source com ara OmegaT. 63
  • 64. Mem`ries de traducci´/7 o o Quan funcionen b´ les mem`ries de traducci´? e o o • Quan tenim moltes traduccions alineades en la mem`ria o • Quan els tipus de textos a traduir s´n molt repetitius o • Quan la terminologia i la fraseologia s´n estables en la mem`ria o o Per`: o • sempre cal revisar la pretraducci´ o • A canvi: la pretraducci´ revisada es pot afegir ja a la mem`ria o o de traducci´ per usar-la en el futur. o 64
  • 65. Mem`ries de traducci´/8 o o Sobre la segmentaci´: o • Els programes de MT segmenten els textos en “oracions” usant la puntuaci´ i el format. o • A canvi, troben en la mem`ria segments aproximats a m´s o e dels id`ntics (i produeixen traduccions aproximades). e • Hi ha (des de 1998) un format est`ndard internacional de a MT independent del programa: TMX (Translation Memory eXchange), que permet l’intercanvi de mem`ries entre equips o de traducci´. o 65