Traducción automática de código abierto: una oportunidad para lenguas menores
Curs urgent de traducció automàtica
1. Curs urgent de traducci´ autom`tica
o a
Mikel L. Forcada
Departament de Llenguatges i Sistemes Inform`tics
a
Universitat d’Alacant
E-03071 Alacant, Spain
Traducci´ Autom`tica: Fonaments i Aplicacions
o a
Universitat d’Alacant, 2004
1
2. ´
Index
1. Qu` ´s la traducci´ autom`tica (TA)? Aplicacions
e e o a
2. Formats de text
3. Com funciona la TA?
4. Per qu` ´s dif´ la TA?
e e ıcil
5. Avaluaci´ de la traducci´ autom`tica
o o a
6. TA de p`gines web
a
7. Mem`ries de traducci´
o o
2
3. Qu` ´s la traducci´ autom`tica (TA)? /1
e e o a
La traducci´, . . .
o
. . . mitjan¸ant un sistema inform`tic . . .
c a
. . . (ordinador(s) + programes) . . .
. . . de textos informatitzats en la llengua origen (LO). . .
. . . a textos informatitzats en la llengua meta (LM).
[Atenci´ al format dels textos!!]
o
3
4. Qu` ´s la traducci´ autom`tica (TA)? /2
e e o a
Esquem`ticament:
a
Sistema de
Text LM
Text LO → traducci´
o →
(en brut)
autom`tica
a
4
5. Aplicacions de la TA /1
Dos grans grups:
• Assimilaci´: traducci´ ef´
o o ımera, idealment instant`nia, per a
a
la revisi´ o la comprensi´ de documents en una altra llengua.
o o
P.e., navegaci´ per internet, xat (chat), etc.
o
• Disseminaci´: traducci´ permanent, idealment amb pocs er-
o o
rors, per a la publicaci´. P.e., producci´ d’esborranys per a
o o
posteditar .
5
6. Aplicacions de la TA /2
Preedici´ i postedici´: els professionals col·laboren amb el siste-
o o
ma de TA en aplicacions de disseminaci´: o
• Preedici´: preparaci´ del text per a evitar l`xic o construc-
o o e
cions que donen problemes de traducci´ amb un sistema de
o
traducci´ autom`tica.
o a
• Postedici´: correcci´ del text tradu¨ en brut per a fer-lo
o o ıt
adequat al prop`sit previst.
o
Con´ixer b´ com funciona el sistema de TA ajuda molt en amb-
e e
dues tasques.
6
7. Aplicacions de la TA /3
Alternativa a la preedici´: llenguatge controlat.
o
• Els autors escriuen ja pensant en el tractament automatitzat
del text.
• S’eviten l`xic i construccions problem`tiques.
e a
• Es minimitza la postedici´.
o
• Consist`ncia d’estil, comprensibilitat, mantenibilitat.
e
• Per` els autors l’han de con´ixer i aplicar!
o e
• Se’ls pot ajudar amb eines inform`tiques.
a
7
8. Aplicacions de la TA /4
La postedici´ ´s convenient quan
o e
traducci´ autom`tica
o a
cost + < cost(traducci´ humana).
o
postedici´
o
Perqu` siga eficient:
e
• cal ser competent en la llengua meta → generar un text genu´
ı
a partir del text en brut
• cal con´ixer el sistema de TA → recon´ixer l’origen dels er-
e e
rors, predir-ne el comportament
8
9. Formats de text /1
Un text informatitzat ´s, com qualsevol porci´ de dades in-
e o
formatitzada, una seq¨`ncia de bits, ´s a dir, d’uns i zeros:
ue e
000101010010100111101001010010....
Els bits van normalment en grups de 8 (bytes o octets). Amb 8
bits es poden fer 2×2×2×2×2×2×2×2×2= 28= 256 combinacions:
00000000 (0), 00000001 (1), 00000010 (2), . . . , 11111111 (255).
Hi ha moltes maneres d’organitzar els octets per a emmagatze-
mar textos. Molts problemes provenen de discrep`ncies quant a
a
la manera de fer-ho.
9
10. Formats de text /2
Dos aspectes importants: codificaci´ i format propiament dit.
o
• Codificaci´: Assignaci´ d’un codi (una seq¨`ncia d’un o
o o ue
m´s octets concreta) a cada car`cter possible de la llen-
e a
gua corresponent (per exemple: “a” → 01100001 (97); “?”
→ “00111111” (63), etc.)
10
11. Formats de text /3
• Format propiament dit: Els textos, a m´s de car`cters, con-
e a
tenen informaci´ de format.
o
´
Es necess`ria l’assignaci´ de codis per a regular altres carac-
a o
ter´
ıstiques del text:
– Per a codificar l’aparen¸a visual o de presentaci´, per
c o
exemple, “inici cursives”, “final negretes”, “lletra de 16
punts”), o
– Per a codificar l’estructura (´s a dir, l’organitzaci´ del con-
e o
tingut, per exemple, “t´ıtol de secci´”, “llista numerada”,
o
“nota a peu de p`gina”, “fila d’una taula”, etc.).
a
11
12. Formats de text /4
Codificacions d’1 octet (“unibyte”):
• ASCII: Assigna codis de 7 bits, del 0000000 (0) al 1111111
(127), (sobra un bit de l’octet) als car`cters anglesos (sense
a
accents, etc.)
• ANSI o ISO: familia de codificacions que aprofiten els codis
del 128 al 255 per a car`cters internacionals.
a
En Europa occidental: ISO-8859-1 (o Latin-1); m´s recent-
e
ment, ISO-8859-15 (o Latin-9; cont´ el s´
e ımbol de l’euro)
En Windows s’usa CP-1252 que ´s molt similar (per` no
e o
id`ntic) a l’ISO-8859-1.
e
12
13. Formats de text /5
Codificacions de m´s d’1 octet (“multibyte”: japon´s, xin´s,
e e e
core`, devanagari. . . :)
a
• Unicode (ISO-10646): Assigna codis de 31 bits (4 octets) i
permet codificar 231 = 2 147 483 648 car`cters.
a
• UTF-8: Versi´ d’Unicode que nom´s usa m´s d’un octet
o e e
quan cal:
– codis del 0 al 127: 1 octet (compatible amb ASCII):
– codis del 128 al 2047: 2 octets;
– codis del 2048 al 65535: 3 octets, etc.
13
14. Formats de text /6
Necessitat de format (estructural o presentacional) m´s enll`
e a
de la codificaci´ de car`cters. La informaci´ de format es pot
o a o
codificar:
• Com a seq¨`ncies de car`cters (anomenades marques) que es
ue a
poden llegir amb un editor senzill de text com el Bloc de no-
tes: La fam´ SGML (ara XML): HTML i XHTML (p`gines
ılia a
web), NewsML (not´ ıcies), etc.; RTF, TeX (processadors de
textos); Postscript (impressores), etc. Un exemple:
<p>Un par`graf curt amb un mot <em>emfatitzat</em>.</p>
a
(HTML vist a trav´s d’un editor de text)
e
14
15. Formats de text /7
• Amb codis no interpretables com a car`cters: (no visibles
a
a trav´s d’un editor de text senzill) Adobe PDF (impressi´,
e o
presentaci´), formats semisecrets de processadors de textos
o
comercials com .doc de Microsoft, etc.
15
16. Formats de text /8
El problema wysiwyg (“what you see is what you get”: “el que
veus ´s el que obtindr`s”):
e a
Les persones usen la presentaci´ visual per a comunicar l’estruc-
o
tura l`gica dels documents (a persones vidents!).
o
Els processadors de textos actuals ens mostren el document tal
com quedar` impr´s mentres l’estem editant.
a e
Sucumbim a la temptaci´ de treballar directament sobre la pre-
o
sentaci´ (negretes, m`rgens, tipus) en comptes de sobre l’estructura
o a
l`gica (seccions, t´
o ıtols, etc.)
16
17. Formats de text /9
El problema wysiwyg:
Si fem aix`, i m´s endavant volem canviar el tipus de lletra dels
o e
t´
ıtols de secci´ o de les paraules estrangeres. . .
o
. . . ens toca canviar-los un per un!
Resultat: “el que veus ´s tot el que tens”
e
Podem evitar-ho? S´
ı.
17
18. Formats de text /10
Com? Usant estils.
Marquem estructuralment les parts (elements): t´
ıtol de segon
nivell, text emfatitzat, exemple, etc.
I despr´s assignem un estil de presentaci´ a cada part (per exem-
e o
ple, els t´
ıtols de segon nivell pode anar numerats autom`ticament
a
i en Helv`tica de 14 punts, l’`mfasi pot ser en negreta i l’exemple
e e
en cursiva)
Canviar la presentaci´ de totes les aparicions d’un element ´s
o e
f`cil: nom´s cal canviar l’estil associat a l’element.
a e
18
19. Formats de text /11
En aplicacions d’internet, la separaci´ estructura–presentaci´ es
o o
fa aix´
ı:
• La informaci´ —el contingut— s’estructura usant XML o
o
HTML
• La presentaci´ es genera (en el servidor o en el navegador)
o
usant fulls d’estil escrits en CSS o en XSL
19
20. Formats de text /12
Processador
document (XML o HTML) →
de fulls → presentaci´
o
full d’estil (XSL o CSS) →
d’estil
20
21. Formats de text /13
Accessibilitat (no tots els receptors s´n vidents):
o
Document XML
? ? ?
Full d’estil 1 Full d’estil 2 Full d’estil 3
? ? ?
Ò H
Fitxer de so Document Braille Document per a m`bils
o
21
22. Formats de text /14
Els sistemes de TA han de ser capa¸os:
c
• De separar del text a traduir la informaci´ de format;
o
• de reintegrar adequadament la informaci´ de format al text
o
despr´s de traduir-lo;
e
• i, idealment, d’usar la informaci´ de format per a decidir
o
quines parts cal traduir.
La preservaci´ del format estalvia temps a la persona traduc-
o
tora/correctora (que es concentra en la part ling¨´
uıstica de la
faena).
22
23. Com funciona la TA? /1
Primera aproximaci´ [!!]: Traduir textos ´s traduir oracions.
o e
Traduir oracions suposa:
• Construir una interpretaci´ (un significat) a partir de l’oraci´
o o
en LO.
• Construir una oraci´ en LM a partir de la interpretaci´.
o o
23
24. Com funciona la TA? /2
Principi de composicionalitat [sem`ntica]:
a
La interpretaci´ d’una oraci´ es construeix . . .
o o
. . . a partir de les interpretacions dels mots . . .
Escriuen cartes = Escriuen articles
. . . component-les seguint les agrupacions indicades per l’estruc-
tura sint`ctica de l’oraci´.
a o
Israel amena¸a Palestina = Palestina amena¸a Israel
c c
25
25. Com funciona la TA? /3
Per` alerta! Les oracions poden ser ambig¨es (´s a dir, tenir
o u e
m´s d’una interpretaci´):
e o
• perqu` els mots tenen m´s d’una interpretaci´ (ambig¨itat
e e o u
l`xica)
e
• perqu` l’oraci´ t´ m´s d’una possible an`lisi sint`ctica (am-
e o e e a a
big¨itat sint`ctica)
u a
• per ambdues coses alhora.
(en veurem exemples m´s endavant)
e
Elegir la interpretaci´ correcta no ´s trivial per a un sistema
o e
inform`tic (normalment nom´s pot usar part del cotext).
a e
25
26. Com funciona la TA? /4
Esquem`ticament:
a
Oraci´
o Oraci´
o
→ interpretaci´
o →
LO LM
En alguns sistemes de TA s’intenta representar directament les
interpretacions amb una interlingua (un llenguatge estructurat
artificial).
26
27. Com funciona la TA? /5
Per`... els traductors professionals realment necessiten interpre-
o
tar o comprendre completament una oraci´ per a traduir-la?
o
“... interacciones independientes del esp´ en unidades de la
ın
secci´n eficaz del neutrino de Dirac...” →
o
“... interaccions independents de l’esp´ en unitats de la secci´
ın o
efica¸ del neutr´ de Dirac...”
c ı
“. . . tornillos que unen el volante de inercia al ´rbol de levas →
a
“. . . caragols que uneixen el volant d’in`rcia a l’arbre de lleves
e
...”
No: Transformen estructures o patrons i substitueixen el l`xic
e
(parant especial esment al terminol`gic).
o
27
28. Com funciona la TA? /6
Aix` permet fer la segona aproximaci´ [!!]:
o o
La majoria dels sistemes de TA no construeixen completa-
ment la interpretaci´, . . .
o
. . . sin´ que transformen l’estructura sint`ctica de l’oraci´ en
o a o
LO en una estructura sint`ctica v`lida per a l’oraci´ en LM
a a o
i. . .
. . . substitueixen els mots de l’oraci´ en LO per equivalents
o
adequats en LM. . .
. . . fent les dues operacions bastant independentment.
28
29. Com funciona la TA? /7
Per a programar un sistema de TA cal formular tots els proces-
sos de traducci´ de forma expl´
o ıcita i mecanitzable (ad´u “intu¨ o
e ıci´
ling¨´
uıstica”!).
A m´s, la mecanitzaci´ ha de ser eficient (programes r`pids i
e o a
compactes) i s’ha de dur a terme en un temps raonable:
• Aix` exigeix una reflexi´ ling¨´
o o uıstica (traductol`gica) sobre els
o
processos de traducci´ per part dels dissenyadors del sistema.
o
• A m´s, pot comportar m´s aproximacions, simplificacions,
e e
compromisos i sacrificis.
29
30. Com funciona la TA? /8
Per tant...
Podem esperar que un bon sistema de TA ens allibere de la part
m´s mec`nica (mecanitzable) de la tasca de traducci´.
e a o
Per` no podem esperar —per bo que siga— que comprenga el
o
text, resolga les ambig¨itats sempre correctament i produ¨
u ısca
textos en una variant genu¨ de la llengua meta.
ına
30
31. Per qu` ´s dif´ la TA? /1
e e ıcil
Els quatre problemes de la traducci´ autom`tica (Arnold 2003):
o a
1. El problema de l’an`lisi
a
2. El problema de la s´
ıntesi
3. El problema de la transfer`ncia
e
4. El problema de la descripci´
o
31
32. Per qu` ´s dif´ la TA? /2
e e ıcil
El problema de l’an`lisi: La forma no determina completament
a
el contingut (la interpretaci´). Tamb´ s’anomena ambig¨itat:
o e u
• Portaven not´
ıcies de Gr`cia (tema o proced`ncia?)
e e
• Ha venut les taronges que ha comprat a Joan (Joan ven o
compra?)
• Treballa en l’estudi que li han encarregat (prepara un docu-
ment o dissenya un taller d’artista?)
32
33. Per qu` ´s dif´ la TA? /3
e e ıcil
El problema de la s´ıntesi: El contingut no determina comple-
tament la forma (hi ha m´s d’una manera de dir el mateix en
e
qualsevol llengua):
• Quina hora ´s?
e
• Com ´s de tard? (de: Wie sp¨t ist es?)
e a
• Quines hores s´n (pt: Que horas s˜o?
o a
Els expedients s’obrin o s’inicien?
Les sessions es clouen, es tanquen, es rematen o s’alcen?
33
34. Per qu` ´s dif´ la TA? /4
e e ıcil
El problema de la transfer`ncia: Les lleng¨es divergeixen. Es
e u ´
a dir, hi ha difer`ncies irreductibles en la manera en que el mateix
e
contingut s’expressa en lleng¨es diferents:
u
• ca: M’agrada nadar (M’ objecte, agrada, verb, nadar sub-
jecte)
• en: I like swimming (I subjecte, like verb, swimming objecte)
• de: Ich schwimme gern (Ich subjecte, schwimme, verb, gern,
adverbi)
Totes volen dir produir plaer(agent=nadar(agent=jo),destinatari=jo)
34
35. Per qu` ´s dif´ la TA? /5
e e ıcil
El problema de la descripci´ (represa): construir un sistema de
o
traducci´ autom`tica comporta la gesti´ d’una gran quantitat de
o a o
coneixement, que s’ha d’elicitar, aplegar, descriure, i representar
en una forma ´til i computable.
u
35
36. Avaluaci´ de la traducci´ autom`tica /1
o o a
Volem avaluar l’adopci´ d’un sistema de traducci´ autom`tica
o o a
per a la disseminaci´.
o
Les traduccions en brut s’hauran de posteditar (corregir): com
menys correccions, m´s qualitat: millor.
e
D’acord: com avaluem la qualitat?
36
37. Avaluaci´ de la traducci´ autom`tica /2
o o a
Per avaluar la qualitat, cal:
• elegir una mostra suficient de textos representatius,
• traduir-la autom`ticament,
a
• i comptar la quantitat de correcci´ m´
o ınima necess`ria per a
a
fer que la traducci´ siga adequada al prop`sit previst.
o o
Sembla senzill, per`...
o
37
38. Avaluaci´ de la traducci´ autom`tica /3
o o a
...no ho ´s gens!
e
• ´s dif´ elegir prou text representatiu per endavant;
e ıcil
• la noci´ d’adequaci´ ´s de vegades dif´ d’especificar:
o o e ıcil
• ´s dif´ fer el m´
e ıcil ınim de correccions (cal buscar traduccions
adequades que se n’obtinguen amb poques correccions);
• tot el proc´s ´s molt cost´s (temps de correcci´).
e e o o
38
39. Avaluaci´ de la traducci´ autom`tica /4
o o a
Per` la qualitat dels textos tradu¨ en brut no ho ´s tot!
o ıts e
Fem un pressupost: si adoptem la traducci´ autom`tica,
o a
d’una banda, ens estalviem els costos de traducci´ humana,
o
per` tenim despeses noves:
o
• despeses de funcionament i
• despeses de formaci´ (s’ha d’aprendre a usar una nova tec-
o
nologia)
39
40. Avaluaci´ de la traducci´ autom`tica /5
o o a
Despeses de funcionament:
• Cost del sistema de TA (cost efectiu per mot): amortit-
zaci´ (sistema en propietat), cost per mot (sistema llogat),
o
servei t`cnic i manteniment, costos de migraci´ (adaptaci´
e o o
de programes, adquisici´ de sistemes), i (no oblidem) el cost
o
d’avaluaci´!
o
• Cost de preedici´ i preparaci´: cal preparar i potser pree-
o o
ditar els textos i aix` ho ha de fer alg´, cobrant.
o u
• Cost de postedici´: dep´n de la qualitat; pot baixar amb
o e
la formaci´; dep´n de com paguem als posteditors (per mot,
o e
per temps), etc.
40
41. Avaluaci´ de la traducci´ autom`tica /6
o o a
Despeses de formaci´:
o
• Formaci´ en ´s del programa de TA: ´s pr`piament dit,
o u u o
configuraci´ i manteniment; ´s de nou programari associat.
o u
• Formaci´ en postedici´:
o o
– coneixement del programa de TA (errors t´
ıpics);
– t`cniques de correcci´, ´s avan¸at del processador de tex-
e o u c
tos, macroinstruccions, substituci´ de patrons, etc.
o
41
42. Avaluaci´ de la traducci´ autom`tica /7
o o a
I potser ens hem deixat encara alguna cosa!
Avaluar la traducci´ autom`tica no ´s f`cil.
o a e a
La lli¸`? Desconfieu de les primeres impressions.
co
42
43. TA de p`gines web/1
a
La traducci´ autom`tica de p`gines web ´s com la TA d’altres
o a a e
documents de text, per` hi ha algunes difer`ncies:
o e
• les p`gines web s´n hipertextos: contenen enlla¸os a d’altres
a o c
p`gines web
a
• de vegades s´n actives: contenen programes que s’executen
o
durant la presentaci´
o
• de vegades s´n din`miques: el servidor no les t´ guardades
o a e
sin´ que les genera autom`ticament quan se sol·liciten
o a
43
44. TA de p`gines web/2
a
Dos usos b`sics de la TA de p`gines web:
a a
• Disseminaci´: TA per a construir i mantenir servidors d’in-
o
ternet multiling¨es
u
• Assimilaci´: TA durant la navegaci´ (”navegaci´ tradu¨
o o o ıda”),
en el client, en el servidor que cont´ la informaci´, o en un
e o
altre servidor (p.e., interNOSTRUM)
44
45. TA de p`gines web/3
a
Els requisits s´n diferents en cada cas:
o
• Disseminaci´: la TA ha de ser de qualitat, potser seguida de
o
postedici´ (la web tradu¨ ´s percebuda com a definitiva)
o ıda e
• Assimilaci´: la TA ha de ser molt r`pida, “instant`nia”, com
o a a
si formara part del proc´s de presentaci´ de la traducci´: la
e o o
qualitat no ´s tan crucial (la traducci´ ´s percebuda com a
e o e
provisional)
45
46. Un inc´ el format de les p`gines web/1
ıs: a
Les p`gines web s´n documents especials:
a o
• La majoria de les p`gines web estan escrites en (algun dialec-
a
te no est`ndard de) HTML (HyperText Markup Language,
a
“llenguatge de marques per a hipertextos”).
• HTML cont´, a m´s de text senzill, marques per a controlar
e e
la presentaci´ i per a enlla¸ar altres documents.
o c
• Quan editem amb programes especialitzats (Composer, Front-
page, Dreamweaver, etc.) no veiem les marques sin´ l’apa-
o
ren¸a aproximada del document.
c
La transpar`ncia seg¨ent cont´ un exemple.
e u e
46
47. Un inc´ el format de les p`gines web/2
ıs: a
<HTML>
<HEAD>
<TITLE>T´tol del document</TITLE>
ı
</HEAD>
<BODY>
<H1>Encap¸alament de nivell 1</H1>
c
<H2>Encap¸alament de nivell 2</H2>
c
<P>Aquest ´s el <EM>primer</EM> par`graf
e a
d’aquest document. El navegador decideix com dividir-lo
en l´nies per a presentar-lo. Idealment, hauria
ı
d’acabar amb una marca de final de par`graf.</P>
a
<H2>Un altre encap¸alament de nivell 2</H2>
c
<P>Aquest ´s l’<EM>´ltim</EM> par`graf
e u a
d’aquest document HTML. Els documents HTML poden contenir
<A HREF=quot;http://www.internostrum.comquot;>enlla¸os</A>
c
a altres documents HTML, locals o remots.</P>
</BODY>
</HTML>
47
48. Un inc´ el format de les p`gines web/3
ıs: a
Encap¸alament de nivell 1
c
Encap¸alament de nivell 2
c
Aquest ´s el primer par`graf d’aquest document. El navegador decideix com
e a
dividir-lo en l´
ınies per a presentar-lo. Idealment, hauria d’acabar amb una
marca de final de par`graf.
a
Un altre encap¸alament de nivell 2
c
Aquest ´s l’´ltim par`graf d’aquest document HTML. Els documents HTML
e u a
poden contenir enlla¸os a d’altres documents HTML, locals o remots.
c
48
49. TA de p`gines web (represa)/4
a
Traduir un document HTML comporta:
• Identificar les porcions del document que corresponen a text
que ha de ser llegit i traduir-les;
• Adaptar els enlla¸os a la nova situaci´ (potser ja no poden
c o
enlla¸ar el mateix document!).
c
L’adaptaci´ d’enlla¸os dep´n de la situaci´.
o c e o
49
50. TA de p`gines web /5
a
Els enlla¸os contenen URIs (adreces d’altres documents):
c
Podeu visitar tamb´ els nostres
e
<a href=quot;http://www.servidor.ct/es/prod/ta.htmlquot;>
productes</a>.
50
51. TA de p`gines web/6
a
Una miradeta als URIs dels enlla¸os:
c
http://www.servidor.ct/es/prod/ta.html
L’URI (localitzador) indica:
• L’esquema (http: protocol de transfer`ncia d’hipertext)
e
• El nom de la m`quina que fa de servidor (www.servidor.ct).
a
• La ruta que identifica el recurs concret (/es/prod/ta.html)
dins del servidor
51
52. TA de p`gines web/7
a
Traduir suposa adaptar els URIs dels enlla¸os. Per exemple,
c
en un servidor biling¨e espanyol–catal`, si un enlla¸ des d’una
u a c
p`gina en espanyol apunta a l’URI
a
http://www.servidor.ct/es/prod/ta.html
La traducci´ catalana hauria d’apuntar a l’URI:
o
http://www.servidor.ct/ca/prod/ta.html
52
53. TA de p`gines web/8
a
Per` el text mateix de les p`gines web cont´ de vegades material
o a e
especial que no cal traduir:
• URIs: www.pujol.com (no ´s “www.colina.como”)
e
• Adreces de correu electr`nic: andreu.fuster@correu.com (no
o
´s “andr´s.carpintero@correo.como”)
e e
53
54. TA de p`gines web/9: p`gines generades al ser-
a a
vidor
Moltes vegades els documents HTML no s´n al disc dur, sin´
o o
que s´n generats per un programa que s’executa en el servidor
o
durant la navegaci´.
o
Possiblement es generen p`gines diferents per a cada perfil de
a
visitant.
Els detalls de la traducci´ d’aquest tipus de documents queden
o
fora de l’abast d’aquest curs, per` presenten reptes considera-
o
bles.
54
55. Webs preparades per a la TA: aspectes ling¨´
uıstics/1
Si preveiem que una web ha de ser tradu¨ ıda autom`ticament a
a
una altra llengua, podem preparar el text origen.
Con´ixer el sistema concret de TA ens pot ajudar a evitar els
e
mots o les construccions que donen lloc a problemes.
La noci´ ´s coneguda de fa temps i s’anomena llenguatge con-
o e
trolat.
55
56. Webs preparades per a la TA: aspectes ling¨´
uıstics/2
Alguns consells independents de l’idioma:
• Fer p`gines i par`grafs curts.
a a
• No usar textos en gr`fics (imatges), sin´ icones.
a o
• Usar estructures gramaticals senzilles.
• Usar vocabulari b`sic (freq¨ent, quotidi`), per`. . .
a u a o
• Evitar els mots polis`mics i els hom`grafs (hom`nims).
e o o
• Evitar les abreviatures.
56
57. Webs preparades per a la TA: aspectes ling¨´
uıstics/3
M´s consells independents de l’idioma:
e
• No usar el format per a transmetre informaci´ crucial; millor
o
usar text.
• Repassar l’ortografia.
• Evitar les expressions idiom`tiques (no `bviament composi-
a o
cionals).
57
58. Mem`ries de traducci´/1
o o
Els traductors (humans) han generat molt´
ıssimes traduccions.
Hi ha a l’abast nombrosos textos electr`nics biling¨es on la versi´
o u o
en un idioma ´s una bona traducci´ de la versi´ en l’altre i
e o o
viceversa.
No es podria aprofitar aquest treball per a traduir documents
nous (reciclatge autom`tic de traduccions?) → Alternativa a la
a
traducci´ autom`tica.
o a
58
59. Mem`ries de traducci´ /2
o o
Per a aprofitar aquests bitextos cal:
• Alinear-los (indicar quines parts s´n traducci´ de quines);
o o
• Segmentar-los en unitats de traducci´ (UT);
o
• Organitzar les UT en una base de dades eficient.
Totes aquestes tasques, tan autom`ticament com siga possible.
a
59
60. Mem`ries de traducci´/3
o o
Esquema del proc´s de segmentaci´ i d’alineament d’un parell
e o
de textos existent per a alimentar una mem`ria de traducci´.
o o
segmen-
text esquerre E → → alineador- Mem`ria
o
taci´
o UTs
corrector → → de tra-
segmen- (e, d)
text dret D → → assistit ducci´
o
taci´
o
60
61. Mem`ries de traducci´/4
o o
Per a traduir textos nous cal:
• Segmentar-los en unitats que puguen correspondre amb les
UT existents
• Substituir els segments trobats per les traduccions correspo-
nents.
Aquest ´s el fonament de les mem`ries de traducci´.
e o o
61
62. Mem`ries de traducci´/5
o o
Esquema del proc´s de pretraducci´ d’un nou text esquerre E
e o
usant una mem`ria de traducci´.
o o
text dret
text esquerre E → segmentaci´ →
o pretraducci´
o → pretradu¨ i
ıt
segmentat
↑↓ UTs
Mem`ria de
o
traducci´
o
62
63. Mem`ries de traducci´/6
o o
Alguns productes comercials (preus de 600 euros cap amunt):
• D´j` Vu d’Atril (http://www.atril.com/ca/)
ea
• Transit de Star (http://www.star-transit.com/es/)
• Trados (www.trados.com)
• SDLX (www.sdlintl.com)
Solen contenir, a m´s de la mem`ria de traducci´, altres ´tils
e o o u
com ara bases de dades l`xiques (“terminol`giques”), etc. Hi ha
e o
productes Open Source com ara OmegaT.
63
64. Mem`ries de traducci´/7
o o
Quan funcionen b´ les mem`ries de traducci´?
e o o
• Quan tenim moltes traduccions alineades en la mem`ria
o
• Quan els tipus de textos a traduir s´n molt repetitius
o
• Quan la terminologia i la fraseologia s´n estables en la mem`ria
o o
Per`:
o
• sempre cal revisar la pretraducci´
o
• A canvi: la pretraducci´ revisada es pot afegir ja a la mem`ria
o o
de traducci´ per usar-la en el futur.
o
64
65. Mem`ries de traducci´/8
o o
Sobre la segmentaci´:
o
• Els programes de MT segmenten els textos en “oracions”
usant la puntuaci´ i el format.
o
• A canvi, troben en la mem`ria segments aproximats a m´s
o e
dels id`ntics (i produeixen traduccions aproximades).
e
• Hi ha (des de 1998) un format est`ndard internacional de
a
MT independent del programa: TMX (Translation Memory
eXchange), que permet l’intercanvi de mem`ries entre equips
o
de traducci´.
o
65