10. Lucia Specia (USFD) Evaluation of Machine Translation

Translation quality

Manual metrics

Task-based metrics

Reference-based metrics

Quality estimation

Translation Quality Assessment:
Evaluation and Estimation
Lucia Specia
University of Sheﬃeld
l.specia@sheffield.ac.uk

EXPERT Winter School, 12 November 2013

Translation Quality Assessment: Evaluation and Estimation

1 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Overview

“Machine Translation evaluation is better understood than
Machine Translation”
(Carbonell and Wilks, 1991)


2 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Outline
1

Translation quality

2

Manual metrics

3

Task-based metrics

4


5

Quality estimation

6

Conclusions


3 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Outline
1

Translation quality

2

Manual metrics

3

Task-based metrics

4


5

Quality estimation

6

Conclusions

4 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Why is evaluation important?

Compare MT systems
Measure progress of MT systems over time
Diagnose of MT systems
Assess (and pay) human translators
Quality assurance
Tuning of SMT systems
Decision on ﬁtness-for-purpose
...


5 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Why is evaluation hard?
What does quality mean?
Fluent?
Adequate?
Easy to post-edit?


6 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Why is evaluation hard?
What does quality mean?
Fluent?
Adequate?
Easy to post-edit?

Quality for whom/what?
End-user: gisting (Google Translate), internal
communications, or publication (dissemination)
MT-system: tuning or diagnosis
Post-editor: draft translations (light vs heavy
post-editing)
Other applications, e.g. CLIR


6 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Overview
Ref: Do not buy this product, it’s their craziest invention!
MT: Do buy this product, it’s their craziest invention!


7 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Overview
Severe if end-user does not speak source language
Trivial to post-edit by translators


7 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Overview

Ref: The battery lasts 6 hours and it can be fully recharged
in 30 minutes.
MT: Six-hour battery, 30 minutes to full charge last.


7 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Overview

Ref: The battery lasts 6 hours and it can be fully recharged
in 30 minutes.
MT: Six-hour battery, 30 minutes to full charge last.
Ok for gisting - meaning preserved
Very costly for post-editing if style is to be preserved

7 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Overview
How do we measure quality?
Manual metrics:
Error counts, ranking, acceptability, 1-N judgements on
ﬂuency/adequacy
Task-based human metrics: productivity tests
(HTER, PE time, keystrokes), user-satisfaction, reading
comprehension


8 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Overview
How do we measure quality?
Manual metrics:
Error counts, ranking, acceptability, 1-N judgements on
ﬂuency/adequacy
Task-based human metrics: productivity tests
(HTER, PE time, keystrokes), user-satisfaction, reading
comprehension

Automatic metrics:
Based on human references: BLEU, METEOR, TER, ...
Reference-less: quality estimation


8 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Outline
1

Translation quality

2

Manual metrics

3

Task-based metrics

4


5

Quality estimation

6

Conclusions

9 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Judgements in an n-point scale
Adequacy using 5-point scale (NIST-like)
5 All meaning expressed in the source fragment appears in
the translation fragment.
4 Most of the source fragment meaning is expressed in the
translation fragment.
3 Much of the source fragment meaning is expressed in the
2 Little of the source fragment meaning is expressed in the
1 None of the meaning expressed in the source fragment is
expressed in the translation fragment.


10 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Fluency using 5-point scale (NIST-like)
5 Native language fluency. No grammar errors, good
word choice and syntactic structure in the translation
fragment.
4 Near native language fluency. Few terminology or
grammar errors which don’t impact the overall
understanding of the meaning.
3 Not very fluent. About half of translation contains
errors.
2 Little fluency. Wrong word choice, poor grammar and
syntactic structure.
1 No fluency. Absolutely ungrammatical and for the most
part doesn’t make any sense.

11 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Issues:
Subjective judgements
Hard to reach signiﬁcant agreement
Is it realible at all?
Can we use multiple annotators?


12 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Issues:
Subjective judgements
Hard to reach signiﬁcant agreement
Is it realible at all?
Can we use multiple annotators?

Are ﬂuency and adequacy really separable?
Ref: Absolutely ungrammatical and for the most part doesn’t
make any sense.
MT: Absolutely sense doesn’t ungrammatical for the and most
make any part.


12 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Ranking
WMT-13 Appraise tool: rank translations best-worst (w. ties)


13 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Ranking
Issues:
Subjective judgements: what does “best” mean?
Hard to judge for long sentences


14 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Ranking
Issues:
Ref: The majority of existing work focuses on predicting some
form of post-editing effort to help professional translators.
MT1: Few of the existing work focuses on predicting some form
of post-editing effort to help professional translators.
MT2: The majority of existing work focuses on predicting some
form of post-editing effort to help machine translation.


14 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Ranking
Issues:
Ref: The majority of existing work focuses on predicting some
form of post-editing effort to help professional translators.
MT1: Few of the existing work focuses on predicting some form
of post-editing effort to help professional translators.
MT2: The majority of existing work focuses on predicting some
form of post-editing effort to help machine translation.

Only serve for comparison purposes - the best system
might not be good enough
Absolute evaluation can do both

14 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Error counts
More ﬁne-grained
Aimed at diagnosis of MT systems, quality control of
human translation.


15 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Error counts
More ﬁne-grained
Aimed at diagnosis of MT systems, quality control of
human translation.
E.g.: Multidimensional Quality Metrics (MQM)
Machine and human translation quality
Takes quality of source text into account
Actual metric is based on a speciﬁcation


15 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

MQM
Issues selected based on a given speciﬁcation (dimensions):
Language/locale
Subject ﬁeld/domain
Text Type
Audience
Purpose
Register
Style
Content correspondence
Output modality, ...


16 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

MQM
Issue types (core):

Altogether: 120 categories


17 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

MQM

Issue types: http://www.qt21.eu/launchpad/content/
high-level-structure-0
Combining issue types:
TQ = 100 − AccP − (FluPT − FluPS ) − (VerPT − VerPS )


18 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

MQM

Issue types: http://www.qt21.eu/launchpad/content/
high-level-structure-0
Combining issue types:
TQ = 100 − AccP − (FluPT − FluPS ) − (VerPT − VerPS )

translate5: open source graphical (Web) interface for inline
error annotation: www.translate5.net


18 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

MQM


19 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Error counts

Issues:
Time consuming
Requires training, esp. to distinguish between
fine-grained error types
Different errors are more relevant for different
specifications: need to select and weight them accordingly


20 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Outline
1

Translation quality

2

Manual metrics

3

Task-based metrics

4


5

Quality estimation

6

Conclusions

21 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Post-editing
Productivity analysis: Measure translation quality within
task. E.g. Autodesk - Productivity test through post-editing
2-day translation and post-editing , 37 participants
In-house Moses (Autodesk data: software)
Time spent on each segment


22 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Post-editing
PET: Records time, keystrokes, edit distance


23 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Post-editing - PET


24 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Post-editing - PET


25 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Post-editing - PET
How often post-editing (PE) a translation tool output is
faster than translating from scratch (HT):
System
Google
Moses
Systran
Trados

Faster than HT
94%
86.8%
81.20%
72.40%


26 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Post-editing - PET
How often post-editing (PE) a translation tool output is
faster than translating from scratch (HT):
System
Google
Moses
Systran
Trados

Faster than HT
94%
86.8%
81.20%
72.40%

Comparing the time to translate from scratch with the time
to PE MT, in seconds:
Annotator
Average
Deviation

HT (s)
31.89
9.99

PE (s)
18.82
6.79

HT/PE
1.73
0.26


PE/HT
0.59
0.09
26 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

User satisfaction
Solving a problem: E.g.: Intel measuring user satisfaction
with un-edited MT
Translation is good if customer can solve problem


27 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

User satisfaction
with un-edited MT
MT for Customer Support websites
Overall customer satisfaction: 75% for English→Chinese
95% reduction in cost
Project cycle from 10 days to 1 day
From 300 to 60,000 words translated/hour


27 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

User satisfaction
with un-edited MT
MT for Customer Support websites
Overall customer satisfaction: 75% for English→Chinese
95% reduction in cost
Project cycle from 10 days to 1 day
From 300 to 60,000 words translated/hour
Customers in China using MT texts were more satisﬁed
with support than natives using original texts (68%)!


27 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Reading comprehension
Defense language proﬁciency test (Jones et al., 2005):


28 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation



29 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation


MT quality: function of
1

2

Text passage comprehension, as measured by answers
accuracy, and
Time taken to complete a test item (read a passage +
answer its questions)

29 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Compared to Human Translation (HT):


30 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Compared to Human Translation (HT):


31 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Task-based metrics

Issues:
Final goal needs to be very clear
Can be more cost/time consuming
Final task has to have a meaningful metric
Other elements may aﬀect the ﬁnal quality measurement
(e.g. Chinese vs. Americans)


32 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Outline
1

Translation quality

2

Manual metrics

3

Task-based metrics

4


5

Quality estimation

6

Conclusions

33 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Automatic metrics

Compare output of an MT system to one or more
reference (usually human) translations: how close is the
MT output to the reference translation?
Numerous metrics: BLEU, NIST, etc.
Advantages:
Fast and cheap, minimal human labour, no need for
bilingual speakers
Once test set is created, can be reused many times
Can be used on an on-going basis during system
development to test changes


34 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Automatic metrics

Disadvantages:
Very few metrics look at variable ways of saying the
same thing (word-level): stems, synonyms, paraphrases
Individual sentence scores are not very reliable,
aggregate scores on a large test set are required


35 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Automatic metrics

Disadvantages:
Very few of these metrics penalise diﬀerent
mismatches diﬀerently


35 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Automatic metrics

Disadvantages:
Very few of these metrics penalise diﬀerent
mismatches diﬀerently
Reference translations are only a subset of the
possible good translations


35 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

String matching
BLEU: BiLingual Evaluation Understudy
Most widely used metric, both for MT system
evaluation/comparison and SMT tuning
Matching of n-grams between MT and Ref: rewards
same words in equal order
#clip(g ) count of reference n-grams g which happen in a
hypothesis sentence h clipped by the number of times g
appears in the reference sentence for h; #(g ) = number
of n-grams in hypotheses
n-gram precision pn for a set of MT translations H =
pn =

h∈H
h∈H

g ∈ngrams(h)

#clip(g )

g ∈ngrams(h)


#(g )
36 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

BLEU
Combine (mean of the log) 1-n n-gram precisions
log pn
n


37 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

BLEU
log pn
n

Bias towards translations with fewer words (denominator)
Brevity penalty to penalise MT sentences that are
shorter than reference
Compares the overall number of words wh of the entire
hypotheses set with ref length wr :

BP =

1
e (1−wr /wh )


if wh ≥ wr
otherwise

37 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

BLEU
log pn
n

Bias towards translations with fewer words (denominator)
Brevity penalty to penalise MT sentences that are
shorter than reference
Compares the overall number of words wh of the entire
hypotheses set with ref length wr :

BP =

1
e (1−wr /wh )

if wh ≥ wr
otherwise

BLEU = BP ∗ exp

log pn
n


37 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

BLEU
Scale: 0-1, but highly dependent on the test set
Rewards ﬂuency by matching high n-grams (up to 4)
Adequacy rewarded by unigrams and brevity penalty –
poor model of recall
Synonyms and paraphrases only handled if they are in
any of the reference translations
All tokens are equally weighted: missing out on a
content word = missing out on a determiner
Better for evaluating changes in the same system than
comparing diﬀerent MT architectures


38 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

BLEU

Not good at sentence-level, unless smoothing is applied:
Ref: the Iraqi weapons are to be handed over to the army
within two weeks
MT: in two weeks Iraq’s weapons will give army
1-gram precision:
2-gram precision:
3-gram precision:
4-gram precision:
BLEU = 0

4/8
1/7
0/6
0/5


39 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

BLEU
Importance of clipping and brevity penalty
Ref1: the Iraqi weapons are to be handed over to the army
within two weeks
Ref2: the Iraqi weapons will be surrendered to the army in two
weeks
MT: the the the the
Count for the should be clipped at 2: max count of the
word in any reference. Unigram score = 2/4 (not 4/4)


40 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

BLEU
Importance of clipping and brevity penalty
Ref1: the Iraqi weapons are to be handed over to the army
within two weeks
Ref2: the Iraqi weapons will be surrendered to the army in two
weeks
MT: the the the the
Count for the should be clipped at 2: max count of the
word in any reference. Unigram score = 2/4 (not 4/4)
MT: Iraqi weapons will be
1-gram precision: 4/4
Precision (pn ) = 1

Precision score penalised because h < r

40 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

String matching
BLEU:


41 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Edit distance
WER: Word Error Rate:
Levenshtein edit distance
Minimum proportion of insertions, deletions, and
substitutions needed to transform an MT sentence into
the reference sentence
Heavily penalises reorderings: correct translation in the
wrong location: deletion + insertion
S +D +I
WER =
N
PER: Position-independent word Error Rate:
Does not penalise reorderings: output and reference
sentences are unordered sets

42 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Edit distance: TER
TER: Translation Error Rate
Adds shift operation


43 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Edit distance: TER
REF:
SAUDI ARABIA denied this week
information published in the AMERICAN new york times
HYP: [this week] the saudis denied
information published in the *****


new york times

43 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Edit distance: TER
REF:

new york times

1 Shift, 2 Substitutions, 1 Deletion → 4 Edits:
4
TER = 13 = 0.31


43 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Edit distance: TER
REF:

new york times

1 Shift, 2 Substitutions, 1 Deletion → 4 Edits:
4
TER = 13 = 0.31
Human-targeted TER (HTER)
TER between MT and its post-edited version

43 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Edit distance: TER
TER:


44 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Alignment-based
METEOR:
Unigram Precision and Recall
Align MT output with reference. Take best scoring pair
for multiple refs.
Matching considers word inﬂection variations (stems),
synonyms/paraphrases
Fluency addressed via a direct penalty: fragmentation of
the matching
METEOR score = F-mean score discounted for
fragmentation = F-mean * (1 - DF)


45 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

METEOR
Example:
within two weeks


46 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

METEOR
Example:
within two weeks
Matching:
Ref: Iraqi weapons army two weeks
MT two weeks Iraq’s weapons army


46 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

METEOR
Example:
within two weeks
Matching:
P = 5/8 =0.625
R = 5/14 = 0.357
F-mean = 10*P*R/(9P+R) = 0.3731


46 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

METEOR
Example:
within two weeks
Matching:
P = 5/8 =0.625
R = 5/14 = 0.357
F-mean = 10*P*R/(9P+R) = 0.3731
Fragmentation: 3 frags of 5 words = (3)/(5) = 0.6
Discounting factor: DF = 0.5 * (0.6**3) = 0.108
METEOR: F-mean * (1 - DF) = 0.373 * 0.892 = 0.333

46 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Others
WMT shared task on metrics:
TerroCat
DepRef
MEANT and TINE
TESLA
LEPOR
ROSE
AMBER
Many other linguistically motivated metrics where
matching is not done at the word-level (only)
...

47 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Outline
1

Translation quality

2

Manual metrics

3

Task-based metrics

4


5

Quality estimation

6

Conclusions

48 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Overview
Quality estimation (QE): metrics that provide an
estimate on the quality of unseen translations


49 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Overview
No access to reference translations
Quality deﬁned by the data


49 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Overview
Quality = Can we publish it as is?


49 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Overview
Quality = Can a reader get the gist?


49 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Overview
Quality = Is it worth post-editing it?


49 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Overview
Quality = Is it worth post-editing it?
Quality = How much eﬀort to ﬁx it?

49 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Framework

X: examples of
source &
translations

Feature
extraction

Y: Quality
scores for
examples in X


Features

Machine
Learning

QE model

50 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Framework

MT system

Translation
for xt'
Feature
extraction

Source
Text xs'
Features

Quality score
y'


QE model

50 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Framework

Main components to build a QE system:
1
Deﬁnition of quality: what to predict
2
(Human) labelled data (for quality)
3
Features
4
Machine learning algorithm


51 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Definition of quality

Predict
Predict
Predict
Predict
Predict
Predict
Predict
Predict

1-N absolute scores for adequacy/fluency
1-N absolute scores for post-editing effort
average post-editing time per word
relative rankings
relative rankings for same source
percentage of edits needed for sentence
word-level edits and its types
BLEU, etc. scores for document


52 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Datasets

SHEF (several): http://staffwww.dcs.shef.ac.uk/
people/L.Specia/resources.html
LIG (10K, fr-en): http://www-clips.imag.fr/geod/
User/marion.potet/index.php?page=download
LMSI (14K, fr-en, en-fr, 2 post-editors):
http://web.limsi.fr/Individu/wisniews/
recherche/index.html


53 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Features

Adequacy
indicators

Source text

Complexity
indicators

MT system

Confidence
indicators


Translation

Fluency
indicators

54 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

QuEst
Goal: framework to explore features for QE
Feature extractors for 150+ features of all types: Java
Machine learning: wrappers for a number of algorithms
in the scikit-learn toolkit, grid search, feature selection

Open source:
http://www.quest.dcs.shef.ac.uk/

55 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

State of the art in QE
WMT12-13 shared tasks


56 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Sentence- and word-level estimation of PE eﬀort


56 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Datasets and language pairs:
Quality
1-5 subjective scores
Ranking all sentences best-worst
HTER scores
Post-editing time
Word-level edits: change/keep
Word-level edits: keep/delete/replace
Ranking 5 MTs per source


Year
WMT12
WMT12/13
WMT13
WMT13
WMT13
WMT13
WMT13

Languages
en-es
en-es
en-es
en-es
en-es
en-es
en-es; de-en

56 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Datasets and language pairs:
Quality
1-5 subjective scores
Ranking all sentences best-worst
HTER scores
Post-editing time
Word-level edits: change/keep
Word-level edits: keep/delete/replace
Ranking 5 MTs per source

Evaluation metric:
MAE =

N
i=1

Year
WMT12
WMT12/13
WMT13
WMT13
WMT13
WMT13
WMT13

Languages
en-es
en-es
en-es
en-es
en-es
en-es
en-es; de-en

|H(si ) − V (si )|
N


56 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Baseline system
Features:
number of tokens in the source and target sentences
average source token length
average number of occurrences of words in the target
number of punctuation marks in source and target sentences
LM probability of source and target sentences
average number of translations per source word
% of source 1-grams, 2-grams and 3-grams in frequency
quartiles 1 and 4
% of seen source unigrams


57 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Baseline system
Features:
number of tokens in the source and target sentences
average source token length
average number of occurrences of words in the target
number of punctuation marks in source and target sentences
LM probability of source and target sentences
average number of translations per source word
% of source 1-grams, 2-grams and 3-grams in frequency
quartiles 1 and 4
% of seen source unigrams
SVM regression with RBF kernel with the parameters γ, and C
optimised using a grid-search and 5-fold cross validation on the
training set

57 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Results - scoring sub-task (WMT12)
System ID
• SDLLW M5PbestDeltaAvg
UU best
SDLLW SVM
UU bltk
Loria SVMlinear
UEdin
TCD M5P-resources-only*
Baseline bb17 SVR
Loria SVMrbf
SJTU
WLV-SHEF FS
PRHLT-UPV
WLV-SHEF BL
DCU-SYMC unconstrained
DFKI grcfs-mars
DFKI cfs-plsreg
UPC 1
DCU-SYMC constrained
UPC 2
TCD M5P-all

MAE
0.61
0.64
0.64
0.64
0.68
0.68
0.68
0.69
0.69
0.69
0.69
0.70
0.72
0.75
0.82
0.82
0.84
0.86
0.87
2.09


RMSE
0.75
0.79
0.78
0.79
0.82
0.82
0.82
0.82
0.83
0.83
0.85
0.85
0.86
0.97
0.98
0.99
1.01
1.12
1.04
2.32
58 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Results - scoring sub-task (WMT13)
System ID
• SHEF FS
SHEF FS-AL
CNGL SVRPLS
LIMSI
DCU-SYMC combine
DCU-SYMC alltypes
CMU noB
CNGL SVR
FBK-UEdin extra
FBK-UEdin rand-svr
LORIA inctrain
Baseline bb17 SVR
TCD-CNGL open
LORIA inctraincont
TCD-CNGL restricted
CMU full
UMAC

MAE
12.42
13.02
13.26
13.32
13.45
13.51
13.84
13.85
14.38
14.50
14.79
14.81
14.81
14.83
15.20
15.25
16.97


RMSE
15.74
17.03
16.82
17.22
16.64
17.14
17.46
17.28
17.68
17.73
18.34
18.22
19.00
18.17
19.59
18.97
21.94

59 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Open issues

Agreement between annotators
Absolute value judgements: diﬃcult to achieve
consistency even in highly controlled settings
WMT12: 30% of initial dataset discarded
Remaining annotations had to be scaled


60 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Open issues
Annotation costs: active learning to select subset of
instances to be annotated (Beck et al., ACL 2013)


61 / 66

Conclusions

BL'
AF'
BL+PR'
AF+PR'

09
2 s4
'

09
2 s3
'

0.554'
0.5401'
0.5401'
0.5249'
0.5194'

0.5462'
0.5399'
0.5301'
0.5249'
0.521'

0.5339'
0.5437'
0.5113'
0.5309'
0.506'

0.4614'
0.4741'
0.4493'
0.4609'
0.441'


GA
LE
11
2s2
''

0.4'

0.3591'
0.3578'
0.3401'
0.3409'
0.337'

0.35'

GA
LE
11
2s1
'

T2

EA
M

T2

09
2 s2
'

0.5313'
0.5265'
0.5123'
0.5109'
0.5025'

Task-based metrics

EA
M

T2

09
2 s1
'

0.6'

EA
M

T2

0.4401'
0.4292'
0.4183'
0.4169'
0.411'

Manual metrics

EA
M

'

0.5'

r2e
n)

0.45'
0.4857'
0.4719'
0.449'
0.4471'
0.432'

0.55'

11
'( f

es
)'

0.6821'
0.6717'
0.629'
0.6324'
0.6131'

0.7'

11
'( e
n2

T1
2'

W
M

0.65'

EA
M
T2

T2

EA
M

Translation quality
Quality estimation

Open issues
Curse of dimensionality: feature selection to identify
relevant info for dataset (Shah et al., MT Summit 2013)

0.3'

FS'

62 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Open issues

0.554'
0.5401'
0.5401'
0.5249'
0.5194'

0.5462'
0.5399'
0.5301'
0.5249'
0.521'
0.3591'
0.3578'
0.3401'
0.3409'
0.337'

0.5339'
0.5437'
0.5113'
0.5309'
0.506'

0.4614'
0.4741'
0.4493'
0.4609'
0.441'

0.5'
0.45'

0.4401'
0.4292'
0.4183'
0.4169'
0.411'

0.4857'
0.4719'
0.449'
0.4471'
0.432'

0.6'
0.55'

0.5313'
0.5265'
0.5123'
0.5109'
0.5025'

0.7'
0.65'

0.6821'
0.6717'
0.629'
0.6324'
0.6131'

Curse of dimensionality: feature selection to identify
relevant info for dataset (Shah et al., MT Summit 2013)

0.4'
0.35'

BL'

AF'

BL+PR'

AF+PR'

GA
LE
11
2s2
''

GA
LE
11
2s1
'

09
2 s4
'
EA
M

T2

09
2 s3
'
T2
EA
M

09
2 s2
'
EA
M

T2

09
2 s1
'
T2
EA
M

11
'( f

r2e
n)

'

es
)'
EA
M
T2

11
'( e
n2

EA
M

T2

W
M

T1
2'

0.3'

FS'

Common feature set identiﬁed, but nuanced subsets for
speciﬁc datasets

62 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Open issues
How to use estimated PE eﬀort scores?: Do users prefer
detailed estimates (sub-sentence level) or an overall
estimate for the complete sentence or not seeing bad
sentences at all?
Too much information vs hard-to-interpret scores


63 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Open issues
sentences at all?
IBM’s Goodness metric


63 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Open issues
sentences at all?
IBM’s Goodness metric

MATECAT project investigating it

63 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Outline
1

Translation quality

2

Manual metrics

3

Task-based metrics

4


5

Quality estimation

6

Conclusions

64 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions
(Machine) Translation evaluation & estimation: still an
open problem


65 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions
open problem
Different metrics for: different purposes/users, different
needs, different notions of quality


65 / 66

Conclusions

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Conclusions
open problem
Quality estimation: learning of these diﬀerent notions,
but requires labelled data


65 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Conclusions
open problem
Solution:
Think of what quality means in your scenario
Measure signiﬁcance
Measure agreement if manual metrics


65 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Conclusions
open problem
Solution:
Use various metrics


65 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Conclusions

Conclusions
open problem
Solution:
Use various metrics
Invent your own metric!


65 / 66

Translation quality

Manual metrics

Task-based metrics


Quality estimation

Translation Quality Assessment:
Evaluation and Estimation
Lucia Specia
University of Sheﬃeld
l.specia@sheffield.ac.uk

EXPERT Winter School, 12 November 2013


66 / 66

Conclusions

10. Lucia Specia (USFD) Evaluation of Machine Translation

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (19)

Semelhante a 10. Lucia Specia (USFD) Evaluation of Machine Translation

Semelhante a 10. Lucia Specia (USFD) Evaluation of Machine Translation (20)

Mais de RIILP

Mais de RIILP (20)

Último

Último (20)

10. Lucia Specia (USFD) Evaluation of Machine Translation