SlideShare uma empresa Scribd logo
1 de 38
Baixar para ler offline
The Preparation, Impact and Future
of the META-NET White Paper Series
“Europe’s Languages in the Digital Age”
Georg Rehm
German Research Centre for Artificial Intelligence (DFKI), Germany
Sanskrit and Other Indian Languages Technology (SOIL-Tech)
15 February 2019 – New Dehli, India
META-NET Language White Papers – Past, Present, Future 1
EU-funded project (Seventh Framework Programme) working on
technologies for the Multilingual European Information Society
(2010 – 2013)
T4ME
2010
Conference “Challenges for Multilingual Europe”
(November 17/18, 2010)
META-FORUM 2010
Established in 2010, META-NET is a network of Excellence
consisting of 60 research centres from 34 countries, dedicated to
building the technological foundations of a multilingual European
information society
META-NET
Conference “Solutions for Multilingual Europe”
(Budapest – June 27/28, 2011)
META-FORUM 2011
2011
EU-funded project (ICT Policy Support Programme) functioning
as a part of META-NET to standardise language resources and
tools (2011 – 2013)
CESAR
EU-funded project (ICT Policy Support Programme) to enhance
the European Linguistic Infrastructure (2011 – 2013)
METANET4U
EU-funded project META-NORD (ICT Policy Support
Programme) establishing an open linguistic infrastructure in the
Baltic and Nordic countries (2011 – 2013)
META-NORD
Conference “A Strategy for Multilingual Europe”
(Brussels – June 20/21, 2012)
META-FORUM 2012
2012
Release of 32 volumes on 31 languages, revealing that there is a
severe threat of digital extinction for at least 21 European
languages (December 2012)
META-NET White Papers
Conference “Connecting Europe for New Horizons”
(Berlin –September 19/20, 2013)
META-FORUM 2013
Launch of the Strategic Research Agenda for Multilingual Europe
2020 (January 2013)
Strategic Research Agenda for
Multilingual Europe 2020
Initiated in 2013, META-SHARE has functioned as an open and
secure network of repositories for sharing and exchanging
language data, tools and related web services
META-SHARE
2013
Workshop on “State of the Art of Machine Translation“,
commissioned by the EU Parliament (December 2013)
“State of the Art of Machine
Translation – Current Challenges
and Future Opportunities“
EU-funded project CRACKER (Horizon2020) pushing towards an
improvement of MT research in terms of efficiency and
effectiveness (2015 – 2017)
CRACKER
Founded in 2015, the federation has been assembling European
research and innovation projects as well as all related community
organisations working on multilingual technologies
Cracking the Language Barrier
Federation
Conference “Technologies for the Multilingual Digital Single
Market“ (Riga – April 27, 2015)
META-FORUM 2015
Launch of the Strategic Agenda for the Multilingual Digital Single
Market titled “Technologies for Overcoming Language Barriers
towards a truly integrated European Online Market” (April 2015)
Strategic Agenda for the
Multilingual Digital Single Market
(Version 0.5)
Summit carrying the motto “Shape the future of the multilingual
digital single market” (April 27–29, 2015)
Riga Summit on the Multilingual
Digital Single Market
2015 Conference “Beyond Multilingual Europe”
(Lisbon – July 4/5, 2016)
META-FORUM 2016
Launch of the Strategic Research and Innovation Agenda titled
“Language as a Data Type and Key Challenge for Big Data”
(July 2016)
Strategic Research and Innovation
Agenda (Version 0.9)
2016 Workshop on “Language Equality in the Digital Age”,
commissioned by the EU Parliament’s Science and Technology
Options Assessment Committee (STOA) (January 2017)
“Language Equality in the
Digital Age”
Launch of the study on “Language equality in the digital age:
Towards a Human Language Project”, commissioned by the EU
Parliament (March 2017)
“Language equality in the digital age:
Towards a Human Language Project”
Conference “Towards a Human Language Project”
(Brussels – November 13/14, 2017)
META-FORUM 2017
Launch of the Strategic Research and Innovation Agenda titled
“Language Technologies for Multilingual Europe – Towards a
Human Language Project” (December 2017)
Strategic Research and Innovation
Agenda (Version 1.0)
2017
EP vote on report “Language
equality in the digital age”
The European Parliament voted upon the joint CULT/ITRE report
on “Language equality in the digital age” with 592 votes in favour,
45 against and 44 abstentions (September 18, 2018)
HLP Prep Final Proposal
Submission
2018
Deadline for final submission on September 18, 2018.
2019%2021
2010
2013
2019
2010
!
60 research centres in 34 countries (founded in 2010)
Chair of Executive Board: Jan Hajic (CUNI)
Dep.: J. van Genabith (DFKI), A. Vasiljevs (Tilde)
General Secretary: Georg Rehm (DFKI)
!
Multilingual Europe
Technology Alliance.
900+ members in
67 countries
(published in 2013) (31 volumes; published in 2012)
T4ME (META-NET) CESAR METANET4UMETA-NORDMultilingual Europe Technology AllianceNET
2012
Language White Papers 1/2
6
! Key communication instruments to
address decision makers and journalists.
! Cover all EU languages (30 volumes).
! White papers on the state of a language
(general, social, strategic and
technological aspects).
! Functions:
" Awareness raising.
" Inform politicians, journalists about
societal and technological problems
and challenges as well as economic
opportunities.
META-NET Language White Papers – Past, Present, Future
Language White Papers 2/2
7
! Structure:
" Part 1: Executive Summary
" Part 2: General introduction
" Part 3: Description of the respective language’s situation
" Part 4: LT support for the respective language
" Part 5: Information about META-NET; references
! Written in English, translated into the language they report upon
! Language White Papers were published by Springer:
" Printed publications were distributed by META-NET
" Printed publications can be purchased through the usual channels
" Ebooks available via SpringerLink and META-NET website (free)
META-NET Language White Papers – Past, Present, Future
8
! Basque
! Bulgarian*
! Catalan
! Croatian*
! Czech*
! Danish*
! Dutch*
! English*
! Estonian*
! Finnish*
! French*
! Galician
! German*
! Greek*
! Hungarian*
! Icelandic
! Irish*
! Italian*
! Latvian*
! Lithuanian*
! Maltese*
! Norwegian
! Polish*
! Portuguese*
! Romanian*
! Serbian
! Slovak*
! Slovene*
! Spanish*
! Swedish*
! Welsh
* Official EU languagehttp://www.meta-net.eu/whitepapers
A few Numbers …
! This was a very big endeavour.
! >160 national experts
contributed as authors or co-authors
! >50 additional experts have
contributed data and information
! >8.000 copies printed and
distributed
! >7.000 files in the White Paper
revision control system
! Parallel production pipeline for
printed books and ebooks
11META-NET Language White Papers – Past, Present, Future
Delivery Day – Sep. 14, 2012
12META-NET Language White Papers – Past, Present, Future
Methodology
13
! 30 tables provide data for all languages (tools, resources, gaps etc.).
! Reduce numbers to one final score per language and area.
! Calibration of tables across languages in smaller groups.
! Final scores for each area and language were derived from two
central features (quality, coverage), resulting in one big table:
Basque Bulgarian Catalan Croatian Czech Danish Dutch English Estonian Finnish French Galician German Greek Hungarian Icelandic Irish Italian Latvian Lithuanian Maltese Norwegian Polish Portuguese Romanian Serbian Slovak Slovene Spanish Swedish
Tokenization, Morphology (tokenization, POS tagging,
morphological analysis/generation)
5 5 5 5 0 5 3,1 4,1 5 4 4 4,1 5 4 4,1 4,1 4,1 3,1 4,1 3 3,1 4,1 5 4,1 5 5 3,1 4,1 5 4,1
Parsing (shallow or deep syntactic analysis) 4 4 3 2 5 3,1 2,1 4,1 3,1 3,1 4 4,1 3 2,1 4 4 2 3,1 2,1 1,1 0 3,1 4 3,1 4 3,2 0 3,1 4 4,1
Sentence Semantics (WSD, argument structure, semantic roles) 3,1 2,1 2 1,2 3,1 1,1 2,1 3,1 2 2 1,1 2,1 1,1 2 1,2 1,1 0 4 0 1,1 0 3,1 1,3 3,1 4 0 0 2,2 2,1 2
Text Semantics(coreferenceresolution, context, pragmatics,
inference)
1 2 1,1 0 3 1 2 1,1 2 1 2,1 2,1 2,1 2 0,2 0 0 3 0 1 0 3 1,2 1,2 4,1 0 0 0 2 2,1
Advanced Discourse Processing (text structure, coherence,
rhetorical structure/RST, argumentative zoning, argumentation,
1 0 2 0 3 1 0 2 0 0 2 0 2,1 1 0 0 0 2 0 1 0 3 1 2 3,1 0 0 0 1 1
Information Retrieval(text indexing, multimedia IR, crosslingual
IR)
4 2 1,2 2,3 0 3 3 4,1 3 3 4,1 2 3 3,1 1,1 0 3,1 4,1 0 1,2 0 4 2 0 5 3 2,1 0 2 3,1
Information Extraction (named entity recognition,
event/relation extraction, opinion/sentiment recognition, text
3 3 1,1 3,1 4,1 3 2,1 3,1 2 2 3,1 1,2 3 3 6 1 0 4,1 3 3 0 4 2 3,1 4,1 2 1 2,1 1,1 4
Language Generation (sentence generation, report generation,
text generation)
0 2 1,2 0,4 4 0 2,1 2 0 2,2 2 0 2 1,1 0 0 3 0 1,2 0 0 3,1 1 0 0 0 0 0 2 2,1
Summarization, Question Answering,advanced Information
Access Technologies
2 2 0 0,1 3 2,1 2,1 2 2 2 3 1,1 2 1,1 0 0 0 3 0 0,1 0 3,1 2 2,2 4,1 0,1 1 1,1 2,1 1
Machine Translation 3,1 2 3,1 1,2 0 1,2 2,2 2,1 2,1 3 3,1 4,1 2,1 1 5 2 2,1 3,1 4 3 2,1 2,2 3 2,1 3,1 0,1 2 3,1 4,1 2,2
Speech Recognition 1 3 3 3 2,1 1,2 3,1 4 4 3 4 5 4 3,1 2,2 1,1 3,1 4,1 0 1,1 1 1,1 3,1 2,2 2,1 1 2 2,1 3,1 3,1
Speech Synthesis 2,4 3 4 3,1 4 2,1 4 4,1 4 4 4 5 4,1 4,1 4 2,1 3,1 4 3,1 3 4 2,1 5,1 4 2 4 3 3,2 4 3
Dialogue Management (dialogue capabilities and user
modelling)
0 0 2,2 1 3,1 1 2,1 3,1 3 1,1 3 1 3,1 1,2 0 0 0 3 0 0 0 1,1 1 3 0 0 0 2,1 2 3
Reference Corpora 2,3 4,1 3,1 3,1 5 3,1 2,2 4,1 4 3,1 3,1 5 3,1 3 6 3,1 3,2 3 4,1 4 3 3 4 4,1 1,1 2,2 4,1 4,1 3,1 3,1
Syntax-Corpora(treebanks, dependency banks) 2,2 2,1 3 3,1 3,3 1,3 2,2 4,2 2,1 3,2 3 2 3 3,1 5,1 2,2 1,2 3 1 1 0 3,1 4 4 4,1 0 2 3,2 2 3
Semantics-Corpora 1 4,1 1 0 3,1 1,2 1,2 3 2 0 1,1 1 1,1 2,1 1,5 0 0 4 1 0 0 2,1 2,2 3,1 2,1 0 0 1,4 2 1
Discourse-Corpora 0 2 2 0 2,1 1,3 0 3 2,1 2,1 2 0 2 0 0 0 0 2,2 0 0 0 1,1 1,1 2 2,1 0 1,1 0 3 1
Parallel Corpora, Translation Memories 0 2,2 2,1 3 3,1 2,1 2,1 4 2,1 3 3,1 5 2 2 6 1,1 3,2 3,1 3,1 3,1 2,1 4,1 4 2,1 4,1 2,1 2 2,2 3,1 3,2
Speech-Corpora (raw speech data, labelled/annotated speech
data, speech dialogue data)
2,2 2,1 3,1 3 2,2 1,2 4,1 5,1 3,1 2,1 3,1 4,1 2,1 2,1 2,2 2 2,2 2,1 1 2 2,1 3,2 3 4 2,2 4 2 3,1 2,1 3
Multimedia and multimodal data 5 1 2 3,1 2,2 1,2 1,3 1,1 1 2,1 1,2 2,2 1,2 2,1 1 1 1,1 3,1 0 1 0 4,1 1 0 0 1,1 2,1 0 2 1
Language Models 2 2 2,1 0 4 3 2,1 5 3 2 3 4,1 3 2,1 3,1 3 0 0 3,1 3,1 3 1 1 0 4 2,1 1,2 2,2 2 4
Lexicons, Terminologies 5,1 3,1 3,1 3,1 3,1 4 3,1 4,1 5 4 3,1 4,1 3,1 3 6 3 4 4,1 5 3,1 2,1 5 4 4,1 4,1 4 3,1 2,2 3 4,1
Grammars 3,1 3 2 0 2,1 1,3 2,1 3 4 4 3 2 3 1 5,1 3 3 3 3,1 0 0 3,2 4 2,3 2,1 0,1 2,1 2,1 3 3
Thesauri, WordNets 4 4,1 2,2 3,1 3,1 3 2,1 4,1 3,1 3,1 1,1 4 2,1 1,1 3,3 3 3,1 3,1 2,1 1 0 0 4 2,2 4 2,1 1,1 3 3 4,1
Ontological Resources for World Knowledge (e.g. upper
models, Linked Data)
2 3 2,1 0 2,1 1,1 0 4 0 2,1 1,1 1 2,1 2 1 0 0 3,1 1 1,1 0 0 2,2 2 2 0,1 0 0 2 1
Language Technology (Tools, Technologies, Applications)
Language Resources (Resources, Data, Knowledge Bases)
META-NET Language White Papers – Past, Present, Future
Cluster-Based Presentation
! For journalists and politicians the big table is useless.
! Therefore: cluster-based cross-language comparison
! Each language is assigned to one of five clusters, ranging from
excellent LT support to weak/no support.
! Presentation of key results with regard to four areas:
" Machine Translation
" Speech Processing
" Text Analysis
" Resources
! Results finalised at a meeting
in Berlin with representatives
of all 30 languages
(October 21/22, 2011).
14META-NET Language White Papers – Past, Present, Future
MT
English
good
French, Spanish
moderate fragmentary
Catalan, Dutch, German,
Hungarian, Italian, Polish,
Romanian
weak or no support through LT
Basque, Bulgarian, Croatian,
Czech, Danish, Estonian, Finnish,
Galician, Greek, Icelandic, Irish,
Latvian, Lithuanian, Maltese,
Norwegian, Portuguese, Serbian,
Slovak, Slovene, Swedish, Welsh
excellent
Czech, Dutch,
Finnish, French,
German, Italian,
Portuguese,
Spanish
moderate fragmentary
Basque, Bulgarian, Catalan,
Danish, Estonian, Galician,
Greek, Hungarian, Irish,
Norwegian, Polish, Serbian,
Slovak, Slovene, Swedish
weak or no support through LT
Croatian, Icelandic, Latvian,
Lithuanian, Maltese, Romanian,
Welsh
excellent
English
good
Speech
English
good
Dutch, French,
German, Italian,
Spanish
moderate fragmentary
Basque, Bulgarian, Catalan,
Czech, Danish, Finnish,
Galician, Greek, Hungarian,
Norwegian, Polish,
Portuguese, Romanian,
Slovak, Slovene, Swedish
weak or no support through LT
Croatian, Estonian, Icelandic, Irish,
Latvian, Lithuanian, Maltese,
Serbian, Welsh
excellent
English
good
Czech, Dutch,
French, German,
Hungarian, Italian,
Polish, Spanish,
Swedish
moderate fragmentary
Basque, Bulgarian, Catalan,
Croatian, Danish, Estonian,
Finnish, Galician, Greek,
Norwegian, Portuguese,
Romanian, Serbian, Slovak,
Slovene
Icelandic, Irish, Latvian,
Lithuanian, Maltese, Welsh
weak or no support through LTexcellent
ResourcesTextAnalytics
Fragmentary
Weak/none
Moderate
Good
Excellent
Welsh
Maltese
Lithuanian
Latvian
Icelandic
Irish
Croatian
Serbian
Estonian
Slovene
Slovak
Romanian
Norwegian
Greek
Galician
Danish
Bulgarian
Basque
Swedish
Portuguese
Finnish
Catalan
Polish
Hungarian
Czech
Italian
German
Dutch
Spanish
French
English
Levelofsupport
Languages with names in red
have little or no MT support
Source: META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg,
New York, Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors)
Important: even current state of the art
technologies are far from being perfect!
Fragmentary
Weak/none
Moderate
Good
Excellent
Welsh
Maltese
Lithuanian
Latvian
Icelandic
Irish
Croatian
Serbian
Estonian
Slovene
Slovak
Romanian
Norwegian
Greek
Galician
Danish
Bulgarian
Basque
Swedish
Portuguese
Finnish
Catalan
Polish
Hungarian
Czech
Italian
German
Dutch
Spanish
French
English
Levelofsupport
Languages with names in red
have little or no MT support
Source: META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg,
New York, Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors)
Important: 20+ European languages are
severely under-supported and face the
danger of digital extinction.
Digital Language Extinction!
! “At Least 21 European Languages in Danger of Digital Extinction!”
! Press release on European Day of Languages (Sept. 26, 2012)
! Huge global interest in the topic and our key findings!
! 600+ mentions in the press
! News from 40+ countries in 35+ different languages
! 20+ television reports and 30+ broadcast interviews (radio, tv) with
META-NET representatives
! Two Parliamentary Questions in the EP on the “digital extinction of
languages” topic
18META-NET Language White Papers – Past, Present, Future
Desudensættesderpengeaftilatøgeantal-
let af operationer og udvide ambulatorieka-
paciteten på det urologiske område på Herlev,
»Mensåerdetogsåvigtigtatholdefastidet
målogikkestillesigtilfredsmed,at80eller85
pct.kommerigennemtiltiden.«B
Af Jens Ejsing
// ejs@berlingske.dk
Det danske sprog har det svært i den digitale
verden.
Det konstaterer danske sprogforskere- og
eksperter i forbindelse med den nye inter-
nationale undersøgelse META-NET, der ser
nærmere på, hvordan en lang række mindre,
europæiske sprog som dansk klarer sig i den
digitaleverden.
Forskerne fra bl.a. Københavns Universitet
og Dansk Sprognævn når frem til, at dansk
i fremtiden kan få det endnu sværere i den
digitale verden, fordi Google Translate, GPSer,
applikationertilsmartphonesogandresprog-
teknologiske programmer ikke i tilstrækkelig
grad formår at behandle de mange nuancer i
detdanskesprog.
Professor i sprogteknologi på Københavns
Universitet, Bolette Sandford Pedersen,
mener, at der er brug for en slags digital dansk
sprogbank fyldt med data, så bl.a. oversættel-
ser bliver så præcise og gode som muligt. Med
hjælp fra sprogbanken kan forskere ifølge
professoren hjælpe virksomheder med at for-
bedreprogrammer,derskalhåndteresproglig
viden om bl.a. maskinoversættelse, tale-
genkendelseoginformationssøgning.
Dermedvilderblivelængeremellemfejlag-
tige oversættelser, som når »hæld olie på pan-
den« med Google Translate bliver til »pour oil
on the forehead« på engelsk. Oversættelser,
der er i værste fald er så upræcise, at danskere
ender med at fravælge deres eget sprog i den
digitaleverden.
Sproghjælp til virksomheder
Hun anerkender dog, at »teknologien til auto-
matiske oversættelser på mange måder er
fantastisk«.
»Den er bare ikke god nok, når det gælder
dansk,«sigerhun:
»Detersomom,atviietvistomfanglægger
det i hænderne på Google eller andre virk-
somheder at afgøre, om dansk skal behandles
godt nok eller ej. Men det danske marked
er ikke stort for dem. Spørgsmålet er derfor,
Dårlig sprogteknologi truer dansk på nettet
Ord. Forskere arbejder på at forbedre danske oversættelser på internettet.
om vi ikke i højere grad selv skal gøre noget
for at sikre, at det fornødne datamateriale er
til rådighed, så vi får gode oversættelser og
anden god sprogteknologi. Det kunne f.eks.
være ved, at vi gjorde en indsats for at få opret-
tet en sprogbank med en masse beriget mate-
rialeomdansk.«
»Hvis vi hele tiden oplever, at oversættel-
ser er behæftede med fejl, tør vi ikke stole på
dem,« siger hun og understreger, at »fejlagtige
oversættelserkanføretilstoremisforståelser«.
Ifølge Dansk Sprognævns direktør, Sabine
Kirchmeier-Andersen,kandårligsprogtekno-
logi have konsekvenser for mange danskere,
derikkeersågodetilengelsk.
»Hvis vi har ambitioner om at bruge det
danske sprog i fremtidens teknologiske
univers, skal der gøres en indsats nu for at
fastholde ekspertise og udbygge den viden, vi
har,«menerhun:
»Ellers risikerer vi, at kun folk, der taler fly-
dendeengelsk,vilfåglædeafdenyegeneratio-
ner af web-, tele- og robotteknologi, der er på
vej.«B
INFOGRAFIK: HENRIK KIÆR / TEKST: FLEMMING STEEN PEDERSEN KILDE: REGION HOVEDSTADEN
H Der er omkring 80 sprog i EU. For 21 af
dem – også dansk – gælder det, at der er
store sprogteknologiske mangler, når det
gælder bl.a. maskinoversættelse, talegenken-
delse og informationssøgning.
H Ifølge en EU-undersøgelse køber et
stigende antal europæiske internetbrugere
varer eller tjenester på nettet, hvor det sprog,
der bliver anvendt, ikke er deres eget. Det
gælder over halvdelen af brugerne.
H Over hver tredje anvender et fremmed-
sprog til at skrive mail eller indlæg på nettet.
fakta H
Sprog i Europa
38
Στην ψηφιακή εποχή δεν…
µιλούν ελληνικά, όπως και
αρκετές άλλες ευρωπαϊκές
γλώσσες, σύµφωνα µε πανευρωπαϊ-
κή έκθεση µε την υπογραφή 200 και
πλέον ειδικών. Η συγκεκριµένη µελέ-
τη δηµοσιεύτηκε από το επιστηµονικό
δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτε-
σινή Ευρωπαϊκή Ηµέρα Γλωσσών.
Για τις ανάγκες της έρευνάς τους,
γλωσσολόγοι από 34 χώρες της Γη-
ραιάς Ηπείρου βαθµολόγησαν τις
διαθέσιµες γλωσσικές υπηρεσίες
και δηµιούργησαν ένα «Λευκό Βι-
βλίο» για κάθε ευρωπαϊκή γλώσσα.
Στη µελέτη τους, οι ειδικοί αναζήτη-
σαν µεταξύ άλλων τέσσερα βασικά
ηλεκτρονικά εργαλεία, δηλαδή την
ύπαρξη αυτόµατης µετάφρασης,
τη δυνατότητα φωνητικής αλληλε-
πίδρασης και ψηφιακής ανάλυσης
κειµένου, ενώ ταυτόχρονα διερευνή-
θηκε και η διαθεσιµότητα γλωσσικών
πόρων ή πηγών.
Σε πρώτη φάση εξέτασαν τις ιστο-
σελίδες που επιτρέπουν στους χρή-
στες να κάνουν µεταφράσεις online,
όπως, για παράδειγµα, η υπηρεσία
του κολοσσού πληροφορικής Google
Translate. Την ίδια ώρα, εξετάστηκε
και η «επικοινωνία» των ελληνόφω-
νων χρηστών µε τις…συσκευές τους,
όπως για παράδειγµα η δυνατότητα
να «µιλήσει» κάποιος στο GPS στη
µητρική του γλώσσα. Οι ερευνητές
κατέληξαν στο συµπέρασµα ότι
υπάρχουν τέτοιες συσκευές, αλλά
δεν είναι τόσο διαδεδοµένες όσο οι
αγγλόφωνες.
Το «χρυσό» µετάλλιο κατακτά,
όπως είναι άλλωστε και λογικό, η
αγγλική γλώσσα. Οι αγγλόφωνοι χρή-
στες έχουν την καλύτερη δυνατή τε-
χνολογική υποστήριξη, κάτι το οποίο
ευνοεί την περαιτέρω εξάπλωση της
γλώσσας. Από «τεχνολογικό απο-
κλεισµό» κινδυνεύουν περισσότερο
η ισλανδική, η λετονική, η λιθουανική
και η µαλτέζικη γλώσσα, ενώ σε λίγο
καλύτερη µοίρα βρίσκονται η ελλη-
νική, η βουλγαρική, η ουγγρική και
η πολωνική, που όπως αναφέρει η
έρευνα έχουν «αποσπασµατική» τε-
χνολογική υποστήριξη.
«Μέτρια» χαρακτηρίζεται η υπο-
στήριξη χρηστών σε ολλανδική, γαλ-
λική, γερµανική, ιταλική και ισπανική
γλώσσα. Οι επικεφαλής της επιστη-
µονικής οµάδας, Χανς Ουζκοράιτ και
Γκεόργκ Ρεµ, αναφέρουν χαρακτηρι-
στικά: «Υπάρχουν δραµατικές διαφο-
ρές στην υποστήριξη της γλωσσικής
τεχνολογίας ανάµεσα στις διάφορες
ευρωπαϊκές γλώσσες. Το χάσµα µετα-
ξύ “µικρών” και “µεγάλων” γλωσσών
ολοένα και διευρύνεται. Πρέπει να
εξασφαλίσουµε τον εφοδιασµό των
µικρότερων και λιγότερο πλούσιων
σε ψηφιακούς πόρους γλωσσών µε
τις απαραίτητες βασικές τεχνολογί-
ες. ∆ιαφορετικά, οι γλώσσες αυτές
είναι καταδικασµένες σε ψηφιακή
εξαφάνιση».
Μάλιστα, οι ειδικοί τονίζουν ότι χω-
ρίς αποφασιστική δράση οι γλώσσες
αυτές δύσκολα θα… επιβιώσουν στον
ψηφιακό κόσµου του 21ου αιώνα. Η
κ. Μαρία Γαβριηλίδου, µέλος της επι-
στηµονικής οµάδας από το Ινστιτούτο
Επεξεργασίας του Λόγου Ερευνητικό
Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η
έρευνα αυτή δεν λέει ότι δεν θα ζήσει
η ελληνική γλώσσα ή ότι κινδυνεύει
µε εξαφάνιση». Η ειδικός εξηγεί ότι
όσο υπάρχουν άνθρωποι που µιλά-
νε, γράφουν και επικοινωνούν µε µια
γλώσσα, τότε αυτή θα συνεχίσει να
υπάρχει. Είναι σηµαντικό, όµως, να
έχουν όλοι οι χρήστες τη δυνατότητα
να «µιλήσουν» στις µηχανές, όπως τα
GPS τους, στα ελληνικά και να έχουν
στη διάθεσή τους γλωσσικά εργαλεία
ηλεκτρονικών υπολογιστών.
Μεταξύ αυτών των «εργαλείων»
είναι οι διορθωτές ορθογραφικών και
συντακτικών λαθών, που χρησιµοποι-
ούνται καθηµερινά από εκατοντάδες
Ελληνες χρήστες και βασίζονται στη
γλωσσική τεχνολογία.
Παρ’ όλα αυτά, τονίζει ότι η ψη-
φιακή εξάπλωση µιας γλώσσας είναι
σηµαντική «∆εν είναι στα χέρια του
µέσου χρήστη. Οι εκάστοτε κυβερ-
νήσεις, η Ευρωπαϊκή Ενωση και ο
ιδιωτικός τοµέας πρέπει να χρηµα-
τοδοτήσουν την ανάπτυξη αυτής της
τεχνολογίας για όλες τις γλώσσες»,
αναφέρει και συνεχίζει: «Οι χρήστες,
όµως, πρέπει να απαιτούν να υπάρ-
χουν και στη γλώσσα τους τα µέσα
αυτά και να µην ικανοποιούνται µε
τα αγγλικά». ■
Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ
Life
ΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ
Με ψηφιακή εξαφάνιση
κινδυνεύουν τα ελληνικά
ΕΛΕΝΗ ΒΕΡΓΟΥ
evergou@e-typos.com
Η γλώσσα της
αποξένωσης…
GREEKLISH
Οι αγγλόφωνοι
χρήστες έχουν
την καλύτερη
δυνατή τεχνολογική
υποστήριξη,
γεγονός που ευνοεί
την περαιτέρω
εξάπλωση
της γλώσσας
ΜΕ GREEKLISH επικοινω-
νούν πλέον µέσω µηνυµά-
των ή email οι περισσότεροι
νέοι της χώρας µας. Παρά
το γεγονός ότι τα τελευ-
ταία χρόνια υπάρχουν τα
γλωσσικά εργαλεία, τα
οποία επιτρέπουν τη χρήση
της ελληνικής γραµµατο-
σειράς, έφηβοι και νέοι
ενήλικες φαίνεται ότι δεν
έχουν «αγκαλιάσει» αυτές
τις τεχνολογίες. Ο καθη-
γητής Γλωσσολογίας, κ.
Γιώργος Μπαµπινιώτης, λέει
στον «Ε.Τ.»: «Τα greeklish
είναι πρόβληµα για την
ελληνική γλώσσα, ιδίως για
ανθρώπους νέας ηλικίας
για έναν καθαρά γλωσσικό
λόγο. Με τη χρήση των
greeklish αποξενώνονται
από τη µορφή της λέξης ή
όπως λέµε το ετυµολογικό
ίνδαλµα που δηλώνεται µε
την ορθογραφία της λέξης
και συνδέεται και µε τη ση-
µασία της λέξης και µε την
προέλευσή της». Ο κίνδυνος,
µε τον οποίο έρχονται αντι-
µέτωποι οι νέοι άνθρωποι,
είναι η αποξένωση από τη
γραπτή µορφή της γλώσ-
σας. Αυτή η «οικειότητα»,
όµως, βοηθάει και στην
κατανόηση της σηµασίας
αλλά και την προέλευση της
λέξης. «Αυτή η αποξένωση
δεν είναι άνευ σηµασίας»,
αναφέρει ο ειδικός, ο οποίος
εξηγεί ότι η διαδικασία της
γραφής βοηθάει να εντυπω-
θεί η λέξη και να συνδεθεί
µε άλλες οµόρριζες λέξεις.
«Οταν χρησιµοποιείται αυτή
η µορφή επικοινωνίας, κα-
ταστρέφονται, ατονούν. ∆εν
είναι προς θάνατο, αλλά θα
κάνει ζηµιά», αναφέρει ο
κ. Μπαµπινιώτης, ο οποίος
συµβουλεύει τους χρήστες
να επιλέγουν την ελληνική
γραµµατοσειρά.
Γιώργος
Μπαµπινιώτης.
Date 30 September 2012
Page 16
Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency
agreement (www.nla.co.uk) or with written publisher permission.
For external republishing rights see www.nla-republishing.com
49KYPIAKH 30 ΣΕΠΤΕΜΒΡΙΟΥ 2012
Η
26η Σεπτεµβρίου έχει καθιε-
ρωθεί από το Συµβούλιο της
Ευρώπης ως η Ευρωπαϊκή
Ηµέρα των Γλωσσών, αλλά,
σύµφωνα µε µια νέα ευρωπαϊκή επι-
στηµονική έκθεση, οι 21 από τις 30
γλώσσες της Ευρώπης -µεταξύ των οποί-
ων και η Ελληνική- αντιµετωπίζουν κίν-
δυνο ψηφιακής εξαφάνισης.
Η έρευνα κρούει τον κώδωνα κινδύ-
νου, καθώς διαπίστωσε ότι η ψηφιακή
βοήθεια για τις περισσότερες ευρωπαϊκές
γλώσσες είναι ελλιπής ή απολύτως ανύ-
παρκτη για τους χρήστες.
Τις έφαγαν οι κοινές
Η έκθεση, µε τη µορφή µιας σειράς
Λευκών Βίβλων (µε τίτλο «Γλώσσες στην
Ευρωπαϊκή Κοινωνία της Πληροφορίας»),
από το επιστηµονικό δίκτυο ΜΕΤΑ-
ΝΕΤ, το οποίο συνενώνει 60 ερευνητικά
κέντρα σε 34 χώρες, επισηµαίνει ότι οι
γλώσσες που µιλιούνται από σχετικά
µικρό αριθµό ανθρώπων κινδυνεύουν,
επειδή δεν έχουν τεχνολογική υποστή-
ριξη όπως έχουν οι ευρέως χρησιµο-
ποιούµενες γλώσσες. Λευκές Βίβλοι
έχουν καταρτιστεί για τις εξής ευρω-
παϊκές γλώσσες: αγγλικά, βασκικά,
βουλγαρικά, γαλικιανά, γαλλικά, γερ-
µανικά, δανικά, ελληνικά, εσθονικά,
ιρλανδικά, ισλανδικά, ισπανικά, ιταλικά,
καταλανικά, κροατικά, λετονικά, λι-
θουανικά, µαλτέζικα, νορβηγικά (µπουκ-
µόλ και νινόρσκ), ολλανδικά, ουγγρικά,
πολωνικά, πορτογαλικά, ρουµανικά,
σερβικά, σλοβακικά, σλοβενικά, σουη-
δικά, τσεχικά και φινλανδικά. Κάθε
Λευκή Βίβλος είναι γραµµένη στη γλώσ-
σα στην οποία αναφέρεται και είναι
µεταφρασµένη στα αγγλικά.
Τέσσερις µεγάλοι κίνδυνοι
Σύµφωνα µε τη νέα µελέτη, η Ισ-
λανδική, η Λετονική, η Λιθουανική και
η Μαλτέζικη αντιµετωπίζουν τον µε-
γαλύτερο κίνδυνο εξαφάνισης σε µια
ευρωπαϊκή τεχνολογική κοινωνία, που
ολοένα περισσότερο προωθεί τη χρήση
συγκεκριµένων γλωσσών και ιδίως της
Αγγλικής. Όµως και άλλες γλώσσες,
όπως η Ελληνική, η Βουλγαρική, η Ουγ-
γρική και η Πολωνική, επίσης κινδυ-
νεύουν στον σύγχρονο ψηφιακό κόσµο.
Η έρευνα του ΜΕΤΑ-ΝΕΤ, στην οποία
συνέβαλαν περισσότεροι από 200 ειδικοί,
αξιολογεί τον κίνδυνο για κάθε γλώσσα
µε βάση τέσσερα βασικά κριτήρια σε
τεχνολογικό/ψηφιακό επίπεδο: την ύπαρ-
ξη αυτόµατης µετάφρασης στη συγκε-
κριµένη γλώσσα, τη δυνατότητα φωνη-
τικής αλληλεπίδρασης, τη δυνατότητα
ψηφιακής ανάλυσης κειµένου και τη
διαθεσιµότητα των σχετικών ψηφιακών
γλωσσικών πόρων/πηγών.
Οι δυνατές
Η γλώσσα µε την καλύτερη βαθµο-
λογία στα κριτήρια είναι ασφαλώς η
Αγγλική, που απολαµβάνει τη συγκριτικά
καλύτερη τεχνολογική υποστήριξη (αν
και όχι την καλύτερη δυνατή), γεγονός
που διευκολύνει την περαιτέρω εξά-
πλωσή της.
Ακολουθούν µε ικανοποιητική ή µέ-
τρια τεχνολογική/ψηφιακή υποστήριξη
η Ολλανδική, η Γαλλική, η Γερµανική,
η Ιταλική και η Ισπανική. Η Ελληνική,
όπως επίσης η Βασκική, η Καταλανική,
η Πολωνική, η Ουγγρική κ.ά. κατα-
τάσσονται στις γλώσσες µε «αποσπα-
σµατική» µόνο υποστήριξη, γι’ αυτό
ακριβώς θεωρούνται γλώσσες υψηλού
κινδύνου προς εξαφάνιση.
Δραµατικές διαφορές
Σύµφωνα µε τους επιµελητές της µε-
λέτης Χανς Ουζκοράιτ και Γκέοργκ Ρεµ,
«υπάρχουν δραµατικές διαφορές στην
υποστήριξη της γλωσσικής τεχνολογίας
ανάµεσα στις διάφορες ευρωπαϊκές
γλώσσες και τεχνολογικές περιοχές. Το
χάσµα µεταξύ ‘µικρών’ και ‘µεγάλων’
γλωσσών ολοένα και διευρύνεται. Πρέπει
να εξασφαλίσουµε τον εφοδιασµό των
µικρότερων και λιγότερο πλούσιων -σε
ψηφιακούς πόρους- γλωσσών µε τις
απαραίτητες βασικές τεχνολογίες, αλλιώς
οι γλώσσες αυτές είναι καταδικασµένες
σε ψηφιακή εξαφάνιση».
Ως ελπίδα αυτών των γλωσσών θεω-
ρείται η βελτίωση και η ευρύτερη αξιο-
ποίηση του λογισµικού γλωσσικής τε-
χνολογίας, το οποίο επιτρέπει τη φω-
νητική και τη γραπτή επεξεργασία των
διαφόρων γλωσσών.
Παραδείγµατα αυτών των δυνατοτή-
των είναι οι ηλεκτρονικοί ορθογραφικοί
και συντακτικοί διορθωτές κειµένων,
οι διαδραστικοί προσωπικοί «βοηθοί»
των έξυπνων κινητών τηλεφώνων (π.χ.
η Siri στο iPhone), τα συστήµατα αυ-
τόµατης µετάφρασης, τα ηλεκτρονικά
συστήµατα διαλόγου των τηλεφωνικών
κέντρων, οι µηχανές αναζήτησης, η
συνθετική φωνή στα συστήµατα πλοή-
γησης των αυτοκινήτων. κ.ά.
Το βασικό πρόβληµα
Το σηµαντικό, σύµφωνα µε την έκ-
θεση, είναι όλες αυτές οι δυνατότητες
να προσφέρονται στους χρήστες και στη
µητρική τους γλώσσα που κινδυνεύει
µε εξαφάνιση. Χωρίς αποφασιστική δρά-
ση, γίνεται η δυσοίωνη πρόβλεψη ότι
οι γλώσσες αυτές δύσκολα θα επιβιώσουν
στον ψηφιακό κόσµο του 21ου αιώνα.
Ένα πρόβληµα είναι ότι το λογισµικό
αυτών των συστηµάτων γλωσσικής τε-
χνολογίας στηρίζεται σε στατιστικές µε-
θόδους που απαιτούν τεράστιες ποσό-
τητες γραπτών ή φωνητικών δεδοµένων,
όµως τόσα πολλά δεδοµένα είναι δύσκολο
να αποκτηθούν για γλώσσες που οµι-
λούνται από σχετικά λίγους ανθρώπους.
Εξάλλου, ακόµα και για ευρέως χρη-
σιµοποιούµενες γλώσσες όπως τα αγ-
γλικά, η σχετική γλωσσική τεχνολογία
έχει ακόµα αδυναµίες, που είναι π.χ.
φανερές στις άκρως ανεπαρκείς και γε-
µάτες λάθη αυτόµατες µεταφράσεις. Η
έκθεση προτείνει ότι πρέπει να αναληφθεί
µια συντονισµένη µεγάλης κλίµακας
προσπάθεια στην Ευρώπη, προκειµένου
σταδιακά να δηµιουργηθούν ή να βελ-
τιωθούν οι αναγκαίες τεχνολογίες και
να βοηθηθούν οι γλώσσες που είναι ψη-
φιακά παραγκωνισµένες.
Τη γλώσσα
µού... έχασαν
Οι περισσότερες ευρωπαϊκές γλώσσες
κινδυνεύουν µε ψηφιακή εξαφάνιση
Πρέπει να εξασφαλιστεί ο εφοδιασµός των µικρότερων και λιγότερο πλούσιων
-σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες
?049-ΚΟΣΜΟΣ 29/09/2012 1:41 ?Μ Page 49
19
Website Visitors
20
began sending
out press release
European Day
of Languages
unusually
high traffic
META-NET Language White Papers – Past, Present, Future
Website Visitors – Locations
21META-NET Language White Papers – Past, Present, Future
Website Visitors – Locations
22META-NET Language White Papers – Past, Present, Future
Brussels, Belgium,
which is where the
European Institutions
are based.
This is our main
target audience!
2014
Update of the Study
! Study comprised 31 volumes/languages.
! Many languages missing! Need for
extension – at least of the comparison.
! We invited three language community
bodies to participate in the update:
European Federation of National
Institutions for Language (EFNIL)
Network to Promote Linguistic
Diversity (NPLD)
Experts Committee of the European
Language Charter (Council of Europe)
24
CCURL 2014 – Collaboration and Computing for Under-
Resourced Languages in the Linked Open Data Era
Excellent
Good
Moderate
Fragmentary
Weak/no
support
LanguageTechnologySupport
MillionsofNativeSpeakers(Worldwide)
Yiddish
Welsh
VlaxRomani
Turkish
Scots
Romany
Occitan
Maltese
Macedonian
Luxembourgish
Lithuanian
Limburgish
Latvian
Icelandic
Friulian
Frisian
Breton
Bosnian
Asturian
Albanian
Irish
Croatian
Serbian
Hebrew
Estonian
Slovene
Slovak
Romanian
Norwegian
Greek
Galician
Danish
Bulgarian
Basque
Swedish
Portuguese
Finnish
Catalan
Polish
Hungarian
Czech
Italian
German
Dutch
Spanish
French
English
0
50
100
150
200
250
300
350
400
Source: Georg Rehm, Hans Uszkoreit, Ido Dagan, Vartkes Goetcherian, Mehmet Ugur Dogan, Coskun Mermer, Tamás Váradi, Sabine Kirchmeier-Andersen,
Gerhard Stickel, Meirion Prys Jones, Stefan Oeter, and Sigve Gramstad. An Update and Extension of the META-NET Study “Europe's Languages in the
Digital Age”. In Proceedings of the Workshop on Collaboration and Computing for Under-Resourced Languages in the Linked Open Data Era (CCURL 2014),
Reykjavik, Iceland, May 2014.
2016
Basque Bulgarian Catalan Croatian Czech Danish Dutch English Estonian Finnish French
2012 96 153 101 76 91 111 97 225 101 68 109
2013 330 258 256 202 194 286 427 625 201 284 542
2014 866 825 891 840 868 1,063 988 978 711 972 1032
2015 383 240 468 264 269 375 661 534 248 412 703
2016 378 259 377 231 292 395 600 499 187 470 480
Galician Greek German Hungarian Icelandic Irish Italian Latvian Lithuanian Maltese
Norwegian
(nynorsk)
2012 86 107 100 90 164 138 128 107 81 70 83
2013 178 556 449 315 393 352 383 218 216 148 182
2014 799 1133 1382 874 905 954 862 728 665 704 676
2015 246 419 903 285 463 395 472 250 230 307 272
2016 585 403 689 358 334 416 446 222 245 207 263
Norwegian
(bokmal)
Polish Portug. Romanian Serbian Slovak Slovene Spanish Swedish Welsh
2012 91 107 160 90 86 108 84 170 107 –
2013 262 234 355 326 169 145 214 486 348 –
2014 879 918 863 765 711 672 731 1195 885 1014
2015 273 419 377 307 272 228 200 784 496 466
2016 331 382 352 345 241 243 222 866 593 505
Downloads of Language White Papers from Springer Link
Continued Interest in the White Papers
27
Fragmentary
Weak/none
Moderate
Good
Excellent
Welsh
Maltese
Lithuanian
Latvian
Icelandic
Irish
Croatian
Serbian
Estonian
Slovene
Slovak
Romanian
Norwegian
Greek
Galician
Danish
Bulgarian
Basque
Swedish
Portuguese
Finnish
Catalan
Polish
Hungarian
Czech
Italian
German
Dutch
Spanish
French
English
Levelofsupport
Languages with names in red
have little or no MT support
Source: META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg,
New York, Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors)
We carried out the study in 2011/2012. While support
for many languages, and also overall, has improved
in the meantime thanks to Deep Learning, the bigger
picture appears to remain mostly the same.
• Multilingualism is at the heart of the European idea
• 24 EU languages – all have the same status
• Dozens of regional and minority languages as well as
languages of immigrants and trade partners
• Many economic, social and technical challenges:
– Digital Extinction of 21 European languages
– The Digital Single Market needs to be multilingual
– Cross-lingual, cross-cultural communication
– There’s no LT platform for Europe! (yet)
The EC and the Multilingual DSM
• Blog post by Andrus Ansip (May 2016)
• EC’s first public acknowledgment that language
is of high relevance for the DSM.
• “Overcoming language barriers is vital for
building the DSM, which is by definition
multilingual.”
• “It is […] time to […] turn [language barriers]
into competitive advantages.”
• Blog post by Roberto Viola (DG Connect) and
Rytis Martikonis (DG Translation) (Feb. 2017)
• “We view the linguistic diversity of the EU as an
asset and a great opportunity for the [DSM].”
• “By using digital solutions we can bridge
language barriers if we consider our diversity
as an opportunity rather than an obstacle.”
META-NET Language White Papers – Past, Present, Future 30
2017
STUDY
EPRS | European Parliamentary Research Service
Scientific Foresight Unit (STOA)
PE 581.621
Science and Technology Options Assessment
STOA Workshop
European Parliament
10 January 2017
Study published in March 2017
11 Key Recommendations
2018
“Language equality” Resolution
! European Parliament Resolution “Language equality in
the digital age” P8_TA(2018)0332 – based on STOA study
! Voting (11 Sept. 2018): 592 yes – 45 no
! Important Recommendations:
" 29. Create a European LT platform for
sharing of services
" 41. Enable and empower European
SMEs to use LTs
" 26. ICT integrators should be given
economic incentives for LT
" 27. Europe has to secure its leadership
in language-centric AI
" 32. Set up LT financing platform;
emphasise R&D in Deep NLU
" 40. Develop investment instruments and accelerator programs
34
European Parliament
2014-2019
TEXTS ADOPTED
Provisional edition
P8_TA-PROV(2018)0332
Language equality in the digital age
European Parliament resolution of 11 September 2018 on language equality in the
digital age (2018/2028(INI))
The European Parliament,
– having regard to Articles 2 and 3(3) of the Treaty on the Functioning of the European
Union (TFEU),
– having regard to Articles 21(1) and 22 of the Charter of Fundamental Rights of the
European Union,
– having regard to the 2003 UNESCO Convention for the Safeguarding of the Intangible
Cultural Heritage,
– having regard to Directive 2003/98/EC of the European Parliament and of the Council of
17 November 2003 on the re-use of public sector information1
,
– having regard to Directive 2013/37/EU of the European Parliament and of the Council of
26 June 2013 amending Directive 2003/98/EC on the re-use of public sector information2
,
– having regard to Decision (EU) 2015/2240 of the European Parliament and of the Council
of 25 November 2015 establishing a programme on interoperability solutions and
common frameworks for European public administrations, businesses and citizens (ISA2
programme) as a means for modernising the public sector3
,
– having regard to the Council resolution of 21 November 2008 on a European strategy for
multilingualism (2008/C 320/01)4
,
– having regard to the Council decision of 3 December 2013 establishing the specific
programme implementing Horizon 2020 – the Framework Programme for Research and
1
OJ L 345, 31.12.2003, p. 90.
2
OJ L 175, 27.6.2013, p. 1.
3
OJ L 318, 4.12.2015, p. 1.
4
OJ C 320, 16.12.2008, p. 1.
2019
ELG – The Primary Platform for
Language Technology in Europe
Web Interface APIs
European Language Grid – Content Catalogue
LT Services, Tools, Components, Technologies
Language Resources and Data Sets
Organisations, Languages, Service Types etc.
Cloud Infrastructure
• Development of a functional language technology cloud platform for Europe
• Market place for European LT business space (directory of stakeholders)
• Hundreds of LT services and resources – easy-to-use and easy-to-integrate
• Many different technologies for all European languages
• Evaluation through 15-20 pilot projects feeding back into the platform
• 30+ national competence centres will be set up for a strong European network
• Services and resources can be made available by the community
• Boosting the emerging Multilingual Digital Single Market
• Interoperability of services through containerisation
• Towards a thriving and flourishing European LT community
Consortium
• DFKI GmbH (Coordinator) (DE)
• ILSP, R.C. “Athena“ (GR)
• University of Sheffield (UK)
• Charles University (CZ)
• ELDA (FR)
• Tilde (LV)
• SAIL LABS GmbH (AT)
• Expert System Iberia (ES)
• University of Edinburgh (UK)
2019–2021
Coordinator: Georg Rehm georg.rehm@dfki.de
GA number: 825627
Concluding Remarks
• The META-NET White Paper Series turned out to be
an extremely effective communication instrument
• The White Papers made the EU calls ICT-17-2014
(17M€) and ICT-29-2018 (25M€) possible
• They ultimately lead to the recent EP Resolution (2018)
• The ELG platform will be filled with:
• Hundreds of running services
• Thousands of language resources and data sets
• Catalogues of all European LT companies & research groups
• All records will be explicitly linked to their languages
• Goal for 2020: automatic production of the language
comparison tables in real-time based on the ELG data
Thank you very much!
META-NET Language White Papers – Past, Present, Future 38
Congratulations on putting
together White Papers on
20 Languages of India!

Mais conteúdo relacionado

Semelhante a The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age”

Services PASOK
Services PASOKServices PASOK
Services PASOKthanough
 
Τρόποι και διαδικασία συμμετοχής στη Europeana, Λευκωσία 2012
Τρόποι και διαδικασία συμμετοχής στη Europeana, Λευκωσία 2012Τρόποι και διαδικασία συμμετοχής στη Europeana, Λευκωσία 2012
Τρόποι και διαδικασία συμμετοχής στη Europeana, Λευκωσία 2012kebepcy
 
Interoperability and modern ICT systems
Interoperability and modern ICT systemsInteroperability and modern ICT systems
Interoperability and modern ICT systemsDr. Fotios Fitsilis
 
Heterogeneity in european digital libraries, the europeana challenge
Heterogeneity in european digital libraries, the europeana challengeHeterogeneity in european digital libraries, the europeana challenge
Heterogeneity in european digital libraries, the europeana challengeVangelis Banos
 

Semelhante a The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age” (6)

Hellenic Blockchain Hub
Hellenic Blockchain HubHellenic Blockchain Hub
Hellenic Blockchain Hub
 
Services PASOK
Services PASOKServices PASOK
Services PASOK
 
Τρόποι και διαδικασία συμμετοχής στη Europeana, Λευκωσία 2012
Τρόποι και διαδικασία συμμετοχής στη Europeana, Λευκωσία 2012Τρόποι και διαδικασία συμμετοχής στη Europeana, Λευκωσία 2012
Τρόποι και διαδικασία συμμετοχής στη Europeana, Λευκωσία 2012
 
2nd_059-069_ChatzopoulosI.pdf
2nd_059-069_ChatzopoulosI.pdf2nd_059-069_ChatzopoulosI.pdf
2nd_059-069_ChatzopoulosI.pdf
 
Interoperability and modern ICT systems
Interoperability and modern ICT systemsInteroperability and modern ICT systems
Interoperability and modern ICT systems
 
Heterogeneity in european digital libraries, the europeana challenge
Heterogeneity in european digital libraries, the europeana challengeHeterogeneity in european digital libraries, the europeana challenge
Heterogeneity in european digital libraries, the europeana challenge
 

Mais de Georg Rehm

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureGeorg Rehm
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryGeorg Rehm
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die KundenkommunikationGeorg Rehm
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CGeorg Rehm
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeGeorg Rehm
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Georg Rehm
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital EuropeGeorg Rehm
 

Mais de Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital Europe
 

The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age”

  • 1. The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age” Georg Rehm German Research Centre for Artificial Intelligence (DFKI), Germany Sanskrit and Other Indian Languages Technology (SOIL-Tech) 15 February 2019 – New Dehli, India META-NET Language White Papers – Past, Present, Future 1
  • 2. EU-funded project (Seventh Framework Programme) working on technologies for the Multilingual European Information Society (2010 – 2013) T4ME 2010 Conference “Challenges for Multilingual Europe” (November 17/18, 2010) META-FORUM 2010 Established in 2010, META-NET is a network of Excellence consisting of 60 research centres from 34 countries, dedicated to building the technological foundations of a multilingual European information society META-NET Conference “Solutions for Multilingual Europe” (Budapest – June 27/28, 2011) META-FORUM 2011 2011 EU-funded project (ICT Policy Support Programme) functioning as a part of META-NET to standardise language resources and tools (2011 – 2013) CESAR EU-funded project (ICT Policy Support Programme) to enhance the European Linguistic Infrastructure (2011 – 2013) METANET4U EU-funded project META-NORD (ICT Policy Support Programme) establishing an open linguistic infrastructure in the Baltic and Nordic countries (2011 – 2013) META-NORD Conference “A Strategy for Multilingual Europe” (Brussels – June 20/21, 2012) META-FORUM 2012 2012 Release of 32 volumes on 31 languages, revealing that there is a severe threat of digital extinction for at least 21 European languages (December 2012) META-NET White Papers Conference “Connecting Europe for New Horizons” (Berlin –September 19/20, 2013) META-FORUM 2013 Launch of the Strategic Research Agenda for Multilingual Europe 2020 (January 2013) Strategic Research Agenda for Multilingual Europe 2020 Initiated in 2013, META-SHARE has functioned as an open and secure network of repositories for sharing and exchanging language data, tools and related web services META-SHARE 2013 Workshop on “State of the Art of Machine Translation“, commissioned by the EU Parliament (December 2013) “State of the Art of Machine Translation – Current Challenges and Future Opportunities“ EU-funded project CRACKER (Horizon2020) pushing towards an improvement of MT research in terms of efficiency and effectiveness (2015 – 2017) CRACKER Founded in 2015, the federation has been assembling European research and innovation projects as well as all related community organisations working on multilingual technologies Cracking the Language Barrier Federation Conference “Technologies for the Multilingual Digital Single Market“ (Riga – April 27, 2015) META-FORUM 2015 Launch of the Strategic Agenda for the Multilingual Digital Single Market titled “Technologies for Overcoming Language Barriers towards a truly integrated European Online Market” (April 2015) Strategic Agenda for the Multilingual Digital Single Market (Version 0.5) Summit carrying the motto “Shape the future of the multilingual digital single market” (April 27–29, 2015) Riga Summit on the Multilingual Digital Single Market 2015 Conference “Beyond Multilingual Europe” (Lisbon – July 4/5, 2016) META-FORUM 2016 Launch of the Strategic Research and Innovation Agenda titled “Language as a Data Type and Key Challenge for Big Data” (July 2016) Strategic Research and Innovation Agenda (Version 0.9) 2016 Workshop on “Language Equality in the Digital Age”, commissioned by the EU Parliament’s Science and Technology Options Assessment Committee (STOA) (January 2017) “Language Equality in the Digital Age” Launch of the study on “Language equality in the digital age: Towards a Human Language Project”, commissioned by the EU Parliament (March 2017) “Language equality in the digital age: Towards a Human Language Project” Conference “Towards a Human Language Project” (Brussels – November 13/14, 2017) META-FORUM 2017 Launch of the Strategic Research and Innovation Agenda titled “Language Technologies for Multilingual Europe – Towards a Human Language Project” (December 2017) Strategic Research and Innovation Agenda (Version 1.0) 2017 EP vote on report “Language equality in the digital age” The European Parliament voted upon the joint CULT/ITRE report on “Language equality in the digital age” with 592 votes in favour, 45 against and 44 abstentions (September 18, 2018) HLP Prep Final Proposal Submission 2018 Deadline for final submission on September 18, 2018. 2019%2021 2010 2013 2019
  • 4. ! 60 research centres in 34 countries (founded in 2010) Chair of Executive Board: Jan Hajic (CUNI) Dep.: J. van Genabith (DFKI), A. Vasiljevs (Tilde) General Secretary: Georg Rehm (DFKI) ! Multilingual Europe Technology Alliance. 900+ members in 67 countries (published in 2013) (31 volumes; published in 2012) T4ME (META-NET) CESAR METANET4UMETA-NORDMultilingual Europe Technology AllianceNET
  • 6. Language White Papers 1/2 6 ! Key communication instruments to address decision makers and journalists. ! Cover all EU languages (30 volumes). ! White papers on the state of a language (general, social, strategic and technological aspects). ! Functions: " Awareness raising. " Inform politicians, journalists about societal and technological problems and challenges as well as economic opportunities. META-NET Language White Papers – Past, Present, Future
  • 7. Language White Papers 2/2 7 ! Structure: " Part 1: Executive Summary " Part 2: General introduction " Part 3: Description of the respective language’s situation " Part 4: LT support for the respective language " Part 5: Information about META-NET; references ! Written in English, translated into the language they report upon ! Language White Papers were published by Springer: " Printed publications were distributed by META-NET " Printed publications can be purchased through the usual channels " Ebooks available via SpringerLink and META-NET website (free) META-NET Language White Papers – Past, Present, Future
  • 8. 8
  • 9.
  • 10. ! Basque ! Bulgarian* ! Catalan ! Croatian* ! Czech* ! Danish* ! Dutch* ! English* ! Estonian* ! Finnish* ! French* ! Galician ! German* ! Greek* ! Hungarian* ! Icelandic ! Irish* ! Italian* ! Latvian* ! Lithuanian* ! Maltese* ! Norwegian ! Polish* ! Portuguese* ! Romanian* ! Serbian ! Slovak* ! Slovene* ! Spanish* ! Swedish* ! Welsh * Official EU languagehttp://www.meta-net.eu/whitepapers
  • 11. A few Numbers … ! This was a very big endeavour. ! >160 national experts contributed as authors or co-authors ! >50 additional experts have contributed data and information ! >8.000 copies printed and distributed ! >7.000 files in the White Paper revision control system ! Parallel production pipeline for printed books and ebooks 11META-NET Language White Papers – Past, Present, Future
  • 12. Delivery Day – Sep. 14, 2012 12META-NET Language White Papers – Past, Present, Future
  • 13. Methodology 13 ! 30 tables provide data for all languages (tools, resources, gaps etc.). ! Reduce numbers to one final score per language and area. ! Calibration of tables across languages in smaller groups. ! Final scores for each area and language were derived from two central features (quality, coverage), resulting in one big table: Basque Bulgarian Catalan Croatian Czech Danish Dutch English Estonian Finnish French Galician German Greek Hungarian Icelandic Irish Italian Latvian Lithuanian Maltese Norwegian Polish Portuguese Romanian Serbian Slovak Slovene Spanish Swedish Tokenization, Morphology (tokenization, POS tagging, morphological analysis/generation) 5 5 5 5 0 5 3,1 4,1 5 4 4 4,1 5 4 4,1 4,1 4,1 3,1 4,1 3 3,1 4,1 5 4,1 5 5 3,1 4,1 5 4,1 Parsing (shallow or deep syntactic analysis) 4 4 3 2 5 3,1 2,1 4,1 3,1 3,1 4 4,1 3 2,1 4 4 2 3,1 2,1 1,1 0 3,1 4 3,1 4 3,2 0 3,1 4 4,1 Sentence Semantics (WSD, argument structure, semantic roles) 3,1 2,1 2 1,2 3,1 1,1 2,1 3,1 2 2 1,1 2,1 1,1 2 1,2 1,1 0 4 0 1,1 0 3,1 1,3 3,1 4 0 0 2,2 2,1 2 Text Semantics(coreferenceresolution, context, pragmatics, inference) 1 2 1,1 0 3 1 2 1,1 2 1 2,1 2,1 2,1 2 0,2 0 0 3 0 1 0 3 1,2 1,2 4,1 0 0 0 2 2,1 Advanced Discourse Processing (text structure, coherence, rhetorical structure/RST, argumentative zoning, argumentation, 1 0 2 0 3 1 0 2 0 0 2 0 2,1 1 0 0 0 2 0 1 0 3 1 2 3,1 0 0 0 1 1 Information Retrieval(text indexing, multimedia IR, crosslingual IR) 4 2 1,2 2,3 0 3 3 4,1 3 3 4,1 2 3 3,1 1,1 0 3,1 4,1 0 1,2 0 4 2 0 5 3 2,1 0 2 3,1 Information Extraction (named entity recognition, event/relation extraction, opinion/sentiment recognition, text 3 3 1,1 3,1 4,1 3 2,1 3,1 2 2 3,1 1,2 3 3 6 1 0 4,1 3 3 0 4 2 3,1 4,1 2 1 2,1 1,1 4 Language Generation (sentence generation, report generation, text generation) 0 2 1,2 0,4 4 0 2,1 2 0 2,2 2 0 2 1,1 0 0 3 0 1,2 0 0 3,1 1 0 0 0 0 0 2 2,1 Summarization, Question Answering,advanced Information Access Technologies 2 2 0 0,1 3 2,1 2,1 2 2 2 3 1,1 2 1,1 0 0 0 3 0 0,1 0 3,1 2 2,2 4,1 0,1 1 1,1 2,1 1 Machine Translation 3,1 2 3,1 1,2 0 1,2 2,2 2,1 2,1 3 3,1 4,1 2,1 1 5 2 2,1 3,1 4 3 2,1 2,2 3 2,1 3,1 0,1 2 3,1 4,1 2,2 Speech Recognition 1 3 3 3 2,1 1,2 3,1 4 4 3 4 5 4 3,1 2,2 1,1 3,1 4,1 0 1,1 1 1,1 3,1 2,2 2,1 1 2 2,1 3,1 3,1 Speech Synthesis 2,4 3 4 3,1 4 2,1 4 4,1 4 4 4 5 4,1 4,1 4 2,1 3,1 4 3,1 3 4 2,1 5,1 4 2 4 3 3,2 4 3 Dialogue Management (dialogue capabilities and user modelling) 0 0 2,2 1 3,1 1 2,1 3,1 3 1,1 3 1 3,1 1,2 0 0 0 3 0 0 0 1,1 1 3 0 0 0 2,1 2 3 Reference Corpora 2,3 4,1 3,1 3,1 5 3,1 2,2 4,1 4 3,1 3,1 5 3,1 3 6 3,1 3,2 3 4,1 4 3 3 4 4,1 1,1 2,2 4,1 4,1 3,1 3,1 Syntax-Corpora(treebanks, dependency banks) 2,2 2,1 3 3,1 3,3 1,3 2,2 4,2 2,1 3,2 3 2 3 3,1 5,1 2,2 1,2 3 1 1 0 3,1 4 4 4,1 0 2 3,2 2 3 Semantics-Corpora 1 4,1 1 0 3,1 1,2 1,2 3 2 0 1,1 1 1,1 2,1 1,5 0 0 4 1 0 0 2,1 2,2 3,1 2,1 0 0 1,4 2 1 Discourse-Corpora 0 2 2 0 2,1 1,3 0 3 2,1 2,1 2 0 2 0 0 0 0 2,2 0 0 0 1,1 1,1 2 2,1 0 1,1 0 3 1 Parallel Corpora, Translation Memories 0 2,2 2,1 3 3,1 2,1 2,1 4 2,1 3 3,1 5 2 2 6 1,1 3,2 3,1 3,1 3,1 2,1 4,1 4 2,1 4,1 2,1 2 2,2 3,1 3,2 Speech-Corpora (raw speech data, labelled/annotated speech data, speech dialogue data) 2,2 2,1 3,1 3 2,2 1,2 4,1 5,1 3,1 2,1 3,1 4,1 2,1 2,1 2,2 2 2,2 2,1 1 2 2,1 3,2 3 4 2,2 4 2 3,1 2,1 3 Multimedia and multimodal data 5 1 2 3,1 2,2 1,2 1,3 1,1 1 2,1 1,2 2,2 1,2 2,1 1 1 1,1 3,1 0 1 0 4,1 1 0 0 1,1 2,1 0 2 1 Language Models 2 2 2,1 0 4 3 2,1 5 3 2 3 4,1 3 2,1 3,1 3 0 0 3,1 3,1 3 1 1 0 4 2,1 1,2 2,2 2 4 Lexicons, Terminologies 5,1 3,1 3,1 3,1 3,1 4 3,1 4,1 5 4 3,1 4,1 3,1 3 6 3 4 4,1 5 3,1 2,1 5 4 4,1 4,1 4 3,1 2,2 3 4,1 Grammars 3,1 3 2 0 2,1 1,3 2,1 3 4 4 3 2 3 1 5,1 3 3 3 3,1 0 0 3,2 4 2,3 2,1 0,1 2,1 2,1 3 3 Thesauri, WordNets 4 4,1 2,2 3,1 3,1 3 2,1 4,1 3,1 3,1 1,1 4 2,1 1,1 3,3 3 3,1 3,1 2,1 1 0 0 4 2,2 4 2,1 1,1 3 3 4,1 Ontological Resources for World Knowledge (e.g. upper models, Linked Data) 2 3 2,1 0 2,1 1,1 0 4 0 2,1 1,1 1 2,1 2 1 0 0 3,1 1 1,1 0 0 2,2 2 2 0,1 0 0 2 1 Language Technology (Tools, Technologies, Applications) Language Resources (Resources, Data, Knowledge Bases) META-NET Language White Papers – Past, Present, Future
  • 14. Cluster-Based Presentation ! For journalists and politicians the big table is useless. ! Therefore: cluster-based cross-language comparison ! Each language is assigned to one of five clusters, ranging from excellent LT support to weak/no support. ! Presentation of key results with regard to four areas: " Machine Translation " Speech Processing " Text Analysis " Resources ! Results finalised at a meeting in Berlin with representatives of all 30 languages (October 21/22, 2011). 14META-NET Language White Papers – Past, Present, Future
  • 15. MT English good French, Spanish moderate fragmentary Catalan, Dutch, German, Hungarian, Italian, Polish, Romanian weak or no support through LT Basque, Bulgarian, Croatian, Czech, Danish, Estonian, Finnish, Galician, Greek, Icelandic, Irish, Latvian, Lithuanian, Maltese, Norwegian, Portuguese, Serbian, Slovak, Slovene, Swedish, Welsh excellent Czech, Dutch, Finnish, French, German, Italian, Portuguese, Spanish moderate fragmentary Basque, Bulgarian, Catalan, Danish, Estonian, Galician, Greek, Hungarian, Irish, Norwegian, Polish, Serbian, Slovak, Slovene, Swedish weak or no support through LT Croatian, Icelandic, Latvian, Lithuanian, Maltese, Romanian, Welsh excellent English good Speech English good Dutch, French, German, Italian, Spanish moderate fragmentary Basque, Bulgarian, Catalan, Czech, Danish, Finnish, Galician, Greek, Hungarian, Norwegian, Polish, Portuguese, Romanian, Slovak, Slovene, Swedish weak or no support through LT Croatian, Estonian, Icelandic, Irish, Latvian, Lithuanian, Maltese, Serbian, Welsh excellent English good Czech, Dutch, French, German, Hungarian, Italian, Polish, Spanish, Swedish moderate fragmentary Basque, Bulgarian, Catalan, Croatian, Danish, Estonian, Finnish, Galician, Greek, Norwegian, Portuguese, Romanian, Serbian, Slovak, Slovene Icelandic, Irish, Latvian, Lithuanian, Maltese, Welsh weak or no support through LTexcellent ResourcesTextAnalytics
  • 16. Fragmentary Weak/none Moderate Good Excellent Welsh Maltese Lithuanian Latvian Icelandic Irish Croatian Serbian Estonian Slovene Slovak Romanian Norwegian Greek Galician Danish Bulgarian Basque Swedish Portuguese Finnish Catalan Polish Hungarian Czech Italian German Dutch Spanish French English Levelofsupport Languages with names in red have little or no MT support Source: META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg, New York, Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors) Important: even current state of the art technologies are far from being perfect!
  • 17. Fragmentary Weak/none Moderate Good Excellent Welsh Maltese Lithuanian Latvian Icelandic Irish Croatian Serbian Estonian Slovene Slovak Romanian Norwegian Greek Galician Danish Bulgarian Basque Swedish Portuguese Finnish Catalan Polish Hungarian Czech Italian German Dutch Spanish French English Levelofsupport Languages with names in red have little or no MT support Source: META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg, New York, Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors) Important: 20+ European languages are severely under-supported and face the danger of digital extinction.
  • 18. Digital Language Extinction! ! “At Least 21 European Languages in Danger of Digital Extinction!” ! Press release on European Day of Languages (Sept. 26, 2012) ! Huge global interest in the topic and our key findings! ! 600+ mentions in the press ! News from 40+ countries in 35+ different languages ! 20+ television reports and 30+ broadcast interviews (radio, tv) with META-NET representatives ! Two Parliamentary Questions in the EP on the “digital extinction of languages” topic 18META-NET Language White Papers – Past, Present, Future
  • 19. Desudensættesderpengeaftilatøgeantal- let af operationer og udvide ambulatorieka- paciteten på det urologiske område på Herlev, »Mensåerdetogsåvigtigtatholdefastidet målogikkestillesigtilfredsmed,at80eller85 pct.kommerigennemtiltiden.«B Af Jens Ejsing // ejs@berlingske.dk Det danske sprog har det svært i den digitale verden. Det konstaterer danske sprogforskere- og eksperter i forbindelse med den nye inter- nationale undersøgelse META-NET, der ser nærmere på, hvordan en lang række mindre, europæiske sprog som dansk klarer sig i den digitaleverden. Forskerne fra bl.a. Københavns Universitet og Dansk Sprognævn når frem til, at dansk i fremtiden kan få det endnu sværere i den digitale verden, fordi Google Translate, GPSer, applikationertilsmartphonesogandresprog- teknologiske programmer ikke i tilstrækkelig grad formår at behandle de mange nuancer i detdanskesprog. Professor i sprogteknologi på Københavns Universitet, Bolette Sandford Pedersen, mener, at der er brug for en slags digital dansk sprogbank fyldt med data, så bl.a. oversættel- ser bliver så præcise og gode som muligt. Med hjælp fra sprogbanken kan forskere ifølge professoren hjælpe virksomheder med at for- bedreprogrammer,derskalhåndteresproglig viden om bl.a. maskinoversættelse, tale- genkendelseoginformationssøgning. Dermedvilderblivelængeremellemfejlag- tige oversættelser, som når »hæld olie på pan- den« med Google Translate bliver til »pour oil on the forehead« på engelsk. Oversættelser, der er i værste fald er så upræcise, at danskere ender med at fravælge deres eget sprog i den digitaleverden. Sproghjælp til virksomheder Hun anerkender dog, at »teknologien til auto- matiske oversættelser på mange måder er fantastisk«. »Den er bare ikke god nok, når det gælder dansk,«sigerhun: »Detersomom,atviietvistomfanglægger det i hænderne på Google eller andre virk- somheder at afgøre, om dansk skal behandles godt nok eller ej. Men det danske marked er ikke stort for dem. Spørgsmålet er derfor, Dårlig sprogteknologi truer dansk på nettet Ord. Forskere arbejder på at forbedre danske oversættelser på internettet. om vi ikke i højere grad selv skal gøre noget for at sikre, at det fornødne datamateriale er til rådighed, så vi får gode oversættelser og anden god sprogteknologi. Det kunne f.eks. være ved, at vi gjorde en indsats for at få opret- tet en sprogbank med en masse beriget mate- rialeomdansk.« »Hvis vi hele tiden oplever, at oversættel- ser er behæftede med fejl, tør vi ikke stole på dem,« siger hun og understreger, at »fejlagtige oversættelserkanføretilstoremisforståelser«. Ifølge Dansk Sprognævns direktør, Sabine Kirchmeier-Andersen,kandårligsprogtekno- logi have konsekvenser for mange danskere, derikkeersågodetilengelsk. »Hvis vi har ambitioner om at bruge det danske sprog i fremtidens teknologiske univers, skal der gøres en indsats nu for at fastholde ekspertise og udbygge den viden, vi har,«menerhun: »Ellers risikerer vi, at kun folk, der taler fly- dendeengelsk,vilfåglædeafdenyegeneratio- ner af web-, tele- og robotteknologi, der er på vej.«B INFOGRAFIK: HENRIK KIÆR / TEKST: FLEMMING STEEN PEDERSEN KILDE: REGION HOVEDSTADEN H Der er omkring 80 sprog i EU. For 21 af dem – også dansk – gælder det, at der er store sprogteknologiske mangler, når det gælder bl.a. maskinoversættelse, talegenken- delse og informationssøgning. H Ifølge en EU-undersøgelse køber et stigende antal europæiske internetbrugere varer eller tjenester på nettet, hvor det sprog, der bliver anvendt, ikke er deres eget. Det gælder over halvdelen af brugerne. H Over hver tredje anvender et fremmed- sprog til at skrive mail eller indlæg på nettet. fakta H Sprog i Europa 38 Στην ψηφιακή εποχή δεν… µιλούν ελληνικά, όπως και αρκετές άλλες ευρωπαϊκές γλώσσες, σύµφωνα µε πανευρωπαϊ- κή έκθεση µε την υπογραφή 200 και πλέον ειδικών. Η συγκεκριµένη µελέ- τη δηµοσιεύτηκε από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτε- σινή Ευρωπαϊκή Ηµέρα Γλωσσών. Για τις ανάγκες της έρευνάς τους, γλωσσολόγοι από 34 χώρες της Γη- ραιάς Ηπείρου βαθµολόγησαν τις διαθέσιµες γλωσσικές υπηρεσίες και δηµιούργησαν ένα «Λευκό Βι- βλίο» για κάθε ευρωπαϊκή γλώσσα. Στη µελέτη τους, οι ειδικοί αναζήτη- σαν µεταξύ άλλων τέσσερα βασικά ηλεκτρονικά εργαλεία, δηλαδή την ύπαρξη αυτόµατης µετάφρασης, τη δυνατότητα φωνητικής αλληλε- πίδρασης και ψηφιακής ανάλυσης κειµένου, ενώ ταυτόχρονα διερευνή- θηκε και η διαθεσιµότητα γλωσσικών πόρων ή πηγών. Σε πρώτη φάση εξέτασαν τις ιστο- σελίδες που επιτρέπουν στους χρή- στες να κάνουν µεταφράσεις online, όπως, για παράδειγµα, η υπηρεσία του κολοσσού πληροφορικής Google Translate. Την ίδια ώρα, εξετάστηκε και η «επικοινωνία» των ελληνόφω- νων χρηστών µε τις…συσκευές τους, όπως για παράδειγµα η δυνατότητα να «µιλήσει» κάποιος στο GPS στη µητρική του γλώσσα. Οι ερευνητές κατέληξαν στο συµπέρασµα ότι υπάρχουν τέτοιες συσκευές, αλλά δεν είναι τόσο διαδεδοµένες όσο οι αγγλόφωνες. Το «χρυσό» µετάλλιο κατακτά, όπως είναι άλλωστε και λογικό, η αγγλική γλώσσα. Οι αγγλόφωνοι χρή- στες έχουν την καλύτερη δυνατή τε- χνολογική υποστήριξη, κάτι το οποίο ευνοεί την περαιτέρω εξάπλωση της γλώσσας. Από «τεχνολογικό απο- κλεισµό» κινδυνεύουν περισσότερο η ισλανδική, η λετονική, η λιθουανική και η µαλτέζικη γλώσσα, ενώ σε λίγο καλύτερη µοίρα βρίσκονται η ελλη- νική, η βουλγαρική, η ουγγρική και η πολωνική, που όπως αναφέρει η έρευνα έχουν «αποσπασµατική» τε- χνολογική υποστήριξη. «Μέτρια» χαρακτηρίζεται η υπο- στήριξη χρηστών σε ολλανδική, γαλ- λική, γερµανική, ιταλική και ισπανική γλώσσα. Οι επικεφαλής της επιστη- µονικής οµάδας, Χανς Ουζκοράιτ και Γκεόργκ Ρεµ, αναφέρουν χαρακτηρι- στικά: «Υπάρχουν δραµατικές διαφο- ρές στην υποστήριξη της γλωσσικής τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες. Το χάσµα µετα- ξύ “µικρών” και “µεγάλων” γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων σε ψηφιακούς πόρους γλωσσών µε τις απαραίτητες βασικές τεχνολογί- ες. ∆ιαφορετικά, οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση». Μάλιστα, οι ειδικοί τονίζουν ότι χω- ρίς αποφασιστική δράση οι γλώσσες αυτές δύσκολα θα… επιβιώσουν στον ψηφιακό κόσµου του 21ου αιώνα. Η κ. Μαρία Γαβριηλίδου, µέλος της επι- στηµονικής οµάδας από το Ινστιτούτο Επεξεργασίας του Λόγου Ερευνητικό Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η έρευνα αυτή δεν λέει ότι δεν θα ζήσει η ελληνική γλώσσα ή ότι κινδυνεύει µε εξαφάνιση». Η ειδικός εξηγεί ότι όσο υπάρχουν άνθρωποι που µιλά- νε, γράφουν και επικοινωνούν µε µια γλώσσα, τότε αυτή θα συνεχίσει να υπάρχει. Είναι σηµαντικό, όµως, να έχουν όλοι οι χρήστες τη δυνατότητα να «µιλήσουν» στις µηχανές, όπως τα GPS τους, στα ελληνικά και να έχουν στη διάθεσή τους γλωσσικά εργαλεία ηλεκτρονικών υπολογιστών. Μεταξύ αυτών των «εργαλείων» είναι οι διορθωτές ορθογραφικών και συντακτικών λαθών, που χρησιµοποι- ούνται καθηµερινά από εκατοντάδες Ελληνες χρήστες και βασίζονται στη γλωσσική τεχνολογία. Παρ’ όλα αυτά, τονίζει ότι η ψη- φιακή εξάπλωση µιας γλώσσας είναι σηµαντική «∆εν είναι στα χέρια του µέσου χρήστη. Οι εκάστοτε κυβερ- νήσεις, η Ευρωπαϊκή Ενωση και ο ιδιωτικός τοµέας πρέπει να χρηµα- τοδοτήσουν την ανάπτυξη αυτής της τεχνολογίας για όλες τις γλώσσες», αναφέρει και συνεχίζει: «Οι χρήστες, όµως, πρέπει να απαιτούν να υπάρ- χουν και στη γλώσσα τους τα µέσα αυτά και να µην ικανοποιούνται µε τα αγγλικά». ■ Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ Life ΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ Με ψηφιακή εξαφάνιση κινδυνεύουν τα ελληνικά ΕΛΕΝΗ ΒΕΡΓΟΥ evergou@e-typos.com Η γλώσσα της αποξένωσης… GREEKLISH Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, γεγονός που ευνοεί την περαιτέρω εξάπλωση της γλώσσας ΜΕ GREEKLISH επικοινω- νούν πλέον µέσω µηνυµά- των ή email οι περισσότεροι νέοι της χώρας µας. Παρά το γεγονός ότι τα τελευ- ταία χρόνια υπάρχουν τα γλωσσικά εργαλεία, τα οποία επιτρέπουν τη χρήση της ελληνικής γραµµατο- σειράς, έφηβοι και νέοι ενήλικες φαίνεται ότι δεν έχουν «αγκαλιάσει» αυτές τις τεχνολογίες. Ο καθη- γητής Γλωσσολογίας, κ. Γιώργος Μπαµπινιώτης, λέει στον «Ε.Τ.»: «Τα greeklish είναι πρόβληµα για την ελληνική γλώσσα, ιδίως για ανθρώπους νέας ηλικίας για έναν καθαρά γλωσσικό λόγο. Με τη χρήση των greeklish αποξενώνονται από τη µορφή της λέξης ή όπως λέµε το ετυµολογικό ίνδαλµα που δηλώνεται µε την ορθογραφία της λέξης και συνδέεται και µε τη ση- µασία της λέξης και µε την προέλευσή της». Ο κίνδυνος, µε τον οποίο έρχονται αντι- µέτωποι οι νέοι άνθρωποι, είναι η αποξένωση από τη γραπτή µορφή της γλώσ- σας. Αυτή η «οικειότητα», όµως, βοηθάει και στην κατανόηση της σηµασίας αλλά και την προέλευση της λέξης. «Αυτή η αποξένωση δεν είναι άνευ σηµασίας», αναφέρει ο ειδικός, ο οποίος εξηγεί ότι η διαδικασία της γραφής βοηθάει να εντυπω- θεί η λέξη και να συνδεθεί µε άλλες οµόρριζες λέξεις. «Οταν χρησιµοποιείται αυτή η µορφή επικοινωνίας, κα- ταστρέφονται, ατονούν. ∆εν είναι προς θάνατο, αλλά θα κάνει ζηµιά», αναφέρει ο κ. Μπαµπινιώτης, ο οποίος συµβουλεύει τους χρήστες να επιλέγουν την ελληνική γραµµατοσειρά. Γιώργος Μπαµπινιώτης. Date 30 September 2012 Page 16 Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency agreement (www.nla.co.uk) or with written publisher permission. For external republishing rights see www.nla-republishing.com 49KYPIAKH 30 ΣΕΠΤΕΜΒΡΙΟΥ 2012 Η 26η Σεπτεµβρίου έχει καθιε- ρωθεί από το Συµβούλιο της Ευρώπης ως η Ευρωπαϊκή Ηµέρα των Γλωσσών, αλλά, σύµφωνα µε µια νέα ευρωπαϊκή επι- στηµονική έκθεση, οι 21 από τις 30 γλώσσες της Ευρώπης -µεταξύ των οποί- ων και η Ελληνική- αντιµετωπίζουν κίν- δυνο ψηφιακής εξαφάνισης. Η έρευνα κρούει τον κώδωνα κινδύ- νου, καθώς διαπίστωσε ότι η ψηφιακή βοήθεια για τις περισσότερες ευρωπαϊκές γλώσσες είναι ελλιπής ή απολύτως ανύ- παρκτη για τους χρήστες. Τις έφαγαν οι κοινές Η έκθεση, µε τη µορφή µιας σειράς Λευκών Βίβλων (µε τίτλο «Γλώσσες στην Ευρωπαϊκή Κοινωνία της Πληροφορίας»), από το επιστηµονικό δίκτυο ΜΕΤΑ- ΝΕΤ, το οποίο συνενώνει 60 ερευνητικά κέντρα σε 34 χώρες, επισηµαίνει ότι οι γλώσσες που µιλιούνται από σχετικά µικρό αριθµό ανθρώπων κινδυνεύουν, επειδή δεν έχουν τεχνολογική υποστή- ριξη όπως έχουν οι ευρέως χρησιµο- ποιούµενες γλώσσες. Λευκές Βίβλοι έχουν καταρτιστεί για τις εξής ευρω- παϊκές γλώσσες: αγγλικά, βασκικά, βουλγαρικά, γαλικιανά, γαλλικά, γερ- µανικά, δανικά, ελληνικά, εσθονικά, ιρλανδικά, ισλανδικά, ισπανικά, ιταλικά, καταλανικά, κροατικά, λετονικά, λι- θουανικά, µαλτέζικα, νορβηγικά (µπουκ- µόλ και νινόρσκ), ολλανδικά, ουγγρικά, πολωνικά, πορτογαλικά, ρουµανικά, σερβικά, σλοβακικά, σλοβενικά, σουη- δικά, τσεχικά και φινλανδικά. Κάθε Λευκή Βίβλος είναι γραµµένη στη γλώσ- σα στην οποία αναφέρεται και είναι µεταφρασµένη στα αγγλικά. Τέσσερις µεγάλοι κίνδυνοι Σύµφωνα µε τη νέα µελέτη, η Ισ- λανδική, η Λετονική, η Λιθουανική και η Μαλτέζικη αντιµετωπίζουν τον µε- γαλύτερο κίνδυνο εξαφάνισης σε µια ευρωπαϊκή τεχνολογική κοινωνία, που ολοένα περισσότερο προωθεί τη χρήση συγκεκριµένων γλωσσών και ιδίως της Αγγλικής. Όµως και άλλες γλώσσες, όπως η Ελληνική, η Βουλγαρική, η Ουγ- γρική και η Πολωνική, επίσης κινδυ- νεύουν στον σύγχρονο ψηφιακό κόσµο. Η έρευνα του ΜΕΤΑ-ΝΕΤ, στην οποία συνέβαλαν περισσότεροι από 200 ειδικοί, αξιολογεί τον κίνδυνο για κάθε γλώσσα µε βάση τέσσερα βασικά κριτήρια σε τεχνολογικό/ψηφιακό επίπεδο: την ύπαρ- ξη αυτόµατης µετάφρασης στη συγκε- κριµένη γλώσσα, τη δυνατότητα φωνη- τικής αλληλεπίδρασης, τη δυνατότητα ψηφιακής ανάλυσης κειµένου και τη διαθεσιµότητα των σχετικών ψηφιακών γλωσσικών πόρων/πηγών. Οι δυνατές Η γλώσσα µε την καλύτερη βαθµο- λογία στα κριτήρια είναι ασφαλώς η Αγγλική, που απολαµβάνει τη συγκριτικά καλύτερη τεχνολογική υποστήριξη (αν και όχι την καλύτερη δυνατή), γεγονός που διευκολύνει την περαιτέρω εξά- πλωσή της. Ακολουθούν µε ικανοποιητική ή µέ- τρια τεχνολογική/ψηφιακή υποστήριξη η Ολλανδική, η Γαλλική, η Γερµανική, η Ιταλική και η Ισπανική. Η Ελληνική, όπως επίσης η Βασκική, η Καταλανική, η Πολωνική, η Ουγγρική κ.ά. κατα- τάσσονται στις γλώσσες µε «αποσπα- σµατική» µόνο υποστήριξη, γι’ αυτό ακριβώς θεωρούνται γλώσσες υψηλού κινδύνου προς εξαφάνιση. Δραµατικές διαφορές Σύµφωνα µε τους επιµελητές της µε- λέτης Χανς Ουζκοράιτ και Γκέοργκ Ρεµ, «υπάρχουν δραµατικές διαφορές στην υποστήριξη της γλωσσικής τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες και τεχνολογικές περιοχές. Το χάσµα µεταξύ ‘µικρών’ και ‘µεγάλων’ γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων -σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες, αλλιώς οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση». Ως ελπίδα αυτών των γλωσσών θεω- ρείται η βελτίωση και η ευρύτερη αξιο- ποίηση του λογισµικού γλωσσικής τε- χνολογίας, το οποίο επιτρέπει τη φω- νητική και τη γραπτή επεξεργασία των διαφόρων γλωσσών. Παραδείγµατα αυτών των δυνατοτή- των είναι οι ηλεκτρονικοί ορθογραφικοί και συντακτικοί διορθωτές κειµένων, οι διαδραστικοί προσωπικοί «βοηθοί» των έξυπνων κινητών τηλεφώνων (π.χ. η Siri στο iPhone), τα συστήµατα αυ- τόµατης µετάφρασης, τα ηλεκτρονικά συστήµατα διαλόγου των τηλεφωνικών κέντρων, οι µηχανές αναζήτησης, η συνθετική φωνή στα συστήµατα πλοή- γησης των αυτοκινήτων. κ.ά. Το βασικό πρόβληµα Το σηµαντικό, σύµφωνα µε την έκ- θεση, είναι όλες αυτές οι δυνατότητες να προσφέρονται στους χρήστες και στη µητρική τους γλώσσα που κινδυνεύει µε εξαφάνιση. Χωρίς αποφασιστική δρά- ση, γίνεται η δυσοίωνη πρόβλεψη ότι οι γλώσσες αυτές δύσκολα θα επιβιώσουν στον ψηφιακό κόσµο του 21ου αιώνα. Ένα πρόβληµα είναι ότι το λογισµικό αυτών των συστηµάτων γλωσσικής τε- χνολογίας στηρίζεται σε στατιστικές µε- θόδους που απαιτούν τεράστιες ποσό- τητες γραπτών ή φωνητικών δεδοµένων, όµως τόσα πολλά δεδοµένα είναι δύσκολο να αποκτηθούν για γλώσσες που οµι- λούνται από σχετικά λίγους ανθρώπους. Εξάλλου, ακόµα και για ευρέως χρη- σιµοποιούµενες γλώσσες όπως τα αγ- γλικά, η σχετική γλωσσική τεχνολογία έχει ακόµα αδυναµίες, που είναι π.χ. φανερές στις άκρως ανεπαρκείς και γε- µάτες λάθη αυτόµατες µεταφράσεις. Η έκθεση προτείνει ότι πρέπει να αναληφθεί µια συντονισµένη µεγάλης κλίµακας προσπάθεια στην Ευρώπη, προκειµένου σταδιακά να δηµιουργηθούν ή να βελ- τιωθούν οι αναγκαίες τεχνολογίες και να βοηθηθούν οι γλώσσες που είναι ψη- φιακά παραγκωνισµένες. Τη γλώσσα µού... έχασαν Οι περισσότερες ευρωπαϊκές γλώσσες κινδυνεύουν µε ψηφιακή εξαφάνιση Πρέπει να εξασφαλιστεί ο εφοδιασµός των µικρότερων και λιγότερο πλούσιων -σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες ?049-ΚΟΣΜΟΣ 29/09/2012 1:41 ?Μ Page 49 19
  • 20. Website Visitors 20 began sending out press release European Day of Languages unusually high traffic META-NET Language White Papers – Past, Present, Future
  • 21. Website Visitors – Locations 21META-NET Language White Papers – Past, Present, Future
  • 22. Website Visitors – Locations 22META-NET Language White Papers – Past, Present, Future Brussels, Belgium, which is where the European Institutions are based. This is our main target audience!
  • 23. 2014
  • 24. Update of the Study ! Study comprised 31 volumes/languages. ! Many languages missing! Need for extension – at least of the comparison. ! We invited three language community bodies to participate in the update: European Federation of National Institutions for Language (EFNIL) Network to Promote Linguistic Diversity (NPLD) Experts Committee of the European Language Charter (Council of Europe) 24 CCURL 2014 – Collaboration and Computing for Under- Resourced Languages in the Linked Open Data Era
  • 25. Excellent Good Moderate Fragmentary Weak/no support LanguageTechnologySupport MillionsofNativeSpeakers(Worldwide) Yiddish Welsh VlaxRomani Turkish Scots Romany Occitan Maltese Macedonian Luxembourgish Lithuanian Limburgish Latvian Icelandic Friulian Frisian Breton Bosnian Asturian Albanian Irish Croatian Serbian Hebrew Estonian Slovene Slovak Romanian Norwegian Greek Galician Danish Bulgarian Basque Swedish Portuguese Finnish Catalan Polish Hungarian Czech Italian German Dutch Spanish French English 0 50 100 150 200 250 300 350 400 Source: Georg Rehm, Hans Uszkoreit, Ido Dagan, Vartkes Goetcherian, Mehmet Ugur Dogan, Coskun Mermer, Tamás Váradi, Sabine Kirchmeier-Andersen, Gerhard Stickel, Meirion Prys Jones, Stefan Oeter, and Sigve Gramstad. An Update and Extension of the META-NET Study “Europe's Languages in the Digital Age”. In Proceedings of the Workshop on Collaboration and Computing for Under-Resourced Languages in the Linked Open Data Era (CCURL 2014), Reykjavik, Iceland, May 2014.
  • 26. 2016
  • 27. Basque Bulgarian Catalan Croatian Czech Danish Dutch English Estonian Finnish French 2012 96 153 101 76 91 111 97 225 101 68 109 2013 330 258 256 202 194 286 427 625 201 284 542 2014 866 825 891 840 868 1,063 988 978 711 972 1032 2015 383 240 468 264 269 375 661 534 248 412 703 2016 378 259 377 231 292 395 600 499 187 470 480 Galician Greek German Hungarian Icelandic Irish Italian Latvian Lithuanian Maltese Norwegian (nynorsk) 2012 86 107 100 90 164 138 128 107 81 70 83 2013 178 556 449 315 393 352 383 218 216 148 182 2014 799 1133 1382 874 905 954 862 728 665 704 676 2015 246 419 903 285 463 395 472 250 230 307 272 2016 585 403 689 358 334 416 446 222 245 207 263 Norwegian (bokmal) Polish Portug. Romanian Serbian Slovak Slovene Spanish Swedish Welsh 2012 91 107 160 90 86 108 84 170 107 – 2013 262 234 355 326 169 145 214 486 348 – 2014 879 918 863 765 711 672 731 1195 885 1014 2015 273 419 377 307 272 228 200 784 496 466 2016 331 382 352 345 241 243 222 866 593 505 Downloads of Language White Papers from Springer Link Continued Interest in the White Papers 27
  • 28. Fragmentary Weak/none Moderate Good Excellent Welsh Maltese Lithuanian Latvian Icelandic Irish Croatian Serbian Estonian Slovene Slovak Romanian Norwegian Greek Galician Danish Bulgarian Basque Swedish Portuguese Finnish Catalan Polish Hungarian Czech Italian German Dutch Spanish French English Levelofsupport Languages with names in red have little or no MT support Source: META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg, New York, Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors) We carried out the study in 2011/2012. While support for many languages, and also overall, has improved in the meantime thanks to Deep Learning, the bigger picture appears to remain mostly the same.
  • 29. • Multilingualism is at the heart of the European idea • 24 EU languages – all have the same status • Dozens of regional and minority languages as well as languages of immigrants and trade partners • Many economic, social and technical challenges: – Digital Extinction of 21 European languages – The Digital Single Market needs to be multilingual – Cross-lingual, cross-cultural communication – There’s no LT platform for Europe! (yet)
  • 30. The EC and the Multilingual DSM • Blog post by Andrus Ansip (May 2016) • EC’s first public acknowledgment that language is of high relevance for the DSM. • “Overcoming language barriers is vital for building the DSM, which is by definition multilingual.” • “It is […] time to […] turn [language barriers] into competitive advantages.” • Blog post by Roberto Viola (DG Connect) and Rytis Martikonis (DG Translation) (Feb. 2017) • “We view the linguistic diversity of the EU as an asset and a great opportunity for the [DSM].” • “By using digital solutions we can bridge language barriers if we consider our diversity as an opportunity rather than an obstacle.” META-NET Language White Papers – Past, Present, Future 30
  • 31. 2017
  • 32. STUDY EPRS | European Parliamentary Research Service Scientific Foresight Unit (STOA) PE 581.621 Science and Technology Options Assessment STOA Workshop European Parliament 10 January 2017 Study published in March 2017 11 Key Recommendations
  • 33. 2018
  • 34. “Language equality” Resolution ! European Parliament Resolution “Language equality in the digital age” P8_TA(2018)0332 – based on STOA study ! Voting (11 Sept. 2018): 592 yes – 45 no ! Important Recommendations: " 29. Create a European LT platform for sharing of services " 41. Enable and empower European SMEs to use LTs " 26. ICT integrators should be given economic incentives for LT " 27. Europe has to secure its leadership in language-centric AI " 32. Set up LT financing platform; emphasise R&D in Deep NLU " 40. Develop investment instruments and accelerator programs 34 European Parliament 2014-2019 TEXTS ADOPTED Provisional edition P8_TA-PROV(2018)0332 Language equality in the digital age European Parliament resolution of 11 September 2018 on language equality in the digital age (2018/2028(INI)) The European Parliament, – having regard to Articles 2 and 3(3) of the Treaty on the Functioning of the European Union (TFEU), – having regard to Articles 21(1) and 22 of the Charter of Fundamental Rights of the European Union, – having regard to the 2003 UNESCO Convention for the Safeguarding of the Intangible Cultural Heritage, – having regard to Directive 2003/98/EC of the European Parliament and of the Council of 17 November 2003 on the re-use of public sector information1 , – having regard to Directive 2013/37/EU of the European Parliament and of the Council of 26 June 2013 amending Directive 2003/98/EC on the re-use of public sector information2 , – having regard to Decision (EU) 2015/2240 of the European Parliament and of the Council of 25 November 2015 establishing a programme on interoperability solutions and common frameworks for European public administrations, businesses and citizens (ISA2 programme) as a means for modernising the public sector3 , – having regard to the Council resolution of 21 November 2008 on a European strategy for multilingualism (2008/C 320/01)4 , – having regard to the Council decision of 3 December 2013 establishing the specific programme implementing Horizon 2020 – the Framework Programme for Research and 1 OJ L 345, 31.12.2003, p. 90. 2 OJ L 175, 27.6.2013, p. 1. 3 OJ L 318, 4.12.2015, p. 1. 4 OJ C 320, 16.12.2008, p. 1.
  • 35. 2019
  • 36. ELG – The Primary Platform for Language Technology in Europe Web Interface APIs European Language Grid – Content Catalogue LT Services, Tools, Components, Technologies Language Resources and Data Sets Organisations, Languages, Service Types etc. Cloud Infrastructure • Development of a functional language technology cloud platform for Europe • Market place for European LT business space (directory of stakeholders) • Hundreds of LT services and resources – easy-to-use and easy-to-integrate • Many different technologies for all European languages • Evaluation through 15-20 pilot projects feeding back into the platform • 30+ national competence centres will be set up for a strong European network • Services and resources can be made available by the community • Boosting the emerging Multilingual Digital Single Market • Interoperability of services through containerisation • Towards a thriving and flourishing European LT community Consortium • DFKI GmbH (Coordinator) (DE) • ILSP, R.C. “Athena“ (GR) • University of Sheffield (UK) • Charles University (CZ) • ELDA (FR) • Tilde (LV) • SAIL LABS GmbH (AT) • Expert System Iberia (ES) • University of Edinburgh (UK) 2019–2021 Coordinator: Georg Rehm georg.rehm@dfki.de GA number: 825627
  • 37. Concluding Remarks • The META-NET White Paper Series turned out to be an extremely effective communication instrument • The White Papers made the EU calls ICT-17-2014 (17M€) and ICT-29-2018 (25M€) possible • They ultimately lead to the recent EP Resolution (2018) • The ELG platform will be filled with: • Hundreds of running services • Thousands of language resources and data sets • Catalogues of all European LT companies & research groups • All records will be explicitly linked to their languages • Goal for 2020: automatic production of the language comparison tables in real-time based on the ELG data
  • 38. Thank you very much! META-NET Language White Papers – Past, Present, Future 38 Congratulations on putting together White Papers on 20 Languages of India!