1. Interna6onalisierung
bei
XML
Felix
Sasaki
DFKI
/
Fachhochschule
Potsdam
W3C
deutsch-‐österr.
Büro
felix.sasaki@dNi.de
Markupforum
2011
Sasaki
–
Markupforum
2011
2. Über
mich
• Studium
der
Japanologie
und
Linguis6k
in
Deutschland
und
Japan
• Disserta6on
im
Bereich
Computerlinguis6k
zu
Webtechnologien
und
mehrsprachigen
Daten
• 2005-‐2009:
Arbeit
in
Japan
beim
W3C,
hauptsächlich
in
der
„Interna6onaliza6on
Ac6vity“
• Seit
2009:
Professor
an
der
FH
Potsdam
/
Manager
des
W3C
deutsch-‐österr.
Büro
• Seit
Herbst
2010:
Senior
Researcher
am
DFKI
(Deutsches
Forschungszentrum
für
Künstliche
Intelligenz)
Sasaki
–
Markupforum
2011
2
3. Über
W3C
Büros
• Ein
Kontaktpunkt
wenn
man
...
– W3C
(noch
nicht)
gut
kennt
– Spezifische
Fragen
hat
wie
„Wer
arbeitet
an
Thema
ABC
...“
– Neue
Themen
in
Webstandardisierung
einbringen
will
und
sich
fragt
wo
sie
passen
könnten
• Biee
sprechen
Sie
uns
an
–
zu
obigen
Themen,
und
sonst
auch
J
Sasaki
–
Markupforum
2011
3
12. „Westliches“
Seitenlayout
• Zunächst
Festlegung
der
Seitenränder
• Dann
Festlegung
des
Druckbereichs
Sasaki
–
Markupforum
2011
12
13. Japanisches
Seitenlayout
• Zunächst
Festlegung
des
KIHONHANMEN
anhand
von
Zeichengröße,
Zeichenzahl,
Spaltenzahl,
Spaltenabstand
• Dann
Festlegung
der
Seitenränder
Sasaki
–
Markupforum
2011
13
14. Hintergrund:
reguläre
Ausmaße
japanischer
Zeichen
• Vgl.
Dokument
„Requirements
for
Japanese
Text
Layout“
hep://www.w3.org/TR/jlreq/
Sasaki
–
Markupforum
2011
14
15. Neue
Layout-‐Bestandteile:
Ruby
• Annota6onen
zum
Basistext
– Aussprache,
Erklärung,
...
• Darstellung
via
sprachspezifischer
Layoutregeln
Sasaki
–
Markupforum
2011
15
17. Zusammenfassung
zu
kulturspezifischem
Layout
• Neue
– Konzepte
(vgl.
KIHONHANMEN)
– Bestandteile
(vgl.
Ruby)
– Sichten
auf
Verfahren
(z.B.
„Single-‐source
Publishing“)
=
neue
Terminologie!
• Wo
kommt
XML?
Sasaki
–
Markupforum
2011
17
18. Input
und
Output:
„W3C
Japanese
Layout
Task
force“
• Teilnehmer:
Experten
der
japanischen
Druckindustrie
+
aus
allen
Layout-‐relevanten
Arbeitsgruppen
– CSS
– XSL
– SVG
• Ähnliche
Gruppen
im
W3C
für
Layout
im
Chinesischen
und
Koreanischen
• Einfluss
auch
auf
die
Entwicklung
von
ePub
3.0
Sasaki
–
Markupforum
2011
18
19. NEUE
THEMEN
II:
MEHRSPRACHIGKEIT
Sasaki
–
Markupforum
2011
19
21. Was
man
für
Mehrsprachigkeit
im
Web
braucht
• Input
von
www.postbank.de
„Ob
Postbank
direkt,
Online-‐Banking,
Online-‐Brokerage
oder
myBHW.
Die
häufigsten
Fragen
zu
unseren
Transak6onssystemen
finden
Sie
an
dieser
Stelle.“
• Ausgabe
via
Google
translate
“Whether
Postbank
direct,
online
banking,
online
brokerage
or
myBHW.
Frequently
asked
ques6ons
about
our
transac6on
systems
can
be
found
at
this
loca6on.”
Sasaki
–
Markupforum
2011
21
22. Lücke
1:
Maschinen
nutzen
keine
Metadaten
in
der
Eingabe
• Input
von
www.postbank.de
Feste
Terminology
„Ob
Postbank
direkt,
Online-‐Banking,
Sollte
nicht
Online-‐Brokerage
oder
myBHW.
Die
übersetzt
werden.
häufigsten
Fragen
zu
unseren
Transak6onssystemen
finden
Sie
an
Wenn
ein
Autor
dieser
Stelle.“
diese
Informa6on
• Ausgabe
via
Google
translate
markiert
häee,
“Whether
Postbank
direct,
online
wäre
das
banking,
online
brokerage
or
myBHW.
automa6sche
Tool
Frequently
asked
ques6ons
about
our
transac6on
systems
can
be
found
at
besser
this
loca6on.”
Sasaki
–
Markupforum
2011
22
23. Lücke
2:
Maschinen
kennen
keine
Prozesse
zur
Datenerzeugung
• Input
aus
einer
Datenbank
–
dem
Feste
Terminologie
„hidden
web“:
(=
Metadaten)
…
„Ob
<term>Postbank
direkt</term>,
<term>Online-‐Banking</term>,
<term>Online-‐Brokerage</term>
…“
Publika6ons-‐
prozess
• Ausgabe
im
Web:
„Ob
<em>Postbank
direkt</em>,
…
wird
verloren
im
<em>Online-‐Banking</em>,
<em>Online-‐Brokerage</em>
…“
Web
L
Sasaki
–
Markupforum
2011
23
24. Lücke
3:
keine
eindeu6ge
Iden6fika6on
• Von
Metadaten
und
Verarbeitungsprozessen
(vorherige
Folien)
• Von
Ressourcen
–
was
ist
z.B.
ein
Lexikon
– In
maschineller
Übersetzung?
– In
Lokalisierung?
– Für
den
menschlichen
Leser?
– ...
• Wiederverwendung
und
Kombina6on
von
Ressourcen
wird
behindert
Sasaki
–
Markupforum
2011
24
25. Wer
kann
diese
Lücken
füllen?
• Autoren(systeme)
– Nutzung
von
Terminologie
/
Markierung
von
Übersetzbarkeit
z.B.
in
CMS
• Lokalisierer
– Lokalisierungsworkflows
sensibel
für
Metadaten
(Quelltext-‐
und
Prozess-‐bezogen)
machen
• „Sprachtechnologie”
Experten
– Tools
sensibel
machen
für
Metadaten
im
Quelltext
und
im
Prozess
– Ressourcen
und
Workflows
klar
beschreiben
Sasaki
–
Markupforum
2011
25
26. Wie
können
die
Lücken
gefüllt
werden?
• Metadaten
standardisieren
• Metadatennutzung
propagieren
bei
– Erzeugern
von
Inhalten
– Verschiedenen
Gliedern
der
Verarbeitungskeee
• Anwendungsszenarien
Community-‐
übergreifend
definieren
Sasaki
–
Markupforum
2011
26
27. ZUM
SCHLUSS:
PROJEKTHINTERGRUND
Sasaki
–
Markupforum
2011
27
29. Hintergrund
• Teilnehmer
aus
Industrie
und
Akademia
(z.B.
Computerlinguis6k)
• Ziel:
Lücken
zwischen
Industrien,
Nutzern
und
Forschern
schließen
• Outreach
zu
neuen
Entwicklungen
(z.B.
hinsichtlich
interna6onalisiertem
Layout)
–
wie
in
dieser
Präsenta6on
J
• Mehr
gegenwär6ges
Verständnis
für
Bedürfnisse
von
Nutzern
und
Möglichkeiten
(automa6scher)
Verarbeitung)
• Toolentwicklung
– Beispiel
“I18n
checker”
hep://rishida.net/tools/i18nchecker/
Sasaki
–
Markupforum
2011
29
30. Teilnehmer
• ERCIM/W3C:
coordina6on
• SAP
• CNR-‐ILC
• The
Transla6on
Automa6on
User
• Facebook
Ireland
Society
(TAUS)
• The
University
of
Applied
• Teknillinen
Korkeakoulu
Sciences
(UAS)
Potsdam
• University
of
Oviedo
(ILTO)
• Ins6tut
Josef
Stefan
(JSI)
• Universidad
Politécnica
de
• Ins6tutul
de
Cercetari
Pentru
Madrid
(UPM)
Intelegen6a
Ar6cificiala
(RACAI)
• The
Language
Resource
Centre
• The
Language
Technology
Centre
• University
of
Economics,
Prague
• Lionbridge
Belgium
• Transware
Ltd
(WeLocalize)
• Microsou
Ireland
• XML-‐INTL
• Opera
Souware
Sasaki
–
Markupforum
2011
30
31. Workshops
zum
Community-‐Bildung
• Erster
Workshop
26.-‐27.
Oktober
2010,
Madrid:
„The
Mul6lingual
Web
–
Where
Are
We?“
• Zweiter
Workshop
4.-‐5.
April
2011,
Pisa:
„Content
On
The
Mul6lingual
Web“
Sasaki
–
Markupforum
2011
31
32. EU-‐Projekt
„META-‐NET“
• Enge
Verbindung
zu
„Mul6lingual
Web“
• Hauptziel:
Langfris6ge
Allianz
für
Sprachtechnologie
in
Europa
bauen
• Umfasst
mehr
als
40
teilnehmende
Organisa6onen
aus
30+
Ländern
• Wich6g:
Nutzer
von
Sprachtechnologie
involvieren
Sasaki
–
Markupforum
2011
32
33. META-‐NET
• Nutzer
und
Sprachtechnologiefirmen
=
in
Europa
ou
KMUs
• Ziel
von
META-‐NET
sind
schnelle
und
flexible
Einheiten
–
wie
Sie
J
• Die
EU
hat
entsprechende
Förderprogramme
veröffentlicht
-‐
vgl.
hep://6nyurl.com/eu-‐lt-‐sme
(„objec6ve
4.1“)
Sasaki
–
Markupforum
2011
33
34. META-‐NET
• Event:
META-‐FORUM
2011
• Budapest,
27.-‐29.
Juni
2011
• Ziel:
Nutzer
/
Sprachtechnologieentwickler
/
„Entscheider“
zusammenbringen
• Ziele
für
die
Sprachtechnologie
in
den
nächsten
10
Jahren
disku6eren
• Details
und
bald
Registrierung
unter
hep://www.meta-‐net.eu/events
Sasaki
–
Markupforum
2011
34
35. Thank
you
for
your
aeen6on!
Vielen
Dank
für
Ihre
Aufmerksamkeit
Sasaki
–
Markupforum
2011
35