SlideShare uma empresa Scribd logo
1 de 15
Baixar para ler offline
¨
Automatische Ubersetzung in einem
multilingualen, semantischen Wiki
Tobias Kuhn
Professur f¨r Soziologie, insbesondere Modellierung und Simulation, ETH Z¨rich
u
u

Institut f¨r Computerlinguistik, Universit¨t Z¨rich
u
a u
27. November 2013
Man stelle sich vor, ...

... dass Wikipedia die Konsistenz des enthaltenen
Wissens uberpr¨fen und Fragen dazu beantworten
u
¨
k¨nnte, und
o
... dass der gesamte Inhalt sofort in allen Sprachen
verf¨gbar w¨re!
u
a

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

2 / 15
• AceWiki ist ein semantisches Wiki
• Artikel sind in einer kontrollierten nat¨rlichen Sprache
u

geschrieben: Attempto Controlled English (ACE)
• Im Hintergrund werden die S¨tze in die Semantic-Web-Sprache
a

OWL ubersetzt
¨
• Der eingebaute OWL-Reasoner kann Fragen beantworten und
Widerspr¨che entdecken
u
• Spezieller Editor f¨r das Schreiben on ACE-S¨tzen
u
a
• Wurde um Multilingualit¨t erweitert
a
Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

3 / 15
Multilinguales AceWiki: AceWiki-GF

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

4 / 15
Konsistenzpr¨fung
u

AceWiki uberpr¨ft jeden neuen Satz auf Konsistenz:
u
¨

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

5 / 15
Beantwortung von Fragen

AceWiki kann auch Fragen beantworten:

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

6 / 15
Grammatical Framework (GF)

GF ist ein Framework f¨r die Erstellung multilingualer Grammatiken:
u
• Regelbasiert
• Funktionale Programmiersprache (basierend auf Haskell)

optimiert f¨r die Beschreibung nat¨rlicher Sprachen
u
u
• “Resource Grammar Library”, die allgemeine morphologische

und syntaktische Strukturen implementiert
• “Mildly context-sensitive”

¨
• Bidirectionale Ubersetzungen: konkrete Sprache ⇔ Abstrakte
Syntaxb¨ume
a
Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

7 / 15
¨
GF-Grammatiken und -Ubersetzungen
GF-Grammatiken bestehen aus:
• Einer sprachunabh¨ngigen abstrakten Syntax
a
• Mehreren konkreten Sprachdefinitionen (“concrete syntax”), die

W¨rter, Wortstellung, etc. definieren durch die Implementierung
o
der gegebenen abstrakten Kategorien und Funktionen
Beispiel
border : Country -> Country -> Relation
Englisch: border x y = x!Nom + "borders" + y!Acc
Estnisch: border x y = x!Gen + "naaber on" + y!Nom
¨
GF-Ubersetzungen bestehen aus:
• Zun¨chst wird ein Text in der Originalsprache in einen Baum
a

(oder mehrere B¨ume) in der abstrakten Syntax abgebildet
a
• Dann werden diese B¨ume als Texte in der Zielsprache
a

“linearisiert”
Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

8 / 15
GF Resource Grammar Library (RGL)
• Morphologie und Syntax f¨r ∼30 Sprachen mit einer
u

sprachunabh¨ngigen API
a
• Entwickler brauchen kein detailliertes Wissen der Sprachen, die

sie in ihren Anwendungen verwenden wollen

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

9 / 15
ACE-in-GF
• Kontrollierte Versionen mehrerer nat¨rlicher Sprachen, die auf
u

ACE (und aufeinander) abgebildet werden k¨nnen
o
• Dadurch k¨nnen sie in die verschiedenen formalen Sprachen
o

ubersetzt werden, die ACE schon unterst¨tzt
u
¨

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

10 / 15
Au߬sung von Mehrdeutigkeiten
o

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

11 / 15
Die Zukunft...?
K¨nnen wir eine wirklich multilinguale Wikipedia erstellen?
o
• Inhalt in einer semantischen Repr¨sentation
a
• Verbalisierung in verschiedenen Sprachen
• Der ganze Inhalt w¨re sofort in allen Sprachen verf¨gbar (wenn
a
u

das ben¨tigte Vokabular schon definiert ist)
o
• W¨rde die momentane Englisch-Dominanz brechen und dem
u

Ausschliessen von Benutzern weniger verbreiteten oder
unterrepr¨sentierter Sprachen ein Ende setzen
a
• W¨rde auch zur Vision des Semantic Webs beitragen.
u

Andere ¨hnliche Ans¨tze:
a
a
• http://www.wikidata.org
• http://meta.wikimedia.org/wiki/A_proposal_towards_a_
multilingual_Wikipedia
Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

12 / 15
Publikationen
Die folgenden Publikationen enthalten detailliertere Infos zu unserem
Ansatz:
Kaarel Kaljurand and Tobias Kuhn. A Multilingual Semantic Wiki
Based on Attempto Controlled English and Grammatical Framework.
In Proceedings of the 10th Extended Semantic Web Conference
(ESWC). 2013.
http://purl.org/tkuhn/eswc2013acewikigf

Kaarel Kaljurand, Tobias Kuhn, and Laura Canedo. Collaborative
multilingual knowledge management based on controlled natural
language. Under review.
http://www.semantic-web-journal.net/system/files/swj524.pdf

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

13 / 15
Vielen Dank f¨r die Aufmerksamkeit!
u

Fragen?

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

14 / 15
Links
ACE parser (APE) Code: https://github.com/Attempto/APE
ACE-in-GF Code: http://github.com/Attempto/ACE-in-GF
AceWiki und AceWikiGF
• Code: http://github.com/AceWiki/AceWiki
• Demos (non-GF): http://attempto.ifi.uzh.ch/acewiki/
• Demos (GF): http://attempto.ifi.uzh.ch/acewiki-gf/
MOLTO Projekt Web-Seite: http://www.molto-project.eu
Attempto Web-Seite: http://attempto.ifi.uzh.ch
GF: http://www.grammaticalframework.org

Tobias Kuhn, ETH Zurich

¨
Automatische Ubersetzung in einem multilingualen, semantischen Wiki

15 / 15

Mais conteúdo relacionado

Mais de Tobias Kuhn

Nanopublications and Decentralized Publishing
Nanopublications and Decentralized PublishingNanopublications and Decentralized Publishing
Nanopublications and Decentralized PublishingTobias Kuhn
 
Linked Data Publishing with Nanopublications
Linked Data Publishing with NanopublicationsLinked Data Publishing with Nanopublications
Linked Data Publishing with NanopublicationsTobias Kuhn
 
Genuine semantic publishing
Genuine semantic publishingGenuine semantic publishing
Genuine semantic publishingTobias Kuhn
 
A Decentralized Approach to Dissemination, Retrieval, and Archiving of Data
A Decentralized Approach to Dissemination, Retrieval, and Archiving of DataA Decentralized Approach to Dissemination, Retrieval, and Archiving of Data
A Decentralized Approach to Dissemination, Retrieval, and Archiving of DataTobias Kuhn
 
The Controlled Natural Language of Randall Munroe’s Thing Explainer
The Controlled Natural Language of Randall Munroe’s Thing Explainer The Controlled Natural Language of Randall Munroe’s Thing Explainer
The Controlled Natural Language of Randall Munroe’s Thing Explainer Tobias Kuhn
 
Publishing without Publishers: a Decentralized Approach to Dissemination, Ret...
Publishing without Publishers: a Decentralized Approach to Dissemination, Ret...Publishing without Publishers: a Decentralized Approach to Dissemination, Ret...
Publishing without Publishers: a Decentralized Approach to Dissemination, Ret...Tobias Kuhn
 
nanopub-java: A Java Library for Nanopublications
nanopub-java: A Java Library for Nanopublicationsnanopub-java: A Java Library for Nanopublications
nanopub-java: A Java Library for NanopublicationsTobias Kuhn
 
Semantic Publishing and Nanopublications
Semantic Publishing and NanopublicationsSemantic Publishing and Nanopublications
Semantic Publishing and NanopublicationsTobias Kuhn
 
Scientific Data Publishing
Scientific Data PublishingScientific Data Publishing
Scientific Data PublishingTobias Kuhn
 
A Decentralized Network for Publishing Linked Data — Nanopublications, Trusty...
A Decentralized Network for Publishing Linked Data — Nanopublications, Trusty...A Decentralized Network for Publishing Linked Data — Nanopublications, Trusty...
A Decentralized Network for Publishing Linked Data — Nanopublications, Trusty...Tobias Kuhn
 
Science Bots: A Model for the Future of Scientific Computation?
Science Bots: A Model for the Future of Scientific Computation?Science Bots: A Model for the Future of Scientific Computation?
Science Bots: A Model for the Future of Scientific Computation?Tobias Kuhn
 
Data Publishing and Post-Publication Reviews
Data Publishing and Post-Publication ReviewsData Publishing and Post-Publication Reviews
Data Publishing and Post-Publication ReviewsTobias Kuhn
 
Semantic Publishing with Nanopublications
Semantic Publishing with Nanopublications Semantic Publishing with Nanopublications
Semantic Publishing with Nanopublications Tobias Kuhn
 
Meme Extraction from Corpora of Scientific Literature using Citation Networks
Meme Extraction from Corpora of Scientific Literature using Citation NetworksMeme Extraction from Corpora of Scientific Literature using Citation Networks
Meme Extraction from Corpora of Scientific Literature using Citation NetworksTobias Kuhn
 
A Multilingual Semantic Wiki Based on Controlled Natural Language
A Multilingual Semantic Wiki Based on Controlled Natural LanguageA Multilingual Semantic Wiki Based on Controlled Natural Language
A Multilingual Semantic Wiki Based on Controlled Natural LanguageTobias Kuhn
 
Citation Graph Analysis to Identify Memes in Scientific Literature
Citation Graph Analysis to Identify Memes in Scientific LiteratureCitation Graph Analysis to Identify Memes in Scientific Literature
Citation Graph Analysis to Identify Memes in Scientific LiteratureTobias Kuhn
 
Citation Graph Analysis to Identify Memes in Scientific Literature
Citation Graph Analysis to Identify Memes in Scientific LiteratureCitation Graph Analysis to Identify Memes in Scientific Literature
Citation Graph Analysis to Identify Memes in Scientific LiteratureTobias Kuhn
 
Trusty URIs: Verifiable, Immutable, and Permanent Digital Artifacts for Linke...
Trusty URIs: Verifiable, Immutable, and Permanent Digital Artifacts for Linke...Trusty URIs: Verifiable, Immutable, and Permanent Digital Artifacts for Linke...
Trusty URIs: Verifiable, Immutable, and Permanent Digital Artifacts for Linke...Tobias Kuhn
 
A Multilingual Semantic Wiki based on Attempto Controlled English and Grammat...
A Multilingual Semantic Wiki based on Attempto Controlled English and Grammat...A Multilingual Semantic Wiki based on Attempto Controlled English and Grammat...
A Multilingual Semantic Wiki based on Attempto Controlled English and Grammat...Tobias Kuhn
 

Mais de Tobias Kuhn (20)

Nanopublications and Decentralized Publishing
Nanopublications and Decentralized PublishingNanopublications and Decentralized Publishing
Nanopublications and Decentralized Publishing
 
Linked Data Publishing with Nanopublications
Linked Data Publishing with NanopublicationsLinked Data Publishing with Nanopublications
Linked Data Publishing with Nanopublications
 
Genuine semantic publishing
Genuine semantic publishingGenuine semantic publishing
Genuine semantic publishing
 
A Decentralized Approach to Dissemination, Retrieval, and Archiving of Data
A Decentralized Approach to Dissemination, Retrieval, and Archiving of DataA Decentralized Approach to Dissemination, Retrieval, and Archiving of Data
A Decentralized Approach to Dissemination, Retrieval, and Archiving of Data
 
The Controlled Natural Language of Randall Munroe’s Thing Explainer
The Controlled Natural Language of Randall Munroe’s Thing Explainer The Controlled Natural Language of Randall Munroe’s Thing Explainer
The Controlled Natural Language of Randall Munroe’s Thing Explainer
 
Publishing without Publishers: a Decentralized Approach to Dissemination, Ret...
Publishing without Publishers: a Decentralized Approach to Dissemination, Ret...Publishing without Publishers: a Decentralized Approach to Dissemination, Ret...
Publishing without Publishers: a Decentralized Approach to Dissemination, Ret...
 
nanopub-java: A Java Library for Nanopublications
nanopub-java: A Java Library for Nanopublicationsnanopub-java: A Java Library for Nanopublications
nanopub-java: A Java Library for Nanopublications
 
Semantic Publishing and Nanopublications
Semantic Publishing and NanopublicationsSemantic Publishing and Nanopublications
Semantic Publishing and Nanopublications
 
Scientific Data Publishing
Scientific Data PublishingScientific Data Publishing
Scientific Data Publishing
 
A Decentralized Network for Publishing Linked Data — Nanopublications, Trusty...
A Decentralized Network for Publishing Linked Data — Nanopublications, Trusty...A Decentralized Network for Publishing Linked Data — Nanopublications, Trusty...
A Decentralized Network for Publishing Linked Data — Nanopublications, Trusty...
 
Science Bots: A Model for the Future of Scientific Computation?
Science Bots: A Model for the Future of Scientific Computation?Science Bots: A Model for the Future of Scientific Computation?
Science Bots: A Model for the Future of Scientific Computation?
 
Data Publishing and Post-Publication Reviews
Data Publishing and Post-Publication ReviewsData Publishing and Post-Publication Reviews
Data Publishing and Post-Publication Reviews
 
Semantic Publishing with Nanopublications
Semantic Publishing with Nanopublications Semantic Publishing with Nanopublications
Semantic Publishing with Nanopublications
 
Nanopubs
NanopubsNanopubs
Nanopubs
 
Meme Extraction from Corpora of Scientific Literature using Citation Networks
Meme Extraction from Corpora of Scientific Literature using Citation NetworksMeme Extraction from Corpora of Scientific Literature using Citation Networks
Meme Extraction from Corpora of Scientific Literature using Citation Networks
 
A Multilingual Semantic Wiki Based on Controlled Natural Language
A Multilingual Semantic Wiki Based on Controlled Natural LanguageA Multilingual Semantic Wiki Based on Controlled Natural Language
A Multilingual Semantic Wiki Based on Controlled Natural Language
 
Citation Graph Analysis to Identify Memes in Scientific Literature
Citation Graph Analysis to Identify Memes in Scientific LiteratureCitation Graph Analysis to Identify Memes in Scientific Literature
Citation Graph Analysis to Identify Memes in Scientific Literature
 
Citation Graph Analysis to Identify Memes in Scientific Literature
Citation Graph Analysis to Identify Memes in Scientific LiteratureCitation Graph Analysis to Identify Memes in Scientific Literature
Citation Graph Analysis to Identify Memes in Scientific Literature
 
Trusty URIs: Verifiable, Immutable, and Permanent Digital Artifacts for Linke...
Trusty URIs: Verifiable, Immutable, and Permanent Digital Artifacts for Linke...Trusty URIs: Verifiable, Immutable, and Permanent Digital Artifacts for Linke...
Trusty URIs: Verifiable, Immutable, and Permanent Digital Artifacts for Linke...
 
A Multilingual Semantic Wiki based on Attempto Controlled English and Grammat...
A Multilingual Semantic Wiki based on Attempto Controlled English and Grammat...A Multilingual Semantic Wiki based on Attempto Controlled English and Grammat...
A Multilingual Semantic Wiki based on Attempto Controlled English and Grammat...
 

Automatische Übersetzung in einem multilingualen, semantischen Wiki

  • 1. ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki Tobias Kuhn Professur f¨r Soziologie, insbesondere Modellierung und Simulation, ETH Z¨rich u u Institut f¨r Computerlinguistik, Universit¨t Z¨rich u a u 27. November 2013
  • 2. Man stelle sich vor, ... ... dass Wikipedia die Konsistenz des enthaltenen Wissens uberpr¨fen und Fragen dazu beantworten u ¨ k¨nnte, und o ... dass der gesamte Inhalt sofort in allen Sprachen verf¨gbar w¨re! u a Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 2 / 15
  • 3. • AceWiki ist ein semantisches Wiki • Artikel sind in einer kontrollierten nat¨rlichen Sprache u geschrieben: Attempto Controlled English (ACE) • Im Hintergrund werden die S¨tze in die Semantic-Web-Sprache a OWL ubersetzt ¨ • Der eingebaute OWL-Reasoner kann Fragen beantworten und Widerspr¨che entdecken u • Spezieller Editor f¨r das Schreiben on ACE-S¨tzen u a • Wurde um Multilingualit¨t erweitert a Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 3 / 15
  • 4. Multilinguales AceWiki: AceWiki-GF Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 4 / 15
  • 5. Konsistenzpr¨fung u AceWiki uberpr¨ft jeden neuen Satz auf Konsistenz: u ¨ Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 5 / 15
  • 6. Beantwortung von Fragen AceWiki kann auch Fragen beantworten: Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 6 / 15
  • 7. Grammatical Framework (GF) GF ist ein Framework f¨r die Erstellung multilingualer Grammatiken: u • Regelbasiert • Funktionale Programmiersprache (basierend auf Haskell) optimiert f¨r die Beschreibung nat¨rlicher Sprachen u u • “Resource Grammar Library”, die allgemeine morphologische und syntaktische Strukturen implementiert • “Mildly context-sensitive” ¨ • Bidirectionale Ubersetzungen: konkrete Sprache ⇔ Abstrakte Syntaxb¨ume a Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 7 / 15
  • 8. ¨ GF-Grammatiken und -Ubersetzungen GF-Grammatiken bestehen aus: • Einer sprachunabh¨ngigen abstrakten Syntax a • Mehreren konkreten Sprachdefinitionen (“concrete syntax”), die W¨rter, Wortstellung, etc. definieren durch die Implementierung o der gegebenen abstrakten Kategorien und Funktionen Beispiel border : Country -> Country -> Relation Englisch: border x y = x!Nom + "borders" + y!Acc Estnisch: border x y = x!Gen + "naaber on" + y!Nom ¨ GF-Ubersetzungen bestehen aus: • Zun¨chst wird ein Text in der Originalsprache in einen Baum a (oder mehrere B¨ume) in der abstrakten Syntax abgebildet a • Dann werden diese B¨ume als Texte in der Zielsprache a “linearisiert” Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 8 / 15
  • 9. GF Resource Grammar Library (RGL) • Morphologie und Syntax f¨r ∼30 Sprachen mit einer u sprachunabh¨ngigen API a • Entwickler brauchen kein detailliertes Wissen der Sprachen, die sie in ihren Anwendungen verwenden wollen Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 9 / 15
  • 10. ACE-in-GF • Kontrollierte Versionen mehrerer nat¨rlicher Sprachen, die auf u ACE (und aufeinander) abgebildet werden k¨nnen o • Dadurch k¨nnen sie in die verschiedenen formalen Sprachen o ubersetzt werden, die ACE schon unterst¨tzt u ¨ Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 10 / 15
  • 11. Aufl¨sung von Mehrdeutigkeiten o Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 11 / 15
  • 12. Die Zukunft...? K¨nnen wir eine wirklich multilinguale Wikipedia erstellen? o • Inhalt in einer semantischen Repr¨sentation a • Verbalisierung in verschiedenen Sprachen • Der ganze Inhalt w¨re sofort in allen Sprachen verf¨gbar (wenn a u das ben¨tigte Vokabular schon definiert ist) o • W¨rde die momentane Englisch-Dominanz brechen und dem u Ausschliessen von Benutzern weniger verbreiteten oder unterrepr¨sentierter Sprachen ein Ende setzen a • W¨rde auch zur Vision des Semantic Webs beitragen. u Andere ¨hnliche Ans¨tze: a a • http://www.wikidata.org • http://meta.wikimedia.org/wiki/A_proposal_towards_a_ multilingual_Wikipedia Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 12 / 15
  • 13. Publikationen Die folgenden Publikationen enthalten detailliertere Infos zu unserem Ansatz: Kaarel Kaljurand and Tobias Kuhn. A Multilingual Semantic Wiki Based on Attempto Controlled English and Grammatical Framework. In Proceedings of the 10th Extended Semantic Web Conference (ESWC). 2013. http://purl.org/tkuhn/eswc2013acewikigf Kaarel Kaljurand, Tobias Kuhn, and Laura Canedo. Collaborative multilingual knowledge management based on controlled natural language. Under review. http://www.semantic-web-journal.net/system/files/swj524.pdf Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 13 / 15
  • 14. Vielen Dank f¨r die Aufmerksamkeit! u Fragen? Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 14 / 15
  • 15. Links ACE parser (APE) Code: https://github.com/Attempto/APE ACE-in-GF Code: http://github.com/Attempto/ACE-in-GF AceWiki und AceWikiGF • Code: http://github.com/AceWiki/AceWiki • Demos (non-GF): http://attempto.ifi.uzh.ch/acewiki/ • Demos (GF): http://attempto.ifi.uzh.ch/acewiki-gf/ MOLTO Projekt Web-Seite: http://www.molto-project.eu Attempto Web-Seite: http://attempto.ifi.uzh.ch GF: http://www.grammaticalframework.org Tobias Kuhn, ETH Zurich ¨ Automatische Ubersetzung in einem multilingualen, semantischen Wiki 15 / 15