SlideShare uma empresa Scribd logo
1 de 45
Baixar para ler offline
MTEngine
Дмитрий Кан
dmitry.kan@gmail.com


   Машинный Перевод с Применением
   Компьютерной Семантики Силами
   Комьюнити

                NLP Seminar, 29 марта 2013
                 Яндекс, Санкт-Петербург
DEMO



Пишу письмо другу.
О себе
Ведущий инженер AlphaSense Inc
Участник SemanticAnalyzer Group

Кандидат физ.-мат. наук
Диссертация о машинном переводе

Интересы в NLP: МП, семантический
анализ, анализ тональности
О чём поговорим?
● МП: история
● Основные подходы
● MTEval @ ROMIP
● Статистический МП
● Метод порождения словаря
● Лингвистический проект за 6 часов
● Выводы
Немного истории МП
Одновременное независимое патентование
МП (1933):

● Пётр Смирнов-Троянский [1]

● Georde Artsrouni (отец МП) [2]
Ещё немного истории МП
Вторая мировая война:
● Электронный компьютер (обсчёт
  баллистических выстрелов в США, взлом
  кодов)
● Алан Тьюринг: нечисловые программы
  (напр., машинный перевод)
● Weaver (1949): МП как взлом кодов
Ещё немного истории МП 2
Weaver своими (неверными) идеями
стимулировал исследования в МП
● 1952: первая конференция по МП (MIT)
● 1954: демо первой системы МП
  (русский<->английский)
● 1960: МП стимулирован Холодной войной
  США, Великобритания, Франция, Япония
  и СССР
Доклад ALPAC
Основные подходы
Interlingua vs Transfer
Треугольник Машинного Перевода
Треугольник МП в деталях
Треугольник Машинного Перевода
для MTEngine
Оценка: BLEU
MTEval and Shared Task @ ROMIP
● Org: ROMIP in cooperation with TAUS
● 8 систем МП
● 1 crowdsourced переводчик: http:
  //translatedby.com/
● test set: ~1000 предложений, 100 на
  оценку
● 11 ассессоров
● небольшое перекрытие между ними
● 28 пакетов по 36 задач
MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?

SYSTEM 1: NO

В пятницу Warner Music Group, объявил,
что он был вызван в управление Нью-Йорке
генеральный   Прокурор   Элиот  Спитцер,
чтобы предоставить информацию о цифровой
музыке скачать ценообразования.
MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?

SYSTEM 2: YES

В пятницу Музыкальная Группа Уорнера
объявила, что она была вызвана в суд
управлением Нью-Йорка
Генеральный    Атторней   Элиот   Спицер
предоставить         информацию        о
ценообразовании загрузки цифровой
музыки.
MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?

HUMAN: NO

В   пятницу  фирма   Warner  Music  Group
заявила, что ее представители были вызваны
на допрос к генеральному прокурору Нью-
Йорка Элиоту Спитцеру (Elliot Spitzer),
чтобы дать показания о политике
ценообразования   в   сфере  онлайн-продаж
музыкальной продукции.
MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?

SYSTEM 1: NO

Местные жители заметили также текущих SWAT
учений    с    участием     многочисленных
государственных органов в области, в том
числе национальной Безопасности, HPD и
Калифорнийский Департамент Полиции.
MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?

SYSTEM 2: YES

Местные жители также заметили настоящие
учения SWAT, вовлекающие многочисленные
правительственные агентства в области,
включающие Безопасность Родины, HPD и
Пасаденское Полицейское Управление.
MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?

HUMAN: YES

       Местные жители также заметили
   продолжающиеся тренировки спецназа в
   местных государственных учреждениях,
      включая Министерство внутренней
 безопасности США, Полицейские управления
        городов Хьюстон и Пасадена.
MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?

System 1 (no reordering)

Однако, Совет не будет применять каких-
либо   дальнейших  действий,  пока   не
ЭльБарадей делает его полный отчет о 6
марта.
MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?

System 2 (with reordering)

Однако,   совет   не   будет   выполнять
никакого   дальнейшего  действия,   пока
ЭлБэрейдей не сделает свой полный доклад
6 марта.
MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?

HUMAN (with reordering)

Однако, совет не будет предпринимать
дальнейших действий, пока ЭльБарадей
(ElBaradei) не предоставит свой полный
отчет 6 марта.
MTEval and Shared Task @ ROMIP
Problem: Semantic mapping between two
languages

System 1

Гарантии были даны, что грузовик, сцена,
музыка и выступления - не говоря уже о
барабанах, танцы и протест - не будет
предотвращено   от    идти   вперед,   как
планировалось на площади прямо напротив
таможни в Circular Quay, веб-сайт сказал.
MTEval and Shared Task @ ROMIP
Problem: Semantic mapping between two languages

System 2

Гарантиям дали тот грузовик, стадию,
музыку и речи - чтобы не упомянуть, что
барабанили, танцуя, и протесту - не будут
препятствовать идти вперед как
запланировано в квадрате непосредственно
вне Таможни в Круглом Причале, веб-сайт
сказал.
MTEval and Shared Task @ ROMIP
Problem: Semantic mapping betw. two languages

Original sentence:

"Assurances have been given that truck,
stage, music and speeches - not to mention
drumming,
dancing and protest - will not be prevented
from going ahead as planned in the square
directly outside Customs House at Circular
Quay," the website said.
Проблемы crowdsourcing и MT [8]
● Низкое качество (смысл задачи, copy-
  pasting, misspelling)

● Turking machines

● Output space problems (все переводы
  верны)
MTEngine
● Crowdsourced machine translation system
● Словарные единицы семантического уровня
● нет Turking machine problem
● Перевод либо верен, либо почти верен, либо
  неверен
● Проблема низкого качества решается кросс-
  проверками
История проекта
● Август-сентябрь 2011: первая версия
● Сентябрь - октябрь 2011: работа над оценкой
  качества
● Октябрь: выложены || корпуса
● 2012: первые волонтёры (по подписке)
● Январь 2013: новый UI
● Март 2013: новые фичи каждую неделю
● Регистрация на сайте
Статистический МП
● Сказав что-то однажды, человек повторит это
  вновь (с некот. вероятностью)
● || корпус -- основа для фразовой таблицы
● P(e|f), E - English, F - French
● Теорема Байеса:
Модель языка vs Модель
перевода
Исходный язык      Целевой язык
Переводной контекстный
семантический словарь
  ● Параллельный корпус UMC (~90
    тыс. пар предложений)
  ● Максимизация апостериорной
    вероятности, совместная
    встречаемость
  ● Семантический анализ
GIZA++ ищет P(f|e)
● Модуль выравнивания слов
● Входит в состав пакета Moses
  (статистический МП)
● 86000 предложений -> 1,3млн пар слов в
  выходных данных
● Задача разрешения полисемии
● Высокий уровень избыточности данных в
  словаре
● 18,000+ на выходе
Пример выравнивания
# Sentence pair (1) source length 4 target
length 7 alignment score : 2.25315e-10

there is a book on the table
NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит
({ 1 2 }) книга ({ 3 4 })

"столе" --> "on the table"
"лежит" --> "there is"
"книга" --> "a book"
Схема генерации словаря
Словарь
ВY1>HabU(Y1:,ПРЕД:Z1) <149>--->within
ВY1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at
ВY1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->in
ВY1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout
МАРШАЛЛS1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11)
<2>--->marshall
НАY1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at
НАY1>Direkt(Y1:,РОД:Z1) <100>--->on
НАY1>Direkt(Y1:,РОД:Z1) <69>--->for
НАY1>Direkt(Y1:,РОД:Z1) <74>--->for the
ОБРАЗ(РОД:Z1) <2>--->a way
ОБЩЕМИРОВОЙA1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05
(МИР$1227))<1>--->global
Порождение предлогов
СГТ
● @Род - of
Автомобиль Ивана.    Car of Ivan.

● @Тв - by
Пишу рукой.    Writing by hand.

● @Дат - to
Пишу другу.   Writing to (a) friend.
Выводы
● recognition в массы (stats page, юзерпик,
  wall of fame)
● Минимум рутины!
● Переводить предложения с нуля -- очень
  затратно
● MTEngine: помоги системе перевести
  лучше и получи зачёт и уточни познания
  английского языка
● Фокус на изучении, а не || корпусе
Выводы
● UI -- формат общения
● Максимум продуманности!
● Максимум автоматизации
● Минимум багов :)
● MTEngine: Twitter bootstrap + jQuery + PHP
  + Perl + MySQL
● Быстрая реакция на запросы
  пользователей
Библиография
[1] Mona Baker, Routlege Encyclopedia of Translation
Studies, 2001, ISBN 0-203-35979-8.
[2] Р. Г. Пиотровский: Автоматизация обработки текста,
ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5.
[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
[5] ALPAC report http://www.nap.edu/openbook.php?
record_id=9547&page=R1
Библиография
[6] Chris Callison-Burch, Philipp Koehn: Introduction to
Statistical Machine Translation, ESSLLI 2005.
[7] www.romip.ru (http://romip.ru/mteval/index.html)
[8] Ambati V. Active Learning and Crowdsourcing for
Machine Translation in Low Resource Scenarios. Carnegie
Mellon University, 2011.
[9] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-2911038
Библиография
[10] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-1
[11] Estellés-Arolas, E., González Ladrón-de-Guevara, F.
2012. Towards an integrated crowdsourcing definition.
Journal of Information Science (in press).
[12] Callison-Burch C. 2009. Fast, Cheap, and Creative:
Evaluating Translation Quality Using Amazon’s Mechanical
Turk. Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing: Vol. 1, pp. 286-
295.
Библиография
[13] Kan D. 2011. Method for an Automatic Generation of
a Semantic-level Contextual Translational Dictionary.
Proceedings of the 6th International Conference on
Software and Data Technologies, Vol. 2, pp. 415-418.
[14] http://dmitrykan.blogspot.ru/2010/02/giza-under-
windows.html
[15] http://dmitrykan.blogspot.ru/2010/03/giza-under-
windows-episode-2.html
Библиография
[16] Кан Д.А. Применение теории компьютерной
семантики и статистических методов к построению
системы машинного перевода. Дисс. канд. физ. мат.
наук, СПбГУ, 2011.

Mais conteúdo relacionado

Destaque

Lucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupLucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupDmitry Kan
 
Social spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupSocial spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupDmitry Kan
 
Starget sentiment analyzer for English
Starget sentiment analyzer for EnglishStarget sentiment analyzer for English
Starget sentiment analyzer for EnglishDmitry Kan
 
Linguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageLinguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageDmitry Kan
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation systemDmitry Kan
 
Solr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsSolr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsDmitry Kan
 
Machine translation course program (in English)
Machine translation course program (in English)Machine translation course program (in English)
Machine translation course program (in English)Dmitry Kan
 
Automatic Build Of Semantic Translational Dictionary
Automatic Build Of Semantic Translational DictionaryAutomatic Build Of Semantic Translational Dictionary
Automatic Build Of Semantic Translational DictionaryDmitry Kan
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1Dmitry Kan
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageDmitry Kan
 
Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine TranslationDmitry Kan
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopDmitry Kan
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Dmitry Kan
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Dmitry Kan
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageDmitry Kan
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesDmitry Kan
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesDmitry Kan
 

Destaque (18)

Lucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupLucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeup
 
Social spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer GroupSocial spam detection by SemanticAnalyzer Group
Social spam detection by SemanticAnalyzer Group
 
Starget sentiment analyzer for English
Starget sentiment analyzer for EnglishStarget sentiment analyzer for English
Starget sentiment analyzer for English
 
Linguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian languageLinguistic component Sentiment Analyzer for the Russian language
Linguistic component Sentiment Analyzer for the Russian language
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation system
 
Solr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwordsSolr onfitnesse learningfromberlinbuzzwords
Solr onfitnesse learningfromberlinbuzzwords
 
Machine translation course program (in English)
Machine translation course program (in English)Machine translation course program (in English)
Machine translation course program (in English)
 
Automatic Build Of Semantic Translational Dictionary
Automatic Build Of Semantic Translational DictionaryAutomatic Build Of Semantic Translational Dictionary
Automatic Build Of Semantic Translational Dictionary
 
Introduction To Machine Translation 1
Introduction To Machine Translation 1Introduction To Machine Translation 1
Introduction To Machine Translation 1
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian language
 
Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine Translation
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache Hadoop
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian language
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slides
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use cases
 
NVIDIA Deep Learning.
NVIDIA Deep Learning. NVIDIA Deep Learning.
NVIDIA Deep Learning.
 

Semelhante a MTEngine: Semantic-level Crowdsourced Machine Translation

К стратегической сессии по будущему интернета
К стратегической сессии по будущему интернетаК стратегической сессии по будущему интернета
К стратегической сессии по будущему интернетаAnatoly Levenchuk
 
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Ontico
 
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)Bosun современный мониторинг / Дима Медведев (OneTwoTrip)
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)Ontico
 
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы ростаAinl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы ростаAINL Conferences
 
Data journalism 2013
Data journalism 2013Data journalism 2013
Data journalism 2013Gleb K
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04Computer Science Club
 

Semelhante a MTEngine: Semantic-level Crowdsourced Machine Translation (7)

К стратегической сессии по будущему интернета
К стратегической сессии по будущему интернетаК стратегической сессии по будущему интернета
К стратегической сессии по будущему интернета
 
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
 
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)Bosun современный мониторинг / Дима Медведев (OneTwoTrip)
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)
 
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы ростаAinl2013 molchanov статистические методы в машинном переводе_проблемы роста
Ainl2013 molchanov статистические методы в машинном переводе_проблемы роста
 
Data journalism 2013
Data journalism 2013Data journalism 2013
Data journalism 2013
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
Обзор курса
Обзор курсаОбзор курса
Обзор курса
 

MTEngine: Semantic-level Crowdsourced Machine Translation

  • 1. MTEngine Дмитрий Кан dmitry.kan@gmail.com Машинный Перевод с Применением Компьютерной Семантики Силами Комьюнити NLP Seminar, 29 марта 2013 Яндекс, Санкт-Петербург
  • 3. О себе Ведущий инженер AlphaSense Inc Участник SemanticAnalyzer Group Кандидат физ.-мат. наук Диссертация о машинном переводе Интересы в NLP: МП, семантический анализ, анализ тональности
  • 4. О чём поговорим? ● МП: история ● Основные подходы ● MTEval @ ROMIP ● Статистический МП ● Метод порождения словаря ● Лингвистический проект за 6 часов ● Выводы
  • 5. Немного истории МП Одновременное независимое патентование МП (1933): ● Пётр Смирнов-Троянский [1] ● Georde Artsrouni (отец МП) [2]
  • 6. Ещё немного истории МП Вторая мировая война: ● Электронный компьютер (обсчёт баллистических выстрелов в США, взлом кодов) ● Алан Тьюринг: нечисловые программы (напр., машинный перевод) ● Weaver (1949): МП как взлом кодов
  • 7. Ещё немного истории МП 2 Weaver своими (неверными) идеями стимулировал исследования в МП ● 1952: первая конференция по МП (MIT) ● 1954: демо первой системы МП (русский<->английский) ● 1960: МП стимулирован Холодной войной США, Великобритания, Франция, Япония и СССР
  • 15. MTEval and Shared Task @ ROMIP ● Org: ROMIP in cooperation with TAUS ● 8 систем МП ● 1 crowdsourced переводчик: http: //translatedby.com/ ● test set: ~1000 предложений, 100 на оценку ● 11 ассессоров ● небольшое перекрытие между ними ● 28 пакетов по 36 задач
  • 16. MTEval and Shared Task @ ROMIP Problem: to translate or not to translate? SYSTEM 1: NO В пятницу Warner Music Group, объявил, что он был вызван в управление Нью-Йорке генеральный Прокурор Элиот Спитцер, чтобы предоставить информацию о цифровой музыке скачать ценообразования.
  • 17. MTEval and Shared Task @ ROMIP Problem: to translate or not to translate? SYSTEM 2: YES В пятницу Музыкальная Группа Уорнера объявила, что она была вызвана в суд управлением Нью-Йорка Генеральный Атторней Элиот Спицер предоставить информацию о ценообразовании загрузки цифровой музыки.
  • 18. MTEval and Shared Task @ ROMIP Problem: to translate or not to translate? HUMAN: NO В пятницу фирма Warner Music Group заявила, что ее представители были вызваны на допрос к генеральному прокурору Нью- Йорка Элиоту Спитцеру (Elliot Spitzer), чтобы дать показания о политике ценообразования в сфере онлайн-продаж музыкальной продукции.
  • 19. MTEval and Shared Task @ ROMIP Problem: to reorder or not to reorder? SYSTEM 1: NO Местные жители заметили также текущих SWAT учений с участием многочисленных государственных органов в области, в том числе национальной Безопасности, HPD и Калифорнийский Департамент Полиции.
  • 20. MTEval and Shared Task @ ROMIP Problem: to reorder or not to reorder? SYSTEM 2: YES Местные жители также заметили настоящие учения SWAT, вовлекающие многочисленные правительственные агентства в области, включающие Безопасность Родины, HPD и Пасаденское Полицейское Управление.
  • 21. MTEval and Shared Task @ ROMIP Problem: to reorder or not to reorder? HUMAN: YES Местные жители также заметили продолжающиеся тренировки спецназа в местных государственных учреждениях, включая Министерство внутренней безопасности США, Полицейские управления городов Хьюстон и Пасадена.
  • 22. MTEval and Shared Task @ ROMIP Problem: Does reordering even matter? System 1 (no reordering) Однако, Совет не будет применять каких- либо дальнейших действий, пока не ЭльБарадей делает его полный отчет о 6 марта.
  • 23. MTEval and Shared Task @ ROMIP Problem: Does reordering even matter? System 2 (with reordering) Однако, совет не будет выполнять никакого дальнейшего действия, пока ЭлБэрейдей не сделает свой полный доклад 6 марта.
  • 24. MTEval and Shared Task @ ROMIP Problem: Does reordering even matter? HUMAN (with reordering) Однако, совет не будет предпринимать дальнейших действий, пока ЭльБарадей (ElBaradei) не предоставит свой полный отчет 6 марта.
  • 25. MTEval and Shared Task @ ROMIP Problem: Semantic mapping between two languages System 1 Гарантии были даны, что грузовик, сцена, музыка и выступления - не говоря уже о барабанах, танцы и протест - не будет предотвращено от идти вперед, как планировалось на площади прямо напротив таможни в Circular Quay, веб-сайт сказал.
  • 26. MTEval and Shared Task @ ROMIP Problem: Semantic mapping between two languages System 2 Гарантиям дали тот грузовик, стадию, музыку и речи - чтобы не упомянуть, что барабанили, танцуя, и протесту - не будут препятствовать идти вперед как запланировано в квадрате непосредственно вне Таможни в Круглом Причале, веб-сайт сказал.
  • 27. MTEval and Shared Task @ ROMIP Problem: Semantic mapping betw. two languages Original sentence: "Assurances have been given that truck, stage, music and speeches - not to mention drumming, dancing and protest - will not be prevented from going ahead as planned in the square directly outside Customs House at Circular Quay," the website said.
  • 28. Проблемы crowdsourcing и MT [8] ● Низкое качество (смысл задачи, copy- pasting, misspelling) ● Turking machines ● Output space problems (все переводы верны)
  • 29. MTEngine ● Crowdsourced machine translation system ● Словарные единицы семантического уровня ● нет Turking machine problem ● Перевод либо верен, либо почти верен, либо неверен ● Проблема низкого качества решается кросс- проверками
  • 30. История проекта ● Август-сентябрь 2011: первая версия ● Сентябрь - октябрь 2011: работа над оценкой качества ● Октябрь: выложены || корпуса ● 2012: первые волонтёры (по подписке) ● Январь 2013: новый UI ● Март 2013: новые фичи каждую неделю ● Регистрация на сайте
  • 31. Статистический МП ● Сказав что-то однажды, человек повторит это вновь (с некот. вероятностью) ● || корпус -- основа для фразовой таблицы ● P(e|f), E - English, F - French ● Теорема Байеса:
  • 32. Модель языка vs Модель перевода
  • 33. Исходный язык Целевой язык Переводной контекстный семантический словарь ● Параллельный корпус UMC (~90 тыс. пар предложений) ● Максимизация апостериорной вероятности, совместная встречаемость ● Семантический анализ
  • 34. GIZA++ ищет P(f|e) ● Модуль выравнивания слов ● Входит в состав пакета Moses (статистический МП) ● 86000 предложений -> 1,3млн пар слов в выходных данных ● Задача разрешения полисемии ● Высокий уровень избыточности данных в словаре ● 18,000+ на выходе
  • 35. Пример выравнивания # Sentence pair (1) source length 4 target length 7 alignment score : 2.25315e-10 there is a book on the table NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит ({ 1 2 }) книга ({ 3 4 }) "столе" --> "on the table" "лежит" --> "there is" "книга" --> "a book"
  • 37. Словарь ВY1>HabU(Y1:,ПРЕД:Z1) <149>--->within ВY1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at ВY1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->in ВY1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout МАРШАЛЛS1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2>--->marshall НАY1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at НАY1>Direkt(Y1:,РОД:Z1) <100>--->on НАY1>Direkt(Y1:,РОД:Z1) <69>--->for НАY1>Direkt(Y1:,РОД:Z1) <74>--->for the ОБРАЗ(РОД:Z1) <2>--->a way ОБЩЕМИРОВОЙA1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05 (МИР$1227))<1>--->global
  • 38. Порождение предлогов СГТ ● @Род - of Автомобиль Ивана. Car of Ivan. ● @Тв - by Пишу рукой. Writing by hand. ● @Дат - to Пишу другу. Writing to (a) friend.
  • 39. Выводы ● recognition в массы (stats page, юзерпик, wall of fame) ● Минимум рутины! ● Переводить предложения с нуля -- очень затратно ● MTEngine: помоги системе перевести лучше и получи зачёт и уточни познания английского языка ● Фокус на изучении, а не || корпусе
  • 40. Выводы ● UI -- формат общения ● Максимум продуманности! ● Максимум автоматизации ● Минимум багов :) ● MTEngine: Twitter bootstrap + jQuery + PHP + Perl + MySQL ● Быстрая реакция на запросы пользователей
  • 41. Библиография [1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-35979-8. [2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5. [3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf [4] http://www.hutchinsweb.me.uk/IJT-2004.pdf [5] ALPAC report http://www.nap.edu/openbook.php? record_id=9547&page=R1
  • 42. Библиография [6] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine Translation, ESSLLI 2005. [7] www.romip.ru (http://romip.ru/mteval/index.html) [8] Ambati V. Active Learning and Crowdsourcing for Machine Translation in Low Resource Scenarios. Carnegie Mellon University, 2011. [9] http://www.slideshare.net/dmitrykan/introduction- to-machine-translation-2911038
  • 43. Библиография [10] http://www.slideshare.net/dmitrykan/introduction- to-machine-translation-1 [11] Estellés-Arolas, E., González Ladrón-de-Guevara, F. 2012. Towards an integrated crowdsourcing definition. Journal of Information Science (in press). [12] Callison-Burch C. 2009. Fast, Cheap, and Creative: Evaluating Translation Quality Using Amazon’s Mechanical Turk. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Vol. 1, pp. 286- 295.
  • 44. Библиография [13] Kan D. 2011. Method for an Automatic Generation of a Semantic-level Contextual Translational Dictionary. Proceedings of the 6th International Conference on Software and Data Technologies, Vol. 2, pp. 415-418. [14] http://dmitrykan.blogspot.ru/2010/02/giza-under- windows.html [15] http://dmitrykan.blogspot.ru/2010/03/giza-under- windows-episode-2.html
  • 45. Библиография [16] Кан Д.А. Применение теории компьютерной семантики и статистических методов к построению системы машинного перевода. Дисс. канд. физ. мат. наук, СПбГУ, 2011.