Видео к презентации: http://vk.com/mtengine
В докладе представлен краудсорсинг проект, ориентированный на построение и улучшение системы машинного перевода. Отличительной чертой является применение компьютерной семантики русского языка. Также рассматривается статистический метод автоматической генерации переводных словарей.
3. О себе
Ведущий инженер AlphaSense Inc
Участник SemanticAnalyzer Group
Кандидат физ.-мат. наук
Диссертация о машинном переводе
Интересы в NLP: МП, семантический
анализ, анализ тональности
4. О чём поговорим?
● МП: история
● Основные подходы
● MTEval @ ROMIP
● Статистический МП
● Метод порождения словаря
● Лингвистический проект за 6 часов
● Выводы
5. Немного истории МП
Одновременное независимое патентование
МП (1933):
● Пётр Смирнов-Троянский [1]
● Georde Artsrouni (отец МП) [2]
6. Ещё немного истории МП
Вторая мировая война:
● Электронный компьютер (обсчёт
баллистических выстрелов в США, взлом
кодов)
● Алан Тьюринг: нечисловые программы
(напр., машинный перевод)
● Weaver (1949): МП как взлом кодов
7. Ещё немного истории МП 2
Weaver своими (неверными) идеями
стимулировал исследования в МП
● 1952: первая конференция по МП (MIT)
● 1954: демо первой системы МП
(русский<->английский)
● 1960: МП стимулирован Холодной войной
США, Великобритания, Франция, Япония
и СССР
15. MTEval and Shared Task @ ROMIP
● Org: ROMIP in cooperation with TAUS
● 8 систем МП
● 1 crowdsourced переводчик: http:
//translatedby.com/
● test set: ~1000 предложений, 100 на
оценку
● 11 ассессоров
● небольшое перекрытие между ними
● 28 пакетов по 36 задач
16. MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?
SYSTEM 1: NO
В пятницу Warner Music Group, объявил,
что он был вызван в управление Нью-Йорке
генеральный Прокурор Элиот Спитцер,
чтобы предоставить информацию о цифровой
музыке скачать ценообразования.
17. MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?
SYSTEM 2: YES
В пятницу Музыкальная Группа Уорнера
объявила, что она была вызвана в суд
управлением Нью-Йорка
Генеральный Атторней Элиот Спицер
предоставить информацию о
ценообразовании загрузки цифровой
музыки.
18. MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?
HUMAN: NO
В пятницу фирма Warner Music Group
заявила, что ее представители были вызваны
на допрос к генеральному прокурору Нью-
Йорка Элиоту Спитцеру (Elliot Spitzer),
чтобы дать показания о политике
ценообразования в сфере онлайн-продаж
музыкальной продукции.
19. MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?
SYSTEM 1: NO
Местные жители заметили также текущих SWAT
учений с участием многочисленных
государственных органов в области, в том
числе национальной Безопасности, HPD и
Калифорнийский Департамент Полиции.
20. MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?
SYSTEM 2: YES
Местные жители также заметили настоящие
учения SWAT, вовлекающие многочисленные
правительственные агентства в области,
включающие Безопасность Родины, HPD и
Пасаденское Полицейское Управление.
21. MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?
HUMAN: YES
Местные жители также заметили
продолжающиеся тренировки спецназа в
местных государственных учреждениях,
включая Министерство внутренней
безопасности США, Полицейские управления
городов Хьюстон и Пасадена.
22. MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?
System 1 (no reordering)
Однако, Совет не будет применять каких-
либо дальнейших действий, пока не
ЭльБарадей делает его полный отчет о 6
марта.
23. MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?
System 2 (with reordering)
Однако, совет не будет выполнять
никакого дальнейшего действия, пока
ЭлБэрейдей не сделает свой полный доклад
6 марта.
24. MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?
HUMAN (with reordering)
Однако, совет не будет предпринимать
дальнейших действий, пока ЭльБарадей
(ElBaradei) не предоставит свой полный
отчет 6 марта.
25. MTEval and Shared Task @ ROMIP
Problem: Semantic mapping between two
languages
System 1
Гарантии были даны, что грузовик, сцена,
музыка и выступления - не говоря уже о
барабанах, танцы и протест - не будет
предотвращено от идти вперед, как
планировалось на площади прямо напротив
таможни в Circular Quay, веб-сайт сказал.
26. MTEval and Shared Task @ ROMIP
Problem: Semantic mapping between two languages
System 2
Гарантиям дали тот грузовик, стадию,
музыку и речи - чтобы не упомянуть, что
барабанили, танцуя, и протесту - не будут
препятствовать идти вперед как
запланировано в квадрате непосредственно
вне Таможни в Круглом Причале, веб-сайт
сказал.
27. MTEval and Shared Task @ ROMIP
Problem: Semantic mapping betw. two languages
Original sentence:
"Assurances have been given that truck,
stage, music and speeches - not to mention
drumming,
dancing and protest - will not be prevented
from going ahead as planned in the square
directly outside Customs House at Circular
Quay," the website said.
28. Проблемы crowdsourcing и MT [8]
● Низкое качество (смысл задачи, copy-
pasting, misspelling)
● Turking machines
● Output space problems (все переводы
верны)
29. MTEngine
● Crowdsourced machine translation system
● Словарные единицы семантического уровня
● нет Turking machine problem
● Перевод либо верен, либо почти верен, либо
неверен
● Проблема низкого качества решается кросс-
проверками
30. История проекта
● Август-сентябрь 2011: первая версия
● Сентябрь - октябрь 2011: работа над оценкой
качества
● Октябрь: выложены || корпуса
● 2012: первые волонтёры (по подписке)
● Январь 2013: новый UI
● Март 2013: новые фичи каждую неделю
● Регистрация на сайте
31. Статистический МП
● Сказав что-то однажды, человек повторит это
вновь (с некот. вероятностью)
● || корпус -- основа для фразовой таблицы
● P(e|f), E - English, F - French
● Теорема Байеса:
33. Исходный язык Целевой язык
Переводной контекстный
семантический словарь
● Параллельный корпус UMC (~90
тыс. пар предложений)
● Максимизация апостериорной
вероятности, совместная
встречаемость
● Семантический анализ
34. GIZA++ ищет P(f|e)
● Модуль выравнивания слов
● Входит в состав пакета Moses
(статистический МП)
● 86000 предложений -> 1,3млн пар слов в
выходных данных
● Задача разрешения полисемии
● Высокий уровень избыточности данных в
словаре
● 18,000+ на выходе
35. Пример выравнивания
# Sentence pair (1) source length 4 target
length 7 alignment score : 2.25315e-10
there is a book on the table
NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит
({ 1 2 }) книга ({ 3 4 })
"столе" --> "on the table"
"лежит" --> "there is"
"книга" --> "a book"
38. Порождение предлогов
СГТ
● @Род - of
Автомобиль Ивана. Car of Ivan.
● @Тв - by
Пишу рукой. Writing by hand.
● @Дат - to
Пишу другу. Writing to (a) friend.
39. Выводы
● recognition в массы (stats page, юзерпик,
wall of fame)
● Минимум рутины!
● Переводить предложения с нуля -- очень
затратно
● MTEngine: помоги системе перевести
лучше и получи зачёт и уточни познания
английского языка
● Фокус на изучении, а не || корпусе
41. Библиография
[1] Mona Baker, Routlege Encyclopedia of Translation
Studies, 2001, ISBN 0-203-35979-8.
[2] Р. Г. Пиотровский: Автоматизация обработки текста,
ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5.
[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
[5] ALPAC report http://www.nap.edu/openbook.php?
record_id=9547&page=R1
42. Библиография
[6] Chris Callison-Burch, Philipp Koehn: Introduction to
Statistical Machine Translation, ESSLLI 2005.
[7] www.romip.ru (http://romip.ru/mteval/index.html)
[8] Ambati V. Active Learning and Crowdsourcing for
Machine Translation in Low Resource Scenarios. Carnegie
Mellon University, 2011.
[9] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-2911038
43. Библиография
[10] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-1
[11] Estellés-Arolas, E., González Ladrón-de-Guevara, F.
2012. Towards an integrated crowdsourcing definition.
Journal of Information Science (in press).
[12] Callison-Burch C. 2009. Fast, Cheap, and Creative:
Evaluating Translation Quality Using Amazon’s Mechanical
Turk. Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing: Vol. 1, pp. 286-
295.
44. Библиография
[13] Kan D. 2011. Method for an Automatic Generation of
a Semantic-level Contextual Translational Dictionary.
Proceedings of the 6th International Conference on
Software and Data Technologies, Vol. 2, pp. 415-418.
[14] http://dmitrykan.blogspot.ru/2010/02/giza-under-
windows.html
[15] http://dmitrykan.blogspot.ru/2010/03/giza-under-
windows-episode-2.html
45. Библиография
[16] Кан Д.А. Применение теории компьютерной
семантики и статистических методов к построению
системы машинного перевода. Дисс. канд. физ. мат.
наук, СПбГУ, 2011.