1. Введение в машинный
перевод
Лектор: Кан Дмитрий Александрович
III курс аспирантуры, СПбГУ, ПМ-ПУ, ТП
СПбГУ, ПМ-ПУ, ТП, 2009
2. Темы
Для чего нужен машинный перевод
(МП)
История МП
Что происходит сейчас
Статистический и традиционный
подходы
Методы оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
3. Тема
Для чего нужен машинный перевод
История МП
Что происходит сейчас
Статистический и традиционный
подходы
Методы оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
4. Для чего нужен машинный
перевод #1
Перевод: объявлений при поиске квартиры;
рецептов блюд; сайтов
Изучение языков
Поиск в Интернете на разных языках
(внутри поисковых алгоритмов и
дополнительная функция для пользователя
[9])
Перевод научных публикаций
Публикация статей (!) [5]
СПбГУ, ПМ-ПУ, ТП, 2009
5. Тема
Для чего нужен машинный перевод
История МП
Что происходит сейчас
Статистический и традиционный
подходы
Методы оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
6. История МП #1
Одновременное независимое
патентование МП (1933): Пётр
Смирнов-Троянский (более серьёзное
исследование) [3] и Джордж Артсруни
(Georges Artsrouni) (отец МП) [4]
СПбГУ, ПМ-ПУ, ТП, 2009
7. История МП #2
Вторая мировая война:
Электронный компьютер (обсчёт
баллистических выстрелов в США, взлом кодов,
code breaking, в Британии)
Алан Тьюринг: нечисловые программы, такие
как машинный перевод
1949, Вивер (Weaver): обсуждение МП с 200
коллегами (однако идея использовать code-
breaking себя не зарекомендовала)
СПбГУ, ПМ-ПУ, ТП, 2009
8. История МП #3: direct МП
Вивер своими (неверными) идеями
стимулировал дальнейшие исследования в
машинном переводе
1952: первая конференция по МП (MIT, Институт
Технологии Массачусетса, США)
1954: демонстрация первой системы МП для
пары русский<->английский, слово-в-слово
В 1960е МП стимулирован Холодной Войной:
США, Британия, Франция, Япония и СССР
СПбГУ, ПМ-ПУ, ТП, 2009
9. История МП: диаграмма
Figure 1: Informal graph showing the history of MT; also shown
are the five ‘Eras of MT History’ identified by Hutchins
(1993:27ff.) [1]
СПбГУ, ПМ-ПУ, ТП, 2009
10. История МП #4: indirect МП
Концепция interlingua (transfer
architecture=анализ,трансфер,синтез)
‘real-world knowledge’ (Bar-Hillel 1960) ->
высококачественный МП
1966-1976: системы МП второго поколения,
вовлекающие лингвистику и численные методы
(в основном U.S.)
Появились: MÉTÉOTM (1976, Montreal [11]),
SYSTRAN (конец 1950х, California), EUROTRA
(1982-1993, замена SYSTRAN)
СПбГУ, ПМ-ПУ, ТП, 2009
11. Тема
Для чего нужен машинный перевод
История МП
Что происходит сейчас
Статистический и традиционный
подходы
Методы оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
12. Что происходит сейчас #1
But the ambition is to produce reams of paper
that could one day power a car.
Google Translate Beta (Статистический
подход, США, 1е место на NIST [10], 2005):
Но амбиция заключается в том, чтобы
производить пачек бумаги
, которые могли бы один день мощность
автомобиля.
СПбГУ, ПМ-ПУ, ТП, 2009
13. Что происходит сейчас #2
But the ambition is to produce reams of
paper that could one day power a car.
PROMT Translator (Традиционный
подход, Россия, год основания: 1991)
Но амбиция состоит в том, чтобы
произвести стопки бумаг, которые
могли однажды привести автомобиль
в действие.
СПбГУ, ПМ-ПУ, ТП, 2009
14. Что происходит сейчас #2
But the ambition is to produce reams of
paper that could one day power a car.
Systran (Традиционный подход,
Франция, год основания: 1968)
Но гонор произвести reams бумаги
которые смогли дн сила автомобиль.
СПбГУ, ПМ-ПУ, ТП, 2009
15. MP и NLP пакеты
Moses: статистический МП, C++, Open
source
SRILM [12]: моделирование
естественного языка, C++, Open
source
СПбГУ, ПМ-ПУ, ТП, 2009
16. Тема
Для чего нужен машинный перевод
История МП
Что происходит сейчас
Статистический и традиционный
подходы
Методы оценки систем МП
СПбГУ, ПМ-ПУ, ТП, 2009
17. Статистический и традиционный
подходы
Altavista's BabelFish, 2000 ~ 1,000,000 /
day
Softissimo’s Reverso, 2001 ~ several
millions
Altavista & Google, 2003 ~ 10,000,000 /
day
СПбГУ, ПМ-ПУ, ТП, 2009
18. Методы машинного перевода
MT
Rule-Based MT Data-Driven MT
Transfer Interlingua EBMT SMT
(Example based MT)
СПбГУ, ПМ-ПУ, ТП, 2009
19. Классика
Interlingua
Анализ Transfer Порождение
$_source Direct $_target
СПбГУ, ПМ-ПУ, ТП, 2009
22. Характеристики:
Нет сложных лингвистических теорий
Нет стратегии парсинга
Использование синтаксической,
семантической и лексической похожести
между двумя языками
Базируется на одной языковой паре
«Надёжны»: могут переводить даже
неполные предложения
Словари – наиболее важный компонент
СПбГУ, ПМ-ПУ, ТП, 2009
23. Transfer
Анализ: морфология и синтаксис
Выделение важных для перевода
частей абстракции
Source abstraction -> target abstraction
Target abstraction -> синтез
СПбГУ, ПМ-ПУ, ТП, 2009
24. Transfer types
Синтаксический трансфер: передача
синтаксических структур между
языками (одной семьи)
Глубокий (семантический) трансфер:
семантическое представление,
зависимое от языка
СПбГУ, ПМ-ПУ, ТП, 2009
25. Характеристики:
Содержат завершённые
лингвистические концепции
Компоненты анализа и порождения
могут быть использованы для других
языковых пар, если компоненты
изолированы
Словари также представляют
отдельные компоненты
СПбГУ, ПМ-ПУ, ТП, 2009
27. Характеристики:
Абстрактное представление, не
зависимое от языка
O(N) – построение системы для N
языков vs O(N2) в transfer methods
Может быть сложен для построения
при широком охвате тем => узкая
тема, много языков
СПбГУ, ПМ-ПУ, ТП, 2009
30. Статистический подход
3 компонента:
Языковая модель p(e)
Модель перевода p(f|e)
Декодер
СПбГУ, ПМ-ПУ, ТП, 2009
31. EBMT
Необходимость в двуязычном
выровненном корпусе
Вероятности в переводы
Установить переводные эквиваленты
Перераспределить чтобы получить
перевод
СПбГУ, ПМ-ПУ, ТП, 2009
32. EBMT
Английский Японский :
How much is that red umbrella? Ano
akai kasa wa ikura desu ka.
How much is that small camera? Ano
chiisai kamera wa ikura desu ka.
СПбГУ, ПМ-ПУ, ТП, 2009
33. EBMT#1
Соответствие предложений:
The man swims ⇔ L’homme nage.
The woman laughs ⇔ La femme rit
Соответствие частей предложений
the man ⇔ L’homme, swims ⇔ nage, the
⇔ l’, man ⇔ homme, the ⇔ la, woman
⇔ femme, laughs ⇔ rit ...
СПбГУ, ПМ-ПУ, ТП, 2009
34. SMT in a nutshell
Максимизировать
p(e|f), e – предложение перевода, f –
предложение оригинала
Теорема Байеса:
p e p f e
p e f 1
p f
СПбГУ, ПМ-ПУ, ТП, 2009
35. Байес
1
e arg max p e f
e
e arg max p e p f e
e
СПбГУ, ПМ-ПУ, ТП, 2009
36. Вероятности: расшифровка
p(e) – Языковая модель, которая:
Назначает наибольшую вероятность
беглым, грамматически верным
предложениям
Вычисляется по одноязычному корпусу
p(f|e) – Модель перевода
Назначает наибольшую вероятность
парам предложений с одним значением
Вычисляется по двуязычному корпусу
СПбГУ, ПМ-ПУ, ТП, 2009
38. Языковая модель
Правильный порядок слов
Некоторые идеи грамматики
Вычисляется с помощью триграм (об
этом позднее, не засыпайте)
Может быть вычислена с помощью
статистической грамматики, напр.
PCFG
СПбГУ, ПМ-ПУ, ТП, 2009
43. Visualization
He argues, she loves
СПбГУ, ПМ-ПУ, ТП, 2009
44. Вычисление языковой модели
Можно увеличивать порядок «n-
граммности» бесконечно долго
Чем больше n, тем ниже вероятность
того, что мы когда уже встречали
такую последовательность
СПбГУ, ПМ-ПУ, ТП, 2009
45. Backing off
Что если последовательность не
встречалась в модели? Вероятность 0
Так как мы умножаем по теореме
Байеса, то итоговая вероятность
предложения 0
Что делать? См. след. слайд
СПбГУ, ПМ-ПУ, ТП, 2009
47. Модель перевода
p(f|e) – вероятность некоторой строки
(предложения) из f, при гипотезе перевода
из e
Формула:
Так как все предложения из e новые, то это
сосчитать нельзя
СПбГУ, ПМ-ПУ, ТП, 2009
48. Модель перевода
Разделить предложение на меньшие
части, как при моделировании языка
Ввести новую переменную a,
представляющую выравнивания
между отдельными словами в паре
предложений
СПбГУ, ПМ-ПУ, ТП, 2009
49. Модель перевода
f = Ces gens ont grandi, vécu et oeuvré
des dizaines d’années dans le domaine
agricole.
Those people have grown up, lived and
worked many years in a farming district
СПбГУ, ПМ-ПУ, ТП, 2009
51. Характеристики SMT
Основа – параллельный корпус
Вероятности назначаются подсчётом
смежных пар переводов
Оценки вероятностей тем точнее, чем
больше корпус (и чем он
качественней)
СПбГУ, ПМ-ПУ, ТП, 2009
52. Характеристики SMT
Зависит от языка
Применяем к любой паре языков, для
которых есть || параллельный корпус
Нужна ! лингвистическая информация:
как делить текст на предложения и на
слова
Не нужны лингвисты для получения
правил: всё это получается из данных
СПбГУ, ПМ-ПУ, ТП, 2009
53. Характеристики SMT
Дёшево и быстро
Компьютеры делают всю тяжёлую
работу
Система перевода может быть
построена примерно за 2 недели
СПбГУ, ПМ-ПУ, ТП, 2009
54. Материалы для построения SMT
|| корпус
ПО для выравнивания слов
Инструментарий для моделирования
языка
Декодер
СПбГУ, ПМ-ПУ, ТП, 2009
55. || корпус
http://www.ldc.upenn.edu/
UMC корпус: чешский, русский,
английский (попарно)
Европейский парламент
crawling
СПбГУ, ПМ-ПУ, ТП, 2009
56. ПО для выравнивания слов
GIZA++
http://www.fjoch.com/GIZA++.html
Удобные скрипты в составе пакета
Moses
СПбГУ, ПМ-ПУ, ТП, 2009
57. Инструментарий моделирования
языка
SRILM
Разработан для распознавания речи
Применяется также в SMT
Вычисляет вероятности n-грамм
Сложные метода для back off
http://www.speech.sri.com/projects/srilm/
СПбГУ, ПМ-ПУ, ТП, 2009
58. Декодер
Pharaoh
SMT декодер на основе фразовых
моделей
Строит фразовые таблицы по
выравниваниям GIZA++
Перевод по фразовой таблице и SRILM-
модели языка
http://www.isi.edu/licensed-sw/pharaoh/
СПбГУ, ПМ-ПУ, ТП, 2009
59. Библиография
[1] Mona Baker, Routlege Encyclopedia of Translation Studies, 2001, ISBN 0-203-
35979-8
[2] Р. Г. Пиотровский: Автоматизация обработки текста, ВИНИТИ, ИНФОРМ.
ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5
[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
[5] http://www.scientific.ru/trv/2008/013/ostap_bender.html
[6] Natural Language Processing, Instructor: Manning, Christopher D., Stanford
School of Engineering
[7] http://translate.google.com
[8] http://www.translate.ru/text_Translation.aspx
[9] http://www.google.ru/language_tools
[10] http://www.nist.gov/speech/tests/mt/(cont’d)
2005/doc/mt05eval_official_results_release_(cont’d)
20050801_v3.html
[11] http://www.hutchinsweb.me.uk/IntroMT-12.pdf
[12] http://www.speech.sri.com/
СПбГУ, ПМ-ПУ, ТП, 2009
60. Библиография
[13] ALPAC report http://www.nap.edu/openbook.php?record_id=9547&page=R1
[14] Andy Way: Web-based Machine Translation, School of Computing
[15] http://en.wikipedia.org/wiki/
[16] Chris Callison-Burch, Philipp Koehn: Introduction to Statistical Machine
Translation, ESSLLI 2005
[17] Heshaam Faili: Chapter 21: Machine Translation, University of Tehran
[18] http://www.chrisharrison.net/projects/trigramviz/index.html
СПбГУ, ПМ-ПУ, ТП, 2009