1. Применение теории компьютерной
семантики русского языка и
статистических методов к
построению системы машинного
перевода
Основные идеи диссертации на соискание
ученой степени кандидата физико-
математических наук, 05.13.11
Кан Дмитрий Александрович,
dmitry.kan@gmail.com
Петергоф, кафедра информатики математико-
механического факультета
2011
2. Компьютерная семантика
русского языка
• Слово есть функция (над другими
словами предложения)
• Морфологический анализ в данном
предложении возможен в общем виде
только через синтактико-семантический
анализ
• Предложение есть суперпозиция
функций-слов
4. Математическая модель
Сем. формул в словаре: 150 000
Некоторые базисные функции:
Caus(x,y) = x казуирует y
Cont(x) = x продолжается
Hab(x,y) = x имеет y
Incep(x) = x начинается
Oper(x,y) = x делает y
Lab(x,y) = x подвергается действию y
Usor(x,y) x используется для y
5. Формальный семантический язык.
Суперпозиция функций.
• x проявляет уважение к y
• Caus(x,Fact(Уважение(y)))
• x испытывает уважение к y
• Oper(x,Уважение(y))
• Иван будит его
• Caus(Иван,Fin Спит(Он))
• x уничтожает y
• Caus(x,Fin Func(y))
6. Семантико-грамматические
типы
• СГТ предложных выражений (на примере предога С):
• Он говорил с уважением
• @Как С(@Тв уважением$1301132)
• Он пришел с запада
• $122721~@Откуда С(@Род запада$122721)
• Он пришел с человеком
• $1241~@сТв С(@Тв человеком$1241)
7. Формальный семантический язык.
Описание альтернатив.
Почти 40% глаголов русского языка являются
каузирующими
Иван вешает картину -
Caus(Иван,IncepOper01(Картина,ВИСЕНИЕ))
глагол ВЕШАТЬ в значении
Caus(Z1,IncepOper01(ВИН:Z2,ВИСЕНИЕ$1241/402
4/11(КУДА:НАПРЕД:Z3)))
Иван вешает Петра -
Caus01(Иван,УБИЙСТВО(Lab(Петра, ВИСЕНИЕ)))
глагол ВЕШАТЬ в значении
Oper01(Z1,УБИЙСТВО$110330(КАК:Lab(РОД:Z2,
ВИСЕНИЕ$1241/4024/11)))
8. Синтактико-семантический
анализ
Областью определения базисных функций является множество объектов
базы знаний.
является<X005.001>
(@Тв Областью<X001.001><+СущГлаг3+>
(@Род определения<X002.002><+СущСущ1+>
(@Род функций<X004.002><+СущСущ6+>
(@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>)
)
),
@Им множество<X006.001><+ГлагСущ8+>
(@Род объектов<X007.001><+СущГлагСущ+>
(@Род базы_знаний<X008.006><+СущСущ4+>)
)
)
.
9. Представление синтактико-семантического
разбора в виде дерева разбора
Компьютерная лингвистика –
направление искусственного
интеллекта, которое ставит своей целью
использование математических моделей
для описания естественных языков.
10. Основные задачи МП
• Исходный язык:
– Формализация ЕЯ
– Анализ текстов: связи между объектами, портреты
объектов, анафорические ссылки (hän)
• Исходный язык->Целевой язык:
– Переводной контекстный семантический словарь
– Модель перевода
• Целевой язык:
– Синтез предложений
• Морфологический синтез (при переводе на русский)
• Задача линеаризации, статистический синтез
11. Исходный язык
• Формализация ЕЯ
– Компьютерная семантика русского языка
[1]
– Статистические модели языка [2]
• Анализ текстов
– Связи между объектами и портрет объекта
в тексте [3]
– Анафорические ссылки [4,5]
12. Разрешение анафорических
ссылок
• 1. Джон встретил Ивана. Он передал
Ивану текст публикации.
• 2. Джон встретил Ивана. Тот передал
Джону ответ редактора.
15. Исходный язык->Целевой язык
• Переводной контекстный
семантический словарь [6]
– Параллельный корпус (~90 тыс. пар
предложений) [7]
– Максимизация апостериорной
вероятности, совместная встречаемость [8]
– Семантический анализатор [1]
16. NULL And the program has been implemented
GIZA++ | | |
|
|
|
|
|
| |
| |
| |
|
+-+---+
| | |
Le programme a ete mis en application
• Модуль выравнивания слов
• Входит в состав пакета Moses
(статистический МП)
• 86000 предложений -> 1,3 млн пар слов
в выходных данных
• Задача разрешения полисемии
• Высокий уровень избыточности данных
в словаре
17. Пара || предложений и выходные данные
• Desperate to hold onto power , Pervez Musharraf has
discarded Pakistan ' s constitutional framework and
declared a state of emergency .
• NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })
стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,
({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })
конституционную ({ 14 15 }) систему ({ })
Пакистана ({ 11 12 13 }) и ({ 16 })
объявил ({ 17 }) о ({ 18 }) введении ({ })
чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
18. Таблица соответствий слов
NULL of
отчаянном Desperate to hold
стремлении to
власть power
, ,
Первез Pervez
Мушарраф Musharraf
отверг has discarded
конституционную constitutional framework
Пакистана Pakistan ’ s
и and
объявил declared
о a
чрезвычайного state emergency
. .
19. Переводной семантический словарь
• Семантический анализатор разрешает
полисемию посредством
морфологического, синтаксического и
семантического анализа
• Каждое слово слева имеет свой
контекст в паре параллельных
предложений
• Контекст выражается своей
семантической формулой
21. Выдержка из словаря
В Y1>HabU(Y1:,ПРЕД:Z1) <149>--->Within
В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at
В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->In
В Y1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout
...
МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2>
--->Marshall
...
НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at
НА Y1>Direkt(Y1:,РОД:Z1) <100>--->on
НА Y1>Direkt(Y1:,РОД:Z1) <69>--->for
НА Y1>Direkt(Y1:,РОД:Z1) <74>--->for the
...
ОБРАЗ (РОД:Z1) <2>--->a way
ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))
<1>--->global
...
Всего около 18 тысяч пар слов
22. Технические детали
построения словаря
• ПК с ЦП AMD Sempron 2200, 768 MB
ОЗУ, 120 GB жѐсткий диск
• 2 недели работы семантического
анализатора (86000 предложений)
• 1 неделя работы GIZA++
• 1 неделя на сборку переводного
семантического словаря
• Языки: Perl, C++
• Строк кода: 3430
23. Экспериментальная система
МП
• Словарный метод третьего уровня
• Первые два: прямой с перебором всех
флексий (первый уровень) и с
применением морфологического
анализа для перехода к леммам
(второй уровень)
• Третий уровень: семантический анализ,
учитывающий ещѐ и контекст слова
24. Примеры переводов экспериментальной
СМП
• Исходное предложение: Распутина скомпрометировали
государственностью.
перевод Moses: Распутина compromised государственностью.
перевод экспериментальной СМП: Rasputin compromised
by statehood.
• Исходное предложение: У Распутина скрытые доходы.
перевод Moses: the распутина hidden incomes .
перевод экспериментальной СМП: has Rasputin an
implicit income.
25. Целевой язык
• Синтез текста
• Морфологический синтез
• Задача линеаризации [10]
• Статистический синтез [11]
27. Линеаризация семантических
структур
•обмену подлежат только узлы на одном уровне в
дереве и с одним общим родителем;
•причастные и деепричастные обороты образуют
единую неделимую группу слов;
•однородные члены, отвечающие на общий
смысловой вопрос, могут быть упорядочены
лексикографически;
•при процедуре обмена местами для узлов дерева
осуществляется полный перенос их поддеревьев,
что позволяет сохранить семантические связи с
присоединяемыми словами.
28. Метрики: оценка систем МП
• BLEU
• Применимость BLEU для оценки
системы МП, основанной на правилах
29. Сравнение оценок беглости и адекватности экспертом и метрикой
BLEU для систем Systran и двух статистических систем МП (с малым
и полным тренировочными наборами) из [12], показывающая, что
BLEU сильно недооценивает качество нестатистической системы
32. Библиография
• [1] Тузов В.А. Компьютерная семантика русского языка, СПб.,
2004.
• [2] Stolcke A.: SRILM: An extensible language modeling toolkit.
Speech Technology and Research Laboratory (2002).
• [3] Кан Д.А., Лебедев И.С. Способ формализации связей между
объектами в тексте на естественном языке // Вестн. С.-Петерб.
ун-та. Сер. 10. 2008. Вып. 2. С. 56—61.
• [4] Qiu L., Kan M.Y., Chua T.S.. (2004). A Public Reference
Implementation of the RAP Anaphora Resolution Algorithm. In
proceedings of the Fourth International Conference on Language
Resources and Evaluation (LREC 2004). Vol. I, pp. 291-294.
• [5] Кан Д. А., Лебедев И. С., Сухопаров Е. А. Идентификация
объектов текста в информационных системах // Программные
продукты и системы, 2009, 2(86). С. 163—168.
33. Библиография
• [6] Mitkov R., Belguith L., Stys M.: Multilingual robust anaphora
resolution // In Proceedings of the 3rd Conference on Empirical
Methods in Natural Language Processing. 1998.
• [7] Кан Д. А.: Метод автоматического построения переводного
семантического словаря для машинного перевода // Процессы
управления и устойчивость: Труды 40-й научной конференции
аспирантов и студентов. – СПб.: СПбГУ, 2009. – С. 429–434.
• [8] Klyueva N., Bojar O.: UMC 0.1: Czech-Russian-English
Multilingual Corpus. Proceedings of International Conference
Corpus Linguistics, pages 188-195, October 2008.
• [9] Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., Melamed,
D., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical Machine
Translation. Final report, JHU Workshop, 1999.
34. Библиография
• [10] Кан Д.А. Задача синтеза предложений на естественном
языке // Вестн. С.-Петерб. ун-та. Сер. 10. 2009. Вып. 3. С. 205—
212.
• [11] Athanaselis T., Bakamidis S., Dologlou I. A Fast Algorithm for
Words Reordering Based on Language Model. - Lecture Notes in
Computer Science. - Springer Berlin / Heidelberg. - Volume 4132. –
2006.
• [12] Callison-Burch C., Osborne M., Koehn P. Re-evaluating the
Role of Bleu in Machine Translation Research. Proceedings of
EACL, 2006. P. 249—256.