SlideShare uma empresa Scribd logo
1 de 34
Применение теории компьютерной
   семантики русского языка и
    статистических методов к
 построению системы машинного
            перевода
  Основные идеи диссертации на соискание
     ученой степени кандидата физико-
       математических наук, 05.13.11
        Кан Дмитрий Александрович,
           dmitry.kan@gmail.com
     Петергоф, кафедра информатики математико-
              механического факультета
                        2011
Компьютерная семантика
       русского языка
• Слово есть функция (над другими
  словами предложения)
• Морфологический анализ в данном
  предложении возможен в общем виде
  только через синтактико-семантический
  анализ
• Предложение есть суперпозиция
  функций-слов
Математическая модель
Формальный семантический язык
Базисные понятия
Производные понятия
Семантический словарь
Математическая модель
Сем. формул в словаре: 150 000
Некоторые базисные функции:
Caus(x,y) = x казуирует y
Cont(x) = x продолжается
Hab(x,y) = x имеет y
Incep(x) = x начинается
Oper(x,y) = x делает y
Lab(x,y) = x подвергается действию y
Usor(x,y) x используется для y
Формальный семантический язык.
        Суперпозиция функций.
•   x проявляет уважение к y
•   Caus(x,Fact(Уважение(y)))
•   x испытывает уважение к y
•   Oper(x,Уважение(y))
•   Иван будит его
•   Caus(Иван,Fin Спит(Он))
•   x уничтожает y
•   Caus(x,Fin Func(y))
Семантико-грамматические
              типы
•   СГТ предложных выражений (на примере предога С):
•   Он говорил с уважением
•   @Как С(@Тв уважением$1301132)
•   Он пришел с запада
•   $122721~@Откуда С(@Род запада$122721)
•   Он пришел с человеком
•   $1241~@сТв С(@Тв человеком$1241)
Формальный семантический язык.
      Описание альтернатив.
Почти 40% глаголов русского языка являются
каузирующими
Иван вешает картину -
Caus(Иван,IncepOper01(Картина,ВИСЕНИЕ))
глагол ВЕШАТЬ в значении
Caus(Z1,IncepOper01(ВИН:Z2,ВИСЕНИЕ$1241/402
4/11(КУДА:НАПРЕД:Z3)))
Иван вешает Петра -
Caus01(Иван,УБИЙСТВО(Lab(Петра, ВИСЕНИЕ)))
глагол ВЕШАТЬ в значении
Oper01(Z1,УБИЙСТВО$110330(КАК:Lab(РОД:Z2,
ВИСЕНИЕ$1241/4024/11)))
Синтактико-семантический
          анализ
Областью определения базисных функций является множество объектов
   базы знаний.
является<X005.001>
   (@Тв Областью<X001.001><+СущГлаг3+>
     (@Род определения<X002.002><+СущСущ1+>
       (@Род функций<X004.002><+СущСущ6+>
         (@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>)
       )
      ),
      @Им множество<X006.001><+ГлагСущ8+>
        (@Род объектов<X007.001><+СущГлагСущ+>
          (@Род базы_знаний<X008.006><+СущСущ4+>)
        )
   )
.
Представление синтактико-семантического
         разбора в виде дерева разбора
Компьютерная лингвистика –
направление искусственного
интеллекта, которое ставит своей целью
использование математических моделей
для описания естественных языков.
Основные задачи МП
• Исходный язык:
  – Формализация ЕЯ
  – Анализ текстов: связи между объектами, портреты
    объектов, анафорические ссылки (hän)
• Исходный язык->Целевой язык:
  – Переводной контекстный семантический словарь
  – Модель перевода
• Целевой язык:
  – Синтез предложений
    • Морфологический синтез (при переводе на русский)
    • Задача линеаризации, статистический синтез
Исходный язык
• Формализация ЕЯ
  – Компьютерная семантика русского языка
    [1]
  – Статистические модели языка [2]
• Анализ текстов
  – Связи между объектами и портрет объекта
    в тексте [3]
  – Анафорические ссылки [4,5]
Разрешение анафорических
          ссылок

• 1. Джон встретил Ивана. Он передал
  Ивану текст публикации.

• 2. Джон встретил Ивана. Тот передал
  Джону ответ редактора.
Stuct
{
Subject
Subject’s action
object
}
Псевдо-код
Исходный язык->Целевой язык
• Переводной контекстный
  семантический словарь [6]
  – Параллельный корпус (~90 тыс. пар
    предложений) [7]
  – Максимизация апостериорной
    вероятности, совместная встречаемость [8]
  – Семантический анализатор [1]
NULL And the program has been implemented

GIZA++           |    | |
                          |
                          |
                                 |
                                 |
                                 |
                                       | |
                                       | |
                                       | |
                                                   |
                                                +-+---+
                                                 | | |
                         Le programme a ete mis en application


• Модуль выравнивания слов
• Входит в состав пакета Moses
  (статистический МП)
• 86000 предложений -> 1,3 млн пар слов
  в выходных данных
• Задача разрешения полисемии
• Высокий уровень избыточности данных
  в словаре
Пара || предложений и выходные данные

• Desperate to hold onto power , Pervez Musharraf has
discarded Pakistan ' s constitutional framework and
declared a state of emergency .
• NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 })
стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) ,
({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 })
конституционную ({ 14 15 }) систему ({ })
Пакистана ({ 11 12 13 }) и ({ 16 })
объявил ({ 17 }) о ({ 18 }) введении ({ })
чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
Таблица соответствий слов

NULL              of
отчаянном         Desperate to hold
стремлении        to
власть            power
,                 ,
Первез            Pervez
Мушарраф          Musharraf
отверг            has discarded
конституционную   constitutional framework
Пакистана         Pakistan ’ s
и                 and
объявил           declared
о                 a
чрезвычайного     state emergency
.                 .
Переводной семантический словарь

• Семантический анализатор разрешает
  полисемию посредством
  морфологического, синтаксического и
  семантического анализа
• Каждое слово слева имеет свой
  контекст в паре параллельных
  предложений
• Контекст выражается своей
  семантической формулой
Схема алгоритма


             GIZA++


                                        Переводной
|| корпус                     merging   семантический
                                        словарь



            Семантический анализатор
Выдержка из словаря
В Y1>HabU(Y1:,ПРЕД:Z1)  <149>--->Within
В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1))  <146>--->at
В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1))  <208>--->In
В Y1>Loc(Y1:,ПРЕД:Z1)  <224>--->Throughout
...
МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11)  <2>
--->Marshall
...
НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1))  <67>--->at
НА Y1>Direkt(Y1:,РОД:Z1)  <100>--->on
НА Y1>Direkt(Y1:,РОД:Z1)  <69>--->for
НА Y1>Direkt(Y1:,РОД:Z1)  <74>--->for the
...
ОБРАЗ (РОД:Z1)  <2>--->a way
ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227))
 <1>--->global
...

Всего около 18 тысяч пар слов
Технические детали
      построения словаря
• ПК с ЦП AMD Sempron 2200, 768 MB
  ОЗУ, 120 GB жѐсткий диск
• 2 недели работы семантического
  анализатора (86000 предложений)
• 1 неделя работы GIZA++
• 1 неделя на сборку переводного
  семантического словаря
• Языки: Perl, C++
• Строк кода: 3430
Экспериментальная система
            МП
• Словарный метод третьего уровня
• Первые два: прямой с перебором всех
  флексий (первый уровень) и с
  применением морфологического
  анализа для перехода к леммам
  (второй уровень)
• Третий уровень: семантический анализ,
  учитывающий ещѐ и контекст слова
Примеры переводов экспериментальной
                СМП
• Исходное предложение: Распутина скомпрометировали
   государственностью.
перевод Moses: Распутина compromised государственностью.
перевод экспериментальной СМП: Rasputin compromised
by statehood.
• Исходное предложение: У Распутина скрытые доходы.
перевод Moses: the распутина hidden incomes .
перевод экспериментальной СМП: has Rasputin an
implicit income.
Целевой язык
• Синтез текста
    • Морфологический синтез
    • Задача линеаризации [10]
    • Статистический синтез [11]
Целевой язык
• Статистический синтез




 N-уровневая сеть с N состояниями (адаптировано из [11])
Линеаризация семантических
         структур



     •обмену подлежат только узлы на одном уровне в
     дереве и с одним общим родителем;

     •причастные и деепричастные обороты образуют
     единую неделимую группу слов;

     •однородные члены, отвечающие на общий
     смысловой вопрос, могут быть упорядочены
     лексикографически;

     •при процедуре обмена местами для узлов дерева
     осуществляется полный перенос их поддеревьев,
     что позволяет сохранить семантические связи с
     присоединяемыми словами.
Метрики: оценка систем МП
• BLEU
• Применимость BLEU для оценки
  системы МП, основанной на правилах
Сравнение оценок беглости и адекватности экспертом и метрикой
BLEU для систем Systran и двух статистических систем МП (с малым
и полным тренировочными наборами) из [12], показывающая, что
BLEU сильно недооценивает качество нестатистической системы
SMTM
• Семантическая модель машинного
  перевода
Рассмотрим произвольное предложение
  P на русском языке:
SMTM
Библиография
• [1] Тузов В.А. Компьютерная семантика русского языка, СПб.,
  2004.
• [2] Stolcke A.: SRILM: An extensible language modeling toolkit.
  Speech Technology and Research Laboratory (2002).
• [3] Кан Д.А., Лебедев И.С. Способ формализации связей между
  объектами в тексте на естественном языке // Вестн. С.-Петерб.
  ун-та. Сер. 10. 2008. Вып. 2. С. 56—61.
• [4] Qiu L., Kan M.Y., Chua T.S.. (2004). A Public Reference
  Implementation of the RAP Anaphora Resolution Algorithm. In
  proceedings of the Fourth International Conference on Language
  Resources and Evaluation (LREC 2004). Vol. I, pp. 291-294.
• [5] Кан Д. А., Лебедев И. С., Сухопаров Е. А. Идентификация
  объектов текста в информационных системах // Программные
  продукты и системы, 2009, 2(86). С. 163—168.
Библиография
• [6] Mitkov R., Belguith L., Stys M.: Multilingual robust anaphora
  resolution // In Proceedings of the 3rd Conference on Empirical
  Methods in Natural Language Processing. 1998.
• [7] Кан Д. А.: Метод автоматического построения переводного
  семантического словаря для машинного перевода // Процессы
  управления и устойчивость: Труды 40-й научной конференции
  аспирантов и студентов. – СПб.: СПбГУ, 2009. – С. 429–434.
• [8] Klyueva N., Bojar O.: UMC 0.1: Czech-Russian-English
  Multilingual Corpus. Proceedings of International Conference
  Corpus Linguistics, pages 188-195, October 2008.
• [9] Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., Melamed,
  D., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical Machine
  Translation. Final report, JHU Workshop, 1999.
Библиография
• [10] Кан Д.А. Задача синтеза предложений на естественном
  языке // Вестн. С.-Петерб. ун-та. Сер. 10. 2009. Вып. 3. С. 205—
  212.
• [11] Athanaselis T., Bakamidis S., Dologlou I. A Fast Algorithm for
  Words Reordering Based on Language Model. - Lecture Notes in
  Computer Science. - Springer Berlin / Heidelberg. - Volume 4132. –
  2006.
• [12] Callison-Burch C., Osborne M., Koehn P. Re-evaluating the
  Role of Bleu in Machine Translation Research. Proceedings of
  EACL, 2006. P. 249—256.

Mais conteúdo relacionado

Destaque

Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine Translation
Dmitry Kan
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011
Dmitry Kan
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...
Dmitry Kan
 

Destaque (11)

Lucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeupLucene revolution eu 2013 dublin writeup
Lucene revolution eu 2013 dublin writeup
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian language
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine Translation
 
Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine Translation
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache Hadoop
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slides
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian language
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use cases
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source state
 

Semelhante a Semantic feature machine translation system

Etap overview rus
Etap overview rusEtap overview rus
Etap overview rus
yaevents
 
SemanticAnalyzer
SemanticAnalyzerSemanticAnalyzer
SemanticAnalyzer
NLPseminar
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
rit2011
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
Noobie312
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
Noobie312
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
Artem Lukanin
 

Semelhante a Semantic feature machine translation system (20)

Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine Translation
 
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
 
Etap overview rus
Etap overview rusEtap overview rus
Etap overview rus
 
SemanticAnalyzer
SemanticAnalyzerSemanticAnalyzer
SemanticAnalyzer
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
RussNet
RussNetRussNet
RussNet
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
Masa
MasaMasa
Masa
 
Logacheva
LogachevaLogacheva
Logacheva
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
Puls Russian
Puls RussianPuls Russian
Puls Russian
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Системы автоматического распознавания речи
Системы автоматического распознавания речиСистемы автоматического распознавания речи
Системы автоматического распознавания речи
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 

Último

ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
Ирония безопасности
 
CVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdfCVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdf
Хроники кибер-безопасника
 
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdfСИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
Хроники кибер-безопасника
 
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Ирония безопасности
 
Cyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdfCyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdf
Хроники кибер-безопасника
 
2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf
Хроники кибер-безопасника
 

Último (9)

ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
 
CVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdfCVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdf
 
Ransomware_Q3 2023. The report [RU].pdf
Ransomware_Q3 2023.  The report [RU].pdfRansomware_Q3 2023.  The report [RU].pdf
Ransomware_Q3 2023. The report [RU].pdf
 
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdfСИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
 
MS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdfMS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdf
 
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
 
Cyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdfCyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdf
 
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdfMalware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
 
2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf
 

Semantic feature machine translation system

  • 1. Применение теории компьютерной семантики русского языка и статистических методов к построению системы машинного перевода Основные идеи диссертации на соискание ученой степени кандидата физико- математических наук, 05.13.11 Кан Дмитрий Александрович, dmitry.kan@gmail.com Петергоф, кафедра информатики математико- механического факультета 2011
  • 2. Компьютерная семантика русского языка • Слово есть функция (над другими словами предложения) • Морфологический анализ в данном предложении возможен в общем виде только через синтактико-семантический анализ • Предложение есть суперпозиция функций-слов
  • 3. Математическая модель Формальный семантический язык Базисные понятия Производные понятия Семантический словарь
  • 4. Математическая модель Сем. формул в словаре: 150 000 Некоторые базисные функции: Caus(x,y) = x казуирует y Cont(x) = x продолжается Hab(x,y) = x имеет y Incep(x) = x начинается Oper(x,y) = x делает y Lab(x,y) = x подвергается действию y Usor(x,y) x используется для y
  • 5. Формальный семантический язык. Суперпозиция функций. • x проявляет уважение к y • Caus(x,Fact(Уважение(y))) • x испытывает уважение к y • Oper(x,Уважение(y)) • Иван будит его • Caus(Иван,Fin Спит(Он)) • x уничтожает y • Caus(x,Fin Func(y))
  • 6. Семантико-грамматические типы • СГТ предложных выражений (на примере предога С): • Он говорил с уважением • @Как С(@Тв уважением$1301132) • Он пришел с запада • $122721~@Откуда С(@Род запада$122721) • Он пришел с человеком • $1241~@сТв С(@Тв человеком$1241)
  • 7. Формальный семантический язык. Описание альтернатив. Почти 40% глаголов русского языка являются каузирующими Иван вешает картину - Caus(Иван,IncepOper01(Картина,ВИСЕНИЕ)) глагол ВЕШАТЬ в значении Caus(Z1,IncepOper01(ВИН:Z2,ВИСЕНИЕ$1241/402 4/11(КУДА:НАПРЕД:Z3))) Иван вешает Петра - Caus01(Иван,УБИЙСТВО(Lab(Петра, ВИСЕНИЕ))) глагол ВЕШАТЬ в значении Oper01(Z1,УБИЙСТВО$110330(КАК:Lab(РОД:Z2, ВИСЕНИЕ$1241/4024/11)))
  • 8. Синтактико-семантический анализ Областью определения базисных функций является множество объектов базы знаний. является<X005.001> (@Тв Областью<X001.001><+СущГлаг3+> (@Род определения<X002.002><+СущСущ1+> (@Род функций<X004.002><+СущСущ6+> (@Род базисных<X003.001><+КАКОЙ:ПрилСущ7+>) ) ), @Им множество<X006.001><+ГлагСущ8+> (@Род объектов<X007.001><+СущГлагСущ+> (@Род базы_знаний<X008.006><+СущСущ4+>) ) ) .
  • 9. Представление синтактико-семантического разбора в виде дерева разбора Компьютерная лингвистика – направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.
  • 10. Основные задачи МП • Исходный язык: – Формализация ЕЯ – Анализ текстов: связи между объектами, портреты объектов, анафорические ссылки (hän) • Исходный язык->Целевой язык: – Переводной контекстный семантический словарь – Модель перевода • Целевой язык: – Синтез предложений • Морфологический синтез (при переводе на русский) • Задача линеаризации, статистический синтез
  • 11. Исходный язык • Формализация ЕЯ – Компьютерная семантика русского языка [1] – Статистические модели языка [2] • Анализ текстов – Связи между объектами и портрет объекта в тексте [3] – Анафорические ссылки [4,5]
  • 12. Разрешение анафорических ссылок • 1. Джон встретил Ивана. Он передал Ивану текст публикации. • 2. Джон встретил Ивана. Тот передал Джону ответ редактора.
  • 15. Исходный язык->Целевой язык • Переводной контекстный семантический словарь [6] – Параллельный корпус (~90 тыс. пар предложений) [7] – Максимизация апостериорной вероятности, совместная встречаемость [8] – Семантический анализатор [1]
  • 16. NULL And the program has been implemented GIZA++ | | | | | | | | | | | | | | | +-+---+ | | | Le programme a ete mis en application • Модуль выравнивания слов • Входит в состав пакета Moses (статистический МП) • 86000 предложений -> 1,3 млн пар слов в выходных данных • Задача разрешения полисемии • Высокий уровень избыточности данных в словаре
  • 17. Пара || предложений и выходные данные • Desperate to hold onto power , Pervez Musharraf has discarded Pakistan ' s constitutional framework and declared a state of emergency . • NULL ({ 20 }) В ({ }) отчаянном ({ 1 3 4 }) стремлении ({ 2 }) удержать ({ }) власть ({ 5 }) , ({ 6 }) Первез ({ 7 }) Мушарраф ({ 8}) отверг ({ 9 10 }) конституционную ({ 14 15 }) систему ({ }) Пакистана ({ 11 12 13 }) и ({ 16 }) объявил ({ 17 }) о ({ 18 }) введении ({ }) чрезвычайного ({ 19 21 }) положения ({ }) . ({ 22 })
  • 18. Таблица соответствий слов NULL of отчаянном Desperate to hold стремлении to власть power , , Первез Pervez Мушарраф Musharraf отверг has discarded конституционную constitutional framework Пакистана Pakistan ’ s и and объявил declared о a чрезвычайного state emergency . .
  • 19. Переводной семантический словарь • Семантический анализатор разрешает полисемию посредством морфологического, синтаксического и семантического анализа • Каждое слово слева имеет свой контекст в паре параллельных предложений • Контекст выражается своей семантической формулой
  • 20. Схема алгоритма GIZA++ Переводной || корпус merging семантический словарь Семантический анализатор
  • 21. Выдержка из словаря В Y1>HabU(Y1:,ПРЕД:Z1) <149>--->Within В Y1>Loc(Y1:,ВНУТРИ$12/313/05(ПРЕД:Z1)) <146>--->at В Y1>Loc(Y1:,Oper01(#,ПРЕД:Z1)) <208>--->In В Y1>Loc(Y1:,ПРЕД:Z1) <224>--->Throughout ... МАРШАЛЛ S1>Hab(S1:ЧЕЛОВЕК$1241,S0:ФАМИЛИЯ$1241/11) <2> --->Marshall ... НА Y1>Direkt(Y1:,ВЕРХ$12/141/05(ВИН:Z1)) <67>--->at НА Y1>Direkt(Y1:,РОД:Z1) <100>--->on НА Y1>Direkt(Y1:,РОД:Z1) <69>--->for НА Y1>Direkt(Y1:,РОД:Z1) <74>--->for the ... ОБРАЗ (РОД:Z1) <2>--->a way ОБЩЕМИРОВОЙ A1>Rel(A1:НЕЧТО$1,ПОЛНЫЙ$12/207/05(МИР$1227)) <1>--->global ... Всего около 18 тысяч пар слов
  • 22. Технические детали построения словаря • ПК с ЦП AMD Sempron 2200, 768 MB ОЗУ, 120 GB жѐсткий диск • 2 недели работы семантического анализатора (86000 предложений) • 1 неделя работы GIZA++ • 1 неделя на сборку переводного семантического словаря • Языки: Perl, C++ • Строк кода: 3430
  • 23. Экспериментальная система МП • Словарный метод третьего уровня • Первые два: прямой с перебором всех флексий (первый уровень) и с применением морфологического анализа для перехода к леммам (второй уровень) • Третий уровень: семантический анализ, учитывающий ещѐ и контекст слова
  • 24. Примеры переводов экспериментальной СМП • Исходное предложение: Распутина скомпрометировали государственностью. перевод Moses: Распутина compromised государственностью. перевод экспериментальной СМП: Rasputin compromised by statehood. • Исходное предложение: У Распутина скрытые доходы. перевод Moses: the распутина hidden incomes . перевод экспериментальной СМП: has Rasputin an implicit income.
  • 25. Целевой язык • Синтез текста • Морфологический синтез • Задача линеаризации [10] • Статистический синтез [11]
  • 26. Целевой язык • Статистический синтез N-уровневая сеть с N состояниями (адаптировано из [11])
  • 27. Линеаризация семантических структур •обмену подлежат только узлы на одном уровне в дереве и с одним общим родителем; •причастные и деепричастные обороты образуют единую неделимую группу слов; •однородные члены, отвечающие на общий смысловой вопрос, могут быть упорядочены лексикографически; •при процедуре обмена местами для узлов дерева осуществляется полный перенос их поддеревьев, что позволяет сохранить семантические связи с присоединяемыми словами.
  • 28. Метрики: оценка систем МП • BLEU • Применимость BLEU для оценки системы МП, основанной на правилах
  • 29. Сравнение оценок беглости и адекватности экспертом и метрикой BLEU для систем Systran и двух статистических систем МП (с малым и полным тренировочными наборами) из [12], показывающая, что BLEU сильно недооценивает качество нестатистической системы
  • 30. SMTM • Семантическая модель машинного перевода Рассмотрим произвольное предложение P на русском языке:
  • 31. SMTM
  • 32. Библиография • [1] Тузов В.А. Компьютерная семантика русского языка, СПб., 2004. • [2] Stolcke A.: SRILM: An extensible language modeling toolkit. Speech Technology and Research Laboratory (2002). • [3] Кан Д.А., Лебедев И.С. Способ формализации связей между объектами в тексте на естественном языке // Вестн. С.-Петерб. ун-та. Сер. 10. 2008. Вып. 2. С. 56—61. • [4] Qiu L., Kan M.Y., Chua T.S.. (2004). A Public Reference Implementation of the RAP Anaphora Resolution Algorithm. In proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC 2004). Vol. I, pp. 291-294. • [5] Кан Д. А., Лебедев И. С., Сухопаров Е. А. Идентификация объектов текста в информационных системах // Программные продукты и системы, 2009, 2(86). С. 163—168.
  • 33. Библиография • [6] Mitkov R., Belguith L., Stys M.: Multilingual robust anaphora resolution // In Proceedings of the 3rd Conference on Empirical Methods in Natural Language Processing. 1998. • [7] Кан Д. А.: Метод автоматического построения переводного семантического словаря для машинного перевода // Процессы управления и устойчивость: Труды 40-й научной конференции аспирантов и студентов. – СПб.: СПбГУ, 2009. – С. 429–434. • [8] Klyueva N., Bojar O.: UMC 0.1: Czech-Russian-English Multilingual Corpus. Proceedings of International Conference Corpus Linguistics, pages 188-195, October 2008. • [9] Al-Onaizan Y., Curin J., Jahr M., Knight K., Laerty J., Melamed, D., Och F.J., Purdy J., Smith N. A., Yarowsky D. Statistical Machine Translation. Final report, JHU Workshop, 1999.
  • 34. Библиография • [10] Кан Д.А. Задача синтеза предложений на естественном языке // Вестн. С.-Петерб. ун-та. Сер. 10. 2009. Вып. 3. С. 205— 212. • [11] Athanaselis T., Bakamidis S., Dologlou I. A Fast Algorithm for Words Reordering Based on Language Model. - Lecture Notes in Computer Science. - Springer Berlin / Heidelberg. - Volume 4132. – 2006. • [12] Callison-Burch C., Osborne M., Koehn P. Re-evaluating the Role of Bleu in Machine Translation Research. Proceedings of EACL, 2006. P. 249—256.