SlideShare uma empresa Scribd logo
1 de 3
Baixar para ler offline
Программа курса Машинный перевод (МП)

  1.  Введение. Мотивация существования МП
  2.  Краткая история МП. Основные этапы. Доклад ALPAC
  3.  Прямой и косвенный МП. Примеры построенных систем МП (СМП)
  4.  Современные СМП в индустрии
  5.  Существующие пакеты для обработки языка и построения СМП
  6.  Два фундаментальных подхода к МП: статистический и традиционный
      (лингвистические правила)
  7. Методы МП
  8. Прямая СМП. Её характеристики
  9. Метод трансфер. Типы трансфера. Характеристики метода
  10. Понятие интерлингвы. Характеристики метода МП, основанного на
      интерлингве. Сравнение с трасфером
  11. Компоненты статистического подхода к МП
  12. Системы МП, основанные на примерах
  13. Теория статистических СМП. Фундаментальное уравнение (теорема
      Байеса). Понятие статистической языковой модели. Модель перевода.
      Вычисление языковой модели
  14. Модель перевода в статистической СМП
  15. Задача выравнивания слов
  16. Характеристики статистических СМП
  17. Существующие компоненты статистических СМП
  18. Оценка качества СМП. Оценка человеком. Автоматические методы оценки,
      их важность в целом
  19. Метрика BLEU
  20. Метрика METEOR
  21. Метрика NIST
  22. Round-trip
  23. Гибридные СМП
  24. Задача переупорядочивания слов в предложении. Классические и
      статистические подходы
  25. Компьютерная семантика русского языка и предпоссылки для построения
      СМП на её основе
  26. Прагматика. Анализ контекста
  27. Детали программных пакетов для машинного перевода: GIZA++, SRILM,
      Moses
  28. Реализация алгоритма переупорядочивания по статье [7]


  Семинар (или темы на реферат):
  1. Математика статистического машинного перевода (по статье [1])
  2. Иерархическая модель для статистического МП (статья [2])
  3. Статистический МП, основанный на фразах (статья [3])
  4. СМП, основанные на правилах (статьи [4,5])
  5. Гибридные СМП, основанные на примерах ([6])
6. Метрика BLEU в деталях (по статье [8])
7. Робастные крупномасштабные СМП, основанные на примерах (по статье
   [9])
Литература
[1] Brown P., Della Petra S., Della Petra V., Mercer R.: The Mathematics of
Statistical Machine Translation: Parameter Estimation, 1993
[2] Chiang D.: A Hierarchical Phrase-Based Model for Statistical Machine
Translation, 2005
[3] Koehn P., Och F., Marcu D.: Statistical Phrase-Based Machine Translation, 2003
[4] Kaplan R., Netter K., Wedekind J., Zaenen A.: Translation By Structural
Correspondences, 1989
[5] Landsbergen J.: The Rosetta Project, 1989
[6] Groves D., Way A.: Hybrid Example-Based SMT: the Best of Both Worlds?
(здесь, как принятно в западной литературе, SMT означает Статистический
Машинный Перевод)
[7] Athanaselis T., Bakamidis S., Dologou I.: Words Reordering based on Statistical
Language Model, 2006
[8] Papineni K., Roukos S., Ward T., Zhu W.-J.: BLEU: a Method for Automatic
Evaluation of Machine Translation, 2002
[9] Gough N., Way A.: Robust Large-Scale EBMT with Marker-Based Segmentation,
2004

Mais conteúdo relacionado

Destaque

Machine translation course program (in English)
Machine translation course program (in English)Machine translation course program (in English)
Machine translation course program (in English)Dmitry Kan
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageDmitry Kan
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationDmitry Kan
 
Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine TranslationDmitry Kan
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopDmitry Kan
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Dmitry Kan
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Dmitry Kan
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageDmitry Kan
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesDmitry Kan
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesDmitry Kan
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source stateDmitry Kan
 

Destaque (11)

Machine translation course program (in English)
Machine translation course program (in English)Machine translation course program (in English)
Machine translation course program (in English)
 
Linguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian languageLinguistic component Lemmatizer for the Russian language
Linguistic component Lemmatizer for the Russian language
 
MTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine TranslationMTEngine: Semantic-level Crowdsourced Machine Translation
MTEngine: Semantic-level Crowdsourced Machine Translation
 
Introduction To Machine Translation
Introduction To Machine TranslationIntroduction To Machine Translation
Introduction To Machine Translation
 
NoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache HadoopNoSQL, Apache SOLR and Apache Hadoop
NoSQL, Apache SOLR and Apache Hadoop
 
Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011Rule based approach to sentiment analysis at ROMIP 2011
Rule based approach to sentiment analysis at ROMIP 2011
 
Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...Poster: Method for an automatic generation of a semantic-level contextual tra...
Poster: Method for an automatic generation of a semantic-level contextual tra...
 
Linguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian languageLinguistic component Tokenizer for the Russian language
Linguistic component Tokenizer for the Russian language
 
Rule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slidesRule based approach to sentiment analysis at romip’11 slides
Rule based approach to sentiment analysis at romip’11 slides
 
Semantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use casesSemantic Analysis: theory, applications and use cases
Semantic Analysis: theory, applications and use cases
 
IR: Open source state
IR: Open source stateIR: Open source state
IR: Open source state
 

Mais de Dmitry Kan

London IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesLondon IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesDmitry Kan
 
Vector databases and neural search
Vector databases and neural searchVector databases and neural search
Vector databases and neural searchDmitry Kan
 
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Dmitry Kan
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaDmitry Kan
 
Icsoft 2011 51_cr
Icsoft 2011 51_crIcsoft 2011 51_cr
Icsoft 2011 51_crDmitry Kan
 
Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine TranslationDmitry Kan
 

Mais de Dmitry Kan (6)

London IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use casesLondon IR Meetup - Players in Vector Search_ algorithms, software and use cases
London IR Meetup - Players in Vector Search_ algorithms, software and use cases
 
Vector databases and neural search
Vector databases and neural searchVector databases and neural search
Vector databases and neural search
 
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
Haystack LIVE! - 5 ways to increase result diversity at web-scale - Dmitry Ka...
 
SentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social mediaSentiScan: система автоматической разметки тональности в social media
SentiScan: система автоматической разметки тональности в social media
 
Icsoft 2011 51_cr
Icsoft 2011 51_crIcsoft 2011 51_cr
Icsoft 2011 51_cr
 
Computer Semantics And Machine Translation
Computer Semantics And Machine TranslationComputer Semantics And Machine Translation
Computer Semantics And Machine Translation
 

MT course contents (in Russian)

  • 1. Программа курса Машинный перевод (МП) 1. Введение. Мотивация существования МП 2. Краткая история МП. Основные этапы. Доклад ALPAC 3. Прямой и косвенный МП. Примеры построенных систем МП (СМП) 4. Современные СМП в индустрии 5. Существующие пакеты для обработки языка и построения СМП 6. Два фундаментальных подхода к МП: статистический и традиционный (лингвистические правила) 7. Методы МП 8. Прямая СМП. Её характеристики 9. Метод трансфер. Типы трансфера. Характеристики метода 10. Понятие интерлингвы. Характеристики метода МП, основанного на интерлингве. Сравнение с трасфером 11. Компоненты статистического подхода к МП 12. Системы МП, основанные на примерах 13. Теория статистических СМП. Фундаментальное уравнение (теорема Байеса). Понятие статистической языковой модели. Модель перевода. Вычисление языковой модели 14. Модель перевода в статистической СМП 15. Задача выравнивания слов 16. Характеристики статистических СМП 17. Существующие компоненты статистических СМП 18. Оценка качества СМП. Оценка человеком. Автоматические методы оценки, их важность в целом 19. Метрика BLEU 20. Метрика METEOR 21. Метрика NIST 22. Round-trip 23. Гибридные СМП 24. Задача переупорядочивания слов в предложении. Классические и статистические подходы 25. Компьютерная семантика русского языка и предпоссылки для построения СМП на её основе 26. Прагматика. Анализ контекста 27. Детали программных пакетов для машинного перевода: GIZA++, SRILM, Moses 28. Реализация алгоритма переупорядочивания по статье [7] Семинар (или темы на реферат): 1. Математика статистического машинного перевода (по статье [1]) 2. Иерархическая модель для статистического МП (статья [2]) 3. Статистический МП, основанный на фразах (статья [3]) 4. СМП, основанные на правилах (статьи [4,5]) 5. Гибридные СМП, основанные на примерах ([6])
  • 2. 6. Метрика BLEU в деталях (по статье [8]) 7. Робастные крупномасштабные СМП, основанные на примерах (по статье [9])
  • 3. Литература [1] Brown P., Della Petra S., Della Petra V., Mercer R.: The Mathematics of Statistical Machine Translation: Parameter Estimation, 1993 [2] Chiang D.: A Hierarchical Phrase-Based Model for Statistical Machine Translation, 2005 [3] Koehn P., Och F., Marcu D.: Statistical Phrase-Based Machine Translation, 2003 [4] Kaplan R., Netter K., Wedekind J., Zaenen A.: Translation By Structural Correspondences, 1989 [5] Landsbergen J.: The Rosetta Project, 1989 [6] Groves D., Way A.: Hybrid Example-Based SMT: the Best of Both Worlds? (здесь, как принятно в западной литературе, SMT означает Статистический Машинный Перевод) [7] Athanaselis T., Bakamidis S., Dologou I.: Words Reordering based on Statistical Language Model, 2006 [8] Papineni K., Roukos S., Ward T., Zhu W.-J.: BLEU: a Method for Automatic Evaluation of Machine Translation, 2002 [9] Gough N., Way A.: Robust Large-Scale EBMT with Marker-Based Segmentation, 2004