Anúncio
Anúncio

Mais conteúdo relacionado

Similar a Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Journey)(20)

Mais de Mail.ru Group(20)

Anúncio

Último(20)

Нейро-машинный перевод в вопросно-ответных системах, Федор Федоренко (AI Journey)

  1. Федор Федоренко Разработчик-Исследователь Нейро-Машинный Перевод в Вопросно-Ответных Системах 08.11.2019
  2. Вопросно-Ответная Система Рисунок: Скриншоты карточек ответа в поисковой выдаче Google (слева), Yandex (по середине), Mail.ru (справа), 2019
  3. Вопросно-Ответная Система в Поиске Mail.ru Рисунок: схема работы вопросно-ответной системы
  4. Information Retrieval-based QA в Поиске Mail.ru Рисунок: поисковая выдача Поиска Mail.ru по запросу “Кто основал Ярославль”
  5. Information Retrieval-based QA в Поиске Mail.ru Рисунок: схема работы IR-based QA подсистемы
  6. Сформулируем: • Дано: • коллекция документов — база ответов на вопросы с “Ответов Mail.Ru” • текстовая поисковая система • Задача: отвечать на сформулированные на естественном языке вопросы при помощи текстов Ответов • Спойлер: просто запускать поиск по текстам не получится Information Retrieval-based QA в Поиске Mail.ru
  7. Поисковый Индекс и первая проблема Рисунок: схема документа в индексе IRQA системы • Поисковый индекс состоит из пар вопрос — ответ • Тексты ответа и вопроса — редко пересекаются с запросом • Текст ответа — ответ на больше чем один вопрос • Как понять, о чём текст?
  8. • Запрос: как в ворде поставить нумерацию страниц • Документ: • Вопрос: Как делать подписи в документах? • Ответ: посмотри в свойствах колонтитулов Поисковый Индекс и первая проблема Рисунок: схема документа в индексе IRQA системы
  9. • Запрос: как в ворде поставить нумерацию страниц • Документ: • Вопрос: Как делать подписи в документах? • Ответ: посмотри в свойствах колонтитулов • Синтетика: где настройки нумерации страниц? Поисковый Индекс и первая проблема Рисунок: схема документа в индексе IRQA системы, revisited
  10. NMT to the Rescue! Рисунок: схема документа в индексе IRQA системы, revisited • Новые формулировки оригинального вопроса • Новые вопросы • Легко встраивается в систему текстового поиска и ранжирования • Задача: текст ответа —> текст 1-2 возможных синтетических вопросов • Обучающее множество: лучший ответ —> вопрос
  11. Обучающая выборка Рисунок: вопрос с Ответов Mail.ru с лучшим ответом
  12. NMT with Seq-2-Seq Рисунок: схема RNN with attention [1,2] [1] Graves A., 2013. Generating Sequences … [2] Luong M. et al., 2015. Effective Approaches …
  13. RNN-LSTM, два слоя, словарь на ~180к слов ВОПРОС: хто задрот ОТВЕТ: профессиональный лига видеоигра основать год крупный проводить турнир такой игра релиз стать организовывать однако вскоре исключить список дисциплина каждый год американец проводить специальный сезон состоять несколько соревнование разный город сша итоговый турнир конец год СИНТЕТИКА: лига играть игра игра игра игра игра игра … • Проблемы: повторения, плохая реакция на длинные тексты Перевод без внимания
  14. Асессорская оценка • Оценить ответ на запрос: • (2) ответ полностью отвечает на вопрос; • (1) ответ отвечает на вопрос частично; • (0) ответ совсем не отвечает на вопрос. • Результат ожидаем: • Baseline: (2) 15%, (1) 55%, (0) 30% • Перевод без внимания: (2) 24%, (1) 55%, (0) 21%
  15. RNN-LSTM, четыре слоя, двустороннее кодирование, механизм внимания, словарь на ~180к слов ВОПРОС: хто задрот ОТВЕТ: профессиональный лига видеоигра основать год крупный проводить турнир такой игра релиз стать организовывать однако вскоре исключить список дисциплина каждый год американец проводить специальный сезон состоять несколько соревнование разный город сша итоговый турнир конец год СИНТЕТИКА: проходить сезон лига играть [игра играть игра соревнование]x4 … • Проблемы: повторения Перевод с вниманием
  16. ВОПРОС: заменять сахар ОТВЕТ: сгущенка СИНТЕТИКА: сгущенка х20 • Проблемы: горе от внимания, мало информации Ещё пример
  17. Что делать с повторениями? • Почему это проблема: искусственный рост TF-показателя повторяющихся слов • Решение проблемы: эвристическое, несколько “проходов” по результату с удалением повторений
  18. Убираем повторения, смотрим на ошибки, видим новую проблему: ВОПРОС: откуда скачать реферат гимнастика гимнастический терминология ОТВЕТ: интернет СИНТЕТИКА: помочь решить задача пожалуйста Проблема: генерируются общие вопросы на тему ДЗ, отношения, политика. Перевод без повторений
  19. Тексты, которые нас не интересуют • Соображение: в индексе есть “лучшие” ответы, не содержащие информации (“Да”, “Попробуй”, “В интернете поищи”, “:)))))”) • Почему это проблема: такие ответы засоряют обучающее множество, а показать такой текст в выдаче — непростительно • Решение проблемы: эвристическое, уберём из индекса и обучающего множества категории с большим количеством таких текстов.
  20. ВОПРОС: посоветовать книга ОТВЕТ: например <unk> <unk> и ещё <unk> <unk> СИНТЕТИКА: посоветовать <unk> • Проблемы, токенизация не справляется с: • именованными сущностями; • опечатками; • другими не знакомыми словами. Ещё пример
  21. Токенизация • Соображение: • частое возникновение <unk> — следствие размера словаря • ~180к начальных форм — мало при большом количестве именованных сущностей и опечаток в данных • SentencePiece [3, 4], размер словаря ~180к —> 8к • Пример: скапипастить с гитхаба —> • ['▁с', 'ка', 'пи', 'па', 'ст', 'ить', '▁с', '▁г', 'ит', 'ха', 'ба'] • <unk> гитхаб [3] SentencePiece, https://github.com/google/sentencepiece [4] Kudo T., 2018. Subword Regularization: …
  22. RNN-LSTM, четыре слоя, двустороннее кодирование, механизм внимания, словарь на ~8к SentencePiece токенов ВОПРОС: горло першит и на задней стенке глотки появились какие-то волдыри. что это такое? и как лечить? ОТВЕТ: ангина. нужно полоскать горло раствором фурацилина или раствором сода+соль+йод. на ночь водочный компресс ну а лучше всего купить в аптеке спрей биопарокс-антибиотик местного действия СИНЕТИКА: что делать если болит горло? Чистый индекс, нормализация
  23. RNN-LSTM, четыре слоя, двустороннее кодирование, механизм внимания, словарь на ~8к SentencePiece токенов ВОПРОС: а так ли уж плоха способность идти напролом? ОТВЕТ: я за такими наблюдаю и всегда заканчивается одинаково. идут, пока башку не расшибают . рано или поздно в жизни встречается такая дверь непробиваемая, что их ”напролом” им же и вредит. а двери-то бывает ”на себя” открываются.... СИНТЕТИКА: как вы относитесь к людям, которые не любят двери? Но нам есть над чем работать
  24. Итоги Оценка ответ полностью отвечает на вопрос ответ отвечает на вопрос частично ответ совсем не отвечает на вопрос Baseline 15 55 30 Перевод без внимания 24 55 21 Перевод с вниманием 27 56 17 Перевод без повторений 30 56 14 Чистый индекс, нормализация 42 47 11
  25. Федор Федоренко Разработчик-Исследователь f.fedorenko@corp.mail.ru
  26. • [1: слайд 12] Graves A., 2013. Generating Sequences With Recurrent Neural Networks • [2: слайд 12] Luong M. et al., 2015. Effective Approaches to Attention-based Neural Machine Translation • [3: слайд 21] Google. SentencePiece, https://github.com/google/sentencepiece • [3: слайд 21] Kudo T., 2018. Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates Ссылки на слайдах
  27. Нейро-Машинный Перевод в Вопросно-Ответных Системах
Anúncio