SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
ЭТАПЫЭТАПЫ СОЗДАНИЯСОЗДАНИЯ
СТАТИСТИЧЕСКОГОСТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКАПЕРЕВОДЧИКА
ПОТОКОВПОТОКОВ НОВОСТЕЙНОВОСТЕЙ
Ландэ Дмитрий Владимирович,
д.т.н., профессор НТУУ «КПИ», зам. директора ElVisti
Жигало Владлен Викторович,
аспирант, инж.-программист ElVisti
СПб-2010
ТриТри задачизадачи –– тритри этапаэтапа
Информационный
поток
1
Параллельный
документальный
корпус
2
XML
Параллельный
корпус
предложений
3
Статистический
потоковый
переводчик
НесколькоНесколько словслов оо технологиитехнологии
контентконтент--мониторингамониторинга
В Информационном центре "ЭЛВИСТИ" (Киев) создана система
InfoStream, с помощью которой охватываются новости из более
5 тысяч отечественных и зарубежных веб-сайтов, осуществляется
их обработка и обобщение.
200 250 360
600
1000
1500
2500
3000
3500
4000
>5000
2000 2002 2004 2006 2008 2010
ОсновныеОсновные характеристикихарактеристики
- более 5 000 российских и зарубежных
источников;
- более 80 000 документов в сутки;
- архив с 1996 года содержит
более 80 млн. документов;
- обновление данных
осуществляется каждые
15 минут.
1.1.ППараллельныйараллельный корпускорпус
документовдокументов
Рассматривается метод, с помощью которого реализуется
выявление информационных дубликатов, представленных
на разных языках (русском и украинском).
В результате применения этого метода построен параллельный
по информационному содержанию документальный корпус,
который можно назвать «квазипараллельным», однако, он
может также считаться параллельным в понимании многих
авторов, так как оснащен некоторыми автоматически
сформированными тегами и переводами выделенных лексем на
2 языка.
ОсобенностьОсобенность подходаподхода
Предлагается подход к созданию параллельных
корпусов документов, основанный на алгоритме поиска
дубликатов документов на разных языках. Подход дает
возможность отыскать похожие документы на разных языках
в большом массиве документов. В результате можно убедится
в том что в корпус попали параллельные документы из разных
источников. Методы, основанные на анализе сайтов со
страницами на разных языках, не позволяют определить
дубликаты на разных источниках (сайтах), не указав специально
параллельность этих источников.
ПроцедураПроцедура
1. Создание частотных морфологических словарей;
2. Выделение с их помощью опорных слов из документов;
3. Перевод опорных слов, с помощью словарей переводов;
4. Определение дублей документов на разных языках (сравнение 5-и
переведенных опорных слов с 12 опорными словами др. документа);
5. Отсеивание с полученного множества документов «неполных
дублей». Были использованы такие дополнительные критерии:
- общее количество слов в переведенном варианте не
должно отличаться больше чем на 10%;
- количество слов начинающихся с большой буквы не
должно отличаться больше чем на 3 слова;
- количество чисел в документах не должно отличатся
больше чем на два числа;
- найденные числа в документах не должны отличаться
более чем на 15 %.
АлгоритмАлгоритм созданиясоздания параллельногопараллельного
документальногодокументального корпусакорпуса
Информационный
поток
Определение
«опорных
слов»
Оконча-
тельная
фильтрация
рус укр
Морфологические
частотные
словари
Перевод
«опорных
слов»
Словари
переводов
рус
/
укр
укр
/
рус
Определение
дубликатов
на разных
языках
Параллельный
документальный
корпус
ЧтоЧто реализованореализовано??
Предложенный подход позволил создать двуязычный
украинско-русский параллельный корпус текстов из
веб-публикаций на русском и украинском языках
объемом около 1 000 000 пар документов.
Оцененная экспертами точность предложенного
алгоритма - 98%.
http://ling.infostream.ua
Реализован алгоритм, который учитывает не только
статистические свойства текстов, но и некоторые
морфологические признаки.
В соответствии с этим алгоритмом построение
параллельного корпуса происходит в несколько основных
этапов:
• создание морфологических словарей (разово);
• создание частотных морфологических словарей
(периодически);
• создание словарей переводов (постоянно);
• создание процедуры определения опорных слов в
документах (постоянно);
• определение разноязычных дубликатов (постоянно).
ОсновныеОсновные процедурыпроцедуры
Для русского и украинского языков были использованы
свободно доступные электронные словари: ispell с
набором более 1 млн. словоформ и «Словники України», c
набором более 4 млн. словоформ, а также словарь
Зализняка, который насчитывает порядка 100 тыс. слов.
Эксперты дополнили морфологические словари
неологизмами, названиями известных фирм, брендов и
известными фамилиями, которых не было в исходных
словарях.
МорфологическиеМорфологические словарисловари
Для обучения частотных морфологических словарей были взяты электронные
публикации новостей, полученные из Интернет с помощью системы контент-
мониторинга InfoStream.
«Обучение» словарей проводится в несколько этапов. Первый этап
заключается в разделении документов на словоформы и сохранении
полученных словоформ с информацией о номерах соответствующих
документов.
На втором этапе, созданный файл словоформ сортируется, после чего
подсчитывается количество вхождений каждой словоформы, и количество
документов в которых она встретилась. Найденные частоты записываются в
частотный словарь, на основании которого определяется вероятная
нормальная форма каждого слова.
Для выявления омонимии, в выходной файл записываются все нормальные
формы соответствующие словоформе, т. е. если одной словоформе
соответствует сразу несколько нормальных форм, сохраняются подсчитанные
частоты со всеми найденными нормальными формами. На третьем этапе
происходит заключительный подсчет количества нормальных форм и
сохранение результатов в частотный словарь.
ЧастотныеЧастотные словарисловари
Для индексирования использовались украино- и русскоязычные
словарные массивы. Ввиду технической сложности представления
полных лексикографических баз данных для двух языков, авторами
использовался лишь относительно небольшой, но, по-видимому, самый
существенный для данной задачи срез - множество имен
существительных, дополненное некоторыми фамилиями,
аббревиатурами, названиями компаний. Как показал опыт, такой подход
полностью себя оправдал как для обеспечения качества индекса, так и
для визуализации результатов работы.
Предложенный подход базируется на использовании частотного словаря
на основе морфологического словаря (МС) с использование тестового
массива документов, а также построение алгоритма выявления опорных
слов с использованием частотного МС и модифиуации общеизвестного
подхода TF IDF.
КонтекстнаяКонтекстная неоднозначностьнеоднозначность
««ОбучениеОбучение»» частотногочастотного словарясловаря
Происходит считывание текстового документа из
входного потока, после чего выполняется выделение
словоформ и поиск нормальной формы для каждой из
них. В случае контекстной неоднозначности, выбирается
наиболее частотная (с наибольшим индексом) по словарю
нормальная форма словоформы.
После вычисления соответствующих весовых
коэффициентов с помощью формулы Okapi BM25
происходит ранжирование нормализованных слов и
выбирается двенадцать наиболее «весомых». Полученные
двенадцать опорных слов переводятся на другой язык с
помощью словарей переводов. Все опорные слова и
слова-переводы приписываются к документу.
ОпорныеОпорные словаслова
Okapi BM25Okapi BM25
В предложенной процедуре индексирования для
выделения наиболее значимых термов использовался
статистический метод, базирующийся на применении
общеизвестного подхода TF IDF, а точнее его
модификации Okapi BM25, в которой каждому терму из
документа приписывается вес по формуле:
где f(t,D) - частота встречаемости терма t в документе
D, |D| - длина документа D, L - средняя длина
документа в коллекции текстов, общее количество
которых - N, n(t) - количество документов в коллекции,
содержащих данный терм, k, b - параметры, выбираемые
экспертами.
В системе InfoStream используется механизм поиска
дубликатов, в котором 6 опорных слов исследуемого
документа, сравниваются с 12-ю опорными словами
каждого из документов корпуса.
ВыявлениеВыявление дубликатовдубликатов
Процедура сравнения была дополнена рядом
эвристических критериев, например:
• общее количество слов в переведенном варианте
не должно отличаться от оригинала более чем на 10%;
• количество чисел в документах не должно отличатся
больше чем на два.
2.2. ПроцедураПроцедура созданиясоздания корпусакорпуса
параллельныхпараллельных предложенийпредложений
1. Разделение параллельных документов на предложения:
1.1. Определителем конца предложения были взяты символы (. ! ?
;)
1.2. Если в тексте встречалось сокращение или инициалы с точкой
то она не считается концом предложения.
2. Подсчет количества предложений в параллельных документах. Если
данные документы по количеству предложений одинаковы, то они
передавались в дальнейшую обработку.
3. Разделение предложения на слова:
3.1. Словом считалось любое сочетание символов отделенное от
других групп символов пробелом.
3.2. Накладывались дополнительные ограничения на определение
слова на каждом из языков. Например, слова на украинском, в
начале которых, упоминались слова: який, яка, що, котрий и т.д.
условно считались одним словом.
4. Подсчет количества слов в параллельных предложениях. В
параллельный корпус предложений включались лишь те
предложения, которые по количеству слов не отличись более чем на
одно слово.
АлгоритмАлгоритм созданиясоздания корпусакорпуса
параллельнныхпараллельнных предложенийпредложений
Параллельный
документальный
корпус
Первичная
фильтрация
Разделение
по
предложениям
Правила
Разделение
по словам (рус)
Разделение
по словам (укр)
Разделители
Определение
парал-
лельности
Корпус
в формате
XML
ФрагментФрагмент параллельногопараллельного корпусакорпуса
ОнлайнОнлайн--интерфейсинтерфейс ––
сайтсайт http://ling.infostream.uahttp://ling.infostream.ua
ОписаниеОписание ресурсаресурса ––
сайтсайт http://ling.infostream.uahttp://ling.infostream.ua
РежимРежим поискапоиска ––
сайтсайт http://ling.infostream.uahttp://ling.infostream.ua
ФрагментФрагмент целевогоцелевого документадокумента ––
сайтсайт http://ling.infostream.uahttp://ling.infostream.ua
ПримерыПримеры технологийтехнологий nn--gramgram
РазбиениеРазбиение предложенияпредложения
нана тритриграммграммыы
A1-An слова. T1-Tn триграммы
Предложения на русском и украинском языке.
Схематическая разметка разбиения предложения на триграммы
A1 A2 A3 A4 A5 An
B1 B2 B3 B4 B5 Bn
НемногоНемного статистическихстатистических исследованийисследований
3-граммы
2-граммы
слова
СтатистикаСтатистика словарейсловарей
Для русского языка
Триграммы: 16947925
Биграммы: 8916423
Слова: 513753
Для украинского языка
Триграммы: 17564031
Биграммы: 9271080
Слова: 563876
3.3. АлгоритмАлгоритм работыработы
переводчикапереводчика
1. Разделение документов на предложения
2. Построение массивов триграмм, биграмм слов
для документа
3. Поиск триграмм, биграмм и слов в словарях
4. Перевод документа с использованием
построенных словарей переводов для документа
5. Форматирование документа
ПримерПример русскорусско--украинскогоукраинского переводаперевода
МестоМесто вв технологиитехнологии переводаперевода
потоковпотоков новостейновостей
СПАСИБОСПАСИБО ЗАЗА ВНИМАНИЕВНИМАНИЕ!!
Ландэ Дмитрий Владимирович,
dwl@visti.net
http://ling.infostream.ua
http://dwl.visti.net

Mais conteúdo relacionado

Destaque

ニフティクラウド mobile backendを使う上での良くある質問、疑問にお答えします
ニフティクラウド mobile backendを使う上での良くある質問、疑問にお答えしますニフティクラウド mobile backendを使う上での良くある質問、疑問にお答えします
ニフティクラウド mobile backendを使う上での良くある質問、疑問にお答えしますAtsushi Nakatsugawa
 
AIIM Conf - Work, Content and Next 10 Years
AIIM Conf - Work, Content and Next 10 YearsAIIM Conf - Work, Content and Next 10 Years
AIIM Conf - Work, Content and Next 10 YearsJohn Newton
 
Topics In Critical Pedagogy
Topics In Critical PedagogyTopics In Critical Pedagogy
Topics In Critical PedagogyGlen Gatin
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. Lidia Pivovarova
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов Lidia Pivovarova
 
Letters from the open source trenches - Postgres community
Letters from the open source trenches - Postgres communityLetters from the open source trenches - Postgres community
Letters from the open source trenches - Postgres communitySelena Deckelmann
 
Motivation Movie P P T Version Sample
Motivation  Movie  P P T  Version  SampleMotivation  Movie  P P T  Version  Sample
Motivation Movie P P T Version SampleAndrew Schwartz
 
Running Rabbit
Running RabbitRunning Rabbit
Running Rabbitnonnon
 
Enterprise Flex applications on tablet devices
Enterprise Flex applications on tablet devicesEnterprise Flex applications on tablet devices
Enterprise Flex applications on tablet devicesMichael Chaize
 
Breizh camp adobe flex et les mobiles
Breizh camp   adobe flex et les mobilesBreizh camp   adobe flex et les mobiles
Breizh camp adobe flex et les mobilesMichael Chaize
 
Presentatie nedap071010
Presentatie nedap071010Presentatie nedap071010
Presentatie nedap071010MarcelPater
 

Destaque (20)

ニフティクラウド mobile backendを使う上での良くある質問、疑問にお答えします
ニフティクラウド mobile backendを使う上での良くある質問、疑問にお答えしますニフティクラウド mobile backendを使う上での良くある質問、疑問にお答えします
ニフティクラウド mobile backendを使う上での良くある質問、疑問にお答えします
 
AIIM Conf - Work, Content and Next 10 Years
AIIM Conf - Work, Content and Next 10 YearsAIIM Conf - Work, Content and Next 10 Years
AIIM Conf - Work, Content and Next 10 Years
 
Topics In Critical Pedagogy
Topics In Critical PedagogyTopics In Critical Pedagogy
Topics In Critical Pedagogy
 
Acquireren Mkb Deventer Slimmer Reeks 30 Maart 2010
Acquireren Mkb Deventer Slimmer Reeks 30 Maart 2010Acquireren Mkb Deventer Slimmer Reeks 30 Maart 2010
Acquireren Mkb Deventer Slimmer Reeks 30 Maart 2010
 
Technology, Is That All It Takes
Technology, Is That All It TakesTechnology, Is That All It Takes
Technology, Is That All It Takes
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
 
Innovation manifesto v04
Innovation manifesto v04Innovation manifesto v04
Innovation manifesto v04
 
Diversity
DiversityDiversity
Diversity
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов
 
Letters from the open source trenches - Postgres community
Letters from the open source trenches - Postgres communityLetters from the open source trenches - Postgres community
Letters from the open source trenches - Postgres community
 
Motivation Movie P P T Version Sample
Motivation  Movie  P P T  Version  SampleMotivation  Movie  P P T  Version  Sample
Motivation Movie P P T Version Sample
 
Running Rabbit
Running RabbitRunning Rabbit
Running Rabbit
 
Enterprise Flex applications on tablet devices
Enterprise Flex applications on tablet devicesEnterprise Flex applications on tablet devices
Enterprise Flex applications on tablet devices
 
Breizh camp adobe flex et les mobiles
Breizh camp   adobe flex et les mobilesBreizh camp   adobe flex et les mobiles
Breizh camp adobe flex et les mobiles
 
Presentatie nedap071010
Presentatie nedap071010Presentatie nedap071010
Presentatie nedap071010
 
Personal Inquiry
Personal  InquiryPersonal  Inquiry
Personal Inquiry
 
Aapt 2008
Aapt 2008Aapt 2008
Aapt 2008
 
Ivan Derganskyi
Ivan DerganskyiIvan Derganskyi
Ivan Derganskyi
 
1
11
1
 
Criza
CrizaCriza
Criza
 

Semelhante a Lande, Jigalo

Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 
Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...Ilya Nikitin
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Presentation deja vu_x_animated_05-02-20010_gm
Presentation deja vu_x_animated_05-02-20010_gmPresentation deja vu_x_animated_05-02-20010_gm
Presentation deja vu_x_animated_05-02-20010_gmGeorgiy Moiseenko
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТQPsoft
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийSoftengi
 
InterPARES 2: Система принципов для разработки политик, стратегий и стандарто...
InterPARES 2: Система принципов для разработки политик, стратегий и стандарто...InterPARES 2: Система принципов для разработки политик, стратегий и стандарто...
InterPARES 2: Система принципов для разработки политик, стратегий и стандарто...Natasha Khramtsovsky
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поискLidia Pivovarova
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwYury Katkov
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный переводLidia Pivovarova
 

Semelhante a Lande, Jigalo (20)

Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...Распределенная статистическая система машинного перевода (Distributed statist...
Распределенная статистическая система машинного перевода (Distributed statist...
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Audit
AuditAudit
Audit
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Presentation deja vu_x_animated_05-02-20010_gm
Presentation deja vu_x_animated_05-02-20010_gmPresentation deja vu_x_animated_05-02-20010_gm
Presentation deja vu_x_animated_05-02-20010_gm
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложений
 
InterPARES 2: Система принципов для разработки политик, стратегий и стандарто...
InterPARES 2: Система принципов для разработки политик, стратегий и стандарто...InterPARES 2: Система принципов для разработки политик, стратегий и стандарто...
InterPARES 2: Система принципов для разработки политик, стратегий и стандарто...
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
01 информационный поиск
01 информационный поиск01 информационный поиск
01 информационный поиск
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 

Mais de Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classificationLidia Pivovarova
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesLidia Pivovarova
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovLidia Pivovarova
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...Lidia Pivovarova
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyLidia Pivovarova
 

Mais de Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

Lande, Jigalo

  • 1. ЭТАПЫЭТАПЫ СОЗДАНИЯСОЗДАНИЯ СТАТИСТИЧЕСКОГОСТАТИСТИЧЕСКОГО ПЕРЕВОДЧИКАПЕРЕВОДЧИКА ПОТОКОВПОТОКОВ НОВОСТЕЙНОВОСТЕЙ Ландэ Дмитрий Владимирович, д.т.н., профессор НТУУ «КПИ», зам. директора ElVisti Жигало Владлен Викторович, аспирант, инж.-программист ElVisti СПб-2010
  • 2. ТриТри задачизадачи –– тритри этапаэтапа Информационный поток 1 Параллельный документальный корпус 2 XML Параллельный корпус предложений 3 Статистический потоковый переводчик
  • 3. НесколькоНесколько словслов оо технологиитехнологии контентконтент--мониторингамониторинга В Информационном центре "ЭЛВИСТИ" (Киев) создана система InfoStream, с помощью которой охватываются новости из более 5 тысяч отечественных и зарубежных веб-сайтов, осуществляется их обработка и обобщение.
  • 4. 200 250 360 600 1000 1500 2500 3000 3500 4000 >5000 2000 2002 2004 2006 2008 2010 ОсновныеОсновные характеристикихарактеристики - более 5 000 российских и зарубежных источников; - более 80 000 документов в сутки; - архив с 1996 года содержит более 80 млн. документов; - обновление данных осуществляется каждые 15 минут.
  • 5. 1.1.ППараллельныйараллельный корпускорпус документовдокументов Рассматривается метод, с помощью которого реализуется выявление информационных дубликатов, представленных на разных языках (русском и украинском). В результате применения этого метода построен параллельный по информационному содержанию документальный корпус, который можно назвать «квазипараллельным», однако, он может также считаться параллельным в понимании многих авторов, так как оснащен некоторыми автоматически сформированными тегами и переводами выделенных лексем на 2 языка.
  • 6. ОсобенностьОсобенность подходаподхода Предлагается подход к созданию параллельных корпусов документов, основанный на алгоритме поиска дубликатов документов на разных языках. Подход дает возможность отыскать похожие документы на разных языках в большом массиве документов. В результате можно убедится в том что в корпус попали параллельные документы из разных источников. Методы, основанные на анализе сайтов со страницами на разных языках, не позволяют определить дубликаты на разных источниках (сайтах), не указав специально параллельность этих источников.
  • 7. ПроцедураПроцедура 1. Создание частотных морфологических словарей; 2. Выделение с их помощью опорных слов из документов; 3. Перевод опорных слов, с помощью словарей переводов; 4. Определение дублей документов на разных языках (сравнение 5-и переведенных опорных слов с 12 опорными словами др. документа); 5. Отсеивание с полученного множества документов «неполных дублей». Были использованы такие дополнительные критерии: - общее количество слов в переведенном варианте не должно отличаться больше чем на 10%; - количество слов начинающихся с большой буквы не должно отличаться больше чем на 3 слова; - количество чисел в документах не должно отличатся больше чем на два числа; - найденные числа в документах не должны отличаться более чем на 15 %.
  • 8. АлгоритмАлгоритм созданиясоздания параллельногопараллельного документальногодокументального корпусакорпуса Информационный поток Определение «опорных слов» Оконча- тельная фильтрация рус укр Морфологические частотные словари Перевод «опорных слов» Словари переводов рус / укр укр / рус Определение дубликатов на разных языках Параллельный документальный корпус
  • 9. ЧтоЧто реализованореализовано?? Предложенный подход позволил создать двуязычный украинско-русский параллельный корпус текстов из веб-публикаций на русском и украинском языках объемом около 1 000 000 пар документов. Оцененная экспертами точность предложенного алгоритма - 98%. http://ling.infostream.ua
  • 10. Реализован алгоритм, который учитывает не только статистические свойства текстов, но и некоторые морфологические признаки. В соответствии с этим алгоритмом построение параллельного корпуса происходит в несколько основных этапов: • создание морфологических словарей (разово); • создание частотных морфологических словарей (периодически); • создание словарей переводов (постоянно); • создание процедуры определения опорных слов в документах (постоянно); • определение разноязычных дубликатов (постоянно). ОсновныеОсновные процедурыпроцедуры
  • 11. Для русского и украинского языков были использованы свободно доступные электронные словари: ispell с набором более 1 млн. словоформ и «Словники України», c набором более 4 млн. словоформ, а также словарь Зализняка, который насчитывает порядка 100 тыс. слов. Эксперты дополнили морфологические словари неологизмами, названиями известных фирм, брендов и известными фамилиями, которых не было в исходных словарях. МорфологическиеМорфологические словарисловари
  • 12. Для обучения частотных морфологических словарей были взяты электронные публикации новостей, полученные из Интернет с помощью системы контент- мониторинга InfoStream. «Обучение» словарей проводится в несколько этапов. Первый этап заключается в разделении документов на словоформы и сохранении полученных словоформ с информацией о номерах соответствующих документов. На втором этапе, созданный файл словоформ сортируется, после чего подсчитывается количество вхождений каждой словоформы, и количество документов в которых она встретилась. Найденные частоты записываются в частотный словарь, на основании которого определяется вероятная нормальная форма каждого слова. Для выявления омонимии, в выходной файл записываются все нормальные формы соответствующие словоформе, т. е. если одной словоформе соответствует сразу несколько нормальных форм, сохраняются подсчитанные частоты со всеми найденными нормальными формами. На третьем этапе происходит заключительный подсчет количества нормальных форм и сохранение результатов в частотный словарь. ЧастотныеЧастотные словарисловари
  • 13. Для индексирования использовались украино- и русскоязычные словарные массивы. Ввиду технической сложности представления полных лексикографических баз данных для двух языков, авторами использовался лишь относительно небольшой, но, по-видимому, самый существенный для данной задачи срез - множество имен существительных, дополненное некоторыми фамилиями, аббревиатурами, названиями компаний. Как показал опыт, такой подход полностью себя оправдал как для обеспечения качества индекса, так и для визуализации результатов работы. Предложенный подход базируется на использовании частотного словаря на основе морфологического словаря (МС) с использование тестового массива документов, а также построение алгоритма выявления опорных слов с использованием частотного МС и модифиуации общеизвестного подхода TF IDF. КонтекстнаяКонтекстная неоднозначностьнеоднозначность
  • 15. Происходит считывание текстового документа из входного потока, после чего выполняется выделение словоформ и поиск нормальной формы для каждой из них. В случае контекстной неоднозначности, выбирается наиболее частотная (с наибольшим индексом) по словарю нормальная форма словоформы. После вычисления соответствующих весовых коэффициентов с помощью формулы Okapi BM25 происходит ранжирование нормализованных слов и выбирается двенадцать наиболее «весомых». Полученные двенадцать опорных слов переводятся на другой язык с помощью словарей переводов. Все опорные слова и слова-переводы приписываются к документу. ОпорныеОпорные словаслова
  • 16. Okapi BM25Okapi BM25 В предложенной процедуре индексирования для выделения наиболее значимых термов использовался статистический метод, базирующийся на применении общеизвестного подхода TF IDF, а точнее его модификации Okapi BM25, в которой каждому терму из документа приписывается вес по формуле: где f(t,D) - частота встречаемости терма t в документе D, |D| - длина документа D, L - средняя длина документа в коллекции текстов, общее количество которых - N, n(t) - количество документов в коллекции, содержащих данный терм, k, b - параметры, выбираемые экспертами.
  • 17. В системе InfoStream используется механизм поиска дубликатов, в котором 6 опорных слов исследуемого документа, сравниваются с 12-ю опорными словами каждого из документов корпуса. ВыявлениеВыявление дубликатовдубликатов Процедура сравнения была дополнена рядом эвристических критериев, например: • общее количество слов в переведенном варианте не должно отличаться от оригинала более чем на 10%; • количество чисел в документах не должно отличатся больше чем на два.
  • 18. 2.2. ПроцедураПроцедура созданиясоздания корпусакорпуса параллельныхпараллельных предложенийпредложений 1. Разделение параллельных документов на предложения: 1.1. Определителем конца предложения были взяты символы (. ! ? ;) 1.2. Если в тексте встречалось сокращение или инициалы с точкой то она не считается концом предложения. 2. Подсчет количества предложений в параллельных документах. Если данные документы по количеству предложений одинаковы, то они передавались в дальнейшую обработку. 3. Разделение предложения на слова: 3.1. Словом считалось любое сочетание символов отделенное от других групп символов пробелом. 3.2. Накладывались дополнительные ограничения на определение слова на каждом из языков. Например, слова на украинском, в начале которых, упоминались слова: який, яка, що, котрий и т.д. условно считались одним словом. 4. Подсчет количества слов в параллельных предложениях. В параллельный корпус предложений включались лишь те предложения, которые по количеству слов не отличись более чем на одно слово.
  • 19. АлгоритмАлгоритм созданиясоздания корпусакорпуса параллельнныхпараллельнных предложенийпредложений Параллельный документальный корпус Первичная фильтрация Разделение по предложениям Правила Разделение по словам (рус) Разделение по словам (укр) Разделители Определение парал- лельности Корпус в формате XML
  • 23. РежимРежим поискапоиска –– сайтсайт http://ling.infostream.uahttp://ling.infostream.ua
  • 24. ФрагментФрагмент целевогоцелевого документадокумента –– сайтсайт http://ling.infostream.uahttp://ling.infostream.ua
  • 26. РазбиениеРазбиение предложенияпредложения нана тритриграммграммыы A1-An слова. T1-Tn триграммы Предложения на русском и украинском языке. Схематическая разметка разбиения предложения на триграммы A1 A2 A3 A4 A5 An B1 B2 B3 B4 B5 Bn
  • 28. СтатистикаСтатистика словарейсловарей Для русского языка Триграммы: 16947925 Биграммы: 8916423 Слова: 513753 Для украинского языка Триграммы: 17564031 Биграммы: 9271080 Слова: 563876
  • 29. 3.3. АлгоритмАлгоритм работыработы переводчикапереводчика 1. Разделение документов на предложения 2. Построение массивов триграмм, биграмм слов для документа 3. Поиск триграмм, биграмм и слов в словарях 4. Перевод документа с использованием построенных словарей переводов для документа 5. Форматирование документа
  • 31. МестоМесто вв технологиитехнологии переводаперевода потоковпотоков новостейновостей
  • 32. СПАСИБОСПАСИБО ЗАЗА ВНИМАНИЕВНИМАНИЕ!! Ландэ Дмитрий Владимирович, dwl@visti.net http://ling.infostream.ua http://dwl.visti.net