Logacheva

Об одном методе
автоматической
транскрипции
Варвара Логачева
Институт прикладной математики
им.М.В.Келдыша
г. Москва

Задача
Передать иноязычное имя собственное с
сохранением его фонетического облика
Ivangoe – Айвенго
Samhain – Савань
Jorge – Хорхе

Терминология
Практическая транскрипция (термин введен
А.М.Сухотиным в 1935 году) – запись иноязычных имен и названий
с использованием исторически сложившейся орфографической
системы языка-приемника, способ включения слов одного языка в
текст другого с приблизительным сохранением звукового облика
этих слов, но также с возможным учетом написания в оригинале и
сложившихся традиций.
Поскольку предполагается решить задачу с помощью компьютера,
представляется оправданным введение термина машинная
(автоматическая) транскрипция.
В зарубежной науке термин «transcription» используется только в
генетике. Задача практической транскрипции в англоязычной
научной литературе обозначается как transliteration.

Смежные задачи
транслитерация
Charles Aznavour – Шарль Азнавур
восстановление правильного написания имени
Sent Francisco
Sant Fransisko San Francisco
Sen Frantsisca
обратная транслитерация
Джордж Буш – George Bush
(а не Boosh, Boushe и пр.)
определение языка, на котором написано имя
Singer (нем.) – Зингер Francois (фр.) – Франсуа
Singer (фр.) – Сенже Francois (исп.) – Франкоис
выделение имен собственных в тексте

Основные тенденции
соответствие букв / фонем
статистические модели / модели,
основанные на правилах
ручное / автоматическое
(автоматизированное) формирование
обучающего корпуса

СуществующиеСуществующие методыметоды
транскрипциитранскрипции (Knight and(Knight and GraelGrael))
K. Knight and J. Graehl. 1998. Machine transliteration.
Computational Linguistics, 24(4):599–612.
WFSA-A – разделение входа на слова
WFST-B – генерация фонемного состава английского языка
WFST-C – преобразование в фонемный японского языка
WFST-D – преобразование в азбуку катакана
На каждом этапе используется вероятностная информация
Статистический метод – обучение конечного автомата
Задача обратной транслитерации (японский → английский)

Российские системы практической
http://nano.yandex.ru/project/anthroponym/
http://transcriptor.ru/
http://www.artlebedev.ru/tools/transcriptor/
http://www.lingvoconverter.com/

Система «Трансскриба»
•Правила составляются
вручную экспертом
•поддержка 32 языков
•высокая точность
передачи
•Относительно невысокая
скорость, зависящая от
количества правил для
данного языка

Усовершенствование системы
«Трансскриба»
Увеличение скорости преобразования строк
Построение конечного автомата на основе системы правил
Конечный автомат обеспечивает линейное время разбора строк,
не зависящее от количества правил
Автоматическое порождение правил
Обучение на параллельном корпусе (имя+перевод)
Метод не зависит от языка, может быть использован для
порождения правил для любой пары языков (при наличии
тестовых данных)

Конечный автомат

Конечный автомат
g = <VI, VO, Q, q0, F, δ>
VI – входной алфавит (алфавит языка оригинала);
VO – выходной алфавит (алфавит языка перевода);
Q – множество состояний автомата;
q0 – начальное состояние автомата;
F – множество конечных состояний;
δ – функция переходов Q×VI → <Q, a>.
a – действие, совершаемое при переходе:
сдвиг на n символов по входной строке
приписывание к выходу автомата цепочки символов выходного
алфавита

Преобразование системы правил в
конечный автомат
Правило имеет вид M α N → β, где
α – цепочка символов входного алфавита
β – цепочка символов выходного алфавита
(возможно, пустая)
M, N – контексты: множества цепочек символов
входного алфавита. Цепочка α может быть
преобразована в цепочку β только при условии,
что одна из цепочек из множества M (N)
предшествует α (следует за α). M и N могут быть
пусты (правило без контекстов)

Правило без контекста α → β
Переход из состояния n в состояние n+1 по каждому
символу из α
Переход в заключительное состояние по последнему
символу из α
Переходу по последнему символу приписывается
выходная строка β
e (1): «» a (1): «» u(1): «о»
eau → о
1 2 3 z

Правило с контекстом MαN → β
i (1)
l (1) e(0): «й»1 2 6 z
{ai, ei}ll{e} → й
3
5l (-2) 7l (1)
4
a (1) i (1)
e (1)
Переход из начального состояния по первому символу α, сдвиг на |m|
символов влево ( m ∈ M )
Переходы из состояния А' в состояние A'' по каждой цепочке из M
Переход из состояния A'' в состояние A''' по каждому символу из α
Переходы из состояния A''' в состояние z по каждой цепочке из N,
последнему переходу приписано выходное значение β

Детерминированный конечный
автомат
Если в системе существует два или более правил,
начинающихся на одну и ту же букву, автомат будет
недетерминированным.
a → а
ai → е
au → о
l → л
l{b, d, g, m, >} → ль
{i}ll → й
а: «а»
а
а
u: «о»
i: «е»
l(1): «л»
l(1)
l(-1)
l(1): «й»
b,d,g,m,>(1): «ль»
i(1) l(1)

Преобразование недетерминированного
автомата в детерминированный
Из вершины A исходит n дуг в вершины B1,…,Bn, помеченных одним
символом:
Создается новая вершина A', в которую входит дуга из вершины A,
помеченная тем же символом
Из вершины A' проводятся все дуги, которые выходили из вершин
B1,…,Bn
Вершины B1,…,Bn удаляются
а: «а»
а
а
u: «о»
i: «е»
*(0): «а»
а(1)
u(1): «о»
i(1): «е»

Унификация системы правил
Если для одной и той же буквы есть правило с
контекстом и правило без контекста, правилу без
контекста добавляется контекст по умолчанию:
l → л {*}l{*} → л
{i}ll → й {i}ll{*} → й
l{b, d, g, m, >} → ль {*} l{b, d, g, m, >} → ль

Если для буквы нет ни одного правила без
контекстов, составляется правило по умолчанию –
самое распространенное правило для этой буквы с
пустым контекстом:
c{e, i} → с – встретилось 100 раз
c{a, o, u} → к – встретилось 200 раз
c → к

l(1): «л»
l(1)
l(-1)
l(1): «й»
b,d,g,m,>(1): «ль»
i(1) l(1)
l(-1)
l(1): «й»
*(1) l(1)
*(0): «л»
b,d,g,m,>(1): «ль»
i(1)
l(1)
*(0): «л»
T A M LI A
При добавлении в автомат
правил с правыми контекстами
или с входной строкой длиннее
одного символа из всех
неконечных состояний
добавляется переход в конечное
состояние с приписыванием к
выходной строке значения по
умолчанию для первой буквы
правила

Пример работы автомата
aabidah - абида
________абида
aabish - абиш
_______абиш
aadab - адаб
______ адаб
aadam - адам
_______адам
aadil - адиль
______адилль
aafiya - афия
_______афия
aafreen - африн
________африн
aakifah - акифа
________акифа
aamaal - амаль
________амалль
aamil - амиль
______амилль
aamila - амиля
_______амилля
aamina - амина
________амина
aamir - амир
______амир
aamira - амира
_______амира
aanisa - аниса
_______аниса
aaqib - акиб
______акиб
baahir - бахир
_______бахир
baasim - басим
________басим
baasima - басима
________басима
badiyah - бадия
________бадия
badr - бадр
______бадр
badra - бадра
______бадра
badriya - бадрия
________бадрия
badriyyah - бадриййа
__________бадрииия

ГенерацияГенерация правилправил
A → А
AE → А
{<}AI → Э
{*}AI{*} → Е
{<}AY → Э
{*}AY → Е
AIL{>} → АЙ
AILL{*} → АЙ
AILLE{>} → АЙ
adria;адрия
adrian;адриан
adriana;адриана
adriane;адриан
adrianna;адрианна
adrianne;адрианн
adrien;адриан
adriene;адриен
adrienn;адрианн
adrienna;адрианна
aldema;альдема
aldena;альдена
aldenaide;альденед
aldenaise;альденез
⇒

Этапы генерации правил
Разделение слов
на слоги
Порождение первичных
правил
Выбор подмножества
слогов
Пробный разбор
Пополнение
системы правил
Обучающая
выборка
Система
правил

Деление на слоги
деление осуществляется по гласной букве. Граница слога
– после гласной;
2 и более гласных подряд не разделяются;
2 и более согласных не разделяются;
множество элементов, среди которых нет гласной, не
выделяется в отдельный слог;
символы начала и конца слова считаются согласными
буквами.
Дополнительное правило для русского языка:
не отделять «ь» от предыдущей согласной.

A d r i a n a
A l d e n a
A l m e l i n e
А д р и а н а
А л ь д е н а
А л ь м е л и н
Деление на слоги

ПорождениеПорождение первичныхпервичных правилправил
На основе слогов вида CV (согласная + гласная)
порождаются первичные правила – правила
транслитерации: i-я буква оригинала
сопоставляется i-й букве перевода
h a
х а

ПорождениеПорождение сложныхсложных правилправил
Сложные правила порождаются на основе слогов
вида CmVp → CnVq, где m ≠ n и/или p ≠ q:
CCV → CV
CV → CCV
CVV → CV
CV → CVV
Производится разбор слога с помощью
существующих правил: слог разбирается слева
направо и справа налево.

Каждый слог можно представить как
<pi1, …, pik, px, pik+1, …, pin> →
<ci1, …, cik, cx, cik+1, …, cim>,
где px → cx – подстрока, не удовлетворяющая
ни одному из существующих правил.
Можно выделить три случая несоответствия
px правилам.

px = ∅, cx ≠ ∅
o px ≠ ∅, cx = ∅
o px ≠ ∅, cx ≠ ∅
lde → льде
de → ьде
d → ьд
_ → ь
l → л
l → ль
l → л
e → е
l → л
e → е
d → д

o px = ∅, cx ≠ ∅
px ≠ ∅, cx = ∅
o px ≠ ∅, cx ≠ ∅
tha → та
ha → а
h → _
t → тt → т
a → а
{t}h{a} → ∅

o px = ∅, cx ≠ ∅
o px ≠ ∅, cx = ∅
px ≠ ∅, cx ≠ ∅
ja → джа сhi → ши
j → дж ch → ш
ko> → ку>
{k}o{>} → у

УчетУчет контекстаконтекста
l → л
anjela – анжела
cella – селла
l {a, o, u, i, e, l} → л
l → ль
almelda – альмельда
avital – авиталь
l {>, t, d, p, m} → ль

Недостатки метода
Низкая устойчивость к ошибкам в тестовой
выборке и исключениям из правил
Неполное использование контекстов
Не используется информация о закрытости /
открытости слога, номер слога в слове
Не рассматривается морфологический уровень
слова – префиксы, суффиксы, слова с
несколькими корнями
На стыке морфем могут измениться правила чтения
устойчивых сочетаний букв:
Sherlock – Шерлок
Bellshouse – Беллзхаус

Результаты
Реализован метод порождения правил по
тестовой выборке
Реализовано построение конечного
автомата по множеству правил

Сгенерированные правила
a→а (549)
{h l n r }a{i }→ (6)
au→о (7)
ay→е (9)
{< e }b{i }→бь (6)
b→б (41)
c→к (55)
c{e i }→с (126)
{a y }c{i }→сь (4)
{s }c{i }→ (3)
ch→ш (17)
{a i }d{i }→дь (6)
d→д (159)
{a e r u }d{> }→ (8)
{a e i u y }e{> l n r t }→ (97)
e→э (46)
e→е (409)
{< }i{m n }→э (10)
{a b d h l m t v z }i{> d e m n s }→е (46)
{l z }i{o }→ (4)
{e }i{d n r t }→ (5)
i→и (353)
ia→я (111)
igh→г (1)
j→ж (35)
{o }k{> }→ (1)
{e }k{i }→кь (2)
k→к (27)
{< a e i l o u }l{> b d g i m p q s t }→ль (139)
l→л (217)
ll→й (6)
m→м (112)
{e }m{i }→мь (2)
{a i o u }n{i }→нь (50)

Logacheva

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (19)

Semelhante a Logacheva

Semelhante a Logacheva (20)

Mais de Lidia Pivovarova

Mais de Lidia Pivovarova (20)

Logacheva