SlideShare a Scribd company logo
1 of 30
Идентификация уровня ложности
текста и его адаптация
Карпов Николай Вячеславович
Москва
14.02.2014
План работы



Мотивация



Обзор методов определения уровня сложности текста



Определени уровня сложности текста на русском языке







Идентификация сложности отдельного предложения при
помощи статистических параметров
Идентификация структурной сложности при помощи
синтаксических параметров
Адаптация (упрощение) сложности текста
Мотивация
Одной из неотъемлемых частей процесса обучения языку
является чтение, что часто ставит перед преподавателями и
студентами ряд технических трудностей, связанных с
проблемами поиска или понимания текстов определённого
уровня сложности.
Исходным пунктом для работы по определению уровня
читаемости текста послужила разработка системы по адаптации
текста к разным уровням сложности на русском языке.
В рамках данного исследования приведены результаты
применения ряда моделей, определяющих уровень сложности
текста и отдельных предложений по различным статистическим
параметрам.
Обзор методов определения уровня читаемости текста
Исследования сложности текста для чтения начались ещё в
20-х годах прошлого века. Эта область исследований
развивалась в основном в сфере работ, касающихся
английского языка, но за последнее десятилетие появился
и ряд работ, касающихся других языков, что говорит об
актуальности исследований, касающихся автоматического
определения сложности текста.
Сложность для чтения может быть представлена как
функция, которая сопоставляет множеству признаков,
извлечённых из текста, определённый уровень сложности
из заранее определённых по какой-либо системе
классификации.
Обзор работ по автоматическому определению
читаемости текста
1.
Flesch, R.: A new readability yardstick. J. Appl. Psychol. 32, 221 (1948).
2.
Kincaid, J.P., Fishburne Jr, R.P., Rogers, R.L., Chissom, B.S.: Derivation of
new readability formulas (automated readability index, fog count and flesch reading
ease formula) for navy enlisted personnel. DTIC Document (1975).
3.
Chall, J.S.: Readability revisited: The new Dale-Chall readability formula.
Brookline Books Cambridge, MA (1995).
4.
Collins-Thompson, K., Callan, J.: Predicting reading difficulty with statistical
language models. J. Am. Soc. Inf. Sci. Technol. 56, 1448–1462 (2005).
5.
Schwarm, S.E., Ostendorf, M.: Reading level assessment using support
vector machines and statistical language models. Proceedings of the 43rd Annual
Meeting on Association for Computational Linguistics. pp. 523–530. Association for
Computational Linguistics (2005).
6.
Oborneva, I.: Automatic assessment of the complexity of educational texts on
the basis of statistical parameters, (2006).
7.
Krioni, N., Nikin, A., Filippova, A.: Automated system for analysis of the
complexity of educational texts. Manag. Soc. Econ. Syst. 11, 101–107 (2008).
Обзор методов определения уровня читаемости текста
Формула Флэша-Кинсайда (Flesch, 1948; Kincaid et al., 1975)
сложность текста представляет как линейная функция среднего
числа слогсов в слове и средней длины предложения в тексте.
[(0.39×ASL)+(11.8×ASW)−15.59]
Дэйла-Холла (Chall and Dale, 1995) так же определяет
синтаксическую сложность текста как среднюю длину
предложения, но в качестве лексической метрики использует
процент слов не из словаря (либо редких по частотному словарю
слов в языке)
Обзор методов определения уровня читаемости текста
С
ростом
вычислительных
мощностей
появилась
возможность строить более сложные модели. Модель
Collins-Thompson and Callan (2005) использует юниграммы
частотности слов (словарь задан для каждого уровня
языка) и то свойство, что некоторые слова наиболее
предсказательны для определённого уровня сложности
текста
Schwarm and Ostendorf (2005) используют более сложные
синтаксические параметры - средняя высота дерева
разбора, число именных и глагольных групп, среднее число
нетерминальных узлов и прочее
Обзор методов определения уровня читаемости текста
на русском языке
Автоматическому
определению
сложности
для
чтения
применительно к русскому языку так же посвящён ряд работ.
Оборнева (2006) в своей работе адаптирует формулы Флэша и
Флэша-Кинсайда для применения к русскому языку путём
корректировки коэффициентов: сопоставлялись средняя длина в
слогах русского и английского слов и процент многосложных
слов в словарях этих языков.
Отметим исследование Криони, Никина и Филипповой по
определению сложности учебных текстов на русском языке, где
был выделен ряд более сложных параметров оцениваемых
текстов: связность, структурность, цельность, функциональносмысловой тип, информативность, абстрактность изложения и
сложность лингвистических конструкций.
Обзор методов определения уровня читаемости текста
на русском языке
Всего количество текстов равно 143. Тексты поделены на
три уровня:

Начальный (A1) - 52;

Базовый (A2) - 57;

Первый (B1) – 60.
Цель прототипирования алгоритмов - выяснить, с
помощью какого представления данных и алгоритма
классификации можно получить наиболее высокие
показатели полноты и точности.
- наивный Байес;
- k-ближайших соседей;
- дерево классификации;
- случайный лес;
- SVM.
Обзор методов определения уровня читаемости текста
на русском языке
Было выделено ряд характеристик текста:

Среднее количество слов в одном предложении текста;

Средняя длина одного слова в предложении;

Длина текста в буквах;

Длина текста в словах;

Средняя длина слова в слогах;

Средняя длина предложения в слогах;

Процент слов в 3...6 слога и больше;

Средняя длина предложения в буквах;

Cредняя длина слов в буквах;

Процент слов длинной в 5...13 букв и больше;

Наличие в предложении конкретных частей речи;

Процент слов в предложении, не входящих в словарь
лексического минимума (три уровня).
Обзор методов определения уровня читаемости текста
на русском языке
Были исключены все параметры, работающие с абзацами, т.к.
тексты нашего корпуса слишком короткие и имеют примерно
одинаковую длину. Не вводилось понятие фразы, и работа
проводилась исключительно со словами, т.к. тексты корпуса не
имели синтаксической разметки. За счет того, что применялся
конкретный словарь лексического минимума, были исключены
параметры оригинальности используемых слов и их процентные
отношения к текстам. Вместо этого, проверялось только наличие
представителей отдельных частей речи в текстах.
Результаты экспериментальных исследований
определения уровня читаемости текста на русском
языке
Объединение уровней elementary, basic, first и сравнение с
неадаптированными текстами новостей.

CA

F1

Prec

Recall

Naive Bayes

0.9644

0.9758

1.0000

0.9527

Random Forest

0.9867

0.9910

1.0000

0.9822

kNN

0.9683

0.9795

0.9709

0.9882

Classification
Tree

1.0000

1.0000

1.0000

1.0000

SVM

0.9908

0.9941

0.9941

0.9941

Logistic
regression

1.0000

1.0000

1.0000

1.0000
Результаты экспериментальных исследований
определения уровня читаемости текста на русском
языке
Классификация на 4 уровня: elementary, basic, first и неадаптированные
тексты.

Method

Classification
accuracy

F-measure

Precision

Recall

SVM

0.8092

0.7965

0.8491

0.75

Classification
Tree

0.9905

0.9916

1

0.9833

kNN

0.8131

0.7333

0.7333

0.7333

Random
Forest

0.9818

0.9667

0.9667

0.9667

Naive Bayes

0.8726

0.7890

0.8776

0.7167
Параметры текста, ранжированные по приросту
информации
Variable name

Information gain ratio

The percentage of words in a sentence, are not included in
the active vocabulary of A1 level

0.105141

The percentage of words in a sentence, are not included in
the active vocabulary of A2 level

0.105141

The percentage of words in a sentence, are not included in
the active vocabulary of B1 level

0.084211

Percentage of words with 8 letters or more

0.040098

Percentage of words with 9 letters or more

0.038431

Percentage of words with 7 letters or more

0.036923

Average sentence length in syllables

0.034359

The average length of one word in a text

0.034359

Percentage of words with 10 letters or more

0.033689

Percentage of words with 5 syllable and more

0.033193
Идентификация сложности отдельного предложения
при помощи статистических параметров
Адаптированная модель Дейла Холла для пердсказания
уровня сложности предложения
Method

Classification
accuracy

Naive Bayes

0.8846

Logistic
regression

F-measure
(difficult
/simple)

Precision

Recall

0.9242/
0.7581

0.9378/
0.7246

0.9110/
0.7950

0.8745

0.9212/
0.6921

0.8945/
0.7833

0.9495/
0.6199

kNN

0.8941

0.9299/
0.7840

0.9519/
0.7318

0.9089/
0.8441

Random
Forest

0.8840

0.9208/
0.7837

0.9747/
0.6808

0.8725/
0.9233

Classification
Tree

0.8955

0.9308/
0.7866

0.9527/
0.7347

0.9099/
0.8465
Идентификация сложности отдельного предложения
при помощи статистических параметров
Адаптированная модель Флеша-Кинкэйда для
пердсказания уровня сложности предложения
Method

Classification
accuracy

F-measure
(difficult
/simple)

Precision
(difficult
/simple)

Recall (difficult
/simple)

Naive Bayes

0.7967

0.8794/
0.3550

0.8119/
0.6386

0.9590/
0.2458

Logistic
regression

0.7945

0.8770/
0.3761

0.8156/
0.6086

0.9484/
0.2722

kNN

0.7746

0.8640/
0.3434

0.8093/
0.5094

0.9265/
0.2590

Random
Forest

0.7910

0.8788/
0.2431

0.7961/
0.6910

0.9806/
0.1475

Classification
Tree

0.7801

0.8669/
0.3673

0.8140/
0.5318

0.9272/
0.2806
Идентификация структурной сложности только при
помощи синтаксических связей в предлоежнии

Method

Classificati F-measure
on
accuracy

Precision

Recall

Naive Bayes

0.7570

0.7459

0.7813

0.7136

Logistic
regression

0.7112

0.7077

0.7160

0.6995

kNN

0.7286

0.7146

0.7531

0.6798

Random
Forest

0.7582

0.7472

0.7822

0.7153

Classification
Tree

0.7047

0.6414

0.8158

0.5284
Идентификация структурной сложности на основе
синтаксических связей в предложении

Method

Classification
accuracy

F-measure

Precision

Recall

Naive Bayes

0.8085

0.8021/
0.8144

0.8244/
0.7942

0.7810/
0.8356

kNN

0.7681

0.7128/
0.8055

0.9271/
0.6965

0.5790/
0.9550

Classification
Tree

0.8180

0.8056/
0.8289

0.8589/
0.7860

0.7585/
0.8768

SVM

0.7956

0.8010/
0.7900

0.8972/
0.8173

0.9174/
0.7645

Random
Forest

0.8374

0.8307/
0.8436

0.8610/
0.8170

0.8271/
0.8719
Идентификация структурной сложности на основе всего
множества параметров

Method

Classification
accuracy

F-measure

Precision

Recall

Naive Bayes

0.8191

0.8906/
0.4767

0.8354/
0.6975

0.9537/
0.3621

kNN

0.8224

0.8893/
0.5501

0.8571/
0.6493

0.9241/
0.4772

Random
Forest

0.9443

0.9640/
0.8768

0.9620/
0.8832

0.9661/
0.8705

Classification
Tree

0.9364

0.9584/
0.8648

0.9679/
0.8380

0.9491/
0.8933

SVM

0.8633

0.9125/
0.6875

0.9679/
0.7165

0.9491/
0.6607
Прирос информации при классификации предложений
на два уровня сложности

Variable name
The percentage of words in a sentence, are not included
in the active vocabulary of B1 level
Sentence length in letters
Percentage of words with 3 syllable and more
Sentence length in syllables
Sentence length in words
Syntactic predicative link
Average words length in syllables
The average length of one word in a text
Percentage of words with 7 letters or more
Percentage of words with 5 letters or more

Information gain ratio
0.318
0.122
0.119
0.118
0.098
0.095
0.092
0.092
0.069
0.069
Выводы











На основе простых статистических параметров можно
достаточно эффективно предсказывать их уровень сложности
Эффективность такого предсказания ниже для отдельных
переложений
Качество предсказания уровня сложности одного
предложения можно улучшить, если использовать
синтаксические параметры.
На основе синтаксических связей улучшается предсказание
только структурной сложности предложения
Наибольший вклад в классификацию по сложности текстов и
отдельных предложений вносят лексические параметры
Адаптация или упрощение текста для обучения
иностранцев.
Цель: разработка алгоритма для лексической адаптации
текста к требуемому уровню сложности.
Мотивация: В нашей системе обучения русскому языку
осуществляется поиск текстов в корпусе на основе
лексико-синтаксических шаблонов. Шаблоны
формируются так, чтобы найденный текст является
примеров словоупотребления глагола в нужном
значении. Найденные тексты сложные для восприятия,
поэтому хотелось бы их упростить.
Karpov N. Corpus-Based Text Retrieval and Adaptation for
Learning System , in: International Conference on Advances
in Computing and Information Technology - ACIT 2014.
Newark : Institute of Research engineers and Doctors, 2014.
P. 60-65.
Адаптация или упрощение текста. Эмпирическое
исследование структурных методов упрощения текста

Два специалиста независимо провели адаптацию набора
текстов и систематизировали методы, которые они
использовали при этом.
Структурная адаптация
1. Compound and complex sentence splitting;
2. Modifying (simplifying) sentence structure;
3. Modifying (simplifying) phrase structure;
4. Phrase shortening;
5. Adding clarifying words to improve
sentence readability;
6. Normalizing sentence word order.
Эмпирическое исследование методов упрощения
текста. Лексическая адаптация.

1. Замена кратких или стилисически окрашеных слов
(соцсеть → социальная сеть);
2. Замена редких слов (свыше → более; глава →
руководитель);
3. Замена гиперонима гипонимом, когда он более
частотный (табачные изделия → сигареты)
4. Замена гипонима гиперонимом, если он более
частотный (врач-терапевт → врач, Путин поймал
большую щуку — Путин поймал большую рыбу)
5. Разрешение анафор и замена.
Факторы

1. Вхождение в словарь лексического минимума

соответствующего уровня (Andriushina, 2011) – ri1;
2. Частотность слова в языке в целом или в выбраном
жанре – ri2;
3. Наличие синонимичной связи (Trishin, 2010) и
(Sockirco 2004) – ri3;
4. Наличие гипонимо-гиперонимичной связи – ri4;
5. Контекстная близость слов – ri5
ri=ri1*ri2*(ri3+ri4)*ri5
Принимаем решение о замене по max(ri)
Latent Dirichlet Allocation (LDA)
One of topic-modeling methods and was first introduced by its
authors as a graphical model for topic detection.
The model is based on the assumption that words in a document are
independent of one another (bag of words) and of their order in the
text. Similarly, documents in a Corpus are independent of one
another and unordered. Distribution of words w is determined by
the set of topics z. Each topic zn has its own word distribution P(wi /
zk).
1. Distribution of probabilities of words w in topics z:
P(wi / zk); i=1…|w|, k=1…|z|
2. Distribution of probabilities of topics z in documents d:
P(zk / dn); n=1…|d|, k=1…|z|
Меры используемые для вычисления контекстной
близости
1. Rсos=1-r
2. Euclidean
3. Kullback-Leibler divergence
KL(P(zk / wA), P(zk / wB)) =
= zP(zk / wA)log(P(zk / wA)/ P(zk / wB));
4. Jensen-Shannon divergence:
JS(P(zk / wA), P(zk / wB)) =
0.5*(KL(P(zk / wA), P())+KL(P(zk / wB), P()))
P()=0.5(P(zk / wA), P(zk / wB))
Контекстные расстояния слова «правительство»
вычисленное по LDA модели

Synonym

Euclid x0.01

Cos

KL x0.01

JS x0.01

власть vlast
‘authority’

1. 5493

0. 41598

1. 73546

0. 8771

администраци 1. 2175
я
administraciya
‘administration’

0. 67216

1. 96434

1. 1365

центр center
‘center’

1. 7214

0.82965

2. 52262

2. 1914

аппарат
apparat
‘apparat’

1. 9592

0.98475

1. 27487

1. 7923
Величины факторов

Synonym

ri1

ri2

ri3

ri4

ri5 x0.01
(JS div.)

ri

власть vlast
‘authority’

1

4 (20694)

1

0

4 (0,8771)

16

центр center
‘center’

1

3 (7589)

1

0

2 (2,1914)

6

аппарат apparat
‘apparat’

1

2 (4600)

1

0

1 (1,7923)

2

администрация
administraciya
‘administration’

1

1 (1838)

1

0

3 (1,1365)

1
Выводы

Дистрибутивные модели позволяют вычислять
семантическую близость слов по контекстной близости
С использованием дополнительных факторов, таких как
вождение в лексический минимум, синонимическая или
гипо-гиперонимическая связь, частотность можно
находить слова подходящие для лексического
упрощения текста

More Related Content

Similar to Идентификация уровня ложности текста и его адаптация

Лингвистические свойства переводов (на материале RusLTC)
Лингвистические свойства переводов (на материале RusLTC)Лингвистические свойства переводов (на материале RusLTC)
Лингвистические свойства переводов (на материале RusLTC)Maria Kunilovskaya
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...Сергей Макрушин
 
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...Alexey Noskov
 
Морфология и синтаксис 8 класс Савельева С.А.
Морфология и синтаксис 8 класс Савельева С.А.Морфология и синтаксис 8 класс Савельева С.А.
Морфология и синтаксис 8 класс Савельева С.А.Алексей Арешев
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистикаArtem Lukanin
 
Oge 2016 literatura_komplex_materialov_dlya_podgotovki_uchaschikhsya
Oge 2016 literatura_komplex_materialov_dlya_podgotovki_uchaschikhsyaOge 2016 literatura_komplex_materialov_dlya_podgotovki_uchaschikhsya
Oge 2016 literatura_komplex_materialov_dlya_podgotovki_uchaschikhsyaЕлена Павлова
 

Similar to Идентификация уровня ложности текста и его адаптация (19)

Лингвистические свойства переводов (на материале RusLTC)
Лингвистические свойства переводов (на материале RusLTC)Лингвистические свойства переводов (на материале RusLTC)
Лингвистические свойства переводов (на материале RusLTC)
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
в9 141
в9 141в9 141
в9 141
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
Masa
MasaMasa
Masa
 
Извлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстовИзвлечение терминологических словосочетаний из текстов
Извлечение терминологических словосочетаний из текстов
 
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
 
Морфология и синтаксис 8 класс Савельева С.А.
Морфология и синтаксис 8 класс Савельева С.А.Морфология и синтаксис 8 класс Савельева С.А.
Морфология и синтаксис 8 класс Савельева С.А.
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 
Корпусная лингвистика
Корпусная лингвистикаКорпусная лингвистика
Корпусная лингвистика
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
Oge 2016 literatura_komplex_materialov_dlya_podgotovki_uchaschikhsya
Oge 2016 literatura_komplex_materialov_dlya_podgotovki_uchaschikhsyaOge 2016 literatura_komplex_materialov_dlya_podgotovki_uchaschikhsya
Oge 2016 literatura_komplex_materialov_dlya_podgotovki_uchaschikhsya
 
Chernyak_defense
Chernyak_defenseChernyak_defense
Chernyak_defense
 

More from Nikolay Karpov

Principal characteristics of speech
Principal characteristics of speechPrincipal characteristics of speech
Principal characteristics of speechNikolay Karpov
 
Теория и практика обработки естественного языка
Теория и практика обработки естественного языкаТеория и практика обработки естественного языка
Теория и практика обработки естественного языкаNikolay Karpov
 
Speech waves in tube and filters
Speech waves in tube and filtersSpeech waves in tube and filters
Speech waves in tube and filtersNikolay Karpov
 
Speech signal time frequency representation
Speech signal time frequency representationSpeech signal time frequency representation
Speech signal time frequency representationNikolay Karpov
 
Principal characteristics of speech
Principal characteristics of speechPrincipal characteristics of speech
Principal characteristics of speechNikolay Karpov
 

More from Nikolay Karpov (8)

Principal characteristics of speech
Principal characteristics of speechPrincipal characteristics of speech
Principal characteristics of speech
 
Cepstral coefficients
Cepstral coefficientsCepstral coefficients
Cepstral coefficients
 
Теория и практика обработки естественного языка
Теория и практика обработки естественного языкаТеория и практика обработки естественного языка
Теория и практика обработки естественного языка
 
Linear prediction
Linear predictionLinear prediction
Linear prediction
 
Speech waves in tube and filters
Speech waves in tube and filtersSpeech waves in tube and filters
Speech waves in tube and filters
 
Speech signal time frequency representation
Speech signal time frequency representationSpeech signal time frequency representation
Speech signal time frequency representation
 
Principal characteristics of speech
Principal characteristics of speechPrincipal characteristics of speech
Principal characteristics of speech
 
Tagger numbers
Tagger numbersTagger numbers
Tagger numbers
 

Идентификация уровня ложности текста и его адаптация

  • 1. Идентификация уровня ложности текста и его адаптация Карпов Николай Вячеславович Москва 14.02.2014
  • 2. План работы  Мотивация  Обзор методов определения уровня сложности текста  Определени уровня сложности текста на русском языке    Идентификация сложности отдельного предложения при помощи статистических параметров Идентификация структурной сложности при помощи синтаксических параметров Адаптация (упрощение) сложности текста
  • 3. Мотивация Одной из неотъемлемых частей процесса обучения языку является чтение, что часто ставит перед преподавателями и студентами ряд технических трудностей, связанных с проблемами поиска или понимания текстов определённого уровня сложности. Исходным пунктом для работы по определению уровня читаемости текста послужила разработка системы по адаптации текста к разным уровням сложности на русском языке. В рамках данного исследования приведены результаты применения ряда моделей, определяющих уровень сложности текста и отдельных предложений по различным статистическим параметрам.
  • 4. Обзор методов определения уровня читаемости текста Исследования сложности текста для чтения начались ещё в 20-х годах прошлого века. Эта область исследований развивалась в основном в сфере работ, касающихся английского языка, но за последнее десятилетие появился и ряд работ, касающихся других языков, что говорит об актуальности исследований, касающихся автоматического определения сложности текста. Сложность для чтения может быть представлена как функция, которая сопоставляет множеству признаков, извлечённых из текста, определённый уровень сложности из заранее определённых по какой-либо системе классификации.
  • 5. Обзор работ по автоматическому определению читаемости текста 1. Flesch, R.: A new readability yardstick. J. Appl. Psychol. 32, 221 (1948). 2. Kincaid, J.P., Fishburne Jr, R.P., Rogers, R.L., Chissom, B.S.: Derivation of new readability formulas (automated readability index, fog count and flesch reading ease formula) for navy enlisted personnel. DTIC Document (1975). 3. Chall, J.S.: Readability revisited: The new Dale-Chall readability formula. Brookline Books Cambridge, MA (1995). 4. Collins-Thompson, K., Callan, J.: Predicting reading difficulty with statistical language models. J. Am. Soc. Inf. Sci. Technol. 56, 1448–1462 (2005). 5. Schwarm, S.E., Ostendorf, M.: Reading level assessment using support vector machines and statistical language models. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. pp. 523–530. Association for Computational Linguistics (2005). 6. Oborneva, I.: Automatic assessment of the complexity of educational texts on the basis of statistical parameters, (2006). 7. Krioni, N., Nikin, A., Filippova, A.: Automated system for analysis of the complexity of educational texts. Manag. Soc. Econ. Syst. 11, 101–107 (2008).
  • 6. Обзор методов определения уровня читаемости текста Формула Флэша-Кинсайда (Flesch, 1948; Kincaid et al., 1975) сложность текста представляет как линейная функция среднего числа слогсов в слове и средней длины предложения в тексте. [(0.39×ASL)+(11.8×ASW)−15.59] Дэйла-Холла (Chall and Dale, 1995) так же определяет синтаксическую сложность текста как среднюю длину предложения, но в качестве лексической метрики использует процент слов не из словаря (либо редких по частотному словарю слов в языке)
  • 7. Обзор методов определения уровня читаемости текста С ростом вычислительных мощностей появилась возможность строить более сложные модели. Модель Collins-Thompson and Callan (2005) использует юниграммы частотности слов (словарь задан для каждого уровня языка) и то свойство, что некоторые слова наиболее предсказательны для определённого уровня сложности текста Schwarm and Ostendorf (2005) используют более сложные синтаксические параметры - средняя высота дерева разбора, число именных и глагольных групп, среднее число нетерминальных узлов и прочее
  • 8. Обзор методов определения уровня читаемости текста на русском языке Автоматическому определению сложности для чтения применительно к русскому языку так же посвящён ряд работ. Оборнева (2006) в своей работе адаптирует формулы Флэша и Флэша-Кинсайда для применения к русскому языку путём корректировки коэффициентов: сопоставлялись средняя длина в слогах русского и английского слов и процент многосложных слов в словарях этих языков. Отметим исследование Криони, Никина и Филипповой по определению сложности учебных текстов на русском языке, где был выделен ряд более сложных параметров оцениваемых текстов: связность, структурность, цельность, функциональносмысловой тип, информативность, абстрактность изложения и сложность лингвистических конструкций.
  • 9. Обзор методов определения уровня читаемости текста на русском языке Всего количество текстов равно 143. Тексты поделены на три уровня:  Начальный (A1) - 52;  Базовый (A2) - 57;  Первый (B1) – 60. Цель прототипирования алгоритмов - выяснить, с помощью какого представления данных и алгоритма классификации можно получить наиболее высокие показатели полноты и точности. - наивный Байес; - k-ближайших соседей; - дерево классификации; - случайный лес; - SVM.
  • 10. Обзор методов определения уровня читаемости текста на русском языке Было выделено ряд характеристик текста:  Среднее количество слов в одном предложении текста;  Средняя длина одного слова в предложении;  Длина текста в буквах;  Длина текста в словах;  Средняя длина слова в слогах;  Средняя длина предложения в слогах;  Процент слов в 3...6 слога и больше;  Средняя длина предложения в буквах;  Cредняя длина слов в буквах;  Процент слов длинной в 5...13 букв и больше;  Наличие в предложении конкретных частей речи;  Процент слов в предложении, не входящих в словарь лексического минимума (три уровня).
  • 11. Обзор методов определения уровня читаемости текста на русском языке Были исключены все параметры, работающие с абзацами, т.к. тексты нашего корпуса слишком короткие и имеют примерно одинаковую длину. Не вводилось понятие фразы, и работа проводилась исключительно со словами, т.к. тексты корпуса не имели синтаксической разметки. За счет того, что применялся конкретный словарь лексического минимума, были исключены параметры оригинальности используемых слов и их процентные отношения к текстам. Вместо этого, проверялось только наличие представителей отдельных частей речи в текстах.
  • 12. Результаты экспериментальных исследований определения уровня читаемости текста на русском языке Объединение уровней elementary, basic, first и сравнение с неадаптированными текстами новостей. CA F1 Prec Recall Naive Bayes 0.9644 0.9758 1.0000 0.9527 Random Forest 0.9867 0.9910 1.0000 0.9822 kNN 0.9683 0.9795 0.9709 0.9882 Classification Tree 1.0000 1.0000 1.0000 1.0000 SVM 0.9908 0.9941 0.9941 0.9941 Logistic regression 1.0000 1.0000 1.0000 1.0000
  • 13. Результаты экспериментальных исследований определения уровня читаемости текста на русском языке Классификация на 4 уровня: elementary, basic, first и неадаптированные тексты. Method Classification accuracy F-measure Precision Recall SVM 0.8092 0.7965 0.8491 0.75 Classification Tree 0.9905 0.9916 1 0.9833 kNN 0.8131 0.7333 0.7333 0.7333 Random Forest 0.9818 0.9667 0.9667 0.9667 Naive Bayes 0.8726 0.7890 0.8776 0.7167
  • 14. Параметры текста, ранжированные по приросту информации Variable name Information gain ratio The percentage of words in a sentence, are not included in the active vocabulary of A1 level 0.105141 The percentage of words in a sentence, are not included in the active vocabulary of A2 level 0.105141 The percentage of words in a sentence, are not included in the active vocabulary of B1 level 0.084211 Percentage of words with 8 letters or more 0.040098 Percentage of words with 9 letters or more 0.038431 Percentage of words with 7 letters or more 0.036923 Average sentence length in syllables 0.034359 The average length of one word in a text 0.034359 Percentage of words with 10 letters or more 0.033689 Percentage of words with 5 syllable and more 0.033193
  • 15. Идентификация сложности отдельного предложения при помощи статистических параметров Адаптированная модель Дейла Холла для пердсказания уровня сложности предложения Method Classification accuracy Naive Bayes 0.8846 Logistic regression F-measure (difficult /simple) Precision Recall 0.9242/ 0.7581 0.9378/ 0.7246 0.9110/ 0.7950 0.8745 0.9212/ 0.6921 0.8945/ 0.7833 0.9495/ 0.6199 kNN 0.8941 0.9299/ 0.7840 0.9519/ 0.7318 0.9089/ 0.8441 Random Forest 0.8840 0.9208/ 0.7837 0.9747/ 0.6808 0.8725/ 0.9233 Classification Tree 0.8955 0.9308/ 0.7866 0.9527/ 0.7347 0.9099/ 0.8465
  • 16. Идентификация сложности отдельного предложения при помощи статистических параметров Адаптированная модель Флеша-Кинкэйда для пердсказания уровня сложности предложения Method Classification accuracy F-measure (difficult /simple) Precision (difficult /simple) Recall (difficult /simple) Naive Bayes 0.7967 0.8794/ 0.3550 0.8119/ 0.6386 0.9590/ 0.2458 Logistic regression 0.7945 0.8770/ 0.3761 0.8156/ 0.6086 0.9484/ 0.2722 kNN 0.7746 0.8640/ 0.3434 0.8093/ 0.5094 0.9265/ 0.2590 Random Forest 0.7910 0.8788/ 0.2431 0.7961/ 0.6910 0.9806/ 0.1475 Classification Tree 0.7801 0.8669/ 0.3673 0.8140/ 0.5318 0.9272/ 0.2806
  • 17. Идентификация структурной сложности только при помощи синтаксических связей в предлоежнии Method Classificati F-measure on accuracy Precision Recall Naive Bayes 0.7570 0.7459 0.7813 0.7136 Logistic regression 0.7112 0.7077 0.7160 0.6995 kNN 0.7286 0.7146 0.7531 0.6798 Random Forest 0.7582 0.7472 0.7822 0.7153 Classification Tree 0.7047 0.6414 0.8158 0.5284
  • 18. Идентификация структурной сложности на основе синтаксических связей в предложении Method Classification accuracy F-measure Precision Recall Naive Bayes 0.8085 0.8021/ 0.8144 0.8244/ 0.7942 0.7810/ 0.8356 kNN 0.7681 0.7128/ 0.8055 0.9271/ 0.6965 0.5790/ 0.9550 Classification Tree 0.8180 0.8056/ 0.8289 0.8589/ 0.7860 0.7585/ 0.8768 SVM 0.7956 0.8010/ 0.7900 0.8972/ 0.8173 0.9174/ 0.7645 Random Forest 0.8374 0.8307/ 0.8436 0.8610/ 0.8170 0.8271/ 0.8719
  • 19. Идентификация структурной сложности на основе всего множества параметров Method Classification accuracy F-measure Precision Recall Naive Bayes 0.8191 0.8906/ 0.4767 0.8354/ 0.6975 0.9537/ 0.3621 kNN 0.8224 0.8893/ 0.5501 0.8571/ 0.6493 0.9241/ 0.4772 Random Forest 0.9443 0.9640/ 0.8768 0.9620/ 0.8832 0.9661/ 0.8705 Classification Tree 0.9364 0.9584/ 0.8648 0.9679/ 0.8380 0.9491/ 0.8933 SVM 0.8633 0.9125/ 0.6875 0.9679/ 0.7165 0.9491/ 0.6607
  • 20. Прирос информации при классификации предложений на два уровня сложности Variable name The percentage of words in a sentence, are not included in the active vocabulary of B1 level Sentence length in letters Percentage of words with 3 syllable and more Sentence length in syllables Sentence length in words Syntactic predicative link Average words length in syllables The average length of one word in a text Percentage of words with 7 letters or more Percentage of words with 5 letters or more Information gain ratio 0.318 0.122 0.119 0.118 0.098 0.095 0.092 0.092 0.069 0.069
  • 21. Выводы      На основе простых статистических параметров можно достаточно эффективно предсказывать их уровень сложности Эффективность такого предсказания ниже для отдельных переложений Качество предсказания уровня сложности одного предложения можно улучшить, если использовать синтаксические параметры. На основе синтаксических связей улучшается предсказание только структурной сложности предложения Наибольший вклад в классификацию по сложности текстов и отдельных предложений вносят лексические параметры
  • 22. Адаптация или упрощение текста для обучения иностранцев. Цель: разработка алгоритма для лексической адаптации текста к требуемому уровню сложности. Мотивация: В нашей системе обучения русскому языку осуществляется поиск текстов в корпусе на основе лексико-синтаксических шаблонов. Шаблоны формируются так, чтобы найденный текст является примеров словоупотребления глагола в нужном значении. Найденные тексты сложные для восприятия, поэтому хотелось бы их упростить. Karpov N. Corpus-Based Text Retrieval and Adaptation for Learning System , in: International Conference on Advances in Computing and Information Technology - ACIT 2014. Newark : Institute of Research engineers and Doctors, 2014. P. 60-65.
  • 23. Адаптация или упрощение текста. Эмпирическое исследование структурных методов упрощения текста Два специалиста независимо провели адаптацию набора текстов и систематизировали методы, которые они использовали при этом. Структурная адаптация 1. Compound and complex sentence splitting; 2. Modifying (simplifying) sentence structure; 3. Modifying (simplifying) phrase structure; 4. Phrase shortening; 5. Adding clarifying words to improve sentence readability; 6. Normalizing sentence word order.
  • 24. Эмпирическое исследование методов упрощения текста. Лексическая адаптация. 1. Замена кратких или стилисически окрашеных слов (соцсеть → социальная сеть); 2. Замена редких слов (свыше → более; глава → руководитель); 3. Замена гиперонима гипонимом, когда он более частотный (табачные изделия → сигареты) 4. Замена гипонима гиперонимом, если он более частотный (врач-терапевт → врач, Путин поймал большую щуку — Путин поймал большую рыбу) 5. Разрешение анафор и замена.
  • 25. Факторы 1. Вхождение в словарь лексического минимума соответствующего уровня (Andriushina, 2011) – ri1; 2. Частотность слова в языке в целом или в выбраном жанре – ri2; 3. Наличие синонимичной связи (Trishin, 2010) и (Sockirco 2004) – ri3; 4. Наличие гипонимо-гиперонимичной связи – ri4; 5. Контекстная близость слов – ri5 ri=ri1*ri2*(ri3+ri4)*ri5 Принимаем решение о замене по max(ri)
  • 26. Latent Dirichlet Allocation (LDA) One of topic-modeling methods and was first introduced by its authors as a graphical model for topic detection. The model is based on the assumption that words in a document are independent of one another (bag of words) and of their order in the text. Similarly, documents in a Corpus are independent of one another and unordered. Distribution of words w is determined by the set of topics z. Each topic zn has its own word distribution P(wi / zk). 1. Distribution of probabilities of words w in topics z: P(wi / zk); i=1…|w|, k=1…|z| 2. Distribution of probabilities of topics z in documents d: P(zk / dn); n=1…|d|, k=1…|z|
  • 27. Меры используемые для вычисления контекстной близости 1. Rсos=1-r 2. Euclidean 3. Kullback-Leibler divergence KL(P(zk / wA), P(zk / wB)) = = zP(zk / wA)log(P(zk / wA)/ P(zk / wB)); 4. Jensen-Shannon divergence: JS(P(zk / wA), P(zk / wB)) = 0.5*(KL(P(zk / wA), P())+KL(P(zk / wB), P())) P()=0.5(P(zk / wA), P(zk / wB))
  • 28. Контекстные расстояния слова «правительство» вычисленное по LDA модели Synonym Euclid x0.01 Cos KL x0.01 JS x0.01 власть vlast ‘authority’ 1. 5493 0. 41598 1. 73546 0. 8771 администраци 1. 2175 я administraciya ‘administration’ 0. 67216 1. 96434 1. 1365 центр center ‘center’ 1. 7214 0.82965 2. 52262 2. 1914 аппарат apparat ‘apparat’ 1. 9592 0.98475 1. 27487 1. 7923
  • 29. Величины факторов Synonym ri1 ri2 ri3 ri4 ri5 x0.01 (JS div.) ri власть vlast ‘authority’ 1 4 (20694) 1 0 4 (0,8771) 16 центр center ‘center’ 1 3 (7589) 1 0 2 (2,1914) 6 аппарат apparat ‘apparat’ 1 2 (4600) 1 0 1 (1,7923) 2 администрация administraciya ‘administration’ 1 1 (1838) 1 0 3 (1,1365) 1
  • 30. Выводы Дистрибутивные модели позволяют вычислять семантическую близость слов по контекстной близости С использованием дополнительных факторов, таких как вождение в лексический минимум, синонимическая или гипо-гиперонимическая связь, частотность можно находить слова подходящие для лексического упрощения текста