SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
Аспектный анализ тональности
отзывов
Рой Дарья Александровна (425 группа)
Научный руководитель:
к.ф.-м.н. Н.Э. Ефремова
Содержание
• Аспектный анализ и его задачи
• Выделение аспектов
–Частотный подход
–Инженерный подход
–Машинное обучение с учителем
• Определение тональности
• Обобщение полученной информации
2
Анализ тональности
• Область компьютерной лингвистики, изучающая
мнения и эмоции в текстах (рецензиях,
сообщениях, отзывах и пр.)
• Для мнения определяется тональность,
например,
положительное/нейтральное/отрицательное
• Уровни анализа (Liu, 2012):
– Документ в целом
– Отдельные предложения, фразы
– Обсуждаемые в документе сущности и аспекты
3
Аспектный анализ тональности
Сущность – конкретный или абстрактный объект,
обсуждаемый в отзыве.
Аспект – характеристика сущности.
Описание аспектов и сущности в отзывах:
• Явное (оценочное слово + аспект): расположение
отличное, отзывчивый персонал
• Неявное: отель сильно постарел, любые вопросы
решались с полуслова
4
Пример сущности и ее аспектов
5
Отель
Пляж и
бассейн
Море
Песок
Лежак
Зонтик
Питание
Газировка
Сок
Выпечка
Повар
Территория
Аквапарк
Аниматор
Анимация
Бильярд
Номер
Балкон
Ванная
Вентиляция
Диван
Сервис
Администратор
Бронирование
Горничная
Массаж
Сущность
Слова, ссылающиеся в тексте на аспект
Аспекты
Задачи аспектного анализа
• Выделение аспектов:
– Выявление фраз (обычно существительных и
именных словосочетаний), называющих аспект
– Объединение именных словосочетаний,
ссылающихся на один аспект
• Определение тональности:
– для отзыва
– для каждого аспекта
– для сущности
• Обобщение полученной информации
6
Подходы к выделению аспектов
• Частотный
• Инженерный
• Машинное обучение с учителем
7
Частотный подход
Идея: аспекты – это наиболее часто встречающие в
отзыве существительные и именные словосочетания
8
Книга 85
Автор 70
Ситуация 8
Интрига 47
Качество
печати 27
Перевод 58
Концовка 46
Порог
отсечения
30
Частотный подход.
Типичный алгоритм
1. Выявляем в отзыве именные словосочетания.
2. Подсчитываем частоту их употребления.
3. Рассчитываем частотные характеристики. Например:
– TF-IDF на уровне абзаца и документа (Ku, Liang and
Chen, 2006)
– Частота в рассматриваемом и общеязыковом
корпусе (Scaffidi et al., 2007)
3. Отбираем именные словосочетания, значение
характеристики у которых выше заданного порога.
Отобранные именные словосочетания и есть аспекты
9
Частотный подход. Плюсы и минусы
+ Простой, но достаточно эффективный
(по данным (Liu, 2007) от 60 до 70% аспектов
выражаются существительными и
именными словосочетаниями)
– Выделает много неаспектов
– Пропускает низкочастотные аспекты
– Требует ручной настройки порога отсечения
10
Инженерный подход
Идея: извлекается существительное или именное
словосочетание:
• ближайшее к некоторому оценочному слову
Расположение отличное
• употребляющиеся рядом с названием сущности
Номера в отеле Персонал отеля
аспект оценочное слово
11
аспект аспектсущность сущность
Инженерный подход.
Типичный алгоритм
1. Составляем шаблоны:
– полностью вручную
– с помощью машинного обучения (Moghaddam et
al. 2010)
2. Применяем к отзывам
Слова и словосочетания, стоящие на определенных
местах (ASP), и есть аспекты
12
Известный аспект Употребление в тексте Полученные шаблоны
Photo quality Disappointing photo quality _SW_ASP
Battery life Battery life is great _ASP_VB_SW
Photo quality Lovely feature is photo quality _SW_NP_VB_ASP
13
Инженерный подход.
Плюсы и минусы
+ Оценочные слова часто известны или
их легко найти
+ Можно найти малочастотные аспекты
- Выделяет много неаспектов
- Требует ручного составления шаблонов и
разметки обучающей выборки
- Зависит от полноты словаря оценочных
слов
14
Гибридный метод
Идея: используя шаблоны, выбираем часто
встречающие существительные и именные
словосочетания
1. С помощью частотных характеристик
выделяем именные словосочетания
2. Отбираем из них аспекты с помощью
шаблонов
или наоборот
15
Гибридный метод. Плюсы и минусы
+ Уменьшает число неаспектов
- Пропускает редко встречающиеся
аспекты
- Требует ручное составление правил
- Требует ручной настройки порога
отсечения
Машинное обучение с учителем
16
Идея: выделение аспектов можно рассматривать как
проблему классификации
Аспекты Неаспекты
?
• На размеченных данным вводим функцию
классификации, используем ее на неразмеченных
• Классификационные признаки: конкретные слова,
части речи, расстояние между словами и т.д.
• Методы: SVM, HMM и т.д.
Машинное обучение с учителем.
Плюсы и минусы
17
+ Не требует ручной настройки параметров
+ Не пропускает низкочастотные аспекты
+ Не выделяет лишние аспекты
–Необходимы размеченные данные
Объединение именных
словосочетаний
18
Один аспект может выражаться разными именными
словосочетаниями
Сервис: персонал, администратор, официант,
уборщица и т.д.
Подходы:
• Учет семантических отношений: синонимия, род-вид
• Использование метрик схожести фраз: расстояние
Хэмминга, расстояние Левенштейна (Carenini, Ng and
Zwart 2005)
• Машинное обучение с учителем (Zhai et al., 2010)
Задача определения тональности
19
Отнесение отзыва или отдельного предложения к
одному из классов тональности:
• положительное / нейтральное / отрицательное
• оценка от -10 до 10
Подходы:
• Машинное обучение с учителем
• Инженерный подход: используется словарь
оценочных слов и шаблоны
Тональность может определяться для: отзыва,
аспекта, сущности
20
Определение тональности. Идеи
• Отзыв: классические подходы
• Аспект: тональность определяется как объединение
тональности всех предложений, описывающих
аспект
• Сущность:
– по аспектам: обобщаем информацию о
тональности каждого аспекта
– по сущности как таковой: тональность
определяется как объединение тональности всех
предложений, описывающих сущность
21
Обобщение и визуализация
информации
Полученная из отзывов информация о
сущности, аспектах и их тональности может
быть представлена в:
• структурированном виде (таблицы,
диаграммы, облака тегов)
• неструктурированном виде (аннотация,
краткий реферат)
Пример 1. Таблица
22
Отель 1:
Сущность: отель
Положительных: 105 <предложения из
отзывов>
Отрицательных: 12 <предложения из
отзывов>
Аспект: расположение
Положительных: 95 <предложения из
отзывов>
Отрицательных: 10 <предложения из
отзывов>
Аспект: номер
Положительных: 50 <предложения из отзывов>
Отрицательных: 9 <предложения из отзывов>
Пример 2. Диаграмма
23
Пример 3.
Сравнительная диаграмма
24
Пример 4. Диаграмма
25
Пример 5. Облако тегов
26
Создание аннотации
27
• Выделение наиболее значимых и
содержащих оценку предложений из
отзыва
• Заполнение шаблона
Расположение отеля _______. Кухня_____.
Персонал _____. Пляж находится ______.
Уборка была _____. Вид из окна_____.
Номера_____. Цена за номер ____.
Спасибо за внимание!
28

Mais conteúdo relacionado

Destaque

Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
Aspect extraction (A survey)
Aspect extraction (A survey)Aspect extraction (A survey)
Aspect extraction (A survey)Mido Razaz
 
Community detection (Поиск сообществ в графах)
Community detection (Поиск сообществ в графах)Community detection (Поиск сообществ в графах)
Community detection (Поиск сообществ в графах)Kirill Rybachuk
 

Destaque (20)

Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Aspect extraction (A survey)
Aspect extraction (A survey)Aspect extraction (A survey)
Aspect extraction (A survey)
 
Community detection (Поиск сообществ в графах)
Community detection (Поиск сообществ в графах)Community detection (Поиск сообществ в графах)
Community detection (Поиск сообществ в графах)
 

Semelhante a Рой. Аспектный анализ тональности отзывов

WUD2008 - Ярослав Перевалов - Юзабилити-экспертиза как метод оценки качества ...
WUD2008 - Ярослав Перевалов - Юзабилити-экспертиза как метод оценки качества ...WUD2008 - Ярослав Перевалов - Юзабилити-экспертиза как метод оценки качества ...
WUD2008 - Ярослав Перевалов - Юзабилити-экспертиза как метод оценки качества ...wud
 
Тестирование (испытание) при отборе персонала
Тестирование (испытание) при отборе персоналаТестирование (испытание) при отборе персонала
Тестирование (испытание) при отборе персоналаДмитрий Соловьев
 
The practical value analyzing. Анализ практической ценности
The practical value analyzing. Анализ практической ценностиThe practical value analyzing. Анализ практической ценности
The practical value analyzing. Анализ практической ценностиOlga Tсyrulova
 
Проектирование графических интерфейсов лекция 10
Проектирование графических интерфейсов лекция 10Проектирование графических интерфейсов лекция 10
Проектирование графических интерфейсов лекция 10Technopark
 
инстр. исслед. в пу 2017-тема 1
инстр. исслед. в пу  2017-тема 1инстр. исслед. в пу  2017-тема 1
инстр. исслед. в пу 2017-тема 1kolch
 
интервью на базе компетенций ирина клюсова
интервью на базе компетенций   ирина клюсоваинтервью на базе компетенций   ирина клюсова
интервью на базе компетенций ирина клюсоваMedia Gorod
 
Пособие "Технология разработки дистанционного курса"
Пособие "Технология разработки дистанционного курса"Пособие "Технология разработки дистанционного курса"
Пособие "Технология разработки дистанционного курса"Vladimir Kukharenko
 

Semelhante a Рой. Аспектный анализ тональности отзывов (8)

WUD2008 - Ярослав Перевалов - Юзабилити-экспертиза как метод оценки качества ...
WUD2008 - Ярослав Перевалов - Юзабилити-экспертиза как метод оценки качества ...WUD2008 - Ярослав Перевалов - Юзабилити-экспертиза как метод оценки качества ...
WUD2008 - Ярослав Перевалов - Юзабилити-экспертиза как метод оценки качества ...
 
Тестирование (испытание) при отборе персонала
Тестирование (испытание) при отборе персоналаТестирование (испытание) при отборе персонала
Тестирование (испытание) при отборе персонала
 
Presentation skills training
Presentation skills trainingPresentation skills training
Presentation skills training
 
The practical value analyzing. Анализ практической ценности
The practical value analyzing. Анализ практической ценностиThe practical value analyzing. Анализ практической ценности
The practical value analyzing. Анализ практической ценности
 
Проектирование графических интерфейсов лекция 10
Проектирование графических интерфейсов лекция 10Проектирование графических интерфейсов лекция 10
Проектирование графических интерфейсов лекция 10
 
инстр. исслед. в пу 2017-тема 1
инстр. исслед. в пу  2017-тема 1инстр. исслед. в пу  2017-тема 1
инстр. исслед. в пу 2017-тема 1
 
интервью на базе компетенций ирина клюсова
интервью на базе компетенций   ирина клюсоваинтервью на базе компетенций   ирина клюсова
интервью на базе компетенций ирина клюсова
 
Пособие "Технология разработки дистанционного курса"
Пособие "Технология разработки дистанционного курса"Пособие "Технология разработки дистанционного курса"
Пособие "Технология разработки дистанционного курса"
 

Mais de Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

Mais de Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (9)

Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 
бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 

Рой. Аспектный анализ тональности отзывов

  • 1. Аспектный анализ тональности отзывов Рой Дарья Александровна (425 группа) Научный руководитель: к.ф.-м.н. Н.Э. Ефремова
  • 2. Содержание • Аспектный анализ и его задачи • Выделение аспектов –Частотный подход –Инженерный подход –Машинное обучение с учителем • Определение тональности • Обобщение полученной информации 2
  • 3. Анализ тональности • Область компьютерной лингвистики, изучающая мнения и эмоции в текстах (рецензиях, сообщениях, отзывах и пр.) • Для мнения определяется тональность, например, положительное/нейтральное/отрицательное • Уровни анализа (Liu, 2012): – Документ в целом – Отдельные предложения, фразы – Обсуждаемые в документе сущности и аспекты 3
  • 4. Аспектный анализ тональности Сущность – конкретный или абстрактный объект, обсуждаемый в отзыве. Аспект – характеристика сущности. Описание аспектов и сущности в отзывах: • Явное (оценочное слово + аспект): расположение отличное, отзывчивый персонал • Неявное: отель сильно постарел, любые вопросы решались с полуслова 4
  • 5. Пример сущности и ее аспектов 5 Отель Пляж и бассейн Море Песок Лежак Зонтик Питание Газировка Сок Выпечка Повар Территория Аквапарк Аниматор Анимация Бильярд Номер Балкон Ванная Вентиляция Диван Сервис Администратор Бронирование Горничная Массаж Сущность Слова, ссылающиеся в тексте на аспект Аспекты
  • 6. Задачи аспектного анализа • Выделение аспектов: – Выявление фраз (обычно существительных и именных словосочетаний), называющих аспект – Объединение именных словосочетаний, ссылающихся на один аспект • Определение тональности: – для отзыва – для каждого аспекта – для сущности • Обобщение полученной информации 6
  • 7. Подходы к выделению аспектов • Частотный • Инженерный • Машинное обучение с учителем 7
  • 8. Частотный подход Идея: аспекты – это наиболее часто встречающие в отзыве существительные и именные словосочетания 8 Книга 85 Автор 70 Ситуация 8 Интрига 47 Качество печати 27 Перевод 58 Концовка 46 Порог отсечения 30
  • 9. Частотный подход. Типичный алгоритм 1. Выявляем в отзыве именные словосочетания. 2. Подсчитываем частоту их употребления. 3. Рассчитываем частотные характеристики. Например: – TF-IDF на уровне абзаца и документа (Ku, Liang and Chen, 2006) – Частота в рассматриваемом и общеязыковом корпусе (Scaffidi et al., 2007) 3. Отбираем именные словосочетания, значение характеристики у которых выше заданного порога. Отобранные именные словосочетания и есть аспекты 9
  • 10. Частотный подход. Плюсы и минусы + Простой, но достаточно эффективный (по данным (Liu, 2007) от 60 до 70% аспектов выражаются существительными и именными словосочетаниями) – Выделает много неаспектов – Пропускает низкочастотные аспекты – Требует ручной настройки порога отсечения 10
  • 11. Инженерный подход Идея: извлекается существительное или именное словосочетание: • ближайшее к некоторому оценочному слову Расположение отличное • употребляющиеся рядом с названием сущности Номера в отеле Персонал отеля аспект оценочное слово 11 аспект аспектсущность сущность
  • 12. Инженерный подход. Типичный алгоритм 1. Составляем шаблоны: – полностью вручную – с помощью машинного обучения (Moghaddam et al. 2010) 2. Применяем к отзывам Слова и словосочетания, стоящие на определенных местах (ASP), и есть аспекты 12 Известный аспект Употребление в тексте Полученные шаблоны Photo quality Disappointing photo quality _SW_ASP Battery life Battery life is great _ASP_VB_SW Photo quality Lovely feature is photo quality _SW_NP_VB_ASP
  • 13. 13 Инженерный подход. Плюсы и минусы + Оценочные слова часто известны или их легко найти + Можно найти малочастотные аспекты - Выделяет много неаспектов - Требует ручного составления шаблонов и разметки обучающей выборки - Зависит от полноты словаря оценочных слов
  • 14. 14 Гибридный метод Идея: используя шаблоны, выбираем часто встречающие существительные и именные словосочетания 1. С помощью частотных характеристик выделяем именные словосочетания 2. Отбираем из них аспекты с помощью шаблонов или наоборот
  • 15. 15 Гибридный метод. Плюсы и минусы + Уменьшает число неаспектов - Пропускает редко встречающиеся аспекты - Требует ручное составление правил - Требует ручной настройки порога отсечения
  • 16. Машинное обучение с учителем 16 Идея: выделение аспектов можно рассматривать как проблему классификации Аспекты Неаспекты ? • На размеченных данным вводим функцию классификации, используем ее на неразмеченных • Классификационные признаки: конкретные слова, части речи, расстояние между словами и т.д. • Методы: SVM, HMM и т.д.
  • 17. Машинное обучение с учителем. Плюсы и минусы 17 + Не требует ручной настройки параметров + Не пропускает низкочастотные аспекты + Не выделяет лишние аспекты –Необходимы размеченные данные
  • 18. Объединение именных словосочетаний 18 Один аспект может выражаться разными именными словосочетаниями Сервис: персонал, администратор, официант, уборщица и т.д. Подходы: • Учет семантических отношений: синонимия, род-вид • Использование метрик схожести фраз: расстояние Хэмминга, расстояние Левенштейна (Carenini, Ng and Zwart 2005) • Машинное обучение с учителем (Zhai et al., 2010)
  • 19. Задача определения тональности 19 Отнесение отзыва или отдельного предложения к одному из классов тональности: • положительное / нейтральное / отрицательное • оценка от -10 до 10 Подходы: • Машинное обучение с учителем • Инженерный подход: используется словарь оценочных слов и шаблоны Тональность может определяться для: отзыва, аспекта, сущности
  • 20. 20 Определение тональности. Идеи • Отзыв: классические подходы • Аспект: тональность определяется как объединение тональности всех предложений, описывающих аспект • Сущность: – по аспектам: обобщаем информацию о тональности каждого аспекта – по сущности как таковой: тональность определяется как объединение тональности всех предложений, описывающих сущность
  • 21. 21 Обобщение и визуализация информации Полученная из отзывов информация о сущности, аспектах и их тональности может быть представлена в: • структурированном виде (таблицы, диаграммы, облака тегов) • неструктурированном виде (аннотация, краткий реферат)
  • 22. Пример 1. Таблица 22 Отель 1: Сущность: отель Положительных: 105 <предложения из отзывов> Отрицательных: 12 <предложения из отзывов> Аспект: расположение Положительных: 95 <предложения из отзывов> Отрицательных: 10 <предложения из отзывов> Аспект: номер Положительных: 50 <предложения из отзывов> Отрицательных: 9 <предложения из отзывов>
  • 27. Создание аннотации 27 • Выделение наиболее значимых и содержащих оценку предложений из отзыва • Заполнение шаблона Расположение отеля _______. Кухня_____. Персонал _____. Пляж находится ______. Уборка была _____. Вид из окна_____. Номера_____. Цена за номер ____.