Разговор будет строиться вокруг наивного Байесовского классификатора. Как его можно использовать для извлечения из текстов косвенной информации (например, отзывов о фильмах) и для разметки видеоматериалов с помощью содержательных тегов, обозначающих время и место действия, жанр и т.д.
5. 5
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами
Проблема:
• вручную это займет год ежедневной работы
11. 11
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• регрессионные деревья
• наивный байесовский классификатор
12. 12
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• регрессионные деревья
• наивный байесовский классификатор
• кластеризация
13. 13
Почему байесовский классификатор
• Элементарен, чтобы оценить нашу модель
• Удобен, так как не требует эвристик в виде
черных списков
• Эффективен при достаточной обученности
• Отлично подходит для текстовых данных
14. 14
Наивный байесовский классификатор
Pr(T|W) — вероятность, что тег характеризует сообщение,
при условии, что оно содержит это слово
Pr(W|T) — вероятность появления слова в сообщениях,
отмеченных этим тегом
Pr(W|~T) — вероятность появления слова в сообщениях,
если они к этому тегу не относятся
15. 15
От сайта к индексу
Crawler
Splitter Lemmer
INDEX
18. Предложенные роботом:
• животные
• дружба
• смотреть с детьми
• цирк
• злодеи
• проклятия
• разные страны
Не предложены:
• пираты
• Земля
• природные катаклизмы
Ледниковый период 4
19. Предложенные роботом:
• наши дни
• романтика
• расследования
• любовь
• Франция
• смотреть с девушкой
Не предложены:
• криминал
• флирт
Девушка из Монако
20. 20
Результаты
• Полнота прогнозирования
– робот пропускает 2-3 тега, предложенных редакцией
• Точность классификации
– робот ошибается на 1-2 тега
• Время работы всего несколько часов
21. 21
Что можно сделать в будущем
• Исключение редких слов
• Удаление предлогов и местоимений
• Отсечение слов, составляющих шум
• Распараллеливание