SlideShare uma empresa Scribd logo
1 de 41
Baixar para ler offline
Рекомендательные системы
Курышев Сергей
525 группа
Содержание
•
•
•
•
•
•
•

Постановка и актуальность задачи
Сбор и представление данных
Подходы к составлению рекомендаций
Оценка качества рекомендаций
Проблемы рекомендательных систем
Существующие рекомендательные системы
Разработка музыкальной рекомендательной системы
Постановка и актуальность задачи
Рекомендательные системы — программы,
которые пытаются предсказать, какие объекты
(фильмы, музыка, книги и т.д.) будут интересны
пользователю, имея определенную информацию о
его профиле.
Для чего нужны рекомендательные
системы
•
•
•
•

Увеличение продаж
Продажа более разнообразных объектов
Увеличение лояльности пользователей
Улучшение понимания пользовательских
потребностей и желаний
Применение рекомендательных систем
•
•
•
•
•

Электронная коммерция
Поиск фильмов, музыки, ПО, научных статей
Он-лайн банкинг
Новостные сайты
Справочные центры
Сбор данных
Используется явный или неявный сбор данных.
• При явном сборе от пользователя требуется
заполнять анкеты для выявления предпочтений.
• При неявном сборе действия пользователя
протоколируются для выявления предпочтений, и
составления рейтингов происходит автоматически.
Иногда оба подхода комбинируются: когда истории
действий пока нет – используются опросы. Затем
начинают учитываться действия.
Представление данных
Таблица оценок пользователей, где каждая ячейка ru,i
соответствует оценке пользователем u элемента i

Требуется предсказать оценку rа,i для активного пользователя a
Типы оценок пользователей
•

Числовые рейтинги
– от 1 до 5, как, например, для аудиозаписей в iTunes.

• Упорядоченные рейтинги
– такие как “полностью согласен”, “согласен”, “нейтрален”, “не
согласен”, “полностью не согласен”, в ситуации, когда у
пользователя спрашивают мнение о высказывании.

• Двоичные рейтинги
– товар является хорошим или плохим по мнению
пользователя

• Абсолютные рейтинги
– количество прослушиваний аудиозаписей
Подходы к формированию рекомендаций
• Content-based (фильтрация содержимого)
• Transaction-based
– Model-based
– Memory-based
• Коллаборативная фильтрация
– User-based
– Item-based
Вычисление похожести
Основной принцип: похожим пользователям
рекомендуют похожие объекты. Как определять
похожесть?
• Content-based. Похожесть определяется на
основании характеристик предметов и
пользователей. Для товаров: функциональное
назначение, категория, ценовая группа. Для
клиентов: демографические данные, предпочтения
из заполненных анкет.
• Transaction-based. Товары считаются похожими,
если часто входят вместе в одну транзакцию, а
пользователи – если совершают схожие покупки.
Используется ли модель предметной
области
• Model-based. Создается модель предпочтений
пользователей, товаров и взаимосвязи между ними.
Рекомендации формируются на основе полученной
модели.
• Memory-based. Модели данных нет. Рекомендации
формируются на основании вычисления некой меры
похожести по всем накопленным данным.
Достоинства и недостатки memory-based
и model-based подходов
• Memory-based.
– Достоинства: простота, точность, инкрементальный учет
новых данных.
– Недостатки: ресурсоемкость, невозможность
предоставления описательного анализа закономерностей

• Model-based.
– Достоинства: простое вычисление рекомендаций, большее
понимание формируемых рекомендаций
– Недостатки: ресурсоемкое обучение модели, меньшая
точность, не поддерживает инкрементальное обучение
Коллаборативная фильтрация
Идея подхода - те, кто одинаково оценивали какиелибо предметы в прошлом, склонны давать похожие
оценки другим предметам и в будущем.
• User-based. Предложить товары, приобретаемые
похожими пользователями
• Item-based. Предложить товары, похожие на уже
приобретенные
User-based коллаборативная
фильтрация
• Для активного пользователя определяется группа
похожих пользователей.
– В качестве меры близости применяются метрики,
основанные на углах между векторами оценок:
•
•
•
•

Косинус угла между векторами оценок.
Корреляция между векторами оценок.
Количество совпадающих оценок.
…

• Искомая оценка предмета определяется на
основании анализа оценок группы похожих
пользователей
Item-based коллаборативная фильтрация
• Для предмета, оценку которого требуется
предсказать, создается список похожих предметов

– Похожесть вычисляется при помощи метрик, применяемых к
векторам оценок для каждого предмета

• Оценка прогнозируется на основе оценок активного
пользователя для похожих предметов
Пример item-based фильтрации
Пример item-based фильтрации
Пример item-based фильтрации
Пример item-based фильтрации
Пример item-based фильтрации
Пример item-based фильтрации
Пример user-based фильтрации
Пример user-based фильтрации
Пример user-based фильтрации
Пример user-based фильтрации
Пример user-based фильтрации
Пример user-based фильтрации
Оценка качества рекомендаций
• Опрос пользователей
– Наиболее достоверный способ оценки качества
– Не всегда может быть реализован

• Метрики оценки качества рекомендаций
– Точность
– Полнота
– Half-life Utility
Half-life Utility
• Имитирует радиоактивный распад: чем дальше
релевантный элемент находится от начала списка
рекомендаций, тем меньше его вес

HLU a = ∑
j

ra , j
2

( j −1) /( c −1)

• с - период полураспада, ra,j – рейтинг элемента j для
активного пользователя a
Проблемы рекомендательных систем
•
•
•
•
•

Разреженность данных
Проблема холодного старта
Масштабируемость
Синонимия
Мошенничество
Рекомендательная система Amazon.com
• Amazon.com рекомендует пользователям товары,
которые они, скорее всего, захотят купить.
• Введение рекомендательной системы увеличило
товарооборот на 40%
Особенности рекомендательной системы
Amazon.com
• Самая большая товарная база данных
– Более 30 млн пользователей и 5 млн. товаров

• Для составления рекомендаций используется Itembased алгоритм коллаборативной фильтрации
– Item-based алгоритм позволяет выполнить наиболее
ресурсоемкие вычисления оффлайн.
Amazon.com: построение таблицы
похожих товаров
• Построение таблицы похожих товаров выполняется оффлайн
по расписанию, при помощи следующего алгоритма
For each item in product catalog, I1
For each customer, who purchased I1
For each item I2 purchased by customer C
Record that a customer purchased I1 and I2
For each item I2
Compute the similarity between I1 and I2

– Похожесть рассчитывается как косинус угла между векторами
оценок
– Сложность алгоритма на практике O(NM)
• N – количество товаров
• M – количество пользователей
Amazon.com: составление рекомендаций
• По составленной таблице товаров система находит
похожие товары для каждой покупки пользователя и
рекомендует наиболее релевантные.
• Вычисления выполняются очень быстро. Сложность
зависит только от количества приобретенных
пользователем товаров.
Music Genome Project
• Музыкальная рекомендательная система,
основанная на алгоритмах фильтрации содержимого
• Команда экспертов анализирует каждую композицию
и оценивает по более чем 400 признакам
• Рекомендации составляются на основе схожести
признаков прослушанных и рекомендуемых
композиций.
Постановка задачи дипломной работы
• Разработать рекомендательную систему для
рекомендации музыки пользователям Last.fm и
vk.com
• Оценить работу системы и сравнить использованный
алгоритм с другими алгоритмами рекомендаций.
Выбор алгоритма
В данной работе реализован user-based алгоритм
коллаборативной фильтрации по следующим
причинам:
– Сравнительно небольшой набор данных для анализа
(360 000 пользователей и 100 000 исполнителей)
– Качество рекомендаций user-based подхода не уступает
item-based рекомендациям
– Отсутствие вычислительных мощностей для генерации
таблицы похожих исполнителей
Особенности реализации
Для реализации алгоритма построения
рекомендаций была использована база Last.fm
dataset 360K.
Алгоритм состоит из следующих шагов:

– Загрузка обучающей выборки в оперативную память
– Загрузка библиотеки прослушиваний активного
пользователя
– Выбор из обучающей выборки подгруппы пользователей,
похожих на активного
– Составление рекомендаций на основе общей библиотеки
прослушиваний выбранной подгруппы
Результат
Сравнение алгоритмов составления
рекомендаций
Алгоритм

Метрика
Точность

Half-Life Utility

Алгоритм на основе популярности

13.1%

28.6%

Алгоритм на основе популярности с
учетом жанров

18.2%

41.7%

Item-based коллаборативная
фильтрация
User-based коллаборативная
фильтрация

~70%
39%

69.5%
Что планируется сделать
• Комбинирование методов коллаборативной
фильтрации и фильтрации содержимого для
улучшения качества рекомендаций
– Учет пола, возраста пользователей, жанра композиций и т.д.

• Индексирование базы данных и оптимизация
алгоритма для ускорения работы системы
• Улучшение пользовательского интерфейса

Mais conteúdo relacionado

Mais procurados

аналитика как основа принятия решений для развития интернет магазина
аналитика как основа принятия решений для развития интернет магазинааналитика как основа принятия решений для развития интернет магазина
аналитика как основа принятия решений для развития интернет магазинаShoplist
 
Аналитика как основа принятия решений для развития интернет-магазина, Андрей ...
Аналитика как основа принятия решений для развития интернет-магазина, Андрей ...Аналитика как основа принятия решений для развития интернет-магазина, Андрей ...
Аналитика как основа принятия решений для развития интернет-магазина, Андрей ...OWOX
 
09 koshkin-optimization2010 хорошо про аудит сайта
09 koshkin-optimization2010 хорошо про аудит сайта09 koshkin-optimization2010 хорошо про аудит сайта
09 koshkin-optimization2010 хорошо про аудит сайтаТарасов Константин
 
Лаура Шаймаханбетова : «Новые возможности портала Satu.kz»
Лаура Шаймаханбетова : «Новые возможности портала Satu.kz»Лаура Шаймаханбетова : «Новые возможности портала Satu.kz»
Лаура Шаймаханбетова : «Новые возможности портала Satu.kz»satukz_seminar
 
Секрет успеха почему именно вашу компанию выберет завтра клиент. Анна Боднарчук
Секрет успеха почему именно вашу компанию выберет завтра клиент. Анна БоднарчукСекрет успеха почему именно вашу компанию выберет завтра клиент. Анна Боднарчук
Секрет успеха почему именно вашу компанию выберет завтра клиент. Анна Боднарчукelenae00
 
Ганна Боднарчук. “Клієнт на все життя привабити, зробити покупцем та втримати...
Ганна Боднарчук. “Клієнт на все життя привабити, зробити покупцем та втримати...Ганна Боднарчук. “Клієнт на все життя привабити, зробити покупцем та втримати...
Ганна Боднарчук. “Клієнт на все життя привабити, зробити покупцем та втримати...Lviv Startup Club
 
Как правильно измерить, чтобы ничего лишнего не отрезать
Как правильно измерить, чтобы ничего лишнего не отрезатьКак правильно измерить, чтобы ничего лишнего не отрезать
Как правильно измерить, чтобы ничего лишнего не отрезатьКомплето
 
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг
Как перестать бояться и начать любить медийку. Алгоритмический маркетингКак перестать бояться и начать любить медийку. Алгоритмический маркетинг
Как перестать бояться и начать любить медийку. Алгоритмический маркетингSPECIA
 
4 alexey orlov - life of product in startup and enterprise
4   alexey orlov - life of product in startup and enterprise4   alexey orlov - life of product in startup and enterprise
4 alexey orlov - life of product in startup and enterpriseIevgenii Katsan
 
Как исследования экономят деньги.
Как исследования экономят деньги.Как исследования экономят деньги.
Как исследования экономят деньги.Nimax
 
Как сделать из стартапа бизнес
Как сделать из стартапа бизнесКак сделать из стартапа бизнес
Как сделать из стартапа бизнесАндрей Торбичев
 
Agile-маркетинг как современное чудо
Agile-маркетинг как современное чудоAgile-маркетинг как современное чудо
Agile-маркетинг как современное чудоSPECIA
 
Внимание и деньги. What if mailing
Внимание и деньги. What if mailingВнимание и деньги. What if mailing
Внимание и деньги. What if mailingAlexei Burba
 
Системный подход к привлечению клиентов через интернет в сегменте B2B. Иванов...
Системный подход к привлечению клиентов через интернет в сегменте B2B. Иванов...Системный подход к привлечению клиентов через интернет в сегменте B2B. Иванов...
Системный подход к привлечению клиентов через интернет в сегменте B2B. Иванов...Комплето
 
Анализ эффективности интернет-рекламы
Анализ эффективности интернет-рекламыАнализ эффективности интернет-рекламы
Анализ эффективности интернет-рекламыOWOX
 

Mais procurados (18)

аналитика как основа принятия решений для развития интернет магазина
аналитика как основа принятия решений для развития интернет магазинааналитика как основа принятия решений для развития интернет магазина
аналитика как основа принятия решений для развития интернет магазина
 
Аналитика как основа принятия решений для развития интернет-магазина, Андрей ...
Аналитика как основа принятия решений для развития интернет-магазина, Андрей ...Аналитика как основа принятия решений для развития интернет-магазина, Андрей ...
Аналитика как основа принятия решений для развития интернет-магазина, Андрей ...
 
WiseAdviceDeck
WiseAdviceDeckWiseAdviceDeck
WiseAdviceDeck
 
Imu2011 Клименко
Imu2011 КлименкоImu2011 Клименко
Imu2011 Клименко
 
09 koshkin-optimization2010 хорошо про аудит сайта
09 koshkin-optimization2010 хорошо про аудит сайта09 koshkin-optimization2010 хорошо про аудит сайта
09 koshkin-optimization2010 хорошо про аудит сайта
 
Лаура Шаймаханбетова : «Новые возможности портала Satu.kz»
Лаура Шаймаханбетова : «Новые возможности портала Satu.kz»Лаура Шаймаханбетова : «Новые возможности портала Satu.kz»
Лаура Шаймаханбетова : «Новые возможности портала Satu.kz»
 
Секрет успеха почему именно вашу компанию выберет завтра клиент. Анна Боднарчук
Секрет успеха почему именно вашу компанию выберет завтра клиент. Анна БоднарчукСекрет успеха почему именно вашу компанию выберет завтра клиент. Анна Боднарчук
Секрет успеха почему именно вашу компанию выберет завтра клиент. Анна Боднарчук
 
Ганна Боднарчук. “Клієнт на все життя привабити, зробити покупцем та втримати...
Ганна Боднарчук. “Клієнт на все життя привабити, зробити покупцем та втримати...Ганна Боднарчук. “Клієнт на все життя привабити, зробити покупцем та втримати...
Ганна Боднарчук. “Клієнт на все життя привабити, зробити покупцем та втримати...
 
Как правильно измерить, чтобы ничего лишнего не отрезать
Как правильно измерить, чтобы ничего лишнего не отрезатьКак правильно измерить, чтобы ничего лишнего не отрезать
Как правильно измерить, чтобы ничего лишнего не отрезать
 
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг
Как перестать бояться и начать любить медийку. Алгоритмический маркетингКак перестать бояться и начать любить медийку. Алгоритмический маркетинг
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг
 
4 alexey orlov - life of product in startup and enterprise
4   alexey orlov - life of product in startup and enterprise4   alexey orlov - life of product in startup and enterprise
4 alexey orlov - life of product in startup and enterprise
 
Как исследования экономят деньги.
Как исследования экономят деньги.Как исследования экономят деньги.
Как исследования экономят деньги.
 
Как сделать из стартапа бизнес
Как сделать из стартапа бизнесКак сделать из стартапа бизнес
Как сделать из стартапа бизнес
 
Agile-маркетинг как современное чудо
Agile-маркетинг как современное чудоAgile-маркетинг как современное чудо
Agile-маркетинг как современное чудо
 
Usability barcamp
Usability barcampUsability barcamp
Usability barcamp
 
Внимание и деньги. What if mailing
Внимание и деньги. What if mailingВнимание и деньги. What if mailing
Внимание и деньги. What if mailing
 
Системный подход к привлечению клиентов через интернет в сегменте B2B. Иванов...
Системный подход к привлечению клиентов через интернет в сегменте B2B. Иванов...Системный подход к привлечению клиентов через интернет в сегменте B2B. Иванов...
Системный подход к привлечению клиентов через интернет в сегменте B2B. Иванов...
 
Анализ эффективности интернет-рекламы
Анализ эффективности интернет-рекламыАнализ эффективности интернет-рекламы
Анализ эффективности интернет-рекламы
 

Destaque

"Построение рекомендательной системы на Python" Василий Лексин (Avito)
"Построение рекомендательной системы на Python" Василий Лексин (Avito)"Построение рекомендательной системы на Python" Василий Лексин (Avito)
"Построение рекомендательной системы на Python" Василий Лексин (Avito)AvitoTech
 
Collaborative Filtering Recommendation System
Collaborative Filtering Recommendation SystemCollaborative Filtering Recommendation System
Collaborative Filtering Recommendation SystemMilind Gokhale
 
Building a Recommendation Engine - An example of a product recommendation engine
Building a Recommendation Engine - An example of a product recommendation engineBuilding a Recommendation Engine - An example of a product recommendation engine
Building a Recommendation Engine - An example of a product recommendation engineNYC Predictive Analytics
 
Recommender system algorithm and architecture
Recommender system algorithm and architectureRecommender system algorithm and architecture
Recommender system algorithm and architectureLiang Xiang
 
Recommender Systems (Machine Learning Summer School 2014 @ CMU)
Recommender Systems (Machine Learning Summer School 2014 @ CMU)Recommender Systems (Machine Learning Summer School 2014 @ CMU)
Recommender Systems (Machine Learning Summer School 2014 @ CMU)Xavier Amatriain
 
Коллаборативная фильтрация: как считать рекомендации?
Коллаборативная фильтрация: как считать рекомендации?Коллаборативная фильтрация: как считать рекомендации?
Коллаборативная фильтрация: как считать рекомендации?Media Gorod
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Bitworks Software
 
Введение в рекомендательные системы
Введение в рекомендательные системыВведение в рекомендательные системы
Введение в рекомендательные системыAndrey Danilchenko
 
ИТМО Machine Learning 2016. Рекомендательные системы
ИТМО Machine Learning 2016. Рекомендательные системыИТМО Machine Learning 2016. Рекомендательные системы
ИТМО Machine Learning 2016. Рекомендательные системыAndrey Danilchenko
 
Методики оценки рекомендательных систем
Методики оценки рекомендательных системМетодики оценки рекомендательных систем
Методики оценки рекомендательных системWitology
 
Разработка рекомендательной системы с использованием коллаборативной фильтрации
Разработка рекомендательной системы с использованием коллаборативной фильтрацииРазработка рекомендательной системы с использованием коллаборативной фильтрации
Разработка рекомендательной системы с использованием коллаборативной фильтрацииBitworks Software
 
Recommender System at Scale Using HBase and Hadoop
Recommender System at Scale Using HBase and HadoopRecommender System at Scale Using HBase and Hadoop
Recommender System at Scale Using HBase and HadoopDataWorks Summit
 
Collaborative Filtering and Recommender Systems By Navisro Analytics
Collaborative Filtering and Recommender Systems By Navisro AnalyticsCollaborative Filtering and Recommender Systems By Navisro Analytics
Collaborative Filtering and Recommender Systems By Navisro AnalyticsNavisro Analytics
 
Graph Based Recommendation Systems at eBay
Graph Based Recommendation Systems at eBayGraph Based Recommendation Systems at eBay
Graph Based Recommendation Systems at eBayDataStax Academy
 

Destaque (16)

01.habilidades sociales
01.habilidades sociales01.habilidades sociales
01.habilidades sociales
 
"Построение рекомендательной системы на Python" Василий Лексин (Avito)
"Построение рекомендательной системы на Python" Василий Лексин (Avito)"Построение рекомендательной системы на Python" Василий Лексин (Avito)
"Построение рекомендательной системы на Python" Василий Лексин (Avito)
 
Collaborative Filtering Recommendation System
Collaborative Filtering Recommendation SystemCollaborative Filtering Recommendation System
Collaborative Filtering Recommendation System
 
Building a Recommendation Engine - An example of a product recommendation engine
Building a Recommendation Engine - An example of a product recommendation engineBuilding a Recommendation Engine - An example of a product recommendation engine
Building a Recommendation Engine - An example of a product recommendation engine
 
Recommender system algorithm and architecture
Recommender system algorithm and architectureRecommender system algorithm and architecture
Recommender system algorithm and architecture
 
Recommender Systems (Machine Learning Summer School 2014 @ CMU)
Recommender Systems (Machine Learning Summer School 2014 @ CMU)Recommender Systems (Machine Learning Summer School 2014 @ CMU)
Recommender Systems (Machine Learning Summer School 2014 @ CMU)
 
Коллаборативная фильтрация: как считать рекомендации?
Коллаборативная фильтрация: как считать рекомендации?Коллаборативная фильтрация: как считать рекомендации?
Коллаборативная фильтрация: как считать рекомендации?
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Введение в рекомендательные системы
Введение в рекомендательные системыВведение в рекомендательные системы
Введение в рекомендательные системы
 
ИТМО Machine Learning 2016. Рекомендательные системы
ИТМО Machine Learning 2016. Рекомендательные системыИТМО Machine Learning 2016. Рекомендательные системы
ИТМО Machine Learning 2016. Рекомендательные системы
 
Методики оценки рекомендательных систем
Методики оценки рекомендательных системМетодики оценки рекомендательных систем
Методики оценки рекомендательных систем
 
Разработка рекомендательной системы с использованием коллаборативной фильтрации
Разработка рекомендательной системы с использованием коллаборативной фильтрацииРазработка рекомендательной системы с использованием коллаборативной фильтрации
Разработка рекомендательной системы с использованием коллаборативной фильтрации
 
Recommender System at Scale Using HBase and Hadoop
Recommender System at Scale Using HBase and HadoopRecommender System at Scale Using HBase and Hadoop
Recommender System at Scale Using HBase and Hadoop
 
Collaborative Filtering and Recommender Systems By Navisro Analytics
Collaborative Filtering and Recommender Systems By Navisro AnalyticsCollaborative Filtering and Recommender Systems By Navisro Analytics
Collaborative Filtering and Recommender Systems By Navisro Analytics
 
Graph Based Recommendation Systems at eBay
Graph Based Recommendation Systems at eBayGraph Based Recommendation Systems at eBay
Graph Based Recommendation Systems at eBay
 
Recommender Systems
Recommender SystemsRecommender Systems
Recommender Systems
 

Semelhante a курышев рекомендательные системы

Аналитика и метрики приложений 29.11.2016 г.
Аналитика и метрики приложений 29.11.2016 г.Аналитика и метрики приложений 29.11.2016 г.
Аналитика и метрики приложений 29.11.2016 г.SPbCoA
 
Рекомендации в Avito - Василий Лексин (Avito)
Рекомендации в Avito - Василий Лексин (Avito)Рекомендации в Avito - Василий Лексин (Avito)
Рекомендации в Avito - Василий Лексин (Avito)AvitoTech
 
Возможности извлечения маркетинговой информации в e-commerce
Возможности извлечения маркетинговой информации в e-commerceВозможности извлечения маркетинговой информации в e-commerce
Возможности извлечения маркетинговой информации в e-commercemikeslivinsky
 
О формировании требований к продуктам EMC
О формировании требований к продуктам EMCО формировании требований к продуктам EMC
О формировании требований к продуктам EMCSQALab
 
Обзор методов изучения аудитории
Обзор методов изучения аудиторииОбзор методов изучения аудитории
Обзор методов изучения аудиторииDenis Beskov
 
Проведение маркетинговых исследований онлайн посредством технологии river sam...
Проведение маркетинговых исследований онлайн посредством технологии river sam...Проведение маркетинговых исследований онлайн посредством технологии river sam...
Проведение маркетинговых исследований онлайн посредством технологии river sam...SilverMercury
 
Потроха рекомендательных систем. Большие данные в рекомендательных системах
Потроха рекомендательных систем. Большие данные в рекомендательных системахПотроха рекомендательных систем. Большие данные в рекомендательных системах
Потроха рекомендательных систем. Большие данные в рекомендательных системахNick Mikhailovsky
 
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...Ontico
 
Конкурс Авито-2017 - Решение победителя
Конкурс Авито-2017 - Решение победителяКонкурс Авито-2017 - Решение победителя
Конкурс Авито-2017 - Решение победителяAvitoTech
 
Анализ ЦА в интернете: алгоритмы и инструменты
Анализ ЦА в интернете: алгоритмы и инструментыАнализ ЦА в интернете: алгоритмы и инструменты
Анализ ЦА в интернете: алгоритмы и инструментыIgnatiy Cheredov
 

Semelhante a курышев рекомендательные системы (20)

Recommendo you
Recommendo youRecommendo you
Recommendo you
 
Аналитика и метрики приложений 29.11.2016 г.
Аналитика и метрики приложений 29.11.2016 г.Аналитика и метрики приложений 29.11.2016 г.
Аналитика и метрики приложений 29.11.2016 г.
 
Presentacion Ruso
Presentacion RusoPresentacion Ruso
Presentacion Ruso
 
Presentacion Ruso
Presentacion RusoPresentacion Ruso
Presentacion Ruso
 
Recommendoyou
RecommendoyouRecommendoyou
Recommendoyou
 
Zhelnova
ZhelnovaZhelnova
Zhelnova
 
лаф2013
лаф2013лаф2013
лаф2013
 
Рекомендации в Avito - Василий Лексин (Avito)
Рекомендации в Avito - Василий Лексин (Avito)Рекомендации в Avito - Василий Лексин (Avito)
Рекомендации в Avito - Василий Лексин (Avito)
 
Возможности извлечения маркетинговой информации в e-commerce
Возможности извлечения маркетинговой информации в e-commerceВозможности извлечения маркетинговой информации в e-commerce
Возможности извлечения маркетинговой информации в e-commerce
 
О формировании требований к продуктам EMC
О формировании требований к продуктам EMCО формировании требований к продуктам EMC
О формировании требований к продуктам EMC
 
Recommend me. Pandem.
Recommend me. Pandem.Recommend me. Pandem.
Recommend me. Pandem.
 
Обзор методов изучения аудитории
Обзор методов изучения аудиторииОбзор методов изучения аудитории
Обзор методов изучения аудитории
 
Проведение маркетинговых исследований онлайн посредством технологии river sam...
Проведение маркетинговых исследований онлайн посредством технологии river sam...Проведение маркетинговых исследований онлайн посредством технологии river sam...
Проведение маркетинговых исследований онлайн посредством технологии river sam...
 
D1.03 ppt market research-v5
D1.03 ppt market research-v5D1.03 ppt market research-v5
D1.03 ppt market research-v5
 
Потроха рекомендательных систем. Большие данные в рекомендательных системах
Потроха рекомендательных систем. Большие данные в рекомендательных системахПотроха рекомендательных систем. Большие данные в рекомендательных системах
Потроха рекомендательных систем. Большие данные в рекомендательных системах
 
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...хранение и обработка больших объемов данных в рекомендательном движке сайта I...
хранение и обработка больших объемов данных в рекомендательном движке сайта I...
 
Конкурс Авито-2017 - Решение победителя
Конкурс Авито-2017 - Решение победителяКонкурс Авито-2017 - Решение победителя
Конкурс Авито-2017 - Решение победителя
 
Базовый курс по SEO
Базовый курс по SEOБазовый курс по SEO
Базовый курс по SEO
 
Design Talks 2017
Design Talks 2017Design Talks 2017
Design Talks 2017
 
Анализ ЦА в интернете: алгоритмы и инструменты
Анализ ЦА в интернете: алгоритмы и инструментыАнализ ЦА в интернете: алгоритмы и инструменты
Анализ ЦА в интернете: алгоритмы и инструменты
 

Mais de Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

Mais de Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

курышев рекомендательные системы

  • 2. Содержание • • • • • • • Постановка и актуальность задачи Сбор и представление данных Подходы к составлению рекомендаций Оценка качества рекомендаций Проблемы рекомендательных систем Существующие рекомендательные системы Разработка музыкальной рекомендательной системы
  • 3. Постановка и актуальность задачи Рекомендательные системы — программы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги и т.д.) будут интересны пользователю, имея определенную информацию о его профиле.
  • 4. Для чего нужны рекомендательные системы • • • • Увеличение продаж Продажа более разнообразных объектов Увеличение лояльности пользователей Улучшение понимания пользовательских потребностей и желаний
  • 5. Применение рекомендательных систем • • • • • Электронная коммерция Поиск фильмов, музыки, ПО, научных статей Он-лайн банкинг Новостные сайты Справочные центры
  • 6. Сбор данных Используется явный или неявный сбор данных. • При явном сборе от пользователя требуется заполнять анкеты для выявления предпочтений. • При неявном сборе действия пользователя протоколируются для выявления предпочтений, и составления рейтингов происходит автоматически. Иногда оба подхода комбинируются: когда истории действий пока нет – используются опросы. Затем начинают учитываться действия.
  • 7. Представление данных Таблица оценок пользователей, где каждая ячейка ru,i соответствует оценке пользователем u элемента i Требуется предсказать оценку rа,i для активного пользователя a
  • 8. Типы оценок пользователей • Числовые рейтинги – от 1 до 5, как, например, для аудиозаписей в iTunes. • Упорядоченные рейтинги – такие как “полностью согласен”, “согласен”, “нейтрален”, “не согласен”, “полностью не согласен”, в ситуации, когда у пользователя спрашивают мнение о высказывании. • Двоичные рейтинги – товар является хорошим или плохим по мнению пользователя • Абсолютные рейтинги – количество прослушиваний аудиозаписей
  • 9. Подходы к формированию рекомендаций • Content-based (фильтрация содержимого) • Transaction-based – Model-based – Memory-based • Коллаборативная фильтрация – User-based – Item-based
  • 10. Вычисление похожести Основной принцип: похожим пользователям рекомендуют похожие объекты. Как определять похожесть? • Content-based. Похожесть определяется на основании характеристик предметов и пользователей. Для товаров: функциональное назначение, категория, ценовая группа. Для клиентов: демографические данные, предпочтения из заполненных анкет. • Transaction-based. Товары считаются похожими, если часто входят вместе в одну транзакцию, а пользователи – если совершают схожие покупки.
  • 11. Используется ли модель предметной области • Model-based. Создается модель предпочтений пользователей, товаров и взаимосвязи между ними. Рекомендации формируются на основе полученной модели. • Memory-based. Модели данных нет. Рекомендации формируются на основании вычисления некой меры похожести по всем накопленным данным.
  • 12. Достоинства и недостатки memory-based и model-based подходов • Memory-based. – Достоинства: простота, точность, инкрементальный учет новых данных. – Недостатки: ресурсоемкость, невозможность предоставления описательного анализа закономерностей • Model-based. – Достоинства: простое вычисление рекомендаций, большее понимание формируемых рекомендаций – Недостатки: ресурсоемкое обучение модели, меньшая точность, не поддерживает инкрементальное обучение
  • 13. Коллаборативная фильтрация Идея подхода - те, кто одинаково оценивали какиелибо предметы в прошлом, склонны давать похожие оценки другим предметам и в будущем. • User-based. Предложить товары, приобретаемые похожими пользователями • Item-based. Предложить товары, похожие на уже приобретенные
  • 14. User-based коллаборативная фильтрация • Для активного пользователя определяется группа похожих пользователей. – В качестве меры близости применяются метрики, основанные на углах между векторами оценок: • • • • Косинус угла между векторами оценок. Корреляция между векторами оценок. Количество совпадающих оценок. … • Искомая оценка предмета определяется на основании анализа оценок группы похожих пользователей
  • 15. Item-based коллаборативная фильтрация • Для предмета, оценку которого требуется предсказать, создается список похожих предметов – Похожесть вычисляется при помощи метрик, применяемых к векторам оценок для каждого предмета • Оценка прогнозируется на основе оценок активного пользователя для похожих предметов
  • 28. Оценка качества рекомендаций • Опрос пользователей – Наиболее достоверный способ оценки качества – Не всегда может быть реализован • Метрики оценки качества рекомендаций – Точность – Полнота – Half-life Utility
  • 29. Half-life Utility • Имитирует радиоактивный распад: чем дальше релевантный элемент находится от начала списка рекомендаций, тем меньше его вес HLU a = ∑ j ra , j 2 ( j −1) /( c −1) • с - период полураспада, ra,j – рейтинг элемента j для активного пользователя a
  • 30. Проблемы рекомендательных систем • • • • • Разреженность данных Проблема холодного старта Масштабируемость Синонимия Мошенничество
  • 31. Рекомендательная система Amazon.com • Amazon.com рекомендует пользователям товары, которые они, скорее всего, захотят купить. • Введение рекомендательной системы увеличило товарооборот на 40%
  • 32. Особенности рекомендательной системы Amazon.com • Самая большая товарная база данных – Более 30 млн пользователей и 5 млн. товаров • Для составления рекомендаций используется Itembased алгоритм коллаборативной фильтрации – Item-based алгоритм позволяет выполнить наиболее ресурсоемкие вычисления оффлайн.
  • 33. Amazon.com: построение таблицы похожих товаров • Построение таблицы похожих товаров выполняется оффлайн по расписанию, при помощи следующего алгоритма For each item in product catalog, I1 For each customer, who purchased I1 For each item I2 purchased by customer C Record that a customer purchased I1 and I2 For each item I2 Compute the similarity between I1 and I2 – Похожесть рассчитывается как косинус угла между векторами оценок – Сложность алгоритма на практике O(NM) • N – количество товаров • M – количество пользователей
  • 34. Amazon.com: составление рекомендаций • По составленной таблице товаров система находит похожие товары для каждой покупки пользователя и рекомендует наиболее релевантные. • Вычисления выполняются очень быстро. Сложность зависит только от количества приобретенных пользователем товаров.
  • 35. Music Genome Project • Музыкальная рекомендательная система, основанная на алгоритмах фильтрации содержимого • Команда экспертов анализирует каждую композицию и оценивает по более чем 400 признакам • Рекомендации составляются на основе схожести признаков прослушанных и рекомендуемых композиций.
  • 36. Постановка задачи дипломной работы • Разработать рекомендательную систему для рекомендации музыки пользователям Last.fm и vk.com • Оценить работу системы и сравнить использованный алгоритм с другими алгоритмами рекомендаций.
  • 37. Выбор алгоритма В данной работе реализован user-based алгоритм коллаборативной фильтрации по следующим причинам: – Сравнительно небольшой набор данных для анализа (360 000 пользователей и 100 000 исполнителей) – Качество рекомендаций user-based подхода не уступает item-based рекомендациям – Отсутствие вычислительных мощностей для генерации таблицы похожих исполнителей
  • 38. Особенности реализации Для реализации алгоритма построения рекомендаций была использована база Last.fm dataset 360K. Алгоритм состоит из следующих шагов: – Загрузка обучающей выборки в оперативную память – Загрузка библиотеки прослушиваний активного пользователя – Выбор из обучающей выборки подгруппы пользователей, похожих на активного – Составление рекомендаций на основе общей библиотеки прослушиваний выбранной подгруппы
  • 40. Сравнение алгоритмов составления рекомендаций Алгоритм Метрика Точность Half-Life Utility Алгоритм на основе популярности 13.1% 28.6% Алгоритм на основе популярности с учетом жанров 18.2% 41.7% Item-based коллаборативная фильтрация User-based коллаборативная фильтрация ~70% 39% 69.5%
  • 41. Что планируется сделать • Комбинирование методов коллаборативной фильтрации и фильтрации содержимого для улучшения качества рекомендаций – Учет пола, возраста пользователей, жанра композиций и т.д. • Индексирование базы данных и оптимизация алгоритма для ускорения работы системы • Улучшение пользовательского интерфейса