2. Mail.ru – главная страница
Аудитория в месяц:
41.6М человек*
Рекламные позиции:
ТГБx2 300x300
* - TNS Web Index, вся Россия, 12-64, сентябрь 2013
3. Социальные сети - Одноклассники
Аудитория в месяц:
41.1М человек*
Рекламные позиции:
ТГБ 240x400
Пре-роллы
* - TNS Web Index, вся Россия, 12-64, сентябрь 2013
4. Мобильные версии
Более 20М пользователей на
мобильном портале Mail.ru в месяц
Более 25М пользователей на
мобильном портале Одноклассники
- внутренняя статистика
5. Обучающая выборка
Входные данные: более 1М анкет hh.ru
Верификация:
1. Пользователи разбиваются на группы по трем параметрам
3 уровня образования
28 профессиональных сфер деятельности
92 региона в виде трехуровневого дерева
2. Внутри каждой группы удаляются аномалии
В результате верификации остается 650К пользователей, из которых 350К
имеют историю в логе посещений mail.ru
Итог: 350К пользователей с известной группой дохода
6. Распределение аудитории по группам дохода*
A
Азия
Европа (без Москвы)
Москва
Вся Россия
B
C
21.2%
21.4%
5.8%
49.5%
50.0%
49.9%
29.3%
28.6%
44.3%
20%
50%
30%
А - ниже среднего, B - средний, C - выше среднего
* - TNS Web Index, вся Россия, 12-64, сентябрь 2013
7. Распределение зарплат по зонам
AB
Азия
Европа
Москва
BC
20 000
20 000
24 000
45 000
40 000
50 000
12. Выбор признаков: информационный критерий
Сколько информации о категории пользователя несет факт посещения им сайта?
H=−
p(c) log p(c)
c∈{A,B,C }
H(f ) = −
p(c|f ) log p(c|f )
c∈{A,B,C }
Условие выбора признака f
(H − H(f ))/H > ε
Пример
Исходное распределение:
p(A) = 0.2, p(B) = 0.5, p(C ) = 0.3 ⇒ H = 1.0
Распределение для признака f :
p(A|f ) = 0.1, p(B|f ) = 0.2, p(C |f ) = 0.7 ⇒ H(f ) = 0.8
(H − H(f ))/H = 0.22
13. Выбор признаков: статистический критерий
Является ли распределение признака f отличным от базового в статистическом
смысле?
Пусть Xc (c ∈ A, B, C ) – случайная величина, равная 1, если пользователь
принадлежит категории c, и 0 иначе
H0 (c): Xc распределена по закону Бернулли с вероятностью успеха pc ,
определяемой исходным распределением пользователей.
Признак f выбирается, если хотя бы для одной c в результате биномиального
теста отвергается H0 (c)
Пример
Исходное распределение: p(A) = 0.2, p(B) = 0.5, p(C ) = 0.3
Распределение для признака f : nA = 100, nB = 200, nC = 700
p-valueC = binom.testC (700, 1000, 0.3) < 2.2 × 10−16
15. Посещение сайтов и модель Bag of Words
удовлетворяют закону Ципфа (Zipf’s law)
порядком можно пренебречь
Предложение
Преобразовать матрицу посещений, используя TF-IDF
17. Дальнейшие планы
Обучающая выборка
Увеличение объема выборки
Разбиение по уровням дохода в соответствии с данными TNS
“Естественное” разбиение на группы дохода
Работа с признаками
Учесть поискове запросы пользователей
Учесть демографическую информацию
Использовать социальную активность (одноклассники, агент)
Настройка классификаторов
Сокращение пространства признаков с выделением семантики
Различные классификаторы для разных групп пользователей