5. 60 лет каждую ночь
«Jawbone’s significant share of a growing market gives
it quite a lot of data to mine. According to Rogati, the
company collects the equivalent of 60 years of sleep
data every night.
Sleep, of course, is only a part of what the band
monitors. For Rogati, Jawbone’s data trove was too
good an opportunity to pass up. She joined the company
this past summer from LinkedIn, another data-driven
powerhouse.»
http://venturebeat.com/2013/11/06/how-jawbone-is-using-big-data-to-lead-the-personal-fitness-wearable-industry/
6. Включите фантазию
Что можно придумать, если знать когда,
сколько, насколько глубоко спят люди.
С точностью до дня, с точностью до
города.
7. Уточнение
термина
Big
Data
Часто
говорят
про
3
V
–
дело
не
просто
в
размере
• Volume
Действительно
большие
(хотя
размер
зависит
от
доступных
ресурсов
для
их
обработки)
• Variety
Слабо
структурированные
и
разнородные
• Velocity
Обрабатывать
надо
очень
быстро
(причем
и
результаты
часто
нужны
оперативно,
если
речь
об
онлайновых
сервисах)
7
8. Четыре
самых
продвинутых
отрасли
В
мире
(но
не
обязательно
у
нас):
• Финансы
• Медицина
• Государство
• High-‐tech
и
интернет-‐компании
Впрочем,
и
прочие
подтягиваются
8
11. Неприятные
свойства
данных
и
что
с
ними
делать
Данные часто неполны
Данные содержат ошибки
Данные очень разнородны
Машинное обучение
Нечеткие связи и соответствия
Постоянно искать обратную связь
19. Атом будущего
История о цвете кнопки:
1. Дремучая:
«Я так сказал!»
2. Продвинутая:
«Мы провели A/B test»
3. Технологичная и современая:
«Мы знаем, какую ты любишь»
38. Уровень телесмотрения
- 99% россиян смотрят ТВ ежемесячно*
- 30% пользователей Рунета проводят у
экрана ТВ менее часа в день**
38
*По данным TNS России
** По данным OMI и TNS
39. Light TV: методология исследования
Анкетирование
• Анкета
TNS
• 4
вопроса
• Опрос
проведен
OMI
• 28’000
респондентов
39
Cookie
matching
OMI-‐Яндекс
• Совмещение
панелистов
OMI
и
пользователей
Яндекса
Анализ
поведения
выборки
в
интернете
• Крипта
• 200
факторов
поведения
40. Heavy TV viewers
Light TV viewers
«сбербанк», «коммунальный»,
«шарлотка», «выкройка»,
«биглион», «irr», «заработать»
Больше запросов кириллицей
40
«книга», «переводчик»,
«словарь», «формула»,
«японский», «французский»,
«немецкий», «такси»
Много запросов латиницей
41. Heavy TV viewers
«тнт», «дом-2»,
«телепрограмма», «стс»
41
Light TV viewers
«С++», «wi-fi»,
«фотошоп», «torrent»,
«adobe»
42. Heavy TV viewers
«спартак», «цска», «пиво»
42
Light TV viewers
«загранпаспорт», «авиабилет»,
«виза», «самолет»,
«аэропорт», «ржд»
43. Домашнее чтение
Большие данные. Революция,
которая изменит то, как мы
живем, работаем и мыслим
Виктор Майер-Шенбергер, Кеннет Кукьер
http://www.livelib.ru/book/1000755419
43
44. Data is new oil
44
Data is just like crude. It’s valuable, but if
unrefined it cannot really be used. It has to be
changed into gas, plastic, chemicals, etc., to
create a valuable entity that drives profitable
activity; so must data be broken down, analyzed
for it to have value.
Michael Palmer, 2006