8.
Большие
Данные
Явление характеризуемое быстрым увеличением объема
накапливаемых данных, скорости их поступления и
разнообразии источников
• «Три V» характеристика:
• Объем (Volume)
• Скорость ( Velocity)
• Разнообразие (Variety)
Высшая школа экономики, Москва, 2013
10. Скорость
накопления
данных
Библиотека Конгресса США содержит 33 млн книг,
всего 150 млн печатных изданий: 235 TB
2012:
• Twitter: 175 млн tweet сообщений в день
• Facebook: 300 млн загруженных фото в день
• Google: 24 PB ежедневно
• AT&T передает 30 PB в день
• Walmart > 1 млн продаж в час
• Кредитные карты > 10,000 транзакций в секунду
• Boing 787 передает 0.5 TB телеметрических данных за
полет, 100 тыс. рейсов в день
Высшая школа экономики, Москва, 2013
фото
фото
11. Объемы
данных
В 2011г «Цифровая Вселенная»
фото
1.8 ZETTABYTES
фото
1,800,000,000,000,000,000,000
Zetta
Exa
Peta
Tera
Giga
9 млн Библиотек Конгресса США
Mega
Kilo
Byte
60 млрд iPhone 32 GB
фото
К 2015 объем данных вырастет до 8 ZB, к 2020 в 44 раза до 35 ZB
Высшая школа экономики, Москва, 2013
12. Технологии
Больших
Данных
•
•
•
•
•
•
•
Основы технологии разработаны в
Google 2003, MapReduce
Открытое ПО, Hadoop (Yahoo)
Система массивно параллельной
обработки данных на кластерах дешевых
компьютеров
Значительное удешевление хранения
Экосистема Биг Дата стартапов:
Cloudera, MapR, HortonWorks
Крупные вендоры EMC, IBM, HP, Oracle
Большой вклад в открытые проекты:
Facebook, Twitter, Amazon, LinkedIn
фото
фото
фото
Высшая школа экономики, Москва, 2013
15. Подход
Больших
Данных
Уникальность подхода Больших Данных
заключается в агрегировании огромной
информации из разных источников в
одном месте
• Обобщенные вид на данные позволяет находить
скрытые связи и закономерности
• Данные обладают огромной предсказательной силой
• Доступны вычислительные мощности достаточные
для очень детальных расчетов
фото
фото
фото
Высшая школа экономики, Москва, 2013
17. Бизнес
данных
• Большие данные:
• Хранение данных
• Анализ данных
• Data driven companies:
• Принятие стратегических решений на основе данных
• Создания продуктов основанные на данных
• Предсказательная аналитика
18. Прикладные
задачи
• Маркетинг:
• Сегментация рынка
• Моделирование приобретения и оттока клиентов
• Рекомендательные системы
• Анализ социальных медиа
• Финансовые и страховые компании:
• Предотвращение fraud
• Детектирование аномального поведения
• Анализ кредитных рисков
• Страховые моделирование
• Здравоохранение и Фармакология:
• Генетический анализ
• Анализ клинических испытаний
• Клинические системы принятия решений
Высшая школа экономики, Москва, 2013
• Оптимизация портфолио
21. Портрет
компании:
Target
“How companies learn your secrets”
• Уникальный Guest ID
• Транзакции по кредитной карте
• Примеры факторов (сигналов):
•
•
Пищевые добавки кальций,
цинк, магний
•
•
Покупка крема без запаха
Мыло без запаха
Предсказательный «индекс»
беременности и ожидаемая
дата рождения
22. Предсказательное
моделирование
• Обучение
модели
• Применение
модели
from Eric Siegel, “Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die”
23. Операторы
мобильной
связи
•
Churn prediction: моделирование оттока клиентов
•
Закономерности поведения подписчиков с течением времени
•
Положительные и отрицательные примеры
Факторы модели:
• История пользования сервисом (число звонков, смс)
• История платежей за сервис
• История обращений в службу поддержки
• История изменений в контракте
• Граф звонков (поведение друзей)
24. Моделирование
убеждаемости
2012 US Presidential Elections:
•
Предвыборная кампания Барака Обамы: 50 data scientists
•
Собраны исторические данные exit polls
•
Данные из открытых источников, соц. Сетей
•
Предсказательные модели:
•
Кто вероятно будет голосовать за Обаму?
•
Кто вероятно будет голосовать за Ромни ?
•
Кто придет в день голосование на участки?
•
Кого можно убедить голосовать за Обаму в случае
личного общения?
25. Галерея
проектов
Примеры небольших компаний и проектов создающих data driven products
Сбор и обработка массивов данных
• Стартапы, небольшие проекты
фото
• Частное и государственное финансирование
• Social course ( социальная направленность)
фото
Высшая школа экономики, Москва, 2013
26. Большие
Данные
в
городе:
удобный
город
Сан-Франциско: датчики парковки, датчики скорости
транспортных потоков, GPS в общественном
транспорте
фото
фото
Использование:
• нахождение свободных парковок
• точное время прибытия общественного
транспорта
Высшая школа экономики, Москва, 2013
фото
27. Большие
Данные
в
городе:
безопасный
город
Лос-Анджелес: предсказания преступлений
LAPD (predictive policing, 2011-2013):
фото
• Определение мест и времени с повышенной
вероятностью совершения преступлений
• Исторические данные о преступности в городе
(80 месяцев), демографические и др. данные,
социологические модели
фото
• Преступления против собственности снизились
за год на 12%
• UCLA, UC Santa Cruz
Высшая школа экономики, Москва, 2013
фото
28. Большие
Данные
в
экономике
• MIT научный проект, Billion Prices Project
• Ежедневно собирают с е-магазинов цены на
товары:
фото
• > 900 магазинов, 70 стран, 5 млн товаров
• Автоматически вычисляют:
• Индекс потребительских цен
• Уровень инфляции
• Бюро Статистики труда: 90 городов, 80,000 The key advantage of our series is the ability to anticipate major
shifts in underlying inflation trends
фото
товаров, сотни сотрудников, $250 млн
в год,
задержка 2-4 недели
Example: State Street PriceStats US Aggregate Inflation Series
May 2011
Jan 2012
online
09/15/2008
Lehman’s Bankruptcy
January 2011
12/20/2008
фото
Source: BPP – PriceStats – BLS (CPI-U, US city-average, all items, NSA)
Высшая школа экономики, Москва, 2013
7
29. Большие
Данные
и
здоровье
Платформa
мониторинга
астмы
и
других
респираторных
заболеваний
• Помогать
пациентам
и
врачам
лучше
справляется
с
заболеванием
фото
• Ингаляторы
с
встроенными
сенсорами,
мобильные
приложения
• Дневник
пациента,
доступен
врачу
онлайн
• Неотложная
помощь
• Глобальная
аналитика
по
заболеванию
фото
Системы
self-‐мониторинга
(quanXfy-‐self):
• Fitbit,
Jawbone:
физические
нагрузка
• Wahoo:
сердечный
ритм
• Zeo:
ночной
сон
(EEG)
• AliveCor:
одноканальная
кардиограмма
(ECG)
Высшая школа экономики, Москва, 2013
фото
30. Большие
Данные
в
образовании
Платформа онлайн обучения
•
MOOC (Massive Online Open Course)
•
“Ivy League” для масс
•
Лучшие курсы лучших университетов
•
Повсеместная доступность
•
Универсальность программы обучения
•
Бесплатное обучение
•
Coursera, edX, Udemy
фото
фото
Coursera:
• Первые 2 курса из Стэнфорда в 2012
• 80 университетов, 400 курсов
• 200,000 студентов на курсе
• 4.5млн обучаемых
Высшая школа экономики, Москва, 2013
фото
31. st
Century
The
Sexiest
Job
of
the
21
McKinsey оценивает
нехватку в
140,000-190,000
специалистов к 2018г
Высшая школа экономики, Москва, 2013
32. Контакты
• Леонид
Жуков,
Ph.D
• Профессор,
Отделение
Прикладной
Математики
и
Информатики,
Высшая
Школа
Экономики
(НИУ-‐ВШЭ)
• Director
Data
Science,
Ancestry.com
• lzhukov@hse.ru
• www.leonidzhukov.ru