2015 06-16 круглый стол компетенции по большим данным

Большие данные
Что у нас есть?
Павловский Е.Н.
директор по развитию ООО "Экспасофт"

План
1. Определение феномена БД
2. Значение БД для разных отраслей
3. Субъекты подготовки специалистов (=центры компетенций) по БД
4. Проблемы в области БД
5. Направления развития
6. Образовательный задел НСО

Большие данные – это не только
данные
• Технологии получения, хранения, обработки, удаления данных
• Методы обработки и представления данных
• Проблема нехватки ресурсов для обработки
• Социальный феномен (качественный переход)
• Данные большого объёма, разнообразия, темпа роста,
• Большой потенциальной ценности

4V
• Volume - объём данных
• Velocity - скорость создания и обработки
данных
• Variety - разнообразие источников и форм
хранения данных
• Value - ценность

"Большие данные – это новая нефть"
(Clifford Lynch, Nature, 2008)
• ЦОДы – это ресурсы:
• сбор данных, технологии хранения, облачные хостинги и т.п.
• Технологии "глубокой переработки":
• Сами по себе данные не очень ценны, ценны закономерности
• Известные примеры применения (доказанная польза):
• Влияние покупок пива на продажи памперсов
• Рекомендованные покупки
• Бизнес на кредитах людям с плохой кредитной историей
• И т.п.

Трисоставляющихуспехав "нефтянойотрасли"
ЦОДы
Кейсы
применения
Технологии
обработки

Восстановление данных фракционного
состава добываемой смеси
Данные:
• 3 исходных параметра ($10k)
• 3 целевых параметра ($200k)
• 5 участков данных
• Частота измерений – раз в минуту
• Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм

ПримерAmazon
Онлайн-магазин книг
Дополнительные
продажи
Рекомендация
покупки

Персонализированныйпрогнозуровнясахаравкровинаосновемашинногообучения
Табаков К.А., Экспасофт, бакалавр
0
20
40
60
80
100
120
140
160
180
1
5
9
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
101
105
109
113
117
121
125
129
Предсказаные значения
Реальные значения

Изменение парадигм
• Объектом деятельности является не программа и код, а гипотезы и данные
• Больше источников – выше достоверность
• Больше данных – выше точность
• Больше данных – ниже требования к качеству данных
• Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)
• Неперемещаемость данных => параллелизм и вычисления по месту хранения
• Отказ от структурированности => технологии извлечения информации и знаний

Copyright © 2012 EMC Corporation. All Rights Reserved.
EMC
2
PROVEN PROFESSIONAL
Data Analytics Lifecycle
11
Исследование
Внедрение
Планирование
модели
Подготовка
данных
Построение
модели
Представление
результатов
Do I have enough
information to draft an
analytic plan and share for
peer review?
Do I have
enough good
quality data to
start building
the model?
Do I have a good idea
about the type of model
to try? Can I refine the
analytic plan?
Is the model robust
enough? Have we
failed for sure?
1
2
3
4
6
5

Субъекты подготовки специалистов
• НГУ: ФИТ, ФФ, ММФ, ФЕН; НГТУ: АВТФ; СибГУТИ
• ИЦиГ (биоинформатика), ИВТ (вычисления), ИВМиМГ, ИСИ, ИАЭ
• ИТ-компании: отдельные курсы или магистерские программы
• ИТ-компании создающие технологии обработки данных
• НСО-ГАУ "Центр" – межвузовская магистратура
• ГАУ "АРИС" – поддержка ИТ-кластера
• Специалисты

Орг-формы
ИППК или ЦДО НГУ
ГАУ «Центр» - межвуз. маг.
КА Сухорукова
Компетенции
ЦЕРН
Нейросети
ФЭЧ
ИЯФ
Спутники
Нейросети
Военка
ИАЭ
FRiS, оптим. алг,
онтологии,
логика
Распознавание
ИМ
Банки данных
CUDA, DNA
Биоинформатика
ИЦиГ, УНИПРО,
НПС
Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦ
Информатика
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
СИБ
Инициативы
Магистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
Хранение
Кардиология,
Радиология
НИИПК
?
Хранение
Медицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность,
медицина,
финансы, сервера
Экспасофт
Приборы
?
Унискан,
ТИОН
Игры
Slpunk
Игры
Alawar
МТС
Транзакции
Таргетинг
Eyeline
Банки
Транзакции
Финансы
ЦФТ
?
Вычисления,
хранение
ИЦКТ
Потребители
?
Обработка,
образование
Медицина,
биология,
физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast

Проблемы в области Больших данных
• Нет культуры обезличивания и передачи данных (ФЗ-152)
• Нет понимания возможной пользы от анализа данных
• Недостаточные компетенции в статистике
• "Мы закончили НГУ, сами разберёмся в теме"
• Отсутствие брокеров данных
• Проекты по анализу данных имеют высокий риск
• Недостаточно данных

Направления развития Больших
данных в Новосибирске
• На базе исследовательского потенциала:
• Обработка биологических, ФЭЧ, спутниковых данных
• Новые алгоритмы анализа больших данных
• На базе технологических компаний:
• Предоставление вычислительных ресурсов
• Предоставление услуг по анализу
• Услуги по хранению
• На базе доступа к данным
• Исследования в телекоммуникациях, приборостроении, госбезопасности,
банковском секторе

•самая широкая аудитория (школьники, разработчики, бакалавры)
•средство привлечения из онлайн в офлайнОнлайн-курсы
•вовлекаем в мобильность
•Готовим для индустрии и для науки
Магистратура
(10-20 чел/год)
•укрепление научных школ
Аспирантура
(5-10 чел/год)
•Повышение квалификации в области обработки больших данных
Дополнительное образование
(20 – 100 чел/год)
Кадровое обеспечение
(мощность в 2016)

Образовательный задел
• Магистерская программа "Big Data Analytics" (проект 5-100 НГУ, грант Потанина)
• Курсы повышения квалификации (Экспасофт в сотрудничестве)
• Первый в России онлайн видео-курс на Интуите http://bit.ly/IntuitBDA
• Сертифицированные курсы по CUDA
• Биоинформатика

Master program in Data science

Прикладные области
• Биоинформатика
• Исследование экспрессии генов
• Приборостроение
• Построение новых приборов на основе выявленных закономерностей (по
сердцебиению данные о здоровье, о диете)
• Телекоммуникации
• Новые услуги, таргетинг
• Персонализированная медицина
• Персонализированные рекомендации

Литература
• National Research Council. Dec, 2013. Frontiers in Massive Data Analysis.
Washington, D.C.: The National Academies Press.

2015 06-16 круглый стол компетенции по большим данным

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Semelhante a 2015 06-16 круглый стол компетенции по большим данным

Semelhante a 2015 06-16 круглый стол компетенции по большим данным (20)

Mais de Evgeniy Pavlovskiy

Mais de Evgeniy Pavlovskiy (6)

2015 06-16 круглый стол компетенции по большим данным

Notas do Editor