2015 06-16 круглый стол компетенции по большим данным
1. Большие данные
Что у нас есть?
Павловский Е.Н.
директор по развитию ООО "Экспасофт"
2. План
1. Определение феномена БД
2. Значение БД для разных отраслей
3. Субъекты подготовки специалистов (=центры компетенций) по БД
4. Проблемы в области БД
5. Направления развития
6. Образовательный задел НСО
3. Большие данные – это не только
данные
• Технологии получения, хранения, обработки, удаления данных
• Методы обработки и представления данных
• Проблема нехватки ресурсов для обработки
• Социальный феномен (качественный переход)
• Данные большого объёма, разнообразия, темпа роста,
• Большой потенциальной ценности
4. 4V
• Volume - объём данных
• Velocity - скорость создания и обработки
данных
• Variety - разнообразие источников и форм
хранения данных
• Value - ценность
5. "Большие данные – это новая нефть"
(Clifford Lynch, Nature, 2008)
• ЦОДы – это ресурсы:
• сбор данных, технологии хранения, облачные хостинги и т.п.
• Технологии "глубокой переработки":
• Сами по себе данные не очень ценны, ценны закономерности
• Известные примеры применения (доказанная польза):
• Влияние покупок пива на продажи памперсов
• Рекомендованные покупки
• Бизнес на кредитах людям с плохой кредитной историей
• И т.п.
7. Восстановление данных фракционного
состава добываемой смеси
Данные:
• 3 исходных параметра ($10k)
• 3 целевых параметра ($200k)
• 5 участков данных
• Частота измерений – раз в минуту
• Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
10. Изменение парадигм
• Объектом деятельности является не программа и код, а гипотезы и данные
• Больше источников – выше достоверность
• Больше данных – выше точность
• Больше данных – ниже требования к качеству данных
• Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)
• Неперемещаемость данных => параллелизм и вычисления по месту хранения
• Отказ от структурированности => технологии извлечения информации и знаний
12. Субъекты подготовки специалистов
• НГУ: ФИТ, ФФ, ММФ, ФЕН; НГТУ: АВТФ; СибГУТИ
• ИЦиГ (биоинформатика), ИВТ (вычисления), ИВМиМГ, ИСИ, ИАЭ
• ИТ-компании: отдельные курсы или магистерские программы
• ИТ-компании создающие технологии обработки данных
• НСО-ГАУ "Центр" – межвузовская магистратура
• ГАУ "АРИС" – поддержка ИТ-кластера
• Специалисты
13. Орг-формы
ИППК или ЦДО НГУ
ГАУ «Центр» - межвуз. маг.
КА Сухорукова
Компетенции
ЦЕРН
Нейросети
ФЭЧ
ИЯФ
Спутники
Нейросети
Военка
ИАЭ
FRiS, оптим. алг,
онтологии,
логика
Распознавание
ИМ
Банки данных
CUDA, DNA
Биоинформатика
ИЦиГ, УНИПРО,
НПС
Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦ
Информатика
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
Безопасность
Безопасность
СИБ
Инициативы
Магистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
Хранение
Кардиология,
Радиология
НИИПК
?
Хранение
Медицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность,
медицина,
финансы, сервера
Экспасофт
Приборы
?
Унискан,
ТИОН
Игры
Slpunk
Игры
Alawar
МТС
Транзакции
Таргетинг
Eyeline
Банки
Транзакции
Финансы
ЦФТ
?
Вычисления,
хранение
ИЦКТ
Потребители
?
Обработка,
образование
Медицина,
биология,
физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast
14. Проблемы в области Больших данных
• Нет культуры обезличивания и передачи данных (ФЗ-152)
• Нет понимания возможной пользы от анализа данных
• Недостаточные компетенции в статистике
• "Мы закончили НГУ, сами разберёмся в теме"
• Отсутствие брокеров данных
• Проекты по анализу данных имеют высокий риск
• Недостаточно данных
15. Направления развития Больших
данных в Новосибирске
• На базе исследовательского потенциала:
• Обработка биологических, ФЭЧ, спутниковых данных
• Новые алгоритмы анализа больших данных
• На базе технологических компаний:
• Предоставление вычислительных ресурсов
• Предоставление услуг по анализу
• Услуги по хранению
• На базе доступа к данным
• Исследования в телекоммуникациях, приборостроении, госбезопасности,
банковском секторе
16. •самая широкая аудитория (школьники, разработчики, бакалавры)
•средство привлечения из онлайн в офлайнОнлайн-курсы
•вовлекаем в мобильность
•Готовим для индустрии и для науки
Магистратура
(10-20 чел/год)
•укрепление научных школ
Аспирантура
(5-10 чел/год)
•Повышение квалификации в области обработки больших данных
Дополнительное образование
(20 – 100 чел/год)
Кадровое обеспечение
(мощность в 2016)
17. Образовательный задел
• Магистерская программа "Big Data Analytics" (проект 5-100 НГУ, грант Потанина)
• Курсы повышения квалификации (Экспасофт в сотрудничестве)
• Первый в России онлайн видео-курс на Интуите http://bit.ly/IntuitBDA
• Сертифицированные курсы по CUDA
• Биоинформатика
19. Прикладные области
• Биоинформатика
• Исследование экспрессии генов
• Приборостроение
• Построение новых приборов на основе выявленных закономерностей (по
сердцебиению данные о здоровье, о диете)
• Телекоммуникации
• Новые услуги, таргетинг
• Персонализированная медицина
• Персонализированные рекомендации
20. Литература
• National Research Council. Dec, 2013. Frontiers in Massive Data Analysis.
Washington, D.C.: The National Academies Press.
Notas do Editor
Что такое аналитика больших данных? Вы уже наверняка знаете основные характеристики больших данных: объём, скорость и разнообразие. Кто-то приводит ещё: ценность, виртуализацию, верификацию и пр. Всё это также относится к большим данным. К ним в ближайшее время будет относиться практически всё. И это не шутка. Технологии позволяют хранить огромные объёмы (Петабайты) на всё меньшем кусочке пространства. Это и развитие сенсоров приводит к тому, что падают затраты на сбор данных.
Однако возникают затраты на хранение. При условии высоких скоростей генерирования данных, например, сообщений вКонтакте или других соц.сетях, проблема сохранения и обработки на лету тоже становится заметной. С годами компании понимают, что данных уже столько много, что осмысленно поставить вопрос: зачем нам испытывать издержки на их хранение? Появляется мысль о рациональном использовании сохранённых данных: давайте не будем их выбрасывать, а постараемся извлечь из них пользу. Так мы наблюдаем бум разных технологий хранения и обработки данных. Всё это положительно сказывается на рынке систем хранения данных. И чем они надёжнее, быстрее и эффективнее, тем больше их покупают, тем больше данных собирают, тем больше растёт потребность в сборе ещё каких-нибудь данных.
Однако, большой объём данных отнюдь не означать и большую их ценность. Эта зависимость не линейная. Даже если обратиться к собственному опыту – давно ли Вы просматривали свои тысячи фотографий, отснятых за последний год? С ростом объёмов видимая ценность на байт данных падает. Возникает очень много дублей, записей и перезаписей. Всё это приводит к падению качества исходного материала. И это при росте технических качественных характеристик записывающих устройств. Здесь мы сталкиваемся не только с возможностями, которые нам открывают большие данные, но и с проблемой качества исходных данных.
Вот мы и приходим к основным драйверам этого рынка:
увеличение потоков информации;
удешевление систем хранения на единицу информации;
усовершенствование технологий обработки информации.
There are 6 phases in the Data Analytics Lifecycle. Work on a project can be done in several phases at once. Movement from any phase to another and back again to previous phases occurs throughout the Lifecycle. The question callouts represent questions to ask yourself to gauge whether you have enough information and have made enough progress to move to the next phase of the process.
Translate the results into a language that speaks to the audience that engaged you for the work.
The Data Analytics Lifecycle shown portrays a best practices approach for an end-to-end analytics process from discovery to project completion. Also steps to improve the process, drawn from established methods in the realm of data analytics and decision science. This synthesis was created after consulting established approaches that provided inputs on pieces of the process, or provided similar types of concepts with differing terminology. Several of the processes that were consulted include the following:
Scientific Method, which, although it has been around for centuries, still provides a solid framework for thinking about and deconstructing problems into their principle parts.
CRISP-DM provides some useful inputs on ways of considering analytic problems
Tom Davenport’s DELTA framework from his text “Analytics at Work”,
Doug Hubbard’s Applied Information Economics (AIE) approach from his work “How to Measure Anything”.
“MAD Skills: New Analysis Practices for Big Data” provided inputs for several of the techniques mentioned specifically in Phases 3-5 that focus on model planning, execution and key findings.
Students are encouraged to consult these texts for further reading on these subjects and additional examples.
<Continued>