SlideShare uma empresa Scribd logo
1 de 20
Большие данные
Что у нас есть?
Павловский Е.Н.
директор по развитию ООО "Экспасофт"
План
1. Определение феномена БД
2. Значение БД для разных отраслей
3. Субъекты подготовки специалистов (=центры компетенций) по БД
4. Проблемы в области БД
5. Направления развития
6. Образовательный задел НСО
Большие данные – это не только
данные
• Технологии получения, хранения, обработки, удаления данных
• Методы обработки и представления данных
• Проблема нехватки ресурсов для обработки
• Социальный феномен (качественный переход)
• Данные большого объёма, разнообразия, темпа роста,
• Большой потенциальной ценности
4V
• Volume - объём данных
• Velocity - скорость создания и обработки
данных
• Variety - разнообразие источников и форм
хранения данных
• Value - ценность
"Большие данные – это новая нефть"
(Clifford Lynch, Nature, 2008)
• ЦОДы – это ресурсы:
• сбор данных, технологии хранения, облачные хостинги и т.п.
• Технологии "глубокой переработки":
• Сами по себе данные не очень ценны, ценны закономерности
• Известные примеры применения (доказанная польза):
• Влияние покупок пива на продажи памперсов
• Рекомендованные покупки
• Бизнес на кредитах людям с плохой кредитной историей
• И т.п.
Трисоставляющихуспехав "нефтянойотрасли"
ЦОДы
Кейсы
применения
Технологии
обработки
Восстановление данных фракционного
состава добываемой смеси
Данные:
• 3 исходных параметра ($10k)
• 3 целевых параметра ($200k)
• 5 участков данных
• Частота измерений – раз в минуту
• Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
ПримерAmazon
Онлайн-магазин книг
Дополнительные
продажи
Рекомендация
покупки
Персонализированныйпрогнозуровнясахаравкровинаосновемашинногообучения
Табаков К.А., Экспасофт, бакалавр
0
20
40
60
80
100
120
140
160
180
1
5
9
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
101
105
109
113
117
121
125
129
Предсказаные значения
Реальные значения
Изменение парадигм
• Объектом деятельности является не программа и код, а гипотезы и данные
• Больше источников – выше достоверность
• Больше данных – выше точность
• Больше данных – ниже требования к качеству данных
• Высокие требования к быстродействию алгоритмов O(N) или O(NlogN)
• Неперемещаемость данных => параллелизм и вычисления по месту хранения
• Отказ от структурированности => технологии извлечения информации и знаний
Copyright © 2012 EMC Corporation. All Rights Reserved.
EMC
2
PROVEN PROFESSIONAL
Data Analytics Lifecycle
11
Исследование
Внедрение
Планирование
модели
Подготовка
данных
Построение
модели
Представление
результатов
Do I have enough
information to draft an
analytic plan and share for
peer review?
Do I have
enough good
quality data to
start building
the model?
Do I have a good idea
about the type of model
to try? Can I refine the
analytic plan?
Is the model robust
enough? Have we
failed for sure?
1
2
3
4
6
5
Субъекты подготовки специалистов
• НГУ: ФИТ, ФФ, ММФ, ФЕН; НГТУ: АВТФ; СибГУТИ
• ИЦиГ (биоинформатика), ИВТ (вычисления), ИВМиМГ, ИСИ, ИАЭ
• ИТ-компании: отдельные курсы или магистерские программы
• ИТ-компании создающие технологии обработки данных
• НСО-ГАУ "Центр" – межвузовская магистратура
• ГАУ "АРИС" – поддержка ИТ-кластера
• Специалисты
Орг-формы
ИППК или ЦДО НГУ
ГАУ «Центр» - межвуз. маг.
КА Сухорукова
Компетенции
ЦЕРН
Нейросети
ФЭЧ
ИЯФ
Спутники
Нейросети
Военка
ИАЭ
FRiS, оптим. алг,
онтологии,
логика
Распознавание
ИМ
Банки данных
CUDA, DNA
Биоинформатика
ИЦиГ, УНИПРО,
НПС
Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦ
Информатика
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
Безопасность
Безопасность
СИБ
Инициативы
Магистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
Хранение
Кардиология,
Радиология
НИИПК
?
Хранение
Медицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность,
медицина,
финансы, сервера
Экспасофт
Приборы
?
Унискан,
ТИОН
Игры
Slpunk
Игры
Alawar
МТС
Транзакции
Таргетинг
Eyeline
Банки
Транзакции
Финансы
ЦФТ
?
Вычисления,
хранение
ИЦКТ
Потребители
?
Обработка,
образование
Медицина,
биология,
физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast
Проблемы в области Больших данных
• Нет культуры обезличивания и передачи данных (ФЗ-152)
• Нет понимания возможной пользы от анализа данных
• Недостаточные компетенции в статистике
• "Мы закончили НГУ, сами разберёмся в теме"
• Отсутствие брокеров данных
• Проекты по анализу данных имеют высокий риск
• Недостаточно данных
Направления развития Больших
данных в Новосибирске
• На базе исследовательского потенциала:
• Обработка биологических, ФЭЧ, спутниковых данных
• Новые алгоритмы анализа больших данных
• На базе технологических компаний:
• Предоставление вычислительных ресурсов
• Предоставление услуг по анализу
• Услуги по хранению
• На базе доступа к данным
• Исследования в телекоммуникациях, приборостроении, госбезопасности,
банковском секторе
•самая широкая аудитория (школьники, разработчики, бакалавры)
•средство привлечения из онлайн в офлайнОнлайн-курсы
•вовлекаем в мобильность
•Готовим для индустрии и для науки
Магистратура
(10-20 чел/год)
•укрепление научных школ
Аспирантура
(5-10 чел/год)
•Повышение квалификации в области обработки больших данных
Дополнительное образование
(20 – 100 чел/год)
Кадровое обеспечение
(мощность в 2016)
Образовательный задел
• Магистерская программа "Big Data Analytics" (проект 5-100 НГУ, грант Потанина)
• Курсы повышения квалификации (Экспасофт в сотрудничестве)
• Первый в России онлайн видео-курс на Интуите http://bit.ly/IntuitBDA
• Сертифицированные курсы по CUDA
• Биоинформатика
Master program in Data science
Прикладные области
• Биоинформатика
• Исследование экспрессии генов
• Приборостроение
• Построение новых приборов на основе выявленных закономерностей (по
сердцебиению данные о здоровье, о диете)
• Телекоммуникации
• Новые услуги, таргетинг
• Персонализированная медицина
• Персонализированные рекомендации
Литература
• National Research Council. Dec, 2013. Frontiers in Massive Data Analysis.
Washington, D.C.: The National Academies Press.

Mais conteúdo relacionado

Destaque

It meet up 1 0 лебедева, лоханов
It meet up 1 0 лебедева, лохановIt meet up 1 0 лебедева, лоханов
It meet up 1 0 лебедева, лохановVictoria Astapenko
 
Интернет-проект. Откуда берутся и куда деваются деньги.
Интернет-проект. Откуда берутся и куда деваются деньги.Интернет-проект. Откуда берутся и куда деваются деньги.
Интернет-проект. Откуда берутся и куда деваются деньги.Yury Shilyaev
 
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...bigdatabm
 
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...bigdatabm
 
Управление проектами в Cactussoft
Управление проектами в CactussoftУправление проектами в Cactussoft
Управление проектами в CactussoftAnna Barzakovskaya
 
внедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAMвнедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAMZaur Abutalimov
 
Ольга Зигмантович "New-York: инструкция для путешественника"
Ольга Зигмантович "New-York: инструкция для путешественника"Ольга Зигмантович "New-York: инструкция для путешественника"
Ольга Зигмантович "New-York: инструкция для путешественника"EPAM Systems
 
2015 голограмма коллектива
2015 голограмма коллектива 2015 голограмма коллектива
2015 голограмма коллектива Evgeniy Pavlovskiy
 
основные направления деятельности АО KAZNEX INVEST
основные направления деятельности АО KAZNEX INVESTосновные направления деятельности АО KAZNEX INVEST
основные направления деятельности АО KAZNEX INVESTБакытжан Рахимов
 
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...bigdatabm
 
Данил Снитко - Креативное агентство, работающее в кайф | HappyDev'12
Данил Снитко - Креативное агентство, работающее в кайф | HappyDev'12Данил Снитко - Креативное агентство, работающее в кайф | HappyDev'12
Данил Снитко - Креативное агентство, работающее в кайф | HappyDev'12HappyDev
 
New Level in Management Skills: How to Reach it?
New Level in Management Skills: How to Reach it? New Level in Management Skills: How to Reach it?
New Level in Management Skills: How to Reach it? Alexander Abolmasov
 
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...Yandex
 
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...bigdatabm
 
Ключ к венчурному финансированию
Ключ к венчурному финансированиюКлюч к венчурному финансированию
Ключ к венчурному финансированиюPwC Russia
 
Четвертая волна менеджмента
Четвертая волна менеджмента Четвертая волна менеджмента
Четвертая волна менеджмента Alexander Abolmasov
 

Destaque (20)

It meet up 1 0 лебедева, лоханов
It meet up 1 0 лебедева, лохановIt meet up 1 0 лебедева, лоханов
It meet up 1 0 лебедева, лоханов
 
Доступность банковских телефонных служб
Доступность банковских телефонных службДоступность банковских телефонных служб
Доступность банковских телефонных служб
 
Nanovision март 2014
Nanovision март 2014Nanovision март 2014
Nanovision март 2014
 
Интернет-проект. Откуда берутся и куда деваются деньги.
Интернет-проект. Откуда берутся и куда деваются деньги.Интернет-проект. Откуда берутся и куда деваются деньги.
Интернет-проект. Откуда берутся и куда деваются деньги.
 
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
 
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
 
Управление проектами в Cactussoft
Управление проектами в CactussoftУправление проектами в Cactussoft
Управление проектами в Cactussoft
 
внедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAMвнедрение облачных решений HP в компании EPAM
внедрение облачных решений HP в компании EPAM
 
Ольга Зигмантович "New-York: инструкция для путешественника"
Ольга Зигмантович "New-York: инструкция для путешественника"Ольга Зигмантович "New-York: инструкция для путешественника"
Ольга Зигмантович "New-York: инструкция для путешественника"
 
2015 голограмма коллектива
2015 голограмма коллектива 2015 голограмма коллектива
2015 голограмма коллектива
 
трудные люди
трудные людитрудные люди
трудные люди
 
основные направления деятельности АО KAZNEX INVEST
основные направления деятельности АО KAZNEX INVESTосновные направления деятельности АО KAZNEX INVEST
основные направления деятельности АО KAZNEX INVEST
 
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
 
Данил Снитко - Креативное агентство, работающее в кайф | HappyDev'12
Данил Снитко - Креативное агентство, работающее в кайф | HappyDev'12Данил Снитко - Креативное агентство, работающее в кайф | HappyDev'12
Данил Снитко - Креативное агентство, работающее в кайф | HappyDev'12
 
New Level in Management Skills: How to Reach it?
New Level in Management Skills: How to Reach it? New Level in Management Skills: How to Reach it?
New Level in Management Skills: How to Reach it?
 
Roadshow results it cluster 15 11 2011
Roadshow results it cluster 15 11 2011Roadshow results it cluster 15 11 2011
Roadshow results it cluster 15 11 2011
 
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
Максим Никитин - Умные молекулы: от игры в крестики-нолики до адресной достав...
 
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
Пятницкий М.А. Подбор персонализированной противоопухолевой терапии путем сис...
 
Ключ к венчурному финансированию
Ключ к венчурному финансированиюКлюч к венчурному финансированию
Ключ к венчурному финансированию
 
Четвертая волна менеджмента
Четвертая волна менеджмента Четвертая волна менеджмента
Четвертая волна менеджмента
 

Semelhante a 2015 06-16 круглый стол компетенции по большим данным

Искусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесеИскусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесеExpasoft
 
Подготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспектыПодготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспектыEvgeniy Pavlovskiy
 
!Predictive analyticbasics part1
!Predictive analyticbasics part1!Predictive analyticbasics part1
!Predictive analyticbasics part1Vladimir Krylov
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Evgeniy Pavlovskiy
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceSQALab
 
ДЗ-МиОНИ-Talo.pptx
ДЗ-МиОНИ-Talo.pptxДЗ-МиОНИ-Talo.pptx
ДЗ-МиОНИ-Talo.pptxCNSHacking
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data ScientistLeonid Zhukov
 
Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)Ivan Selikhovkin
 
брошюра сколково кластер ит
брошюра сколково кластер итброшюра сколково кластер ит
брошюра сколково кластер итThe Skolkovo Foundation
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТVasily Ryzhonkov
 
зао «эвентос»
зао «эвентос»зао «эвентос»
зао «эвентос»ontosminerapi
 
нил тбд нтс_10-13
нил тбд нтс_10-13нил тбд нтс_10-13
нил тбд нтс_10-13Vladimir Krylov
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovIlya Gershanov
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхСергей Макрушин
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхSergey Makrushin
 
Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)Maxim Skryabin
 
Мониторинг рынка труда IT-специалистов 2016 от Яндекс
Мониторинг рынка труда IT-специалистов  2016 от ЯндексМониторинг рынка труда IT-специалистов  2016 от Яндекс
Мониторинг рынка труда IT-специалистов 2016 от Яндексjido111222
 
Исследование защищенности ИС
Исследование защищенности ИСИсследование защищенности ИС
Исследование защищенности ИСAlexey Kachalin
 

Semelhante a 2015 06-16 круглый стол компетенции по большим данным (20)

Искусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесеИскусственный интеллект и Big Data в бизнесе
Искусственный интеллект и Big Data в бизнесе
 
Подготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспектыПодготовка специалистов по анализу больших данных: все аспекты
Подготовка специалистов по анализу больших данных: все аспекты
 
!Predictive analyticbasics part1
!Predictive analyticbasics part1!Predictive analyticbasics part1
!Predictive analyticbasics part1
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data science
 
ДЗ-МиОНИ-Talo.pptx
ДЗ-МиОНИ-Talo.pptxДЗ-МиОНИ-Talo.pptx
ДЗ-МиОНИ-Talo.pptx
 
Профессия Data Scientist
 Профессия Data Scientist Профессия Data Scientist
Профессия Data Scientist
 
Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)Выступление на Life sciences invest (без звука)
Выступление на Life sciences invest (без звука)
 
брошюра сколково кластер ит
брошюра сколково кластер итброшюра сколково кластер ит
брошюра сколково кластер ит
 
Сколково. Кластер ИТ
Сколково. Кластер ИТСколково. Кластер ИТ
Сколково. Кластер ИТ
 
Умник
УмникУмник
Умник
 
зао «эвентос»
зао «эвентос»зао «эвентос»
зао «эвентос»
 
нил тбд нтс_10-13
нил тбд нтс_10-13нил тбд нтс_10-13
нил тбд нтс_10-13
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
03_Сагайда
03_Сагайда03_Сагайда
03_Сагайда
 
Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)
 
Мониторинг рынка труда IT-специалистов 2016 от Яндекс
Мониторинг рынка труда IT-специалистов  2016 от ЯндексМониторинг рынка труда IT-специалистов  2016 от Яндекс
Мониторинг рынка труда IT-специалистов 2016 от Яндекс
 
Исследование защищенности ИС
Исследование защищенности ИСИсследование защищенности ИС
Исследование защищенности ИС
 

Mais de Evgeniy Pavlovskiy

Применение Big Data в маркетинге
Применение Big Data в маркетингеПрименение Big Data в маркетинге
Применение Big Data в маркетингеEvgeniy Pavlovskiy
 
2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...
2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...
2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...Evgeniy Pavlovskiy
 
Total science slam 2016: Е.Павловский, "Кого мы учим?"
Total science slam  2016: Е.Павловский, "Кого мы учим?"Total science slam  2016: Е.Павловский, "Кого мы учим?"
Total science slam 2016: Е.Павловский, "Кого мы учим?"Evgeniy Pavlovskiy
 
2015 11-24 ключник больших данных
2015 11-24 ключник больших данных2015 11-24 ключник больших данных
2015 11-24 ключник больших данныхEvgeniy Pavlovskiy
 
2015 05-14 Проблемы российских классификаторов, справочников, банков знаний
2015 05-14 Проблемы российских классификаторов, справочников, банков знаний2015 05-14 Проблемы российских классификаторов, справочников, банков знаний
2015 05-14 Проблемы российских классификаторов, справочников, банков знанийEvgeniy Pavlovskiy
 

Mais de Evgeniy Pavlovskiy (6)

Применение Big Data в маркетинге
Применение Big Data в маркетингеПрименение Big Data в маркетинге
Применение Big Data в маркетинге
 
2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...
2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...
2016 06-10 Опыт кластерных и междисциплинарных проектов с искусственным интел...
 
Total science slam 2016: Е.Павловский, "Кого мы учим?"
Total science slam  2016: Е.Павловский, "Кого мы учим?"Total science slam  2016: Е.Павловский, "Кого мы учим?"
Total science slam 2016: Е.Павловский, "Кого мы учим?"
 
2015 11-24 ключник больших данных
2015 11-24 ключник больших данных2015 11-24 ключник больших данных
2015 11-24 ключник больших данных
 
2015 05-14 Проблемы российских классификаторов, справочников, банков знаний
2015 05-14 Проблемы российских классификаторов, справочников, банков знаний2015 05-14 Проблемы российских классификаторов, справочников, банков знаний
2015 05-14 Проблемы российских классификаторов, справочников, банков знаний
 
What is big data
What is big dataWhat is big data
What is big data
 

2015 06-16 круглый стол компетенции по большим данным

  • 1. Большие данные Что у нас есть? Павловский Е.Н. директор по развитию ООО "Экспасофт"
  • 2. План 1. Определение феномена БД 2. Значение БД для разных отраслей 3. Субъекты подготовки специалистов (=центры компетенций) по БД 4. Проблемы в области БД 5. Направления развития 6. Образовательный задел НСО
  • 3. Большие данные – это не только данные • Технологии получения, хранения, обработки, удаления данных • Методы обработки и представления данных • Проблема нехватки ресурсов для обработки • Социальный феномен (качественный переход) • Данные большого объёма, разнообразия, темпа роста, • Большой потенциальной ценности
  • 4. 4V • Volume - объём данных • Velocity - скорость создания и обработки данных • Variety - разнообразие источников и форм хранения данных • Value - ценность
  • 5. "Большие данные – это новая нефть" (Clifford Lynch, Nature, 2008) • ЦОДы – это ресурсы: • сбор данных, технологии хранения, облачные хостинги и т.п. • Технологии "глубокой переработки": • Сами по себе данные не очень ценны, ценны закономерности • Известные примеры применения (доказанная польза): • Влияние покупок пива на продажи памперсов • Рекомендованные покупки • Бизнес на кредитах людям с плохой кредитной историей • И т.п.
  • 7. Восстановление данных фракционного состава добываемой смеси Данные: • 3 исходных параметра ($10k) • 3 целевых параметра ($200k) • 5 участков данных • Частота измерений – раз в минуту • Всего 66052 измерения 12мм 13мм 11мм 12мм 13мм
  • 9. Персонализированныйпрогнозуровнясахаравкровинаосновемашинногообучения Табаков К.А., Экспасофт, бакалавр 0 20 40 60 80 100 120 140 160 180 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109 113 117 121 125 129 Предсказаные значения Реальные значения
  • 10. Изменение парадигм • Объектом деятельности является не программа и код, а гипотезы и данные • Больше источников – выше достоверность • Больше данных – выше точность • Больше данных – ниже требования к качеству данных • Высокие требования к быстродействию алгоритмов O(N) или O(NlogN) • Неперемещаемость данных => параллелизм и вычисления по месту хранения • Отказ от структурированности => технологии извлечения информации и знаний
  • 11. Copyright © 2012 EMC Corporation. All Rights Reserved. EMC 2 PROVEN PROFESSIONAL Data Analytics Lifecycle 11 Исследование Внедрение Планирование модели Подготовка данных Построение модели Представление результатов Do I have enough information to draft an analytic plan and share for peer review? Do I have enough good quality data to start building the model? Do I have a good idea about the type of model to try? Can I refine the analytic plan? Is the model robust enough? Have we failed for sure? 1 2 3 4 6 5
  • 12. Субъекты подготовки специалистов • НГУ: ФИТ, ФФ, ММФ, ФЕН; НГТУ: АВТФ; СибГУТИ • ИЦиГ (биоинформатика), ИВТ (вычисления), ИВМиМГ, ИСИ, ИАЭ • ИТ-компании: отдельные курсы или магистерские программы • ИТ-компании создающие технологии обработки данных • НСО-ГАУ "Центр" – межвузовская магистратура • ГАУ "АРИС" – поддержка ИТ-кластера • Специалисты
  • 13. Орг-формы ИППК или ЦДО НГУ ГАУ «Центр» - межвуз. маг. КА Сухорукова Компетенции ЦЕРН Нейросети ФЭЧ ИЯФ Спутники Нейросети Военка ИАЭ FRiS, оптим. алг, онтологии, логика Распознавание ИМ Банки данных CUDA, DNA Биоинформатика ИЦиГ, УНИПРО, НПС Архивы Онтологии, логика Информатика ИСИ СО РАН ССКЦ Информатика ИВТ, ИВМиМГ СОРМ Сбор, хранение Безопасность Сигнатек ? Безопасность Безопасность СИБ Инициативы Магистерская программа Аспирантура Краткосрочные курсы СХД 1 Pb Хранение Кардиология, Радиология НИИПК ? Хранение Медицина НИИТО FRiS, оптим. алг, онтологии, логика, управление BDA Безопасность, медицина, финансы, сервера Экспасофт Приборы ? Унискан, ТИОН Игры Slpunk Игры Alawar МТС Транзакции Таргетинг Eyeline Банки Транзакции Финансы ЦФТ ? Вычисления, хранение ИЦКТ Потребители ? Обработка, образование Медицина, биология, физика, ИТ, и др. НГУ Карты Геопространство Карты DataEast
  • 14. Проблемы в области Больших данных • Нет культуры обезличивания и передачи данных (ФЗ-152) • Нет понимания возможной пользы от анализа данных • Недостаточные компетенции в статистике • "Мы закончили НГУ, сами разберёмся в теме" • Отсутствие брокеров данных • Проекты по анализу данных имеют высокий риск • Недостаточно данных
  • 15. Направления развития Больших данных в Новосибирске • На базе исследовательского потенциала: • Обработка биологических, ФЭЧ, спутниковых данных • Новые алгоритмы анализа больших данных • На базе технологических компаний: • Предоставление вычислительных ресурсов • Предоставление услуг по анализу • Услуги по хранению • На базе доступа к данным • Исследования в телекоммуникациях, приборостроении, госбезопасности, банковском секторе
  • 16. •самая широкая аудитория (школьники, разработчики, бакалавры) •средство привлечения из онлайн в офлайнОнлайн-курсы •вовлекаем в мобильность •Готовим для индустрии и для науки Магистратура (10-20 чел/год) •укрепление научных школ Аспирантура (5-10 чел/год) •Повышение квалификации в области обработки больших данных Дополнительное образование (20 – 100 чел/год) Кадровое обеспечение (мощность в 2016)
  • 17. Образовательный задел • Магистерская программа "Big Data Analytics" (проект 5-100 НГУ, грант Потанина) • Курсы повышения квалификации (Экспасофт в сотрудничестве) • Первый в России онлайн видео-курс на Интуите http://bit.ly/IntuitBDA • Сертифицированные курсы по CUDA • Биоинформатика
  • 18. Master program in Data science
  • 19. Прикладные области • Биоинформатика • Исследование экспрессии генов • Приборостроение • Построение новых приборов на основе выявленных закономерностей (по сердцебиению данные о здоровье, о диете) • Телекоммуникации • Новые услуги, таргетинг • Персонализированная медицина • Персонализированные рекомендации
  • 20. Литература • National Research Council. Dec, 2013. Frontiers in Massive Data Analysis. Washington, D.C.: The National Academies Press.

Notas do Editor

  1. Что такое аналитика больших данных? Вы уже наверняка знаете основные характеристики больших данных: объём, скорость и разнообразие. Кто-то приводит ещё: ценность, виртуализацию, верификацию и пр. Всё это также относится к большим данным. К ним в ближайшее время будет относиться практически всё. И это не шутка. Технологии позволяют хранить огромные объёмы (Петабайты) на всё меньшем кусочке пространства. Это и развитие сенсоров приводит к тому, что падают затраты на сбор данных. Однако возникают затраты на хранение. При условии высоких скоростей генерирования данных, например, сообщений вКонтакте или других соц.сетях, проблема сохранения и обработки на лету тоже становится заметной. С годами компании понимают, что данных уже столько много, что осмысленно поставить вопрос: зачем нам испытывать издержки на их хранение? Появляется мысль о рациональном использовании сохранённых данных: давайте не будем их выбрасывать, а постараемся извлечь из них пользу. Так мы наблюдаем бум разных технологий хранения и обработки данных. Всё это положительно сказывается на рынке систем хранения данных. И чем они надёжнее, быстрее и эффективнее, тем больше их покупают, тем больше данных собирают, тем больше растёт потребность в сборе ещё каких-нибудь данных. Однако, большой объём данных отнюдь не означать и большую их ценность. Эта зависимость не линейная. Даже если обратиться к собственному опыту – давно ли Вы просматривали свои тысячи фотографий, отснятых за последний год? С ростом объёмов видимая ценность на байт данных падает. Возникает очень много дублей, записей и перезаписей. Всё это приводит к падению качества исходного материала. И это при росте технических качественных характеристик записывающих устройств. Здесь мы сталкиваемся не только с возможностями, которые нам открывают большие данные, но и с проблемой качества исходных данных. Вот мы и приходим к основным драйверам этого рынка: увеличение потоков информации; удешевление систем хранения на единицу информации; усовершенствование технологий обработки информации.
  2. There are 6 phases in the Data Analytics Lifecycle. Work on a project can be done in several phases at once. Movement from any phase to another and back again to previous phases occurs throughout the Lifecycle. The question callouts represent questions to ask yourself to gauge whether you have enough information and have made enough progress to move to the next phase of the process. Translate the results into a language that speaks to the audience that engaged you for the work. The Data Analytics Lifecycle shown portrays a best practices approach for an end-to-end analytics process from discovery to project completion. Also steps to improve the process, drawn from established methods in the realm of data analytics and decision science. This synthesis was created after consulting established approaches that provided inputs on pieces of the process, or provided similar types of concepts with differing terminology. Several of the processes that were consulted include the following: Scientific Method, which, although it has been around for centuries, still provides a solid framework for thinking about and deconstructing problems into their principle parts. CRISP-DM provides some useful inputs on ways of considering analytic problems Tom Davenport’s DELTA framework from his text “Analytics at Work”, Doug Hubbard’s Applied Information Economics (AIE) approach from his work “How to Measure Anything”. “MAD Skills: New Analysis Practices for Big Data” provided inputs for several of the techniques mentioned specifically in Phases 3-5 that focus on model planning, execution and key findings. Students are encouraged to consult these texts for further reading on these subjects and additional examples. <Continued>