3. e-Science
Наука организуется вокруг данных
Крупные проекты по сбору и диссеминации данных
LHC Grid: 50+ стран, 200+ институтов
Open Grid, Virtual Observatory, GEON Grid, PDB...
Sunday, April 24, 2011
5. Лавина данных
Раньше bottleneck был в получении данных
Сенсорные технологии перевернули картину
Сейчас bottleneck = анализ полученных данных
Sunday, April 24, 2011
6. Лавина данных
Физика высоких энергий - LHC: 15 Pb/год
Астрономия - LSST: 6 Pb/год
Астрономия - ЛИРА: 200-300 Tb
Науки о земле: сотни Tb (например LIDAR)
Геномика: сотни Tb с секвенсеров
Sunday, April 24, 2011
8. Сложные сенсоры
На примере астрономии
Как было раньше
ПЗС матрица
ЛИРА
Sunday, April 24, 2011
9. Хранение и обработка данных
Надо хранить самые сырые данные
Процедура извлечения научных данных должна
быть прозрачной и повторимой
Sunday, April 24, 2011
10. Анализ
Анализ численных рядов
Поиски в окрестностях точек
N^2 и N^3 алгоритмы
ковариация, PCA, SVD
Sunday, April 24, 2011
11. Современные СУБД
Реляционная модель или noSQL
Плохо масштабируются
High Availability - сложно дается
Закрытый код, дорогие лицензии
Почти ни один крупный проект не использует СУБД
Sunday, April 24, 2011
12. Кто как хранит
данные в файлах, немного метаданных в СУБД
LHC
сырые в файлах, вторичные в СУБД
PanSTARRS, LSST
доморощенные системы
Yahoo, Google, Amazon, и другие
Все в СУБД
Wallmart, eBay, SDSS
Sunday, April 24, 2011
14. SciDB
Проект стартовал в 2008 г
Основатели проета:
Stonebraket, DeWitt, Becla и др.
Международная комманда, 5 российских
разработчиков
Sunday, April 24, 2011
15. Mike Stonebraker
Ingres
Postgres
Illustra
Cohera
Vertica
VoltDB
Sunday, April 24, 2011
16. Цели SciDB
“OLAP” для науки
Система с открытым кодом
Качество коммерческих продуктов
Масштабируемость до петабайт
Sunday, April 24, 2011
17. Большая цель
Сырые данные
SciDB
Хранение, обработка,
анализ
Воспроизводимые
научные результаты
Sunday, April 24, 2011
18. Модель данных SciDB
i
j A : int B : float C : float D : nested
Sunday, April 24, 2011
20. Хранение
Чанк как единица хранения и обработки
Чанки большие - десятки-сотни мегабайт
Иногда подразделяются на подчанки для cpu cache
(мегабайты)
Sunday, April 24, 2011
21. Транзакционность
Научные данные не меняются
Изменения только как новая версия
Навигация между версиями
Sunday, April 24, 2011
22. Транзакционность
Eventually consistent
COW и Delta
Избегаем большого количества замков, лога,
управления буфферами
Избегаем накладных расходов современных СУБД
latching, locking, logging, buffer management
Sunday, April 24, 2011
23. Анализ данных
AQL и AFL
AFL: filter( subsample(A, 10, 100), x > 0.5 )
Специфические операторы: subsample, regrid
Sunday, April 24, 2011
29. Параллелизм в SciDB
Оптимизатор запроса расчитывает хватит ли
overlap для запроса
Докидывает доп. данные оператором Scatter-Gather
Sunday, April 24, 2011
30. Параллелизм
Свертка: f*g
overlap
core f
g
f*g
Sunday, April 24, 2011
31. Параллелизм
Также: распределение по колонкам и столбцам, и
блочно-циклическое как в ScaLAPACK
Send, Recive как в MPI
Sunday, April 24, 2011
32. Дополнительные возможности
Uncertainty - арифметика интервалов
Provenance
отслеживание результатов
playback
Sunday, April 24, 2011
33. Расширяемость
User Defined Types - модель PostgreSQL
UDF - произвольные функции над массивами
Интерфейсы к Python, R, Matlab(?)
Sunday, April 24, 2011
34. Статус
Сентябрь 2009 демонстрация прототипа на VLDB
Январь 2011 - выпуск версии 0.75
Май 2011 - выпуск версии 1.0
Sunday, April 24, 2011
35. Немного о структуре
SciDB Inc.
Non-profit
НБД paradigm4
Sunday, April 24, 2011