научные вызовы к субд и система Sci db. п. велихов. зал 2

Научные вызовы СУБД и
система SciDB
Павел Велихов

Sunday, April 24, 2011

e-Science

Наука организуется вокруг данных
Крупные проекты по сбору и диссеминации данных
LHC Grid: 50+ стран, 200+ институтов
Open Grid, Virtual Observatory, GEON Grid, PDB...


Пример: PDB (SDSC)


Лавина данных

Раньше bottleneck был в получении данных
Сенсорные технологии перевернули картину
Сейчас bottleneck = анализ полученных данных


Лавина данных

Физика высоких энергий - LHC: 15 Pb/год
Астрономия - LSST: 6 Pb/год
Астрономия - ЛИРА: 200-300 Tb
Науки о земле: сотни Tb (например LIDAR)
Геномика: сотни Tb с секвенсеров


Проект ЛИРА


Сложные сенсоры

На примере астрономии
Как было раньше
ПЗС матрица
ЛИРА


Хранение и обработка данных

Надо хранить самые сырые данные
Процедура извлечения научных данных должна
быть прозрачной и повторимой


Анализ

Анализ численных рядов
Поиски в окрестностях точек
N^2 и N^3 алгоритмы
ковариация, PCA, SVD


Современные СУБД

Реляционная модель или noSQL
Плохо масштабируются
High Availability - сложно дается
Закрытый код, дорогие лицензии
Почти ни один крупный проект не использует СУБД


Кто как хранит
данные в файлах, немного метаданных в СУБД

LHC

сырые в файлах, вторичные в СУБД

PanSTARRS, LSST

доморощенные системы

Yahoo, Google, Amazon, и другие

Все в СУБД

Wallmart, eBay, SDSS


SciDB


SciDB

Проект стартовал в 2008 г
Основатели проета:
Stonebraket, DeWitt, Becla и др.
Международная комманда, 5 российских
разработчиков


Mike Stonebraker
Ingres
Postgres
Illustra
Cohera
Vertica
VoltDB


Цели SciDB

“OLAP” для науки
Система с открытым кодом
Качество коммерческих продуктов
Масштабируемость до петабайт


Большая цель
Сырые данные

SciDB
Хранение, обработка,
анализ

Воспроизводимые
научные результаты


Модель данных SciDB
i

j A : int B : ﬂoat C : ﬂoat D : nested


Вертикальное хранение
a1 a2 a3
b1 b2 b3
c1 c2 c3

a4 a5 a6
b4 b5 b6
c4 c5 c6

a7 a8 a9
b7 b8 b9
c7 c8 c9


Хранение

Чанк как единица хранения и обработки
Чанки большие - десятки-сотни мегабайт
Иногда подразделяются на подчанки для cpu cache
(мегабайты)


Транзакционность

Научные данные не меняются
Изменения только как новая версия
Навигация между версиями


Транзакционность

Eventually consistent
COW и Delta
Избегаем большого количества замков, лога,
управления буфферами
Избегаем накладных расходов современных СУБД
latching, locking, logging, buffer management


Анализ данных

AQL и AFL
AFL: ﬁlter( subsample(A, 10, 100), x > 0.5 )
Специфические операторы: subsample, regrid


Subsample


Regrid i u

j v
Src Tgt

assign: (u,v) -> { (i,j) }
aggregate: f (assign(u,v)) -> tgt


Пример запроса
S: <x:ﬂoat>[i,j]
T: <z:ﬂoat>[u,v]
regrid(
S,
T,
assign: subsample(s, [k-10,l-10,k+10,l+10])
agg: sum( x * ae-(i-b)^2/2c^2)


Конвейерное выполнение

Пример: subsample
интерфейс: getChunk( attribute, pos )
пересылаем вниз: getChunk( attribute, pos + offset)
если чанк внутри окна опрератора, передаем вверх
иначе: распаковываем, обрезаем, передаем вверх


Параллелизм в SciDB

core

overlap


Параллелизм в SciDB

Оптимизатор запроса расчитывает хватит ли
overlap для запроса
Докидывает доп. данные оператором Scatter-Gather


Параллелизм
Свертка: f*g
overlap

core f

g

f*g


Параллелизм

Также: распределение по колонкам и столбцам, и
блочно-циклическое как в ScaLAPACK
Send, Recive как в MPI


Дополнительные возможности

Uncertainty - арифметика интервалов
Provenance
отслеживание результатов
playback


Расширяемость

User Deﬁned Types - модель PostgreSQL
UDF - произвольные функции над массивами
Интерфейсы к Python, R, Matlab(?)


Статус

Сентябрь 2009 демонстрация прототипа на VLDB
Январь 2011 - выпуск версии 0.75
Май 2011 - выпуск версии 1.0


Немного о структуре

SciDB Inc.
Non-proﬁt

НБД paradigm4


Q&A


научные вызовы к субд и система Sci db. п. велихов. зал 2

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Mais de rit2011

Mais de rit2011 (20)

научные вызовы к субд и система Sci db. п. велихов. зал 2