SlideShare uma empresa Scribd logo
1 de 36
Baixar para ler offline
Научные вызовы СУБД и
          система SciDB
          Павел Велихов




Sunday, April 24, 2011
Sunday, April 24, 2011
e-Science

                Наука организуется вокруг данных
                Крупные проекты по сбору и диссеминации данных
                         LHC Grid: 50+ стран, 200+ институтов
                         Open Grid, Virtual Observatory, GEON Grid, PDB...




Sunday, April 24, 2011
Пример: PDB (SDSC)




Sunday, April 24, 2011
Лавина данных


                Раньше bottleneck был в получении данных
                Сенсорные технологии перевернули картину
                Сейчас bottleneck = анализ полученных данных




Sunday, April 24, 2011
Лавина данных

                Физика высоких энергий - LHC: 15 Pb/год
                Астрономия - LSST: 6 Pb/год
                Астрономия - ЛИРА: 200-300 Tb
                Науки о земле: сотни Tb (например LIDAR)
                Геномика: сотни Tb с секвенсеров




Sunday, April 24, 2011
Проект ЛИРА




Sunday, April 24, 2011
Сложные сенсоры

                На примере астрономии
                Как было раньше
                ПЗС матрица
                ЛИРА




Sunday, April 24, 2011
Хранение и обработка данных



                Надо хранить самые сырые данные
                Процедура извлечения научных данных должна
                быть прозрачной и повторимой




Sunday, April 24, 2011
Анализ

                Анализ численных рядов
                Поиски в окрестностях точек
                N^2 и N^3 алгоритмы
                         ковариация, PCA, SVD




Sunday, April 24, 2011
Современные СУБД

                Реляционная модель или noSQL
                Плохо масштабируются
                High Availability - сложно дается
                Закрытый код, дорогие лицензии
                Почти ни один крупный проект не использует СУБД




Sunday, April 24, 2011
Кто как хранит
                данные в файлах, немного метаданных в СУБД

                         LHC

                сырые в файлах, вторичные в СУБД

                         PanSTARRS, LSST

                доморощенные системы

                         Yahoo, Google, Amazon, и другие

                Все в СУБД

                         Wallmart, eBay, SDSS




Sunday, April 24, 2011
SciDB




Sunday, April 24, 2011
SciDB

                Проект стартовал в 2008 г
                Основатели проета:
                         Stonebraket, DeWitt, Becla и др.
                Международная комманда, 5 российских
                разработчиков




Sunday, April 24, 2011
Mike Stonebraker
                          Ingres
                         Postgres
                          Illustra
                          Cohera
                          Vertica
                          VoltDB




Sunday, April 24, 2011
Цели SciDB

                “OLAP” для науки
                Система с открытым кодом
                Качество коммерческих продуктов
                Масштабируемость до петабайт




Sunday, April 24, 2011
Большая цель
                            Сырые данные



                                SciDB
                         Хранение, обработка,
                               анализ



                          Воспроизводимые
                         научные результаты

Sunday, April 24, 2011
Модель данных SciDB
                                                i




                         j   A : int B : float C : float D : nested


Sunday, April 24, 2011
Вертикальное хранение
                         a1        a2        a3
                              b1        b2        b3
                                   c1        c2        c3

                         a4        a5        a6
                              b4        b5        b6
                                   c4        c5        c6

                         a7        a8        a9
                              b7        b8        b9
                                   c7        c8        c9


Sunday, April 24, 2011
Хранение


                Чанк как единица хранения и обработки
                Чанки большие - десятки-сотни мегабайт
                Иногда подразделяются на подчанки для cpu cache
                (мегабайты)




Sunday, April 24, 2011
Транзакционность


                Научные данные не меняются
                Изменения только как новая версия
                Навигация между версиями




Sunday, April 24, 2011
Транзакционность

                Eventually consistent
                COW и Delta
                Избегаем большого количества замков, лога,
                управления буфферами
                Избегаем накладных расходов современных СУБД
                         latching, locking, logging, buffer management



Sunday, April 24, 2011
Анализ данных


                AQL и AFL
                AFL: filter( subsample(A, 10, 100), x > 0.5 )
                Специфические операторы: subsample, regrid




Sunday, April 24, 2011
Subsample




Sunday, April 24, 2011
Regrid                      i                      u




     j                                    v
                           Src                      Tgt

                             assign: (u,v) -> { (i,j) }
                         aggregate: f (assign(u,v)) -> tgt

Sunday, April 24, 2011
Пример запроса
               S: <x:float>[i,j]
               T: <z:float>[u,v]
               regrid(
                 S,
                 T,
                 assign: subsample(s, [k-10,l-10,k+10,l+10])
                 agg: sum( x * ae-(i-b)^2/2c^2)




Sunday, April 24, 2011
Конвейерное выполнение

                Пример: subsample
                интерфейс: getChunk( attribute, pos )
                пересылаем вниз: getChunk( attribute, pos + offset)
                если чанк внутри окна опрератора, передаем вверх
                иначе: распаковываем, обрезаем, передаем вверх




Sunday, April 24, 2011
Параллелизм в SciDB

                          core

                         overlap




Sunday, April 24, 2011
Параллелизм в SciDB


                 Оптимизатор запроса расчитывает хватит ли
                overlap для запроса
                Докидывает доп. данные оператором Scatter-Gather




Sunday, April 24, 2011
Параллелизм
                Свертка: f*g
                         overlap



                                   core    f

                                          g


                                          f*g

Sunday, April 24, 2011
Параллелизм


                Также: распределение по колонкам и столбцам, и
                блочно-циклическое как в ScaLAPACK
                Send, Recive как в MPI




Sunday, April 24, 2011
Дополнительные возможности


                Uncertainty - арифметика интервалов
                Provenance
                         отслеживание результатов
                         playback




Sunday, April 24, 2011
Расширяемость


                User Defined Types - модель PostgreSQL
                UDF - произвольные функции над массивами
                Интерфейсы к Python, R, Matlab(?)




Sunday, April 24, 2011
Статус


                Сентябрь 2009 демонстрация прототипа на VLDB
                Январь 2011 - выпуск версии 0.75
                Май 2011 - выпуск версии 1.0




Sunday, April 24, 2011
Немного о структуре

                               SciDB Inc.
                                Non-profit



                         НБД                paradigm4




Sunday, April 24, 2011
Q&A




Sunday, April 24, 2011

Mais conteúdo relacionado

Destaque

lia-macfrut2016_-_tiziano_celli_-_biostimolanti
lia-macfrut2016_-_tiziano_celli_-_biostimolantilia-macfrut2016_-_tiziano_celli_-_biostimolanti
lia-macfrut2016_-_tiziano_celli_-_biostimolanti
Tiziano Celli
 
каскад
каскадкаскад
каскад
vegat
 
Положение о возмещении затрат по уплате ввозной таможенной пошлины и НДС
Положение о возмещении затрат по уплате ввозной таможенной пошлины и НДСПоложение о возмещении затрат по уплате ввозной таможенной пошлины и НДС
Положение о возмещении затрат по уплате ввозной таможенной пошлины и НДС
The Skolkovo Foundation
 
Geolab it - general presentation
Geolab it - general presentationGeolab it - general presentation
Geolab it - general presentation
ekurin
 
Презентация ООО "НГКТ"
Презентация ООО "НГКТ"Презентация ООО "НГКТ"
Презентация ООО "НГКТ"
eamalyavko
 
краткая презентация, 2013г.
краткая презентация, 2013г.краткая презентация, 2013г.
краткая презентация, 2013г.
Svetlana Lepikhova
 
Нилар - презентация к заявке на грант
Нилар - презентация к заявке на грантНилар - презентация к заявке на грант
Нилар - презентация к заявке на грант
coolicoff
 
нпмфу астлек приложение к заявке на грант презентация
нпмфу астлек приложение к заявке на грант  презентациянпмфу астлек приложение к заявке на грант  презентация
нпмфу астлек приложение к заявке на грант презентация
EpinetovMA
 

Destaque (20)

Инновации в урологии: от настоящего к будущему
Инновации в урологии: от настоящего к будущемуИнновации в урологии: от настоящего к будущему
Инновации в урологии: от настоящего к будущему
 
lia-macfrut2016_-_tiziano_celli_-_biostimolanti
lia-macfrut2016_-_tiziano_celli_-_biostimolantilia-macfrut2016_-_tiziano_celli_-_biostimolanti
lia-macfrut2016_-_tiziano_celli_-_biostimolanti
 
Презентация для Сколково ООО АС и ПП
Презентация для Сколково ООО АС и ПППрезентация для Сколково ООО АС и ПП
Презентация для Сколково ООО АС и ПП
 
Разработка технологии разделения суммарного редкоземельного концентрата на гр...
Разработка технологии разделения суммарного редкоземельного концентрата на гр...Разработка технологии разделения суммарного редкоземельного концентрата на гр...
Разработка технологии разделения суммарного редкоземельного концентрата на гр...
 
малоинвазивные методы лечения мкб
малоинвазивные методы лечения мкбмалоинвазивные методы лечения мкб
малоинвазивные методы лечения мкб
 
микрогранты презентация
микрогранты презентациямикрогранты презентация
микрогранты презентация
 
Современное надежное оборудование для водоподготовки и очистки сточных вод
Современное надежное оборудование для водоподготовки и очистки сточных водСовременное надежное оборудование для водоподготовки и очистки сточных вод
Современное надежное оборудование для водоподготовки и очистки сточных вод
 
каскад
каскадкаскад
каскад
 
Положение о возмещении затрат по уплате ввозной таможенной пошлины и НДС
Положение о возмещении затрат по уплате ввозной таможенной пошлины и НДСПоложение о возмещении затрат по уплате ввозной таможенной пошлины и НДС
Положение о возмещении затрат по уплате ввозной таможенной пошлины и НДС
 
квантовый кремний презентация 120711
квантовый кремний презентация 120711квантовый кремний презентация 120711
квантовый кремний презентация 120711
 
grant_process_v10
grant_process_v10grant_process_v10
grant_process_v10
 
Geolab it - general presentation
Geolab it - general presentationGeolab it - general presentation
Geolab it - general presentation
 
Презентация ООО "НГКТ"
Презентация ООО "НГКТ"Презентация ООО "НГКТ"
Презентация ООО "НГКТ"
 
краткая презентация, 2013г.
краткая презентация, 2013г.краткая презентация, 2013г.
краткая презентация, 2013г.
 
Нилар - презентация к заявке на грант
Нилар - презентация к заявке на грантНилар - презентация к заявке на грант
Нилар - презентация к заявке на грант
 
общая презентация разработок для объектов энергетической инфраструктуры
общая презентация разработок для объектов энергетической инфраструктурыобщая презентация разработок для объектов энергетической инфраструктуры
общая презентация разработок для объектов энергетической инфраструктуры
 
Презентация Сколково
Презентация СколковоПрезентация Сколково
Презентация Сколково
 
нпмфу астлек приложение к заявке на грант презентация
нпмфу астлек приложение к заявке на грант  презентациянпмфу астлек приложение к заявке на грант  презентация
нпмфу астлек приложение к заявке на грант презентация
 
тфк иц сколково
тфк иц сколковотфк иц сколково
тфк иц сколково
 
Как стать участником
Как стать участникомКак стать участником
Как стать участником
 

Mais de rit2011

классификация Ddos. александр лямин, артем гавриченков. зал 2
классификация Ddos. александр лямин, артем гавриченков. зал 2классификация Ddos. александр лямин, артем гавриченков. зал 2
классификация Ddos. александр лямин, артем гавриченков. зал 2
rit2011
 
Chef. кто на кухне хозяин. концепция devops. а,титов. зал 2
Chef. кто на кухне хозяин. концепция devops. а,титов. зал 2Chef. кто на кухне хозяин. концепция devops. а,титов. зал 2
Chef. кто на кухне хозяин. концепция devops. а,титов. зал 2
rit2011
 
как объяснить заказчику, что он не прав. денис тучин. зал 3
как объяснить заказчику, что он не прав. денис тучин. зал 3как объяснить заказчику, что он не прав. денис тучин. зал 3
как объяснить заказчику, что он не прав. денис тучин. зал 3
rit2011
 
классификация Ddos. александр лямин, артем гавриченков. зал 2
классификация Ddos. александр лямин, артем гавриченков. зал 2классификация Ddos. александр лямин, артем гавриченков. зал 2
классификация Ddos. александр лямин, артем гавриченков. зал 2
rit2011
 
Kpi разработчика vs kpi разработки. евгения фирсова. зал 1
Kpi разработчика vs kpi разработки. евгения фирсова. зал 1Kpi разработчика vs kpi разработки. евгения фирсова. зал 1
Kpi разработчика vs kpi разработки. евгения фирсова. зал 1
rit2011
 
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
rit2011
 
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
rit2011
 
что и почему вы должны программировать на Erlang.максим лапшин. зал 4
что и почему вы должны программировать на Erlang.максим лапшин. зал 4что и почему вы должны программировать на Erlang.максим лапшин. зал 4
что и почему вы должны программировать на Erlang.максим лапшин. зал 4
rit2011
 
I pv6 малоизвестные подробности. андрей пантюхин. зал 2
I pv6   малоизвестные подробности. андрей пантюхин. зал 2I pv6   малоизвестные подробности. андрей пантюхин. зал 2
I pv6 малоизвестные подробности. андрей пантюхин. зал 2
rit2011
 
безопасность веб приложений сегодня. дмитрий евтеев. зал 4
безопасность веб приложений сегодня. дмитрий евтеев. зал 4безопасность веб приложений сегодня. дмитрий евтеев. зал 4
безопасность веб приложений сегодня. дмитрий евтеев. зал 4
rit2011
 
как стать хорошим веб технологом. нарек мкртчян. зал 4
как стать хорошим веб технологом. нарек мкртчян. зал 4как стать хорошим веб технологом. нарек мкртчян. зал 4
как стать хорошим веб технологом. нарек мкртчян. зал 4
rit2011
 
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
rit2011
 
выращиваем интерфейс своими руками. ольга павлова. зал 3
выращиваем интерфейс своими руками. ольга павлова. зал 3выращиваем интерфейс своими руками. ольга павлова. зал 3
выращиваем интерфейс своими руками. ольга павлова. зал 3
rit2011
 
распределенное файловое хранилище (Nginx, zfs, perl). перепелица мамонтов. зал 2
распределенное файловое хранилище (Nginx, zfs, perl). перепелица мамонтов. зал 2распределенное файловое хранилище (Nginx, zfs, perl). перепелица мамонтов. зал 2
распределенное файловое хранилище (Nginx, zfs, perl). перепелица мамонтов. зал 2
rit2011
 
от Flash к html5. александр бацуев. зал 4
от Flash к html5. александр бацуев. зал 4от Flash к html5. александр бацуев. зал 4
от Flash к html5. александр бацуев. зал 4
rit2011
 
Ie9 и ie10. алекс могилевский. зал 2
Ie9 и ie10. алекс могилевский. зал 2Ie9 и ie10. алекс могилевский. зал 2
Ie9 и ie10. алекс могилевский. зал 2
rit2011
 
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
rit2011
 
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
rit2011
 
рисуем тз. эффективный способ коммуникации в веб проектах. артем вольфтруб. з...
рисуем тз. эффективный способ коммуникации в веб проектах. артем вольфтруб. з...рисуем тз. эффективный способ коммуникации в веб проектах. артем вольфтруб. з...
рисуем тз. эффективный способ коммуникации в веб проектах. артем вольфтруб. з...
rit2011
 
типология личности и прогноз отношений по а. афанасьеву. сергей котырев. зал 2
типология личности и прогноз отношений по а. афанасьеву. сергей котырев. зал 2типология личности и прогноз отношений по а. афанасьеву. сергей котырев. зал 2
типология личности и прогноз отношений по а. афанасьеву. сергей котырев. зал 2
rit2011
 

Mais de rit2011 (20)

классификация Ddos. александр лямин, артем гавриченков. зал 2
классификация Ddos. александр лямин, артем гавриченков. зал 2классификация Ddos. александр лямин, артем гавриченков. зал 2
классификация Ddos. александр лямин, артем гавриченков. зал 2
 
Chef. кто на кухне хозяин. концепция devops. а,титов. зал 2
Chef. кто на кухне хозяин. концепция devops. а,титов. зал 2Chef. кто на кухне хозяин. концепция devops. а,титов. зал 2
Chef. кто на кухне хозяин. концепция devops. а,титов. зал 2
 
как объяснить заказчику, что он не прав. денис тучин. зал 3
как объяснить заказчику, что он не прав. денис тучин. зал 3как объяснить заказчику, что он не прав. денис тучин. зал 3
как объяснить заказчику, что он не прав. денис тучин. зал 3
 
классификация Ddos. александр лямин, артем гавриченков. зал 2
классификация Ddos. александр лямин, артем гавриченков. зал 2классификация Ddos. александр лямин, артем гавриченков. зал 2
классификация Ddos. александр лямин, артем гавриченков. зал 2
 
Kpi разработчика vs kpi разработки. евгения фирсова. зал 1
Kpi разработчика vs kpi разработки. евгения фирсова. зал 1Kpi разработчика vs kpi разработки. евгения фирсова. зал 1
Kpi разработчика vs kpi разработки. евгения фирсова. зал 1
 
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
 
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
ускорение Front end разработки с помощью haml, sass и compass. андрей ситник....
 
что и почему вы должны программировать на Erlang.максим лапшин. зал 4
что и почему вы должны программировать на Erlang.максим лапшин. зал 4что и почему вы должны программировать на Erlang.максим лапшин. зал 4
что и почему вы должны программировать на Erlang.максим лапшин. зал 4
 
I pv6 малоизвестные подробности. андрей пантюхин. зал 2
I pv6   малоизвестные подробности. андрей пантюхин. зал 2I pv6   малоизвестные подробности. андрей пантюхин. зал 2
I pv6 малоизвестные подробности. андрей пантюхин. зал 2
 
безопасность веб приложений сегодня. дмитрий евтеев. зал 4
безопасность веб приложений сегодня. дмитрий евтеев. зал 4безопасность веб приложений сегодня. дмитрий евтеев. зал 4
безопасность веб приложений сегодня. дмитрий евтеев. зал 4
 
как стать хорошим веб технологом. нарек мкртчян. зал 4
как стать хорошим веб технологом. нарек мкртчян. зал 4как стать хорошим веб технологом. нарек мкртчян. зал 4
как стать хорошим веб технологом. нарек мкртчян. зал 4
 
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
 
выращиваем интерфейс своими руками. ольга павлова. зал 3
выращиваем интерфейс своими руками. ольга павлова. зал 3выращиваем интерфейс своими руками. ольга павлова. зал 3
выращиваем интерфейс своими руками. ольга павлова. зал 3
 
распределенное файловое хранилище (Nginx, zfs, perl). перепелица мамонтов. зал 2
распределенное файловое хранилище (Nginx, zfs, perl). перепелица мамонтов. зал 2распределенное файловое хранилище (Nginx, zfs, perl). перепелица мамонтов. зал 2
распределенное файловое хранилище (Nginx, zfs, perl). перепелица мамонтов. зал 2
 
от Flash к html5. александр бацуев. зал 4
от Flash к html5. александр бацуев. зал 4от Flash к html5. александр бацуев. зал 4
от Flash к html5. александр бацуев. зал 4
 
Ie9 и ie10. алекс могилевский. зал 2
Ie9 и ie10. алекс могилевский. зал 2Ie9 и ie10. алекс могилевский. зал 2
Ie9 и ie10. алекс могилевский. зал 2
 
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
сотни серверов, десятки компонент. автоматизация раскладки и конфигурирования...
 
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
полмиллиона юзеров в онлайне без падений оптимизация высоконагруженной Server...
 
рисуем тз. эффективный способ коммуникации в веб проектах. артем вольфтруб. з...
рисуем тз. эффективный способ коммуникации в веб проектах. артем вольфтруб. з...рисуем тз. эффективный способ коммуникации в веб проектах. артем вольфтруб. з...
рисуем тз. эффективный способ коммуникации в веб проектах. артем вольфтруб. з...
 
типология личности и прогноз отношений по а. афанасьеву. сергей котырев. зал 2
типология личности и прогноз отношений по а. афанасьеву. сергей котырев. зал 2типология личности и прогноз отношений по а. афанасьеву. сергей котырев. зал 2
типология личности и прогноз отношений по а. афанасьеву. сергей котырев. зал 2
 

научные вызовы к субд и система Sci db. п. велихов. зал 2

  • 1. Научные вызовы СУБД и система SciDB Павел Велихов Sunday, April 24, 2011
  • 3. e-Science Наука организуется вокруг данных Крупные проекты по сбору и диссеминации данных LHC Grid: 50+ стран, 200+ институтов Open Grid, Virtual Observatory, GEON Grid, PDB... Sunday, April 24, 2011
  • 5. Лавина данных Раньше bottleneck был в получении данных Сенсорные технологии перевернули картину Сейчас bottleneck = анализ полученных данных Sunday, April 24, 2011
  • 6. Лавина данных Физика высоких энергий - LHC: 15 Pb/год Астрономия - LSST: 6 Pb/год Астрономия - ЛИРА: 200-300 Tb Науки о земле: сотни Tb (например LIDAR) Геномика: сотни Tb с секвенсеров Sunday, April 24, 2011
  • 8. Сложные сенсоры На примере астрономии Как было раньше ПЗС матрица ЛИРА Sunday, April 24, 2011
  • 9. Хранение и обработка данных Надо хранить самые сырые данные Процедура извлечения научных данных должна быть прозрачной и повторимой Sunday, April 24, 2011
  • 10. Анализ Анализ численных рядов Поиски в окрестностях точек N^2 и N^3 алгоритмы ковариация, PCA, SVD Sunday, April 24, 2011
  • 11. Современные СУБД Реляционная модель или noSQL Плохо масштабируются High Availability - сложно дается Закрытый код, дорогие лицензии Почти ни один крупный проект не использует СУБД Sunday, April 24, 2011
  • 12. Кто как хранит данные в файлах, немного метаданных в СУБД LHC сырые в файлах, вторичные в СУБД PanSTARRS, LSST доморощенные системы Yahoo, Google, Amazon, и другие Все в СУБД Wallmart, eBay, SDSS Sunday, April 24, 2011
  • 14. SciDB Проект стартовал в 2008 г Основатели проета: Stonebraket, DeWitt, Becla и др. Международная комманда, 5 российских разработчиков Sunday, April 24, 2011
  • 15. Mike Stonebraker Ingres Postgres Illustra Cohera Vertica VoltDB Sunday, April 24, 2011
  • 16. Цели SciDB “OLAP” для науки Система с открытым кодом Качество коммерческих продуктов Масштабируемость до петабайт Sunday, April 24, 2011
  • 17. Большая цель Сырые данные SciDB Хранение, обработка, анализ Воспроизводимые научные результаты Sunday, April 24, 2011
  • 18. Модель данных SciDB i j A : int B : float C : float D : nested Sunday, April 24, 2011
  • 19. Вертикальное хранение a1 a2 a3 b1 b2 b3 c1 c2 c3 a4 a5 a6 b4 b5 b6 c4 c5 c6 a7 a8 a9 b7 b8 b9 c7 c8 c9 Sunday, April 24, 2011
  • 20. Хранение Чанк как единица хранения и обработки Чанки большие - десятки-сотни мегабайт Иногда подразделяются на подчанки для cpu cache (мегабайты) Sunday, April 24, 2011
  • 21. Транзакционность Научные данные не меняются Изменения только как новая версия Навигация между версиями Sunday, April 24, 2011
  • 22. Транзакционность Eventually consistent COW и Delta Избегаем большого количества замков, лога, управления буфферами Избегаем накладных расходов современных СУБД latching, locking, logging, buffer management Sunday, April 24, 2011
  • 23. Анализ данных AQL и AFL AFL: filter( subsample(A, 10, 100), x > 0.5 ) Специфические операторы: subsample, regrid Sunday, April 24, 2011
  • 25. Regrid i u j v Src Tgt assign: (u,v) -> { (i,j) } aggregate: f (assign(u,v)) -> tgt Sunday, April 24, 2011
  • 26. Пример запроса S: <x:float>[i,j] T: <z:float>[u,v] regrid( S, T, assign: subsample(s, [k-10,l-10,k+10,l+10]) agg: sum( x * ae-(i-b)^2/2c^2) Sunday, April 24, 2011
  • 27. Конвейерное выполнение Пример: subsample интерфейс: getChunk( attribute, pos ) пересылаем вниз: getChunk( attribute, pos + offset) если чанк внутри окна опрератора, передаем вверх иначе: распаковываем, обрезаем, передаем вверх Sunday, April 24, 2011
  • 28. Параллелизм в SciDB core overlap Sunday, April 24, 2011
  • 29. Параллелизм в SciDB Оптимизатор запроса расчитывает хватит ли overlap для запроса Докидывает доп. данные оператором Scatter-Gather Sunday, April 24, 2011
  • 30. Параллелизм Свертка: f*g overlap core f g f*g Sunday, April 24, 2011
  • 31. Параллелизм Также: распределение по колонкам и столбцам, и блочно-циклическое как в ScaLAPACK Send, Recive как в MPI Sunday, April 24, 2011
  • 32. Дополнительные возможности Uncertainty - арифметика интервалов Provenance отслеживание результатов playback Sunday, April 24, 2011
  • 33. Расширяемость User Defined Types - модель PostgreSQL UDF - произвольные функции над массивами Интерфейсы к Python, R, Matlab(?) Sunday, April 24, 2011
  • 34. Статус Сентябрь 2009 демонстрация прототипа на VLDB Январь 2011 - выпуск версии 0.75 Май 2011 - выпуск версии 1.0 Sunday, April 24, 2011
  • 35. Немного о структуре SciDB Inc. Non-profit НБД paradigm4 Sunday, April 24, 2011