SlideShare a Scribd company logo
1 of 26
Download to read offline
Сегодня в программе
● Инструменты для сбора данных
● Инструменты для обработки данных
● Инструменты для хранения данных
● Пример архитектуры для прогнозирования данных
Streaming processing in GCP
Cloud Pub/Sub
Streaming processing in GCP
Варианты преобразования
Данные приходят с задержкой
Можно разделить данные на окна
Но тогда потеряем данные пришедшие с опозданием
Apache Beam поддерживает концепцию окон
Cloud Dataflow
serverless fully-managed сервис
для запуска пайплайнов Apache
Beam
Streaming processing in GCP
BigQuery
Стриминг данных в BigQuery
● BigQuery позволяет сохранять данные со скоростью 100 000 строк в секунду для
одной таблицы
○ актуально как для партиционированных таблиц так и для обычных
○ работает через REST API
● Стриминговые данные могут запрашиваться сразу же после добавления
○ доступность спустя секунды
● serverless fully-managed data warehouse
● колоночная база данных
● масштабируется на петабайты
Cloud Bigtable
● fully-managed data warehouse
● колоночная NoSQL база данных
● масштабируется на терабайты
Cloud Bigtable
Когда стоит использовать:
● при необходимости быстрого чтения и высокой пропускной способности
● при неструктурированных данных
● когда размер элемента данных <10Mb а общий размер данных >1Tb
● когда нет необходимости в транзакциях
Cloud Bigtable
Когда не стоит использовать:
● при необходимости транзакций - стоит использовать Cloud SQL или Cloud Spanner
● при общем объеме данных меньше чем 1Tb (не будет паралелизации)
● если есть необходимость Business Intelligence - стоит использовать BigQuery
● для хранения документов или структурированных иерархий - стоит использовать DataStore
● для хранения больших сырых данных, например фильмов - стоит использовать Cloud Storage
Cloud Storage
● хранилище объектов
● гибкое, масштабируемое, надежное
● практически бесконечный размер, но один объект максимум 5 Тb
● используется если скорость получения не критична
● и когда есть необходимость разделять данные между несколькими инстансами или зонами
● производительность зависит от класса хранилища
○ Multi-regional
○ Regional
○ Nearline
○ Coldline
Streaming processing in GCP
Cloud DataProc
DataProc это managed Hadoop и Spark сервис используемый для выполнения задач на кластере Compute Engine.
типичный деплой Spark или Hadoop
Dataproc упрощает работу с управлением Hadoop
Cloud ML Engine
Managed execution environment for machine learning
Поддерживаемые фреймворки:
● TensorFlow
● Scikit-learn
● XGBoost
Автоматически масштабируемый
Версионирование моделей
Позволяет делать AB тесты моделей
Нет lock-in, обученную модель можно использовать где угодно
ML engine predictions service позволяет получать предсказания с помощью REST API
Как мы работаем с GCP
GCP для работы с большими данными

More Related Content

What's hot

Dmitry Kostyuk.Cloud hosting for drupal.DrupalCamp Kyiv 2011
Dmitry Kostyuk.Cloud hosting for drupal.DrupalCamp Kyiv 2011Dmitry Kostyuk.Cloud hosting for drupal.DrupalCamp Kyiv 2011
Dmitry Kostyuk.Cloud hosting for drupal.DrupalCamp Kyiv 2011
camp_drupal_ua
 
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
2ГИС Технологии
 
Cоздаем пробки или тюнинг postgresql для расчетных задач
Cоздаем пробки или тюнинг postgresql для расчетных задачCоздаем пробки или тюнинг postgresql для расчетных задач
Cоздаем пробки или тюнинг postgresql для расчетных задач
DevDay
 
JS Fest 2019. Игорь Березин и Николай Крещенко. Эволюция архитектуры многогра...
JS Fest 2019. Игорь Березин и Николай Крещенко. Эволюция архитектуры многогра...JS Fest 2019. Игорь Березин и Николай Крещенко. Эволюция архитектуры многогра...
JS Fest 2019. Игорь Березин и Николай Крещенко. Эволюция архитектуры многогра...
JSFestUA
 

What's hot (16)

Dmitry Kostyuk.Cloud hosting for drupal.DrupalCamp Kyiv 2011
Dmitry Kostyuk.Cloud hosting for drupal.DrupalCamp Kyiv 2011Dmitry Kostyuk.Cloud hosting for drupal.DrupalCamp Kyiv 2011
Dmitry Kostyuk.Cloud hosting for drupal.DrupalCamp Kyiv 2011
 
Java GC tuning and monitoring (by Alexander Ashitkin)
Java GC tuning and monitoring (by Alexander Ashitkin)Java GC tuning and monitoring (by Alexander Ashitkin)
Java GC tuning and monitoring (by Alexander Ashitkin)
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)
 
Azure for retails
Azure for retailsAzure for retails
Azure for retails
 
Умное кэширование в Rails
Умное кэширование в RailsУмное кэширование в Rails
Умное кэширование в Rails
 
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
 
Борьба с GС паузами в JVM
Борьба с GС паузами в JVMБорьба с GС паузами в JVM
Борьба с GС паузами в JVM
 
Современные тенденции сбора статистики. Graphite.
Современные тенденции сбора статистики. Graphite.Современные тенденции сбора статистики. Graphite.
Современные тенденции сбора статистики. Graphite.
 
Cоздаем пробки или тюнинг postgresql для расчетных задач
Cоздаем пробки или тюнинг postgresql для расчетных задачCоздаем пробки или тюнинг postgresql для расчетных задач
Cоздаем пробки или тюнинг postgresql для расчетных задач
 
Pulsedb — система хранения временных рядов
Pulsedb — система хранения временных рядовPulsedb — система хранения временных рядов
Pulsedb — система хранения временных рядов
 
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...
 
Анализ данных и машинное обучение
Анализ данных и машинное обучениеАнализ данных и машинное обучение
Анализ данных и машинное обучение
 
NoSQL и Zend Framework (Никита Грошин)
NoSQL и Zend Framework (Никита Грошин)NoSQL и Zend Framework (Никита Грошин)
NoSQL и Zend Framework (Никита Грошин)
 
JS Fest 2019. Игорь Березин и Николай Крещенко. Эволюция архитектуры многогра...
JS Fest 2019. Игорь Березин и Николай Крещенко. Эволюция архитектуры многогра...JS Fest 2019. Игорь Березин и Николай Крещенко. Эволюция архитектуры многогра...
JS Fest 2019. Игорь Березин и Николай Крещенко. Эволюция архитектуры многогра...
 
Современный graphql на бекенде и фронтенде. Тестирование, секьюрити, новые во...
Современный graphql на бекенде и фронтенде. Тестирование, секьюрити, новые во...Современный graphql на бекенде и фронтенде. Тестирование, секьюрити, новые во...
Современный graphql на бекенде и фронтенде. Тестирование, секьюрити, новые во...
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитики
 

Similar to GCP для работы с большими данными

Что Google Cloud Platform может дать бизнесу
Что Google Cloud Platform может дать бизнесуЧто Google Cloud Platform может дать бизнесу
Что Google Cloud Platform может дать бизнесу
Маркетинг-аналитика с OWOX BI
 
High Load 2009 Imdg Presentation
High Load 2009   Imdg PresentationHigh Load 2009   Imdg Presentation
High Load 2009 Imdg Presentation
HighLoad2009
 
кри 2014 elastic search рациональный подход к созданию собственной системы а...
кри 2014 elastic search  рациональный подход к созданию собственной системы а...кри 2014 elastic search  рациональный подход к созданию собственной системы а...
кри 2014 elastic search рациональный подход к созданию собственной системы а...
Vyacheslav Nikulin
 
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуреСХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
DEPO Computers
 
Netapp prezz
Netapp prezzNetapp prezz
Netapp prezz
ardaradan
 
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
Ontico
 

Similar to GCP для работы с большими данными (20)

Кластер БГУИР: расширенные возможности
Кластер БГУИР: расширенные возможностиКластер БГУИР: расширенные возможности
Кластер БГУИР: расширенные возможности
 
BigMemory - работа с сотнями миллионов бизнес-объектов / Дмитрий Хмаладзе (Ag...
BigMemory - работа с сотнями миллионов бизнес-объектов / Дмитрий Хмаладзе (Ag...BigMemory - работа с сотнями миллионов бизнес-объектов / Дмитрий Хмаладзе (Ag...
BigMemory - работа с сотнями миллионов бизнес-объектов / Дмитрий Хмаладзе (Ag...
 
Что Google Cloud Platform может дать бизнесу
Что Google Cloud Platform может дать бизнесуЧто Google Cloud Platform может дать бизнесу
Что Google Cloud Platform может дать бизнесу
 
High Load 2009 Imdg Presentation
High Load 2009   Imdg PresentationHigh Load 2009   Imdg Presentation
High Load 2009 Imdg Presentation
 
Why we did not choose Hadoop
Why we did not choose HadoopWhy we did not choose Hadoop
Why we did not choose Hadoop
 
кри 2014 elastic search рациональный подход к созданию собственной системы а...
кри 2014 elastic search  рациональный подход к созданию собственной системы а...кри 2014 elastic search  рациональный подход к созданию собственной системы а...
кри 2014 elastic search рациональный подход к созданию собственной системы а...
 
ORM battle. MyBatis vs Hibernate
ORM battle. MyBatis vs HibernateORM battle. MyBatis vs Hibernate
ORM battle. MyBatis vs Hibernate
 
2012-12-01 03 Битва ORM: Hibernate vs MyBatis. Давайте жить дружно!
2012-12-01 03 Битва ORM: Hibernate vs MyBatis. Давайте жить дружно!2012-12-01 03 Битва ORM: Hibernate vs MyBatis. Давайте жить дружно!
2012-12-01 03 Битва ORM: Hibernate vs MyBatis. Давайте жить дружно!
 
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуреСХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
СХД DEPO Storage 4600 для консолидации данных в современной IT-инфраструктуре
 
Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015Александр Киров — Acronis — ICBDA 2015
Александр Киров — Acronis — ICBDA 2015
 
High load2007 scaling-web-applications-rus
High load2007 scaling-web-applications-rusHigh load2007 scaling-web-applications-rus
High load2007 scaling-web-applications-rus
 
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
Netapp prezz
Netapp prezzNetapp prezz
Netapp prezz
 
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
Как превратить Openstack Swift в хранилище для высоких нагрузок разных типов,...
 
PUG #9 at OWOX: Поиск узких мест в приложении на PHP
PUG #9 at OWOX: Поиск узких мест в приложении на PHP                PUG #9 at OWOX: Поиск узких мест в приложении на PHP
PUG #9 at OWOX: Поиск узких мест в приложении на PHP
 
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
 
Последние новости постгреса с PGCon / О.Бартунов, А.Коротков, Ф.Сигаев (Postg...
Последние новости постгреса с PGCon / О.Бартунов, А.Коротков, Ф.Сигаев (Postg...Последние новости постгреса с PGCon / О.Бартунов, А.Коротков, Ф.Сигаев (Postg...
Последние новости постгреса с PGCon / О.Бартунов, А.Коротков, Ф.Сигаев (Postg...
 
Перевод новостного приложения на БД PostgreSQL
Перевод новостного приложения на БД PostgreSQLПеревод новостного приложения на БД PostgreSQL
Перевод новостного приложения на БД PostgreSQL
 
De Novo Hybrid Backup as a Service
De Novo Hybrid Backup as a ServiceDe Novo Hybrid Backup as a Service
De Novo Hybrid Backup as a Service
 

More from HOWWEDOIT

Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
HOWWEDOIT
 
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
HOWWEDOIT
 

More from HOWWEDOIT (15)

Прогнозирование на SQL с помощью GBQ ML
Прогнозирование на SQL с помощью GBQ MLПрогнозирование на SQL с помощью GBQ ML
Прогнозирование на SQL с помощью GBQ ML
 
Как боты помогают Monobank обслуживать более 800 тысяч клиентов
Как боты помогают Monobank обслуживать более 800 тысяч клиентовКак боты помогают Monobank обслуживать более 800 тысяч клиентов
Как боты помогают Monobank обслуживать более 800 тысяч клиентов
 
Difficulties of implementing AI Features to an established product company
Difficulties of implementing AI Features to an established product companyDifficulties of implementing AI Features to an established product company
Difficulties of implementing AI Features to an established product company
 
"Оптимальные цены", или как повысить розничные продажи с помощью машинного об...
"Оптимальные цены", или как повысить розничные продажи с помощью машинного об..."Оптимальные цены", или как повысить розничные продажи с помощью машинного об...
"Оптимальные цены", или как повысить розничные продажи с помощью машинного об...
 
Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...
Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...
Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...
 
Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...
Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...
Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...
 
Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...
Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...
Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...
 
Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...
Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...
Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...
 
Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....
Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....
Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....
 
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
 
Подход и инструменты измерения эффективности процесса разработки или как держ...
Подход и инструменты измерения эффективности процесса разработки или как держ...Подход и инструменты измерения эффективности процесса разработки или как держ...
Подход и инструменты измерения эффективности процесса разработки или как держ...
 
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
 
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
 
метрики ценообразования как интернет магазины используют цены конкурентов.але...
метрики ценообразования как интернет магазины используют цены конкурентов.але...метрики ценообразования как интернет магазины используют цены конкурентов.але...
метрики ценообразования как интернет магазины используют цены конкурентов.але...
 
Визуализируй меня полностью. Павел Лоба.
Визуализируй меня полностью. Павел Лоба.Визуализируй меня полностью. Павел Лоба.
Визуализируй меня полностью. Павел Лоба.
 

GCP для работы с большими данными

  • 1.
  • 2. Сегодня в программе ● Инструменты для сбора данных ● Инструменты для обработки данных ● Инструменты для хранения данных ● Пример архитектуры для прогнозирования данных
  • 7. Данные приходят с задержкой
  • 9. Но тогда потеряем данные пришедшие с опозданием
  • 10. Apache Beam поддерживает концепцию окон
  • 11. Cloud Dataflow serverless fully-managed сервис для запуска пайплайнов Apache Beam
  • 12.
  • 14. BigQuery Стриминг данных в BigQuery ● BigQuery позволяет сохранять данные со скоростью 100 000 строк в секунду для одной таблицы ○ актуально как для партиционированных таблиц так и для обычных ○ работает через REST API ● Стриминговые данные могут запрашиваться сразу же после добавления ○ доступность спустя секунды ● serverless fully-managed data warehouse ● колоночная база данных ● масштабируется на петабайты
  • 15. Cloud Bigtable ● fully-managed data warehouse ● колоночная NoSQL база данных ● масштабируется на терабайты
  • 16. Cloud Bigtable Когда стоит использовать: ● при необходимости быстрого чтения и высокой пропускной способности ● при неструктурированных данных ● когда размер элемента данных <10Mb а общий размер данных >1Tb ● когда нет необходимости в транзакциях
  • 17. Cloud Bigtable Когда не стоит использовать: ● при необходимости транзакций - стоит использовать Cloud SQL или Cloud Spanner ● при общем объеме данных меньше чем 1Tb (не будет паралелизации) ● если есть необходимость Business Intelligence - стоит использовать BigQuery ● для хранения документов или структурированных иерархий - стоит использовать DataStore ● для хранения больших сырых данных, например фильмов - стоит использовать Cloud Storage
  • 18. Cloud Storage ● хранилище объектов ● гибкое, масштабируемое, надежное ● практически бесконечный размер, но один объект максимум 5 Тb ● используется если скорость получения не критична ● и когда есть необходимость разделять данные между несколькими инстансами или зонами ● производительность зависит от класса хранилища ○ Multi-regional ○ Regional ○ Nearline ○ Coldline
  • 20. Cloud DataProc DataProc это managed Hadoop и Spark сервис используемый для выполнения задач на кластере Compute Engine.
  • 22. Dataproc упрощает работу с управлением Hadoop
  • 23. Cloud ML Engine Managed execution environment for machine learning Поддерживаемые фреймворки: ● TensorFlow ● Scikit-learn ● XGBoost Автоматически масштабируемый Версионирование моделей Позволяет делать AB тесты моделей Нет lock-in, обученную модель можно использовать где угодно ML engine predictions service позволяет получать предсказания с помощью REST API
  • 24.