В своей презентации Сергей Бондарь, Team Lead of BI Compute | OWOX, поделился тем как он вместе с командой использует Google Cloud Platform для построения прогнозов.
2. Сегодня в программе
● Инструменты для сбора данных
● Инструменты для обработки данных
● Инструменты для хранения данных
● Пример архитектуры для прогнозирования данных
14. BigQuery
Стриминг данных в BigQuery
● BigQuery позволяет сохранять данные со скоростью 100 000 строк в секунду для
одной таблицы
○ актуально как для партиционированных таблиц так и для обычных
○ работает через REST API
● Стриминговые данные могут запрашиваться сразу же после добавления
○ доступность спустя секунды
● serverless fully-managed data warehouse
● колоночная база данных
● масштабируется на петабайты
16. Cloud Bigtable
Когда стоит использовать:
● при необходимости быстрого чтения и высокой пропускной способности
● при неструктурированных данных
● когда размер элемента данных <10Mb а общий размер данных >1Tb
● когда нет необходимости в транзакциях
17. Cloud Bigtable
Когда не стоит использовать:
● при необходимости транзакций - стоит использовать Cloud SQL или Cloud Spanner
● при общем объеме данных меньше чем 1Tb (не будет паралелизации)
● если есть необходимость Business Intelligence - стоит использовать BigQuery
● для хранения документов или структурированных иерархий - стоит использовать DataStore
● для хранения больших сырых данных, например фильмов - стоит использовать Cloud Storage
18. Cloud Storage
● хранилище объектов
● гибкое, масштабируемое, надежное
● практически бесконечный размер, но один объект максимум 5 Тb
● используется если скорость получения не критична
● и когда есть необходимость разделять данные между несколькими инстансами или зонами
● производительность зависит от класса хранилища
○ Multi-regional
○ Regional
○ Nearline
○ Coldline
23. Cloud ML Engine
Managed execution environment for machine learning
Поддерживаемые фреймворки:
● TensorFlow
● Scikit-learn
● XGBoost
Автоматически масштабируемый
Версионирование моделей
Позволяет делать AB тесты моделей
Нет lock-in, обученную модель можно использовать где угодно
ML engine predictions service позволяет получать предсказания с помощью REST API