Построение аналитического хранилища на 100 петабайт

Построение аналитического
хранилища на 100 петабайт
Александр Мазуров (Criteo)
3

2 •
{
‘UUID’ = ‘392f034c‘
‘Client’= ‘ACME’
‘ProductBrowsed’ = ‘45753’
}
{
‘UUID’ = ‘392f034c‘
‘ProductClicked’ = ‘55674’
}
http://www.dailyplanet.com
Lorem Ipsum
Lorem ipsum dolor sit amet, consectetur
adipiscing elit, sed do eiusmod tempor
incididunt ut labore et dolore magna aliqua.
Ut enim ad minim veniam, quis nostrud
exercitation ullamco laboris nisi ut aliquip ex
ea commodo consequat. Duis aute irure
dolor in reprehenderit in voluptate velit esse
cillum dolore eu fugiat nulla pariatur.
Excepteur sint occaecat cupidatat non
proident, sunt in culpa qui officia deserunt
mollit anim id est laborum. Lorem ipsum
dolor sit amet, consectetur adipiscing elit,
sed do eiusmod tempor incididunt ut labore
et dolore magna aliqua.
$24,90
http://www.acme.com/products/.
BUY
Dynamite
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do
eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim
ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut
aliquip ex ea commodo consequat. Duis aute irure dolor in
reprehenderit in voluptate velit esse cillum dolore eu fugiat null,
$19,99
http://www.acme.com/products
Bear Trap
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do
eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim
ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut
aliquip ex ea commodo consequat. Duis aute irure dolor in
reprehenderit in voluptate velit esse cillum dolore eu fugiat null,
$24,90
BUY
{
‘UUID’ = ‘392f034c‘
‘ProductBought’ = ‘55674’
}
http://www.criteo.com/stats
#users
time
Acme: отчет о пользователях

3 •
Компания (упрощенно)
$ $$ $$ $
Input
• Быстро принять
данные
Transformation Output
• Точные отчеты

4 •
Input Transformation Output
OLTP OLAP
Stored Procedures
Построим AdTech-компанию!

5 •
OLTP
Попытка №1: Установим 2-й MySQL
OLAP
Backup
Restore
Stored
Procedures
OLTP

6 •
Попытка №2: Классический ETL и шардинг
App
App
App
App
App
App
App
App
App
App
C# ETL
C# ETL
C# ETL
C# ETL
OLAP
Stored
Procedures

7 •
Попытка №3: ETL на базе Data Lake
App
App
App
App
App
App
App
App
App
App

8 •
Kafka!
App
App
App
App
App
App
App
App
App
App

9 •
Сейчас
App
App
App
App
App
App
App
App
App
App
…

10 •
“
”
30+ команд
75K+ физических ядер, 1PB RAM, 100+ PBs
хранилище данных
Несколько Execution Engines (Hive, MR, Cascading,
Scalding, Spark)
15T
Records Read
300K
Jobs
2T
Records Written
10PB
Data Processed /день

11 •
Данные (с репликами)
64 PB
36 %
Логи Аналитика
58 PB
32 %
Engine
(ML,…)
24 PB
13 %
Cловари
5 PB 3%
Presto
4 PB 2%
Legacy
4 PB 2%

12 •
Hive
I. Зачем Hive?
II. Hive CLI: первые шаги и грабли
III. Hive на Mesos
1. Consul
2. Хуки
3. Новые клиенты
4. Мониторинг
5. Тестирование новых версий

13 •
Зачем Hive?
SQL-интерфейс к данным на HDFS
1. Hive Metastore — схема данных и отображение
объектов в директории и файлы HDFS
2. Hive Execution Engine (CLI или HiveServer2) —
разбор, построение и выполнение запросов в
Hadoop

14 •
Hive
I. Зачем Hive?
1. Consul
2. Хуки

15 •
CLI на железе
0.metastore
Metastore
Thrift
Bare metal сервер
CLI
1.metastore
Metastore
Thrift
Недостатки
• Galera — не верьте рекламе

16 •
Реклама Galera :
• Multi-master синхронные репликации
• Передача 'transaction sets’ всем нодам
На практике:
• Запись только на один мастер, иначе риск deadlock’ов
• Чтение тоже не всегда синхронное
В Criteo
• Три сервера MySQL
• JDBC fallback вместо DNS Round Robin
Metastore и MySQL

17 •
CLI на железе
0.metastore
Metastore
Thrift
CLI
1.metastore
Metastore
Thrift
Недостатки
• Galera – не верьте рекламе
• Приложения должны размещаться на
том же сервере, что и CLI
• Сложно поддерживать Chef-рецепты.
• Долгий цикл для запуска нового релиза –
2 недели
• Сложно мониторить
• Сложно масштабировать
• Проблемы с тестированием новых
версий Hive

18 •
Hive
I. Зачем Hive?
1. Consul
2. Хуки

19 •
Новое направление
Mesos/Marathon
 Простое конфигурирование
 Можно управлять количеством CPU,
памятью, количеством экземпляров
приложения
 Можно одновременно иметь несколько
разных Hive версий
 Автовосстановление (проверка состояния
приложения, перезапуск)
HiveServer2
 Доступ через тонких клиентов
 Централизованный мониторинг
 JDBC-доступ

20 •
…
HiveServer2 Thrift Client
App #1
Beeline
HiveServer2
Instance #1
Thrift JDBC
v1.2.0
Hive на Mesos
HiveServer2 Thrift Client
App #N
HiveServer2
Instance #M
Thrift JDBC
v1.2.0
…
… HiveServer2
Instance
Thrift JDBC
v2.3.0
Metastore
Instance #1
Thrift
v1.2.0
Metastore
Instance #K
Thrift
v1.2.0
… Metastore
Instance
Thrift
v2.3.0

21 •
Hive
I. Зачем Hive?
1. Consul
2. Хуки

22 •
• Децентрализованный отказоустойчивый discovery-
сервис и key-value хранилище
• Любое Criteo Marathon’s приложение автоматически
регистрируется в Consul:
o Адрес приложения — хост и порты
o Состояние приложения (health status) — up или
down
Consul

23 •
Hive
I. Зачем Hive?
1. Consul
2. Хуки

24 •
Hive Hooks
• Metastore Discovery
• Сериализация данных (SerDe)
• Авторизация
• Логирование запросов
• ...

25 •
$ hive --service hiveserver2
# lots of crazy stuff
--hiveconf hive.metastore.uris=consul://localhost:8500/hive-metastore
--hiveconf hive.metastore.uri.resolver=org.apache.hadoop.hive.contrib.metastore.hooks.consul.ConsulURLHook

26 •
Hive
I. Зачем Hive?
1. Consul
2. Хуки

27 •
cr-beeline: обертка для beeline,
берет адрес сервера из Consul
Scala-клиент
(мы любим Scala в Criteo)
• https://github.com/criteo/hive-
client
• В два раза меньше по размеру,
чем Hive-JDBC-Standalone jar
libraryDependencies ++= Seq(
"org.apache.thrift" % "libthrift" %
"0.10.0",
"org.rogach" %% "scallop" % "3.0.3",
"org.jline" % "jline" % "3.3.0",
"org.apache.hadoop" % "hadoop-common" %
"2.6.5",
"org.apache.hadoop" % "hadoop-auth" %
"2.6.5",
)
$ cr-beeline
...
Beeline version 1.1.0-cdh5.11.0 by
Apache Hive
0: jdbc:hive2://mesos-slave-001>
Клиенты HiveServer2

28 •
Hive
I. Зачем Hive?
1. Consul
2. Хуки

29 •
Thrift
JMX remote
JMX HTTP
JDWP
Hive-клиенты: beeline, приложения
Метрики: VisualVM, JConsole,…
Метрики: Prometheus
Отладка: Java IDE
Текущие и завершенные запросы,
открытые сессии, конфигурация
WebUI

30 •
Мониторинг и оповещения
Elastic Search Kibana
Consul
Prometheus
Local Storage
Graphite Grafana
AlertManager
E-mail
Slack
OpsGenie
SLAB

43 •
Hive
I. Зачем Hive?
1. Consul
2. Хуки

44 •
Hive Upgrade Test Framework
HiveServer2
1.2.0
Restore/Upgrade
История Hive
запросов с
метриками
Cuttle
Scheduler
HiveServer2
New
Отчеты
Backup / Restore
Сравнение версий Hive
• Найти обратные
несовместимости в запросах
• Изменения в
производительности (CPU,
память)
https://github.com/criteo/cuttle

45 •
• Автоматическое тестирование пользовательских
функций (UDF)
• HiveServer2 Cluster Monitoring (HIVE-13457)
Новые проекты

46 •
• Можно начинать и с одного MySQL-сервера
• Hadoop решает из коробки большой ряд задач
• Hive — надежный инструмент для обработки больших
объемов данных.
• С помощью хуков можно настроить Hive под нужды
компании
• Hive в облаке, с Metastore discovery на базе Consul —
надежная масштабируемая система
Выводы

Построение аналитического хранилища на 100 петабайт

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Построение аналитического хранилища на 100 петабайт

Semelhante a Построение аналитического хранилища на 100 петабайт (20)

Построение аналитического хранилища на 100 петабайт

Notas do Editor