ETL со Spark

•

5 gostaram•1,500 visualizações

Vasil Remeniuk

Презентация на scalaby #13 ~> http://scala.by/

Tecnologia

Вводный ликбез по BI
date user_id platform_id
01/01/15 1 1
01/01/15 1 2
platform_id platform_name
1 iOS
2 Desktop
date platform uniques
01/01/15 iOS 1
01/01/15 Desktop 2
материализация
раз в час
ETL

Пример: BI-платформа для игр
- система получает от мобильных клиентов
различные ивенты
- определяет к какому сегменту относится игрок
- дает игроку таргетированный контент
- строит отчеты

Немного истории
2012
Q4
2013
Q2
2013
Q4
2014
Q3
MySQL
Pentaho Kettle
BIRT
Greenplum
вместо
MySQL
Hive
HBase
MongoDB
Impala
Hive
HBase

С чем мы столкнулись
- методология и подходы, устаревшие 10 лет
назад
- нет понятных решений для deployment,
monitoring, scheduling, logging,...
- рынок BI-инженеров тормозит прогресс

Нерешенные проблемы
- код-ревью: боль
- мержи и бранчинг: постоянные проблемы
- тестирование: только интеграционное, с
помощью FitNesse
- и многое другое...

- deployment: ssh-скрипты и Jenkins
- scheduling и запуск: опять Jenkins
- аггрегация логов: снова Jenkins
- мониторинг джобов: отчеты в BIRT
“Костыли” и “велосипеды”

Со всем лучшим уходим на Spark
- SQL из старых ETL переиспользуется с
помощью Spark SQL
- прежний паттерн дизайна Job’ов: иерархия
- scheduling и запуск на Jenkins

object SessionFactsJob extends SparkJob {
override def runJob(sc: SparkContext, jobConfig: Config) = {
...
sessionsRDD.registerTempTable("sessions")
sqlContext.sql(s"""
SELECT timestamp, count(distinct userId) uniqueUsersCount,
sum(duration)/count(*) avgSessionLength
FROM sessions WHERE timestamp > ${config.getLong(FromDate)}
ETL-job на Spark

- есть job’ы, осуществляющие
оркестрацию
- они выстроены в иерархию
- в любой момент, можно
перезапустить с нужными
параметрами определенную
группу job’ов
Паттерн “Иерархия Job’ов”

ooyala/spark-jobserver
- сервер spark job’ов:
- spray для REST-интерфейса
- Typesafe Config для конфигурации
- Job реализует trait, запаковывается в jar и
загружается POST’ом на сервер

Тестируемость
"Session facts job" should {
"overwrite aggregates, if they already exist" in {
...
SessionFactsJob.runJob(sc, config)
=== Array(DailySessionStats(parseDate("2014-10-30"), 1, 3, 12941))
}
}

Трассировка job’ов с NewRelic
@Trace + NewRelic.setTransactionName(null, "/HourlyJob")

Кроме этого
- кастомный процессинг (никаких UDF)
- наследование
- cross-cutting concerns
- типобезопасность
- удобство при интеграции с внешними системами

Перспективы
- Flume - это ночной кошмар Spark Streaming
- SQL-интерфейс поверх ElasticSearch - мечта
- Go-to для лямбда-архитектуры

Спасибо!
gitter.im/scalaby/public
Facebook: Scala Enthusiasts
Belarus
scala.by
Обсуждения
вопросы
ответы
@remeniuk, scalaby#13

Recomendados

FareBor PresentationAndrey Vilchinsky

Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++Антон Шестаков

Александр Сербул —1С-Битрикс — ICBDA 2015rusbase

A Scaleable Implementation of Deep Learning on Spark -Alexander UlanovSpark Summit

“Tips&Tricks&Antitricks with .Net Core backend in GameDev”HYS Enterprise

CodeFest 2014. Коновалов А., Шкурко Д. — Разработка и оптимизация приложений ...CodeFest

DevOps для 1СAlexey Lustin

Alexey Savchenko, Evangelist, Unreal Engine/ Epic GamesWhite Nights Conference

Говорим о СУБД языком HRKonstantin Osipov

Открытое ПО и ФЗ 152Petr Diyakov

Использование распределённой очереди задач для обработки данных в бекенде спо...Yandex

Что должен уметь Linux программистru_Parallels

разработка корп приложений на платформе 1с 8Igor Antonov

Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell SoftwareMarina Gryshko

Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell SoftwareBAKOTECH

введение в SharePointIvan Padabed

Погружение в глубины черной бездны с Intel GPAEvgeny Gorodetsky

Микросервисы в .NET CoreAndrew Gubskiy

Cеминар в Виннице (22.03.2014)Alexander Babich

SECON'2016. Чубарь Алексей, Мобильные грабли UnitySECON

Сервисы Azure для научных исследованийMicrosoft

Определение «лица» продукта в «маркетах» ДО начала его разработкиisdeforum

петров антон Short cv2Anton Petrov

Porting existing games to Apple Metal API. Case study: Divinity Original Sin ...DevGAMM Conference

Презентация 8bitМechanicDaniel Abelski

McAfee Encryption 2015Vladyslav Radetsky

А.Левенчук -- управление жизненным циклом активаAnatoly Levenchuk

Инструментарий Nvidia для deep learningSkolkovo Robotics Center

Product Minsk - РТБ и ПрограмматикVasil Remeniuk

Работа с Akka Сluster, @afiskon, scalaby#14Vasil Remeniuk

Mais conteúdo relacionado

Semelhante a ETL со Spark

Говорим о СУБД языком HRKonstantin Osipov

Открытое ПО и ФЗ 152Petr Diyakov

Использование распределённой очереди задач для обработки данных в бекенде спо...Yandex

Что должен уметь Linux программистru_Parallels

разработка корп приложений на платформе 1с 8Igor Antonov

Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell SoftwareMarina Gryshko

Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell SoftwareBAKOTECH

введение в SharePointIvan Padabed

Погружение в глубины черной бездны с Intel GPAEvgeny Gorodetsky

Микросервисы в .NET CoreAndrew Gubskiy

Cеминар в Виннице (22.03.2014)Alexander Babich

SECON'2016. Чубарь Алексей, Мобильные грабли UnitySECON

Сервисы Azure для научных исследованийMicrosoft

Определение «лица» продукта в «маркетах» ДО начала его разработкиisdeforum

петров антон Short cv2Anton Petrov

Porting existing games to Apple Metal API. Case study: Divinity Original Sin ...DevGAMM Conference

Презентация 8bitМechanicDaniel Abelski

McAfee Encryption 2015Vladyslav Radetsky

А.Левенчук -- управление жизненным циклом активаAnatoly Levenchuk

Инструментарий Nvidia для deep learningSkolkovo Robotics Center

Semelhante a ETL со Spark (20)

Говорим о СУБД языком HR

Открытое ПО и ФЗ 152

Использование распределённой очереди задач для обработки данных в бекенде спо...

Что должен уметь Linux программист

разработка корп приложений на платформе 1с 8

Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell Software

введение в SharePoint

Погружение в глубины черной бездны с Intel GPA

Микросервисы в .NET Core

Cеминар в Виннице (22.03.2014)

SECON'2016. Чубарь Алексей, Мобильные грабли Unity

Сервисы Azure для научных исследований

Определение «лица» продукта в «маркетах» ДО начала его разработки

петров антон Short cv2

Porting existing games to Apple Metal API. Case study: Divinity Original Sin ...

Презентация 8bitМechanic

McAfee Encryption 2015

А.Левенчук -- управление жизненным циклом актива

Инструментарий Nvidia для deep learning

Mais de Vasil Remeniuk

Product Minsk - РТБ и ПрограмматикVasil Remeniuk

Работа с Akka Сluster, @afiskon, scalaby#14Vasil Remeniuk

Cake pattern. Presentation by Alex Famin at scalaby#14Vasil Remeniuk

Scala laboratory: Globus. iteration #3Vasil Remeniuk

Testing in Scala by Adform researchVasil Remeniuk

Spark Intro by Adform ResearchVasil Remeniuk

Types by Adform Research, Saulius ValatkaVasil Remeniuk

Types by Adform ResearchVasil Remeniuk

Scalding by Adform Research, Alex GryzlovVasil Remeniuk

Spark by Adform Research, PauliusVasil Remeniuk

Scala Style by Adform Research (Saulius Valatka)Vasil Remeniuk

Spark intro by Adform ResearchVasil Remeniuk

SBT by Aform Research, Saulius ValatkaVasil Remeniuk

Scala laboratory: Globus. iteration #2Vasil Remeniuk

Testing in Scala. Adform ResearchVasil Remeniuk

Scala laboratory. Globus. iteration #1Vasil Remeniuk

Cassandra + Spark + ElkVasil Remeniuk

Опыт использования Spark, Основано на реальных событияхVasil Remeniuk

Funtional Reactive Programming with Examples in Scala + GWTVasil Remeniuk

Mais de Vasil Remeniuk (20)

Product Minsk - РТБ и Программатик

Работа с Akka Сluster, @afiskon, scalaby#14

Cake pattern. Presentation by Alex Famin at scalaby#14

Scala laboratory: Globus. iteration #3

Testing in Scala by Adform research

Spark Intro by Adform Research

Types by Adform Research, Saulius Valatka

Types by Adform Research

Scalding by Adform Research, Alex Gryzlov

Spark by Adform Research, Paulius

Scala Style by Adform Research (Saulius Valatka)

Spark intro by Adform Research

SBT by Aform Research, Saulius Valatka

Scala laboratory: Globus. iteration #2

Testing in Scala. Adform Research

Scala laboratory. Globus. iteration #1

Cassandra + Spark + Elk

Опыт использования Spark, Основано на реальных событиях

Funtional Reactive Programming with Examples in Scala + GWT

ETL со Spark

1. ETL со Spark Старикам здесь не место

2. Вводный ликбез по BI date user_id platform_id 01/01/15 1 1 01/01/15 1 2 platform_id platform_name 1 iOS 2 Desktop date platform uniques 01/01/15 iOS 1 01/01/15 Desktop 2 материализация раз в час ETL

3. Пример: BI-платформа для игр - система получает от мобильных клиентов различные ивенты - определяет к какому сегменту относится игрок - дает игроку таргетированный контент - строит отчеты

4. Немного истории 2012 Q4 2013 Q2 2013 Q4 2014 Q3 MySQL Pentaho Kettle BIRT Greenplum вместо MySQL Hive HBase MongoDB Impala Hive HBase

6. С чем мы столкнулись - методология и подходы, устаревшие 10 лет назад - нет понятных решений для deployment, monitoring, scheduling, logging,... - рынок BI-инженеров тормозит прогресс

7. Типичный ETL-job. Один из сотен

8. Нерешенные проблемы - код-ревью: боль - мержи и бранчинг: постоянные проблемы - тестирование: только интеграционное, с помощью FitNesse - и многое другое...

9. - deployment: ssh-скрипты и Jenkins - scheduling и запуск: опять Jenkins - аггрегация логов: снова Jenkins - мониторинг джобов: отчеты в BIRT “Костыли” и “велосипеды”

10. Со всем лучшим уходим на Spark - SQL из старых ETL переиспользуется с помощью Spark SQL - прежний паттерн дизайна Job’ов: иерархия - scheduling и запуск на Jenkins

11. object SessionFactsJob extends SparkJob { override def runJob(sc: SparkContext, jobConfig: Config) = { ... sessionsRDD.registerTempTable("sessions") sqlContext.sql(s""" SELECT timestamp, count(distinct userId) uniqueUsersCount, sum(duration)/count(*) avgSessionLength FROM sessions WHERE timestamp > ${config.getLong(FromDate)} ETL-job на Spark

12. - есть job’ы, осуществляющие оркестрацию - они выстроены в иерархию - в любой момент, можно перезапустить с нужными параметрами определенную группу job’ов Паттерн “Иерархия Job’ов”

13. ooyala/spark-jobserver - сервер spark job’ов: - spray для REST-интерфейса - Typesafe Config для конфигурации - Job реализует trait, запаковывается в jar и загружается POST’ом на сервер

14. Тестируемость "Session facts job" should { "overwrite aggregates, if they already exist" in { ... SessionFactsJob.runJob(sc, config) === Array(DailySessionStats(parseDate("2014-10-30"), 1, 3, 12941)) } }

15. Трассировка job’ов с NewRelic @Trace + NewRelic.setTransactionName(null, "/HourlyJob")

16. Кроме этого - кастомный процессинг (никаких UDF) - наследование - cross-cutting concerns - типобезопасность - удобство при интеграции с внешними системами

17. Перспективы - Flume - это ночной кошмар Spark Streaming - SQL-интерфейс поверх ElasticSearch - мечта - Go-to для лямбда-архитектуры

18.

19. Спасибо! gitter.im/scalaby/public Facebook: Scala Enthusiasts Belarus scala.by Обсуждения вопросы ответы @remeniuk, scalaby#13