DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью Apache Spark_Степан Пушкарев

•

0 gostou•252 visualizações

DataScience Lab, 13 мая 2017 Cервинг моделей, построенных на больших данных с помощью Apache Spark Степан Пушкарев (GM (Kazan) at Provectus / CTO at Hydrosphere.io) После подготовки данных и обучения моделей на больших данных с использованием Apache Spark встает вопрос о том, как использовать обученные модели в реальных приложениях. Помимо модели важно не забывать про весь пайплайн пре-процессинга данных, который должен попасть в продакшн в том виде, в котором его спроектировал и реализовал дата саентист. Такие решения, как PMML/PFA, основанные на экспорте/импорте модели и алгоритма имеют очевидные недостатки и ограничения. В данном докладе мы предложим альтернативное решение, которое упрощает процесс использования моделей и пайплайнов в реальных боевых приложениях. Все материалы доступны по ссылке: http://datascience.in.ua/report2017

Tecnologia

Spark Serving
by Stepan Pushkarev
CTO of Hydrosphere.io

Why do companies hire data scientists?
To make products smarter.

What is a deliverable of data scientist and data
engineer?

What is a deliverable of data scientist?
Academic
paper?
ML Model? R/Python
script?
Jupiter
Notebook?
BI
Dashboard?

cluster
data
model
data
scientist
? web
app

val wordCounts = textFile
.flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey((a, b) => a + b)
executor
executorexecutor
executor executor

pipeline
Training (Estimation) pipeline
trainpreprocess preprocess

tokenizer
apache spark 1
hadoop mapreduce 0
spark machine learning 1
[apache, spark] 1
[hadoop, mapreduce] 0
[spark, machine, learning] 1

hashing tf
[apache, spark] 1
[hadoop, mapreduce] 0
[spark, machine, learning] 1
[105, 495], [1.0, 1.0] 1
[6, 638, 655], [1.0, 1.0, 1.0] 0
[105, 72, 852], [1.0, 1.0, 1.0] 1

logistic regression
[105, 495], [1.0, 1.0] 1
[6, 638, 655], [1.0, 1.0, 1.0] 0
[105, 72, 852], [1.0, 1.0, 1.0] 1
0 72 -2.7138781446090308
0 94 0.9042505436914775
0 105 3.0835670890496645
0 495 3.2071722417080766
0 722 0.9042505436914775

val tokenizer = new Tokenizer()
.setInputCol("text")
.setOutputCol("words")
val hashingTF = new HashingTF()
.setNumFeatures(1000)
.setInputCol(tokenizer.getOutputCol)
.setOutputCol("features")
val lr = new LogisticRegression()
.setMaxIter(10)
.setRegParam(0.001)
val pipeline = new Pipeline()
.setStages(Array(tokenizer, hashingTF, lr))
val model = pipeline.fit(training)
model.write.save("/tmp/spark-model")

pipeline
Prediction Pipeline
preprocess preprocess

val test = spark.createDataFrame(Seq(
("spark hadoop"),
("hadoop learning")
)).toDF("text")
val model = PipelineModel.load("/tmp/spark-
model")
model.transform(test).collect()

Pipeline Serving - NOT Model Serving
Model level API leads to code duplication & inconsistency
at pre-processing stages!
Web App
Ruby/PHP:
preprocess
Check current user
User Logs
ML Pipeline: preprocess, train
Save
Score/serve model
Fraud Detection
Model

https://issues.apache.org/jira/browse/SPARK-16365
https://issues.apache.org/jira/browse/SPARK-13944

cluster
data
model
data
scientist
web
app
PMML
PFA
MLEAP
- Yet another Format Lock
- Code & state duplication
- Limited extensibility
- Inconsistency
- Extra moving parts

cluster
data
model
data
scientist
web
app
docker
model
libs
deps
- Fat All inclusive Docker - bad
practice
- Every model requires new
docker to be rebuilt

cluster
data
model
data
scientist
web
app
API
API
- Needs Spark Running
- High latency, low throughput

cluster
data
model
data
scientist
web
app
API
serving
API
+ Serving skips Spark
+ But re-uses ML algorithms
+ No new formats and APIs
+ Low Latency but not super tuned
+ Scalable

A deliverable for ML model
Single row Serving / Scoring
layer
xml, json, parquet, pojo, other
Monitoring,
testing
integration
Large Scale,
Batch
processing
engine

Zooming out
Unified Serving/Scoring API
Repository
MLLib model TensorFlow model Other model

Starting from scratch - System ML
Multiple execution modes, including Spark MLContext
API, Spark Batch, Hadoop Batch, Standalone, and JMLC.

Thank you
Looking for
- Feedback
- Advisors, mentors & partners
- Pilots and early adopters
Stay in touch
- @hydrospheredata
- https://github.com/Hydrospheredata
- http://hydrosphere.io/
- spushkarev@hydrosphere.io

Mais conteúdo relacionado

Mais procurados

Hopsworks hands on_feature_store_palo_alto_kim_hammar_23_april_2019Kim Hammar

Introduction of SparkShao-Yen Hung

Asynchronous Hyperparameter Search with Spark on Hopsworks and MaggyJim Dowling

AI Pipeline Optimization using KubeflowSteve Guhr

Apache Tez : Accelerating Hadoop Query ProcessingTeddy Choi

Graph Analytics for big dataSigmoid

Continuous Evaluation of Deployed Models in Production Many high-tech industr...Databricks

The Bitter Lesson of ML Pipelines Jim Dowling

The Feature Store in HopsworksJim Dowling

Distributed Deep Learning on Hadoop ClustersDataWorks Summit/Hadoop Summit

Run Your First Hadoop 2.x ProgramSkillspeed

Make your PySpark Data Fly with Arrow!Databricks

Manikyam_Hadoop_5+YearsManikyam M

Sparksee overviewSparsity Technologies

A First Look at HPC MidlandsMartin Hamilton

High Resolution Energy Modeling that Scales with Apache Spark 2.0 Spark Summi...Spark Summit

Scaling and Unifying SciKit Learn and Apache Spark PipelinesDatabricks

Mais procurados (17)

Hopsworks hands on_feature_store_palo_alto_kim_hammar_23_april_2019

Introduction of Spark

Asynchronous Hyperparameter Search with Spark on Hopsworks and Maggy

AI Pipeline Optimization using Kubeflow

Apache Tez : Accelerating Hadoop Query Processing

Graph Analytics for big data

Continuous Evaluation of Deployed Models in Production Many high-tech industr...

The Bitter Lesson of ML Pipelines

The Feature Store in Hopsworks

Distributed Deep Learning on Hadoop Clusters

Run Your First Hadoop 2.x Program

Make your PySpark Data Fly with Arrow!

Manikyam_Hadoop_5+Years

Sparksee overview

A First Look at HPC Midlands

High Resolution Energy Modeling that Scales with Apache Spark 2.0 Spark Summi...

Scaling and Unifying SciKit Learn and Apache Spark Pipelines

Semelhante a DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью Apache Spark_Степан Пушкарев

Spark ML Pipeline servingStepan Pushkarev

SECON'2017, Макарычев Костантин, Использование Spark для машинного обученияSECON

Константин Макарычев (Sofware Engineer): ИСПОЛЬЗОВАНИЕ SPARK ДЛЯ МАШИННОГО ОБ...Provectus

PyconZA19-Distributed-workloads-challenges-with-PySpark-and-AirflowChetan Khatri

Big Data Processing with .NET and Spark (SQLBits 2020)Michael Rys

Bringing the Power and Familiarity of .NET, C# and F# to Big Data Processing ...Michael Rys

PySaprkGiivee The

Spark + AI Summit 2020 イベント概要Paulo Gutierrez

Scalable Machine Learning with PySparkLadle Patel

ScalaTo July 2019 - No more struggles with Apache Spark workloads in productionChetan Khatri

Best Practices for Building and Deploying Data Pipelines in Apache SparkDatabricks

IBM Strategy for SparkMark Kerzner

BigData_Krishna Kumar SharmaKrishna Kumar Sharma

AI 클라우드로 완전 정복하기 - 데이터 분석부터 딥러닝까지 (윤석찬, AWS테크에반젤리스트)Amazon Web Services Korea

PPT5: Neuron Introductionakira-ai

Dev Ops TrainingSpark Summit

Fossasia 2018-chetan-khatriChetan Khatri

ETL to ML: Use Apache Spark as an end to end tool for Advanced AnalyticsMiklos Christine

Big Data Everywhere Chicago: Apache Spark Plus Many Other Frameworks -- How S...BigDataEverywhere

Scaling up with Cisco Big Data: Data + Science = Data ScienceeRic Choo

Semelhante a DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью Apache Spark_Степан Пушкарев (20)

Spark ML Pipeline serving

SECON'2017, Макарычев Костантин, Использование Spark для машинного обучения

Константин Макарычев (Sofware Engineer): ИСПОЛЬЗОВАНИЕ SPARK ДЛЯ МАШИННОГО ОБ...

PyconZA19-Distributed-workloads-challenges-with-PySpark-and-Airflow

Big Data Processing with .NET and Spark (SQLBits 2020)

Bringing the Power and Familiarity of .NET, C# and F# to Big Data Processing ...

PySaprk

Spark + AI Summit 2020 イベント概要

Scalable Machine Learning with PySpark

ScalaTo July 2019 - No more struggles with Apache Spark workloads in production

Best Practices for Building and Deploying Data Pipelines in Apache Spark

IBM Strategy for Spark

BigData_Krishna Kumar Sharma

AI 클라우드로 완전 정복하기 - 데이터 분석부터 딥러닝까지 (윤석찬, AWS테크에반젤리스트)

PPT5: Neuron Introduction

Dev Ops Training

Fossasia 2018-chetan-khatri

ETL to ML: Use Apache Spark as an end to end tool for Advanced Analytics

Big Data Everywhere Chicago: Apache Spark Plus Many Other Frameworks -- How S...

Scaling up with Cisco Big Data: Data + Science = Data Science

Mais de GeeksLab Odessa

DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...GeeksLab Odessa

DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...GeeksLab Odessa

DataScience Lab 2017_Блиц-доклад_Турский ВикторGeeksLab Odessa

DataScience Lab 2017_Обзор методов детекции лиц на изображениеGeeksLab Odessa

DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...GeeksLab Odessa

DataScienceLab2017_Блиц-докладGeeksLab Odessa

DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...GeeksLab Odessa

DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко GeeksLab Odessa

DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...GeeksLab Odessa

DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...GeeksLab Odessa

DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...GeeksLab Odessa

DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...GeeksLab Odessa

DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...GeeksLab Odessa

DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...GeeksLab Odessa

DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот GeeksLab Odessa

JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...GeeksLab Odessa

JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js GeeksLab Odessa

JS Lab2017_Redux: время двигаться дальше?_Екатерина ЛизогубоваGeeksLab Odessa

Mais de GeeksLab Odessa (20)

DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...

DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...

DataScience Lab 2017_Блиц-доклад_Турский Виктор

DataScience Lab 2017_Обзор методов детекции лиц на изображение

DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...

DataScienceLab2017_Блиц-доклад

DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...

DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко

DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...

DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...

DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...

DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...

DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...

DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...

DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот

JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...

JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js

JS Lab2017_Redux: время двигаться дальше?_Екатерина Лизогубова

Último

Unraveling Multimodality with Large Language Models.pdfAlex Barbosa Coqueiro

Merck Moving Beyond Passwords: FIDO Paris Seminar.pptxLoriGlavin3

What is DBT - The Ultimate Data Build Tool.pdfMounikaPolabathina

Time Series Foundation Models - current state and future directionsNathaniel Shimoni

Tampa BSides - Chef's Tour of Microsoft Security Adoption Framework (SAF)Mark Simos

New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024BookNet Canada

SIP trunking in Janus @ Kamailio World 2024Lorenzo Miniero

Transcript: New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024BookNet Canada

"ML in Production",Oleksandr BaganFwdays

"Debugging python applications inside k8s environment", Andrii SoldatenkoFwdays

unit 4 immunoblotting technique complete.pptxBkGupta21

Anypoint Exchange: It’s Not Just a Repo!Manik S Magar

Moving Beyond Passwords: FIDO Paris Seminar.pdfLoriGlavin3

The Role of FIDO in a Cyber Secure Netherlands: FIDO Paris Seminar.pptxLoriGlavin3

A Journey Into the Emotions of Software DevelopersNicole Novielli

The Ultimate Guide to Choosing WordPress Pros and ConsPixlogix Infotech

The State of Passkeys with FIDO Alliance.pptxLoriGlavin3

Digital Identity is Under Attack: FIDO Paris Seminar.pptxLoriGlavin3

Dev Dives: Streamline document processing with UiPath Studio WebUiPathCommunity

Advanced Computer Architecture – An IntroductionDilum Bandara

DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью Apache Spark_Степан Пушкарев

1. Spark Serving by Stepan Pushkarev CTO of Hydrosphere.io

2. Spark Users here?

3. Data Scientists and Spark Users here?

5. Why do companies hire data scientists?

6. Why do companies hire data scientists? To make products smarter.

7. What is a deliverable of data scientist and data engineer?

8. What is a deliverable of data scientist? Academic paper? ML Model? R/Python script? Jupiter Notebook? BI Dashboard?

9. cluster data model data scientist ? web app

10. val wordCounts = textFile .flatMap(line => line.split(" ")) .map(word => (word, 1)) .reduceByKey((a, b) => a + b) executor executorexecutor executor executor

11. Machine Learning: training + serving

12. pipeline Training (Estimation) pipeline trainpreprocess preprocess

13. tokenizer apache spark 1 hadoop mapreduce 0 spark machine learning 1 [apache, spark] 1 [hadoop, mapreduce] 0 [spark, machine, learning] 1

14. hashing tf [apache, spark] 1 [hadoop, mapreduce] 0 [spark, machine, learning] 1 [105, 495], [1.0, 1.0] 1 [6, 638, 655], [1.0, 1.0, 1.0] 0 [105, 72, 852], [1.0, 1.0, 1.0] 1

15. logistic regression [105, 495], [1.0, 1.0] 1 [6, 638, 655], [1.0, 1.0, 1.0] 0 [105, 72, 852], [1.0, 1.0, 1.0] 1 0 72 -2.7138781446090308 0 94 0.9042505436914775 0 105 3.0835670890496645 0 495 3.2071722417080766 0 722 0.9042505436914775

16. val tokenizer = new Tokenizer() .setInputCol("text") .setOutputCol("words") val hashingTF = new HashingTF() .setNumFeatures(1000) .setInputCol(tokenizer.getOutputCol) .setOutputCol("features") val lr = new LogisticRegression() .setMaxIter(10) .setRegParam(0.001) val pipeline = new Pipeline() .setStages(Array(tokenizer, hashingTF, lr)) val model = pipeline.fit(training) model.write.save("/tmp/spark-model")

17. pipeline Prediction Pipeline preprocess preprocess

18. val test = spark.createDataFrame(Seq( ("spark hadoop"), ("hadoop learning") )).toDF("text") val model = PipelineModel.load("/tmp/spark- model") model.transform(test).collect()

19. ./bin/spark-submit …

20. cluster data model data scientist ? web app

21. Pipeline Serving - NOT Model Serving Model level API leads to code duplication & inconsistency at pre-processing stages! Web App Ruby/PHP: preprocess Check current user User Logs ML Pipeline: preprocess, train Save Score/serve model Fraud Detection Model

22. https://issues.apache.org/jira/browse/SPARK-16365 https://issues.apache.org/jira/browse/SPARK-13944

23.

24. cluster data model data scientist web app PMML PFA MLEAP - Yet another Format Lock - Code & state duplication - Limited extensibility - Inconsistency - Extra moving parts

25. cluster data model data scientist web app docker model libs deps - Fat All inclusive Docker - bad practice - Every model requires new docker to be rebuilt

26. cluster data model data scientist web app API API - Needs Spark Running - High latency, low throughput

27. cluster data model data scientist web app API serving API + Serving skips Spark + But re-uses ML algorithms + No new formats and APIs + Low Latency but not super tuned + Scalable

28. Low level API Challenge MS Azure

29. A deliverable for ML model Single row Serving / Scoring layer xml, json, parquet, pojo, other Monitoring, testing integration Large Scale, Batch processing engine

30. Zooming out Unified Serving/Scoring API Repository MLLib model TensorFlow model Other model

31. Real-time Prediction PIpelines

32. Starting from scratch - System ML Multiple execution modes, including Spark MLContext API, Spark Batch, Hadoop Batch, Standalone, and JMLC.

33. Demo Time

34. Thank you Looking for - Feedback - Advisors, mentors & partners - Pilots and early adopters Stay in touch - @hydrospheredata - https://github.com/Hydrospheredata - http://hydrosphere.io/ - spushkarev@hydrosphere.io

DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью Apache Spark_Степан Пушкарев

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (17)

Semelhante a DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью Apache Spark_Степан Пушкарев

Semelhante a DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью Apache Spark_Степан Пушкарев (20)

Mais de GeeksLab Odessa

Mais de GeeksLab Odessa (20)

Último

Último (20)

DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью Apache Spark_Степан Пушкарев