Spark 20171026 final_slideshare

Oracle and Analyst Confidential –Restricted 8
•
•
•
•
•

2006 2008 2009 2010 2011 2012 2013
Core Hadoop
(HDFS,
MapReduce)
HBase
ZooKeeper
Solr
Pig
Core Hadoop
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
Core Hadoop
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
Core Hadoop
Flume
Bigtop
Oozie
HCatalog
Hue
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
YARN
Core Hadoop
Spark
Tez
Impala
Kafka
Drill
Flume
Bigtop
Oozie
HCatalog
Hue
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
YARN
Core Hadoop
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
Bigtop
Oozie
HCatalog
Hue
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
YARN
Core Hadoop
2007
Solr
Pig
Core Hadoop
Knox
Flink
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
Bigtop
Oozie
HCatalog
Hue
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
YARN
Core Hadoop
2014 2015
Kudu
RecordService
Ibis
Falcon
Knox
Flink
Parquet
Sentry
Spark
Tez
Impala
Kafka
Drill
Flume
Bigtop
Oozie
HCatalog
Hue
Sqoop
Avro
Hive
Mahout
HBase
ZooKeeper
Solr
Pig
YARN
Core Hadoop

12
출처 : https://en.wikipedia.org/wiki/Apache_Spark#History
1년에 약 3회 버전 release

•
–
–

•
스파크 코어

1
2
2
3
3
출처: http://spark.apache.org/docs/latest/cluster-overview.html

29
출처 : http://cdn2.hubspot.net/hubfs/438089/DataBricks_Surveys_-_Content/2016_Spark_Survey/2016_Spark_Infographic.pdf

30

31

32

33

34

35
출처 : http://www.slideshare.net/SparkSummit/how-spark-fits-into-baidus-scale-james-peng
• Scale : 1000대 이상(20,000코어, 100TB 램)
• 일 수행 작업 : 2000~3000
• 지원 업무 : Ads, Search, Map, Commerce, etc.
• Cool Project : Enabling Interactive Queries
with Spark and Tachyon
• > 50x acceleration of Big Data Analytics
workloads
1. USE MR to query 6 TB of data
2. Use Spark to query 6 TB of data
3. Use Spark + Tachyon to query 6 TB of data

36
출처 : http://www.slideshare.net/SparkSummit/brian-kursar
• 성능 :
q 고객 경험 관련 기존 배치 작업 수행 시간은
160 시간
q 동일한 작업을 Spark으로 재작성하여
4시간으로 40배 단축
• 분류
q 소셜 미디어를 Spark MLlib을 사용해서
실시간으로 우선 순위 지정
q ML life cycle : extract features and train.
q V1 : 56% accuracy=> V9 : 82% accuracy

37
출처 : http://www.slideshare.net/SparkSummit/going-realtime-creating-frequentlyupdating-datasets-for-personalization-spark-summit-east-talk-by-shriya-arora
• 회원들이 시청하는 컨텐츠의 80%가 시스템의 추천
• ML 알고리즘 기반 추천 제공
• 9천3백만명 이상의 active members
• 각기 다른 카다로그의 190개 국가
• 하루 4,500억건 이벤트
• 600개 이상의 카프카 토픽
• 실시간 데이터 : 가장 최신의 데이터 기반으로 모델 훈련. 새로운
형식의 알고리즘을 만들 기회 확보

38
•
•
•
•
사례 1 – 빌링 데이터 분석을 통한 코인 어뷰징 탐지
사례 2 – LINE Rangers 게임 데이터 분석을 통한 어뷰징 탐지

•
–
43
하드웨어
응용프로그램
사용자

•
45
Brad Carlile
Senior Director of Strategic
Applications Engineering at
Oracle
출처 : https://www.youtube.com/watch?v=kmrWkU0PCCs
H/W를 통한
성능 개선(16배)

47
•
– 오프라인 형태의 분석 플랫폼에서 스트리밍 처리,
데이터 제공 형태로 이동하고 있음
– 목표는 Single API for “continuous apps”
– 해결 방안 : structured streaming

48
•
• Exploring Wikipedia with Apache Spark
• Just enough Scala for Spark
• Architecting a Data Platform
• Data Science with Apache Spark 2.x
• Apache Spark Intro for Machine Learning and Data Science
• Apache Spark Intro for Data Engineering
• Apache Spark Tuning and Best Practices
• Understand and Apply Deep Learning with Keras,
Tensorflow and Apache Spark 2.x
• Data Science with Apache Spark 2.x

52
•
https://github.com/yahoo/

Spark 20171026 final_slideshare

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Spark 20171026 final_slideshare

Semelhante a Spark 20171026 final_slideshare (8)

Spark 20171026 final_slideshare