35. 35
출처 : http://www.slideshare.net/SparkSummit/how-spark-fits-into-baidus-scale-james-peng
• Scale : 1000대 이상(20,000코어, 100TB 램)
• 일 수행 작업 : 2000~3000
• 지원 업무 : Ads, Search, Map, Commerce, etc.
• Cool Project : Enabling Interactive Queries
with Spark and Tachyon
• > 50x acceleration of Big Data Analytics
workloads
1. USE MR to query 6 TB of data
2. Use Spark to query 6 TB of data
3. Use Spark + Tachyon to query 6 TB of data
36. 36
출처 : http://www.slideshare.net/SparkSummit/brian-kursar
• 성능 :
q 고객 경험 관련 기존 배치 작업 수행 시간은
160 시간
q 동일한 작업을 Spark으로 재작성하여
4시간으로 40배 단축
• 분류
q 소셜 미디어를 Spark MLlib을 사용해서
실시간으로 우선 순위 지정
q ML life cycle : extract features and train.
q V1 : 56% accuracy=> V9 : 82% accuracy
47. 47
•
– 오프라인 형태의 분석 플랫폼에서 스트리밍 처리,
데이터 제공 형태로 이동하고 있음
– 목표는 Single API for “continuous apps”
– 해결 방안 : structured streaming
48. 48
•
• Exploring Wikipedia with Apache Spark
• Just enough Scala for Spark
• Architecting a Data Platform
• Data Science with Apache Spark 2.x
• Apache Spark Intro for Machine Learning and Data Science
• Apache Spark Intro for Data Engineering
• Apache Spark Tuning and Best Practices
• Understand and Apply Deep Learning with Keras,
Tensorflow and Apache Spark 2.x
• Data Science with Apache Spark 2.x