Mais conteúdo relacionado
Semelhante a ドコモのクラウドとビックデータJpi版 (20)
Mais de Osaka University (20)
ドコモのクラウドとビックデータJpi版
- 1. © 2013 NTT DOCOMO, INC. All rights reserved.
栄藤 稔,NTTドコモ
Dec. 18th , 2013
DOCOMO CLOUD X BIG DATA
1
- 2. © 2013 NTT DOCOMO, INC. All rights reserved.
Disclaimer
この発表は、あくまでも個⼈人の意⾒見見に基づくも
のであり、NTTドコモの社としての⾒見見解を⽰示
したものではありません。ただし、内容に関し
ては、私の良良⼼心にしたがって話します。
vThis presentation does not represent the
view of NTT DOCOMO.
vSlides are from my sole view for which I
will take full ethical responsibility.
2
- 3. © 2013 NTT DOCOMO, INC. All rights reserved.
自己紹介
• 栄藤 稔, 執行役員, NTT DOCOMO
• 役割: R&D 戦略
• 経験:
パターン認識と機械学習, 信号処理,モバイ
ルマルチメディア,モバイルネットワーク.
趣味:
ロードバイク, フライフィッシング,ワイン
3
- 4. © 2013 NTT DOCOMO, INC. All rights reserved.
再構築中のサービスプラットフォーム
DOCOMO CLOUD
4
- 5. © 2013 NTT DOCOMO, INC. All rights reserved.
プライベート
クラウド
パブリック
クラウド
ドキュメント
Apps/
Books
いろいろ。。
カレンダー メール
コンタクト
ハイブリッドクラウドになるんでしょうね..
5
- 6. © 2013 NTT DOCOMO, INC. All rights reserved.
DOCOMO as a Big AWS User
4桁のEC2
インスタンス
6
- 7. © 2013 NTT DOCOMO, INC. All rights reserved.
しゃべってコンシェル実装の話
7
- 8. © 2013 NTT DOCOMO, INC. All rights reserved.
これからはドンピシャサービス
• Apple Siri
• Google Now
• Microsoft Cortana
• しゃべってコンシェル
タップでコンシェル
8
- 9. © 2013 NTT DOCOMO, INC. All rights reserved.
Siri
9
- 10. Train transfer / Last train alarm / Weather alarm / Traffic information / Receipt search / Map
search / Weather search / Image search / QA search / Movie search / Music search / News
search / Twitter search / Game search / App search / Book/Comic search / Area guide /
Browser search / Artist search / TV program search / Dictionary / Horoscope / Result search
for soccer game / Result search for baseball game / Result search for golf tournament /
Shopping / Calculate calorie of food / Sightseeing search / Call taxi / Knowledge of life /
Q&A for DOCOMO / Phone call / Launch camera / Timer / Alarm / Scedular / Memo / Music
player / Email / i-Concirge / i-Channel / DOCOMO Map / Disaster kit / Ir communication /
Post Twitter / Photo collection / Launch Galary / Translation / Cheat sheet / User support /
Flight mode / Day and time / Terminal information / Display setting / Keyboard and input /
Storage setting / Language setting / Location service setting / Application listup / Security
setting / Sound setting / User dictionary / Wi-Fi setting / Wall paper setting / Battery setting /
Communication service setting
© 2013 NTT DOCOMO, INC. All rights reserved.
サービス導線としての自然言語UI
37
search types
22
applications
20
functions
10
- 11. © 2013 NTT DOCOMO, INC. All rights reserved.
価値化の方向
Just say, wanna buy!“d-shopping” : real marketplace
水を買いたい
のですが.
何か御用ですか?
わかりました.
11
- 12. © 2013 NTT DOCOMO, INC. All rights reserved.
“現状維持”神社
“99.9999%”
寺院
直感
オフィス
なんちゃって
スカンクワークス
12
- 13. © 2013 NTT DOCOMO, INC. All rights reserved.
これはクラウド?
現状維持神社には
多くの迷信が...
13
- 14. © 2013 NTT DOCOMO, INC. All rights reserved.
99.9999% 寺院,
1年間の停止時間
31.5 秒以下
信念: 高可用性絶対維持
14
- 15. © 2013 NTT DOCOMO, INC. All rights reserved.
パブリッククラウドに対する3大懸念
セキュリティ
性能
切り替えコスト
15
- 16. © 2013 NTT DOCOMO, INC. All rights reserved.
直感オフィスからの指令
アラジンの魔法のラ
ンプを作れ (2009)
16
- 17. © 2013 NTT DOCOMO, INC. All rights reserved.
いつやるか?
ちょっと後でしょう。
17
- 18. © 2013 NTT DOCOMO, INC. All rights reserved.
‘Search‘におけるパラダイムシフト
Microsoft Bing
Google Voice Search
18
- 19. © 2013 NTT DOCOMO, INC. All rights reserved.
なんちゃってスカンクワークス(2010)
もうそろそろ作っても良い
かも.ただし,ステルスモート
でやろう
はい,我々には音声認識に関する経
験とデータがありますからね.
作るならパブリ
ッククラウドで作っ
てみたい.
19
- 20. © 2013 NTT DOCOMO, INC. All rights reserved.
分散音声認識(DSR) (2006)
First Implementation of ETSI AURORA Project(2000-2003)
16Khz Sampling MFCC feature vectors -> 5.6Kbps
Mobile Terminal
Feature
Extraction
Result
Encode
Server
Decode Rec.
Engine
Dictionary
20
- 21. © 2013 NTT DOCOMO, INC. All rights reserved.
Data Mining Team
(2009)
Web2.0 Believers
なんちゃってスカンクワークス
21
- 22. © 2013 NTT DOCOMO, INC. All rights reserved.
栄藤個人の想い
”思い付きの開発はしない.”
”データ量勝負に持ち込む.”
”安く早く自分たちで作ることに拘る.”
22
- 23. © 2013 NTT DOCOMO, INC. All rights reserved.
“イケテル”アプリの開発現場のイメージ
23
- 24. © 2013 NTT DOCOMO, INC. All rights reserved.
AWS への実装について
24
- 25. © 2013 NTT DOCOMO, INC. All rights reserved.
基本アーキテクチャ2010
Logging
Voice
Recognition
Task
Recognition
Logging
Voice
text
text contents
Service
Providers’ DB
contents
text
Text to speech
(inspired by Microsoft Bing, and Google Voice Search)
25
- 26. © 2013 NTT DOCOMO, INC. All rights reserved.
5/2011
Stealth Product
Data Center
(Hybrid with other Cloud)
歴史
June
AWS
NC-reg
Sept.
11/2012
AWS
Tokyo-reg.
Version 2
3/2012
Mar.∼
Version 1
Public
Cloud 26
- 27. © 2013 NTT DOCOMO, INC. All rights reserved.
信念: 良質な学習データ量がアルゴリズムより大事.
Speech
Speech
Data
Language
Data
Machine Learning Machine Learning
Acoustic
Model
Lexicon
Language
Model
Speech Recognition I want...
Text
Voice Recognition
27
- 28. © 2013 NTT DOCOMO, INC. All rights reserved.
意図解釈エンジンにおける処理
形態素解析
カテゴリ付与
特徴量抽出
タスク判定
キーワード抽出
発話内容を形態素に分割
単語にカテゴリ情報を付与
形態素やカテゴリ等から特徴量
を抽出
上記特徴量と学習モデルに基づ
きタスク判定を実行
発話内容に含まれる名詞とタス
ク判定結果からキーワードを抽
出
発話内容
28
- 29. © 2013 NTT DOCOMO, INC. All rights reserved.
Task Recognition and Service Flow
基本原理: 機械学習→サービス性能向上→データ集積→機械学習のループ
Service
Launcher
Search Engine A
Search Engine B
Search Engine C
Find a good Italian restaurant in Palo Alto
Abstractor
Feature
extractor
MC-SVM
Classifier
Tokenizer
Query ext.
I want...
Text
Contents
Restaurant
Task Corpus
Lexicon
Dictionary
Abstraction
Dictionary
29
- 30. © 2013 NTT DOCOMO, INC. All rights reserved.
Version 1 Implementation (Mar. 2012)
ɡ
A
LB
B
Started with two local cloud
providers in Japan, and soon faced
two difficulties:
•Scalability in
terms of #servers
•Inflexible monthly
payment
30
- 31. © 2013 NTT DOCOMO, INC. All rights reserved.
急発進
•Mar 2012
–0.5M accesses/day
•Apr 2012
–1.5M accesses/day
•Jul 2012
–2.5M accesses/day
31
- 32. © 2013 NTT DOCOMO, INC. All rights reserved.
プラットフォーム
テクノロジー
リーダー
グローバルな
顧客基盤
AWS 革新的
パートナー
エコシステム
AWSへの移動(June, 2012)
Scale!
32
- 33. © 2013 NTT DOCOMO, INC. All rights reserved.
システムアーキテクチャ2012
Availability Zone #1
SmartPhone
Management
Server
Log Server for VR
Availability Zone #2
Voice Recognizer(VR) Task Recognizer(TR) Log management system
Same as
AZ #1
TR Servers
ELB
(across multiple
zones) Tokenizer Access Log Servers
Availability Zone #3
VPC
VR Servers
LB
ELB
(across multiple
zones)
ELB
(across multiple zones)
33
- 34. © 2013 NTT DOCOMO, INC. All rights reserved.
必須デザインパターン: Multi-Data Center
Availability Zone #1 Availability Zone #2
LBLB
VR servers
Route 53
m2.4xlarge
x ~300 !!
HAProxy
Voice
VPC
VR servers
Voice Recognition Part
34
- 35. © 2013 NTT DOCOMO, INC. All rights reserved.
ドコモスカンクワークス: Cloud Natives
• 他のサービスも含めて
21のデザインパターン
を利用(総計48)
• 中でも ‘Queuing
Chain’
と
‘Scale
Out’
パターンを
多用.
35
- 36. © 2013 NTT DOCOMO, INC. All rights reserved.
他にも大事なデザインパターン
•Scheduled Scale Out
•Clone Server
36
- 37. © 2013 NTT DOCOMO, INC. All rights reserved.
Traffic Pattern
0:00 1:00 2:00 3:00 4:00 5:00 6:00 7:00 8:00 9:00 10:00 11:00 12:00 13:00 14:00 15:00 16:00 17:00 18:00 19:00 20:00 21:00 22:00 23:00
Normal traffic
37
- 38. 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
© 2013 NTT DOCOMO, INC. All rights reserved.
Auto-Scaleで追いつかない爆発的トラフィック
TV commercial causes a spike traffic.
30x traffic
# of servers
20:38 20:40 20:43 20:45
10min
38
- 39. © 2013 NTT DOCOMO, INC. All rights reserved.
Unexpected Traffic
Scheduled
–TV Commercial
–Introduction by TV program
fortunately pre-scheduled!
Suddenly happened
–Earthquake
–New Feature Release
burst
burst,
but gradually tapering
39
- 40. © 2013 NTT DOCOMO, INC. All rights reserved.
サーバー起動の準備
AMI の毎日リフレッシュ
–音声認識モデルの更新
スパイクトラフィックに対応
したAMI の起動
–10 min - 30 min前に準備
40
- 41. © 2013 NTT DOCOMO, INC. All rights reserved.
More intelligence
Optimized server deployment using
Elastic Map Reduce(EMR) for pattern analysis
24hours
41
- 42. © 2013 NTT DOCOMO, INC. All rights reserved.
引っ越し2回
• 2012年4月
• ローカルクラウド事業者からAWSへ
• 2012年7月
• 東京から北カリフォルニアへ
•Deploy mixture instance types
(c1.xlarge and m2.4xlarge)
• Sep 2012
• 北カリフォルニアから東京へ
–Unified to m2.4xlarge
–遅延の改善
42
- 43. © 2013 NTT DOCOMO, INC. All rights reserved.
お世話になりました.
43
- 44. © 2013 NTT DOCOMO, INC. All rights reserved.
DOCOMO スカンクワークス (2013)
もう後にはもどれない
リーンスタートアップカルチ
ャーを続けよう.
はい.運用しながらサー
ビスを逐次改善!
ねぇ,
リーダー,次は翻訳
どうよ.
44
- 45. © 2013 NTT DOCOMO, INC. All rights reserved.
今では,安定運用となっています.
• 10 million terminals pre-installed
• More than 4M distinct user accesses
• 1M accesses / day
17-Nov-16 27-Nov-16 7-Dec-16 17-Dec-16 27-Dec-16 6-Jan-17 16-Jan-17 26-Jan-17 5-Feb-17 15-Feb-17 25-Feb-17 7-Mar-17 17-Mar-17 27-Mar-17 6-Apr-17 16-Apr-17 26-Apr-17 6-May-17 16-May-17 26-May-17 5-Jun-17 15-Jun-17 25-Jun-17 5-Jul-17 15-Jul-17 25-Jul-17 4-Aug-17 14-Aug-17 24-Aug-17
17-Nov-16
Number of Speech
45
- 46. © 2013 NTT DOCOMO, INC. All rights reserved.
他のTips
•インスタンス管理
✓Simple DB as a key-value
store
•ログ管理・解析
✓Enormous logs from servers
✓Direct write to S3
•Multi-AZ
46
- 47. © 2013 NTT DOCOMO, INC. All rights reserved.
なぜクラウドが使えたか
クラウドを使って何が嬉しいか
1.横須賀にしがらみのない
”なんちゃって”スカンクワークスが存在.
2.”クラウドネィテブ”な開発手法の会得.
3.新しい道具(クラウド)と新しい文化のシナジー
早く作って逐次改良,少人数の共同責任で開発
47
- 48. © 2013 NTT DOCOMO, INC. All rights reserved.
Cloud を使いこなす設計とは?
重要な6つのポイント
1.「Design for failure」「共有責任モデル」を使いこなす。
2.クラウドに多くの機能を求めない。As Isで使う。依存しない。
3. ハードを意識しない。ソフトで調整する。
4. 小さく作って大きく伸ばす(伸ばせる)ようにする。
5. 従来より「設計」に時間とコストをかける。
Cloud
1.0 Cloud 2.0
#
#
#
#
48
- 49. © 2013 NTT DOCOMO, INC. All rights reserved.
まとめ(中間)
• 対話サービスは辞書整備と枯れた機械学習の結果。
• 夢と思われていた知識識処理理が可能に。
• これまでの社内プロセスから⼤大きく逸脱.
社⻑⾧長の後押し。
•AWSを中⼼心に世の中は回る.
•新しい技術を使いこなすには新しい⽂文化が重要.
49
- 50. © 2013 NTT DOCOMO, INC. All rights reserved.
余談: ビックデータ利用の本質
50
- 51. © 2013 NTT DOCOMO, INC. All rights reserved.
51
Dan Ariely's quote on his facebook site here:https://
www.facebook.com/dan.ariely/posts/904383595868
Big data is like teenage sex (Dan Ariely, Jan.2013)
everyone talks about it,
nobody really knows how to do it,
everyone thinks everyone else is doing it,
so everyone claims they are doing it...
- 52. © 2013 NTT DOCOMO, INC. All rights reserved.
ドコモにおけるビッグデータ活用
インターネット
ペタバイト級のデータ+機械学習+並列分散計算モデル
ビッグデータからの行動パターン分
析によるサービス利用促進/ユー
ザビリティ向上
多種多様なログに基づくクロスレコ
メンド/チューニングによる精度向
上/対象ユーザ・コンテンツのカバ
レッジ向上
ビッグデータを用いた辞書構築によ
る文字認識・画像認識精度の向上
/ソーシャルメディア情報活用によ
るユーザ動向把握
ビッグデータを用いたネットワークル
ーティングの最適化/解約につなが
る行動パターン発見
ビッグデータを用いたハザードマップ
/犯罪発生マップの高精度化・カ
バレッジ向上
交通機関・公共施設の運行最適化
による待ち時間の最小化
マーケティング リコメンデーション メディア理解オペレーション最適化 セキュリティ 社会インフラ最適化
業務システム
のデータ
様々な
ログファイル
CRMシステム
の顧客データ
Webサイト、
ブログ
ソーシャル
メディア
静止画、動画 センサデータ
Business Intelligence Data-Driven Innovation
52
- 53. © 2013 NTT DOCOMO, INC. All rights reserved.
(ビック)データにまつわる2つの方向
• Data-Driven Innovation
Web 2.0 by Tim O’Reilly (2005)の延長
APIによるプラットフォーム連携
• Business Intelligenceの深化
データが大規模であるが故にできる新たな付加価値創造。
53
- 54. © 2013 NTT DOCOMO, INC. All rights reserved.
「データサイエンティスト育成ネットワークの形成」事業の概要 」
丸山宏(統計数理研究所)
第5回横幹連合コンファレンス
2013.12.21-12.22 香川大学
そもそも、データサイエンティストという言葉には一定の定義がないようだ。
Harvard Business Review誌の記事は、かなりハードルの高い人材のことを述べてい
る。新しいデータ分析アルゴリズムを開発する力を持ちながら、同時に経営に携わるこ
とのできるタイプの人材、敢えて言えばGoogleのラリー・ペイジのような人材を想定し
ている。
それに近い考え方としては、Insight Data Science Fellows Programがある5)。物理
学、生物学などでPh. Dを持つ人材に対してデータ分析のツールやプログラミングを教
えることで、短期間にデータサイエンティストとして育成しようというものだ。これらの人
材も、年収10万ドルでGoogleやFacebookに行くということなので、かなりトップレベル
の人材と言える。
54
- 55. © 2013 NTT DOCOMO, INC. All rights reserved.
流行り言葉のビックデータ
に踊らされた企業は高いDBやツールを買ったり、やや
こしいOSSをインストールした後、
“夏にサンダルシンドローム”
に陥って投資が回収できなくなる。
55
- 56. © 2013 NTT DOCOMO, INC. All rights reserved.
統計的予測なら、サンプリングで解決できる。
→ なんちゃってビックデータ
ビックデータを持つからこそ
特徴次元 X サンプル次元での
スパースネスを制御できるということが大事。
スパースネス制御とは、ある識別をするに最適な特徴ベクトル
と十分なサンプルを確保すること(栄藤の持論)。
ビックとはそれが制御できるくらい大きいということ。
56
- 57. © 2013 NTT DOCOMO, INC. All rights reserved.
ビックデータの本質:
• ロングテール解析
– ニッチ商品の多品種少量量販売に不不可⽋欠
• 極低頻度度の異異様な振舞いの検出
– fraud detection
– Pandemic Analysis
– 新語
– プライバシー保護
• データ突合・シーケンス処理理
– アンケートXログデータ
– 時系列列コンテクスト
• 個別処理理がサービスの本質
57
- 58. © 2013 NTT DOCOMO, INC. All rights reserved.
Data Analysis Lineups from Amazon
• Amazon RDS
- 汎用データベース。MySQL/OracleDB/PostgreSQLなど
•DynamoDB
– 性能保証型Key-Value Store
•ElasticChache
– In memory キャッシュ。Redisなどに相当。
•RedShift
– MPP型データベース。DWH用途向け。Greenplum/Netezza相当。
•Elastic MapReduce (EMR)
– Hadoop相当。分析台数に応じて課金。データストアはS3
•Amazon S3
– 超並列分散入出力可能な大容量データストア
•Glacier
– テープライブラリ相当。S3と同じ堅牢性(Eleven nine)。
OLTP系
処理機構
DWH系
分析機能
大容量
データストア
97
- 59. © 2013 NTT DOCOMO, INC. All rights reserved.
Products of
Hot
data Warm
data Cold
data
RedshiftRDS&ElasticChache
&DynamoDB
& Kinesis
EMR
VPC
DirectConnet
Datapipeハイパフォーマンスな
データベース群
S3, Glacier
低コストストレージ
データフロー
マネージメント
低コスト
高パフォーマンス
DWH Map&Reduce
アプライアンス
セキュアな
NW
既存設備
59