9. 9Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
10. Apache Atlasとは?
• 一言:データガバナンスのための基盤です
• Atlas helps customers discover information
about data objects, their meaning, location,
characteristics, and usage.
• Designed to exchange metadata with other
tools and processes within and outside of the
Hadoop stack, thereby enabling platform-
agnostic governance controls that effectively
address compliance requirements
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 10
ソース:https://jp.hortonworks.com/apache/atlas/
11. Apache Atlasアーキテクチャ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 11
4つのキーポイント:
• Data Lineage
• Agile Data Modeling
• REST API
• Exchange
ソース: http://www.slideshare.net/HadoopSummit/top-three-big-data-governance-issues-and-how-apache-atlas-resolves-it-for-the-enterprise
12. データガバナンスの目的
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 12
• 組織はデータガバナンスによって、データの情報を
把握したい。例えば:
• 我々の情報について何を知っている?
• このデータはどこから来ている?誰が使える?
• このデータは会社のポリシーとルールに従っているか?
14. Dynamic access policies概要
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 基本のタグポリシー:個人情報、Sales情報
ルールはTagと紐づく(Tagは再利用可能)。直接リソースに紐付いても
可能。
• 地理情報ベースのポリシー(IPベース)
例:リモート利用者ならアクセス出来ない。社内ならアクセス可能。
• 時間ベースのポリシー
例:リースで借りてきたデータ。大学・研究機関から借りてきたデータを
アクセス。
– 月曜日から金曜日までアクセス可能とか。
• 禁止ルール
データの組み合わせにより情報漏えい対策
15. Cross Component Lineage概要
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース:https://jp.hortonworks.com/apache/atlas/
16. Cross Component Lineage概要
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース:https://www.linkedin.com/pulse/data-pipeline-hadoop-part-2-birender-saini
17. Role & Activities
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Data Steward: Atlasの主な利用者。データキューレーション、デー
タカタログ担当。Scientist をサポート
• Data Scientist: 分析。
• ビジネスカタログの主な利用者。利益源。
• 現在は50%~80%の時間でデータを探している。
• 今後は25%以下に抑えたい。節約した時間を分析に回す
• Administrator: ロール管理
• Data Engineer: データ入れだし操作
18. 感想
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Atlas + Rangerでカラムレベルのアクセス制御が出来た。
• ダイナミック・リアルタイム
• スキーマ情報は自動的に取得
• Lineageは表示できる
• ルールによって、データベース/テーブルを隠すこともできる。
例:PIIタグを特定のカラムにつける。PIIアクセス禁止のアカウント
は該当カラム表示できない。
• データスチュアートがカタログ情報を入力、データサイエンティストが
使う
19. Extend Governance in Hadoop with Atlas Ecosystem
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Waterline DataのAtlasインテグレーション事例
• データ内容を分析して、タグを提案してくれる。(%は関連度を示している)
• http://www.waterlinedata.com/
• Lineageについて、Atlasと連携:Import/Export
• Attivio事例
• 構造化・非構造化両方対応
• Lineage表示を強化
20. 20Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
21. eBay社内のデータプラットフォーム
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 色々なシステムにより構成されている
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
22. eBayのコラボレーションの進化
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
W:Wiki
F:良いね!SNS要素
in:プロフェッショナル関係で繋がる
23. eBayのデータ運用の課題(1)
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 直接なDBアクセスたくさん有り、MicroStrategyレポートたくさん有
り(5,000+)、 Tableauチャートもたくさん有り(10,000+)
• 同じ指標に対してのレポートでも複数バージョンある。正しいMetrics
とレポートを見つかるのは難しい。上司であっても判断は難しい。その
ツールは前任の前任から引き続いたかも。
• データサイエンティストはなんでも自分でやらないといけない。
• データサイエンティストが来たら、データはどこにあるか、どうやって
使うか、全部自分で探さないといけない。
• なぜそのファイルはそこにあるから知らない
• 整合性・一貫性が無い。あるテーマに対してそれぞれの紹介WIKIがあ
るかも
24. eBayのデータ運用の課題(2)
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• このレポートはどうやって計算しているか、データはどこから来ている
から分からない。誰かは「使え」と言っているから使っている。
• レポートのロジックの追跡は難しい
• レポートの信頼度は分からない。昨日のデータを使っているかも
• etc.
26. 対策
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Self-service Strategy
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
27. 対策
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
Alation:ツール。https://alation.com/customers/
28. データガバナンス
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
データアセットCertification
– 誰が、いつ、このViewが正しいかを判断したかを記録
ビジネス用語集
– 略語が多すぎるから、必須
管理
– クオリティチェック、リリースノート、データロード記録等
– これは現在利用可能?