SlideShare uma empresa Scribd logo
1 de 83
Baixar para ler offline
オープンデータの現状と未来
1
Saturday, April 18, 15
目次
• オープンデータの概要
• 日本のオープンデータの現状
• オープンデータの模範的あり方
• 日本はどうすれば…
2
Saturday, April 18, 15
作品の一部ではなく全てが、複製のための適正な価
格あるいはインターネットによる無償ダウンロード
により提供されてなければなりません。また、作品
は、変更可能で便利な形式で提供されなければいけ
ません。
http://opendefinition.org/od/1.1/ja/
オープンの定義
3
Saturday, April 18, 15
http://5stardata.info/ja/
OL: Open Licence
RE: machine REadable
OF: Open Format
URI: RDF Standard (Indentifeied Resource)
LD: Linked RDF
オープンデータの形式
4
Saturday, April 18, 15
データライフサイクル
5
Saturday, April 18, 15
データライフサイクル
未集計
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
- POS
- サービスログ
* サーバーログ
* アドログ
* 検索ログ
- センサデータ
* 気象
* 震度
* GIS…
- マーケットデータ
* 証券取引所,FX…
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
- POS
- サービスログ
* サーバーログ
* アドログ
* 検索ログ
- センサデータ
* 気象
* 震度
* GIS…
- マーケットデータ
* 証券取引所,FX…
ETL
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
ETL
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
ETL
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
	

 - Hadoop (HDFS+YARN)
	

 	

 - tez
	

 	

 - spark
	

 	

 - prestdb
	

 	

 - impala
	

 - MPPDB
	

 	

 - teradata
	

 	

 - netiza
	

 	

 - vertica
	

 	

 - paraccel
	

 	

 - redshift
	

 - ETLサービス
	

 	

 - TresureData
	

 	

 - BigQuery
ETL
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
ETL
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
ETL
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
MLETL
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
MLETL
統計
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
MLETL
統計
可視化
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
MLETL
統計
可視化
レポート
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
MLETL
統計
可視化
レポート
5
Saturday, April 18, 15
データライフサイクル
未集計 集計済 インサイト
Extract/Transform/Load
MLETL
統計
可視化
レポート
オープンデータ
5
Saturday, April 18, 15
open closed
官公 国
官公 地方
民間 営利
民間 非営利
時系列 GIS 分布
主要
その他
今回の対象データ
6
Saturday, April 18, 15
ゆきゆきてオープンデータ的な
http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf
G8オープンデータ憲章
電子行政オープンデータ戦略
http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf
世界最先端 IT 国家創造宣言
http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf
7
Saturday, April 18, 15
ゆきゆきてオープンデータ的な
http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf
G8オープンデータ憲章
電子行政オープンデータ戦略
http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf
世界最先端 IT 国家創造宣言
http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf
政府自ら積極的に公共データを公開すること
機械判読可能な形式で公開すること
営利目的、非営利目的を問わず活用を促進すること
取組可能な公共データから速やかに公開等の具体的な取組に着手
し、成果を確実に蓄積していくこと
7
Saturday, April 18, 15
ゆきゆきてオープンデータ的な
http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf
G8オープンデータ憲章
電子行政オープンデータ戦略
http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf
世界最先端 IT 国家創造宣言
http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf
7
Saturday, April 18, 15
ゆきゆきてオープンデータ的な
http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf
G8オープンデータ憲章
電子行政オープンデータ戦略
http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf
世界最先端 IT 国家創造宣言
http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf2014 年度及び 2015 年度の2年間を集中取組期間と位置づけ、
2015 年度末には、 他の先進国と同水準の公開内容を実現する。
7
Saturday, April 18, 15
ゆきゆきてオープンデータ的な
http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdf
G8オープンデータ憲章
電子行政オープンデータ戦略
http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf
世界最先端 IT 国家創造宣言
http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf
7
Saturday, April 18, 15
Global Open Data Index
http://index.okfn.org/place/
8
Saturday, April 18, 15
例:月例経済報告
9
Saturday, April 18, 15
例:月例経済報告
GDP, 消費総合指数,家計調
査,毎月勤労統計,消費者物価
指数,労働力調査,日銀短観,
鉱工業指数,貿易統計…
9
Saturday, April 18, 15
例:月例経済報告
国の施策決定の第一位の根拠
GDP, 消費総合指数,家計調
査,毎月勤労統計,消費者物価
指数,労働力調査,日銀短観,
鉱工業指数,貿易統計…
9
Saturday, April 18, 15
例:月例経済報告
国の施策決定の第一位の根拠
消費者物価指数 →
年金,家賃,賃金,日銀金融政策....
GDP, 消費総合指数,家計調
査,毎月勤労統計,消費者物価
指数,労働力調査,日銀短観,
鉱工業指数,貿易統計…
9
Saturday, April 18, 15
e-Stat 総務省系
データカタログ 経産省系
行政機関各自独自
オープンデータの公開先
10
Saturday, April 18, 15
帝京大学 藤谷道夫 訳
11
OPENDATA INFERNO
Saturday, April 18, 15
憂いの国にいかんとするものはわれをくぐれ
永劫の呵責に遭わんとするものはわれをくぐれ
破滅の人に伍せんとするものはわれをくぐれ
正義は高き主を動かし,神意は,最上智は,
最初の愛は,われを作る
わが前に創られしものは無し,ただ無窮あり,われは
無窮に続くものなり
われを過ぎんとするものは一切の望みを捨てよ
12
地獄の門
Saturday, April 18, 15
師よ、私の理解を絶するこのサイ
トは何ですか?
苦しみにかくも打ちのめされてい
るように見えるこのデータはどん
なデータなのですか?
13
打ちのめされたデータ
Saturday, April 18, 15
14
E-STAT INFERNO
Saturday, April 18, 15
15
検索…
Saturday, April 18, 15
15
検索…
Saturday, April 18, 15
検索が激遅い…
15
検索…
Saturday, April 18, 15
16
ブラウズ…
Saturday, April 18, 15
16
ブラウズ…
Saturday, April 18, 15
ブラウズがおかしい…
16
ブラウズ…
Saturday, April 18, 15
• Java Strutsによるイニシエの実装
• ブラウズがおかしいのは,アクションサーブレットに
よるページの動的生成のため
• 検索が遅いのは,まともな検索エンジンを使ってない
から
E-STATの実装
Saturday, April 18, 15
18
E-STAT API
Saturday, April 18, 15
E-STAT APIの謎コード
19
Saturday, April 18, 15
E-STAT APIの謎コード
19
Saturday, April 18, 15
E-STAT APIの謎コード
19
Saturday, April 18, 15
E-STAT APIの謎コード
19
Saturday, April 18, 15
E-STAT APIの謎コード
19
Saturday, April 18, 15
E-STAT APIは…
20
Saturday, April 18, 15
E-STAT APIは…
20
Saturday, April 18, 15
E-STAT APIは…
20
Saturday, April 18, 15
E-STAT APIは…
20
e-Stat APIは
RDBダンプダウンローダー
Saturday, April 18, 15
E-STAT APIの致命的欠点
Saturday, April 18, 15
E-STAT APIの致命的欠点
• e-StatにあるほとんどのデータがAPIからとれない
Saturday, April 18, 15
E-STATの致命的欠点
22
Saturday, April 18, 15
E-STATの致命的欠点
22
Saturday, April 18, 15
E-STATの致命的欠点
22
Saturday, April 18, 15
E-STATの致命的欠点
22
Saturday, April 18, 15
そもそも,e-Statにない
重要経済統計がありすぎ
E-STATの致命的欠点
22
Saturday, April 18, 15
DATACATALOG INFERNO
Saturday, April 18, 15
DC: 登録されているデータが…
Saturday, April 18, 15
DC: 本質
Saturday, April 18, 15
DC: 本質
• データカタログサイトの基本はファイルリポジトリ
• 乱雑なものを乱雑なまま
Saturday, April 18, 15
DC: 実装
• PythonのDMSであるCKANを利用
• data.gov/data.gov.ukのコピー
• CKANというよりG-CAN(Garbge Can)に…
Saturday, April 18, 15
27
EXCEL INFERNO
Saturday, April 18, 15
27
EXCEL INFERNO
Saturday, April 18, 15
EXCEL INFERNO-1
28
Saturday, April 18, 15
EXCEL INFERNO-1
28
Saturday, April 18, 15
EXCEL INFERNO-2
29
Saturday, April 18, 15
EXCEL INFERNO-2
29
Saturday, April 18, 15
EXCEL INFERNO-2
29
Saturday, April 18, 15
EXCEL INFERNO-2
29
Saturday, April 18, 15
EXCEL INFERNO-2
29
Saturday, April 18, 15
• オープンデータを配布する仕組みがまずい
• すぐに使えるデータを公開しない
• 統計の観測のやり方にいろいろ問題
J-OPENDATA INFERNO
Saturday, April 18, 15
WORLD BANK DATA
Saturday, April 18, 15
• Indicators - Countries の時系列
• GDP, 失業率, 起業率, 死亡率, 有病率, 教育参加率
• 大陸別,国別
WORLD BANK DATAの属性
Saturday, April 18, 15
WORLDBANK
• 強力なデータブラウザ
• 合理的なREST API
• API Query Explorer
• 数多くの3rd Party SDK / アプリケーション
Saturday, April 18, 15
QUANDLE
Saturday, April 18, 15
オープンデータの正しい出し方
• API
• API First
• GET/POST/PUT/DELETEが合理的
• キレイなURL
• API Query Explorer / SDK
• 網羅的にデータを探索できるデータブラウザ
35
Saturday, April 18, 15
じゃあ,具体的に…
どうすれば…
36
Saturday, April 18, 15

Mais conteúdo relacionado

Destaque

PyDataTokyo201-05-22
PyDataTokyo201-05-22PyDataTokyo201-05-22
PyDataTokyo201-05-22Yuta Kashino
 
"Automatic Variational Inference in Stan" NIPS2015_yomi2016-01-20
"Automatic Variational Inference in Stan" NIPS2015_yomi2016-01-20"Automatic Variational Inference in Stan" NIPS2015_yomi2016-01-20
"Automatic Variational Inference in Stan" NIPS2015_yomi2016-01-20Yuta Kashino
 
Chainer meetup2016 03-19pub
Chainer meetup2016 03-19pubChainer meetup2016 03-19pub
Chainer meetup2016 03-19pubYuta Kashino
 
Deep learning Libs @twm
Deep learning Libs @twmDeep learning Libs @twm
Deep learning Libs @twmYuta Kashino
 
機械学習ビジネス研究会 第01回
機械学習ビジネス研究会 第01回機械学習ビジネス研究会 第01回
機械学習ビジネス研究会 第01回Yuta Kashino
 
日本のオープンデータプラットフォームをPythonでつくる
日本のオープンデータプラットフォームをPythonでつくる日本のオープンデータプラットフォームをPythonでつくる
日本のオープンデータプラットフォームをPythonでつくるYuta Kashino
 
TensorFlow White Paperを読む
TensorFlow White Paperを読むTensorFlow White Paperを読む
TensorFlow White Paperを読むYuta Kashino
 
深層学習ライブラリのプログラミングモデル
深層学習ライブラリのプログラミングモデル深層学習ライブラリのプログラミングモデル
深層学習ライブラリのプログラミングモデルYuta Kashino
 
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02Yuta Kashino
 
Improving ip geolocation using query logs
Improving ip geolocation using query logsImproving ip geolocation using query logs
Improving ip geolocation using query logsKoichiro Kondo
 
オークション理論と実証入門
オークション理論と実証入門オークション理論と実証入門
オークション理論と実証入門Kazuki Baba
 
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)Akira Shibata
 
型ヒントについて考えよう!
型ヒントについて考えよう!型ヒントについて考えよう!
型ヒントについて考えよう!Yusuke Miyazaki
 
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京Koichi Hamada
 
最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
Research libraries in a European e-science infrastructure
Research libraries in a European e-science infrastructureResearch libraries in a European e-science infrastructure
Research libraries in a European e-science infrastructureWouter Schallier
 
AdvancedWord01
AdvancedWord01AdvancedWord01
AdvancedWord01adisg
 
“Ampacimon” real-time dynamic rating system
“Ampacimon” real-time dynamic rating system“Ampacimon” real-time dynamic rating system
“Ampacimon” real-time dynamic rating systemRTE
 
SKF First-quarter 2011 result slide show
SKF First-quarter 2011 result slide show SKF First-quarter 2011 result slide show
SKF First-quarter 2011 result slide show SKF
 

Destaque (20)

PyDataTokyo201-05-22
PyDataTokyo201-05-22PyDataTokyo201-05-22
PyDataTokyo201-05-22
 
"Automatic Variational Inference in Stan" NIPS2015_yomi2016-01-20
"Automatic Variational Inference in Stan" NIPS2015_yomi2016-01-20"Automatic Variational Inference in Stan" NIPS2015_yomi2016-01-20
"Automatic Variational Inference in Stan" NIPS2015_yomi2016-01-20
 
Chainer meetup2016 03-19pub
Chainer meetup2016 03-19pubChainer meetup2016 03-19pub
Chainer meetup2016 03-19pub
 
Deep learning Libs @twm
Deep learning Libs @twmDeep learning Libs @twm
Deep learning Libs @twm
 
機械学習ビジネス研究会 第01回
機械学習ビジネス研究会 第01回機械学習ビジネス研究会 第01回
機械学習ビジネス研究会 第01回
 
日本のオープンデータプラットフォームをPythonでつくる
日本のオープンデータプラットフォームをPythonでつくる日本のオープンデータプラットフォームをPythonでつくる
日本のオープンデータプラットフォームをPythonでつくる
 
TensorFlow White Paperを読む
TensorFlow White Paperを読むTensorFlow White Paperを読む
TensorFlow White Paperを読む
 
深層学習ライブラリのプログラミングモデル
深層学習ライブラリのプログラミングモデル深層学習ライブラリのプログラミングモデル
深層学習ライブラリのプログラミングモデル
 
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02深層学習ライブラリの環境問題Chainer Meetup2016 07-02
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
 
Improving ip geolocation using query logs
Improving ip geolocation using query logsImproving ip geolocation using query logs
Improving ip geolocation using query logs
 
オークション理論と実証入門
オークション理論と実証入門オークション理論と実証入門
オークション理論と実証入門
 
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)
 
型ヒントについて考えよう!
型ヒントについて考えよう!型ヒントについて考えよう!
型ヒントについて考えよう!
 
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
Research libraries in a European e-science infrastructure
Research libraries in a European e-science infrastructureResearch libraries in a European e-science infrastructure
Research libraries in a European e-science infrastructure
 
AdvancedWord01
AdvancedWord01AdvancedWord01
AdvancedWord01
 
“Ampacimon” real-time dynamic rating system
“Ampacimon” real-time dynamic rating system“Ampacimon” real-time dynamic rating system
“Ampacimon” real-time dynamic rating system
 
Chris Carsten David
Chris Carsten DavidChris Carsten David
Chris Carsten David
 
SKF First-quarter 2011 result slide show
SKF First-quarter 2011 result slide show SKF First-quarter 2011 result slide show
SKF First-quarter 2011 result slide show
 

Mais de Yuta Kashino

時系列データと確率的プログラミング tfp.sts
時系列データと確率的プログラミング tfp.sts時系列データと確率的プログラミング tfp.sts
時系列データと確率的プログラミング tfp.stsYuta Kashino
 
私は如何にして心配するのを止めてPyTorchを愛するようになったか
私は如何にして心配するのを止めてPyTorchを愛するようになったか私は如何にして心配するのを止めてPyTorchを愛するようになったか
私は如何にして心配するのを止めてPyTorchを愛するようになったかYuta Kashino
 
ベイジアンディープニューラルネット
ベイジアンディープニューラルネットベイジアンディープニューラルネット
ベイジアンディープニューラルネットYuta Kashino
 
深層学習とベイズ統計
深層学習とベイズ統計深層学習とベイズ統計
深層学習とベイズ統計Yuta Kashino
 
Wasserstein GAN Tfug2017 07-12
Wasserstein GAN Tfug2017 07-12Wasserstein GAN Tfug2017 07-12
Wasserstein GAN Tfug2017 07-12Yuta Kashino
 
確率的プログラミングライブラリEdward
確率的プログラミングライブラリEdward確率的プログラミングライブラリEdward
確率的プログラミングライブラリEdwardYuta Kashino
 

Mais de Yuta Kashino (11)

時系列データと確率的プログラミング tfp.sts
時系列データと確率的プログラミング tfp.sts時系列データと確率的プログラミング tfp.sts
時系列データと確率的プログラミング tfp.sts
 
Python kansai2019
Python kansai2019Python kansai2019
Python kansai2019
 
Mlse20190208
Mlse20190208Mlse20190208
Mlse20190208
 
Ml15m2018 10-27
Ml15m2018 10-27Ml15m2018 10-27
Ml15m2018 10-27
 
Pydata2017 11-29
Pydata2017 11-29Pydata2017 11-29
Pydata2017 11-29
 
私は如何にして心配するのを止めてPyTorchを愛するようになったか
私は如何にして心配するのを止めてPyTorchを愛するようになったか私は如何にして心配するのを止めてPyTorchを愛するようになったか
私は如何にして心配するのを止めてPyTorchを愛するようになったか
 
Pycon2017
Pycon2017Pycon2017
Pycon2017
 
ベイジアンディープニューラルネット
ベイジアンディープニューラルネットベイジアンディープニューラルネット
ベイジアンディープニューラルネット
 
深層学習とベイズ統計
深層学習とベイズ統計深層学習とベイズ統計
深層学習とベイズ統計
 
Wasserstein GAN Tfug2017 07-12
Wasserstein GAN Tfug2017 07-12Wasserstein GAN Tfug2017 07-12
Wasserstein GAN Tfug2017 07-12
 
確率的プログラミングライブラリEdward
確率的プログラミングライブラリEdward確率的プログラミングライブラリEdward
確率的プログラミングライブラリEdward
 

Opendata@tokyowebmining