Mais conteúdo relacionado
Semelhante a リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進 (20)
Mais de Shun Shiramatsu (10)
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
- 1. 2013-02-23 オープンデータ東海
( International Open Data Day in Nagoya / Tokai )
リンクトオープンデータ( LOD )の紹
介と
その先にある参画・協働・復興促進
白松 俊
名古屋工業大学 大学院工学研究科
- 2. はじめに :
オープンガバメント三原則
(2009 年 米オバマ政権発足時 )
全省庁の長官宛ての覚書「透明性とオープンガバメント」
http://www.whitehouse.gov/the_press_office/
Transparency_and_Open_Government/
1. 透明性 (transparency): 行政は透明であるべき
– データ公開によって市民の参加(フィードバック)を促す
1. 参画 (participation): 行政は市民参加型であるべき
– 社会に分散する知識を提供してもらい , 協業を促す
1. 協働 (collaboration): 行政は協業的であるべき
– 組織横断的に協力し,革新的なツールやシステムを整備
オープンな行政米 Data.gov (http://www.data.gov/)
をはじめとして,
二十数ヶ国でオープンデータプラットフォームが整備されつつある
- 3. 「 5 つ星 LOD 」マグカップ
組織横断的にデータを二次利用しやすくするデータ公開方法
を 5 段階で説明
( Web の生みの親 ティム・バーナーズ=リーが 2010 年に提唱)
5 Star Linked Open Data mug ($15.00)
- 4. オープンデータの 5 段階
日本語訳 : http://5stardata.info/ja/
( どんな形式でも良いので ) あなたのデー
★ タをオープンライセンスで Web 上に公開
しましょう
簡単に
公開
データを構造化データとして公開しましょ
★★ う
オープンデータ
( 例 : 表のスキャン画像よりも Excel)
非独占の形式を使いましょう
★★★
( 例 : Excel よりも CSV)
組織横断的にデータを
物事を示すのに URI を使いましょう,そう
二次利用を可能に
組み合わせた
★★★★ することで他の人々があなたのデータにリ
LOD
ンクすることができます
あなたのデータのコンテキストを提供する
★★★★★
ために他のデータへリンクしましょう
- 5. LOD とオープンガバメント三原則
1. 透明性 (transparency):
行政は透明であるべき 最初のうちは
– データ公開によって市民の参加 コストをかけずに
(フィードバック)を促す Excel や CSV でも OK
1. 参画 (participation):
行政は市民参加型であるべき
– 社会に分散する知識を提供して
もらい , 協業を促す 協業的に
• データを LOD へ変換
1. 協働 (collaboration): • 二次利用アプリを整備
• 市民も気軽に情報提供
行政は協業的であるべき
– 組織横断的に協力し,
革新的なツールやシステムを整備
- 6. 1 つ星のオープンデータ
どんな形式でも良いので,
データをオープンライセンスで Web 上に公開
• クリエイティブ・コモンズ策定のライセンス
– CC BY: 著作権者を表示すれば二次利用可能
– CC BY-NC: 著作権者表示,非営利での利用に限る
– CC0: 全ての占有権を主張せず,パブリックドメインに
• オープンデータ・コモンズ策定のライセンス
– CC の対象は著作物だが,こちらの対象はデータ ( 事実情報
)
– ODC-by: CC BY とほぼ対応
– PDDL: パブリックドメイン・ライセンス , CC0 とほぼ対応
- 7. 2 つ星のオープンデータ
データを構造化データとして公開
( 例 : 表のスキャン画像よりも Excel)
構造化されている 構造化されていない
=ソフトウェアがデータを =ソフトウェアがデータを
解釈しやすい ( 機械可読 ) 解釈できない
アプリから アプリからの二次利用に
二次利用しやすい はデータ再入力 / 再解析が
必要
• Excel のテーブルデータ
• ある開発ベンダーの • 表のスキャン画像
独自形式で構造を書いたデータ • PDF 文書
( ただし,二次利用は特定のソフトに依存 ) • 従来の HTML 文書 ( 半構造化 )
- 8. 3 つ星のオープンデータ
非独占の形式 ( 例 : Excel よりも CSV)
オープンなデータ形式 独占形式
特定のソフトに依存せず 機械可読ではあるが
誰もが二次利用可能 特定ソフトに依存
• カンマ区切りやタブ区切り • Excel のデータ
(CSV, TSV) のデータ • ある開発ベンダーの
• XML 形式のデータ 独自フォーマットで
構造を記述したデータ
• JSON 形式のデータ
( ただし,他組織のデータと
組み合わせた二次利用には使いづらい )
- 9. 4 つ星のオープンデータ
物事を示すのに URI を使うことで,
他の組織からもリンク可能なデータに
[ メモ ] URI (Universal Resource Identifier): 物事の識別子であって ,
統一書式に基づくもの. URI の代表例は, Web 上の位置を表す URL .
事物に URI を付与 事物に URI なし
他組織からのリンクや 他組織のデータから
組み合わせ二次利用が可能に リンクできない
• カンマ区切りやタブ区切り
• RDF 形式のデータ
(CSV, TSV) のデータ
( グラフ構造を表現可能 )
₋
• XML 形式のデータ
RDF/XML のデータ
のちほど
₋ RDF/JSON のデータ 説明します
• JSON 形式のデータ
₋ RDF/N3 のデータ
₋ RDF/Turtle のデータ
( ただし,ただ待っていても,適切な関連データから
リンクしてもらえるとは限らない )
- 10. 5 つ星のオープンデータ
データの「コンテキスト」を提供するため
他のデータへリンクさせる
[ メモ ] 「コンテキストを提供する」とは ?: 関連情報へのリンクにより
,そのデータ単独ではわからない背景情報も芋づる式に二次利用可能に
他データにリンク 他データへリンク無し
関連データを適切に選べば , 適切な関連データから
芋づる式に関連情報を リンクされるとは限らない
組み合わせて二次利用可能に
• 他データへのリンクが無い
• 適切な関連データへ RDF 形式のデータ
リンクした RDF 形式のデー
タ
- 11. RDF (Resource Description Framework)
• RDF 形式とは?
– Web 技術の標準化団体 W3C が策定 http://www.w3.org/RDF/
– データ中の事物を URI で表現
– 事物間の関係の種類を表す意味的リンクを張れる
foaf:name ( 名前 ) オープンデータ東海
http://opendata-tokai.jp/
dc:date ( 日付 ) 2013-02-23
bibo:organizer ( 主催者 ) 白松俊
rel:participant ( 参加者 )
http://lisra.jp/ foaf:name
http://www.facebook.com/
foaf:name ( 名前 )
nco:representative siramatu
( 代表者 )
foaf:knows( 知っている )
位置情報サービス研究機構 foaf:name 河口信夫
Lisra
http://www.facebook.com/
nobuo.kawaguchi
- 12. RDF/N3 ( 簡易表現 )
foaf:name ( 名前 )
http://www.nitech.ac.jp/ 名古屋工業大学
foaf:member ( メンバー ) http://www.facebook.com/
siramatu
foaf: というのは <> 内の略ですよ
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
<http://www.nitech.ac.jp/> foaf:name “ 名古屋工業大学” .
<http://www.nitech.ac.jp/> foaf:member <http://www.facebook.com/siramatu>.
( 主語 ) ( 述語 ) ( 目的語 )
この ( 主語 )-( 述語 )-( 目的語 ) の三つ組を RDF トリプルと言う
( 同じ意味 )
<http://www.nitech.ac.jp/> foaf:name “ 名古屋工業大学” ;
foaf:member <http://www.facebook.com/siramatu>.
実は、 foaf:name は
http://xmlns.com/foaf/0.1/name という URL の略
(事物間のリンク関係の種類にも URL を与えてある)
- 13. RDF/N3 ( 簡易表現 )
foaf:name ( 名前 ) オープンデータ東海
http://opendata-tokai.jp/ 2013-02-23
dc:date ( 日付 )
bibo:organizer ( 主催者 ) RDF/N3
@prefix foaf: <http://xmlns.com/foaf/0.1/>.
http://lisra.jp/ @prefix dc: <http://purl.org/dc/terms/>.
@prefix bibo: <http://purl.org/ontology/bibo/>.
foaf:name ( 名前 )
<http://opendata-tokai.jp/>
位置情報サービス研究機構 foaf:name “ オープンデータ東海” ;
Lisra dc:date “2013-02-23”;
bibo:organizer <http://lisra.jp/>.
<http://lisra.jp/>
foaf:name “ 位置情報サービス研究機構 Lisra”.
- 14. LOD に使える RDF の仲間
RDF トリプルが書ける形式はすべて LOD になり得る
• RDF/N3, RDF/Turtle: さきほど紹介したような形式
• RDF/XML: XML で RDF を表す形式(長くなりがち)
• RDF/JSON, JSON-LD: JSON で RDF を表す形式
• RDFa: HTML 文書に RDF トリプルを注釈付けする形式
説明のために : 「 RDF/Excel 」の例
(※説明用であり,実際はそんな形式ありません)
理化学研究所が提供するサービス LinkData (http://linkdata.org/ ) では,
これに似たような形式の Excel ファイルを RDF に変換して公開
- 15. 組織横断的にデータを組み合わせた
二次利用アプリって?
• データとデータを「マッシュアップする」と言う
• リンクされた複数のデータセットを組み合わせると,
データ間の相関など新たな傾向の発見に繋がる
– 例 : 犯罪情報と学区情報を地図上でマッシュアップ
→ 防犯体制を強化すべき学区がわかる
• ティム・バーナーズ = リーの 6 分間スピーチ (2010)
「オープンデータとマッシュアップで変わる世界」
– http://www.ted.com/talks/lang/ja/tim_berners_lee_the_year_open_data
をご覧下さい
- 16. マッシュアップの基点となりそうな
LOD データセット
有名なデータセットは
多くのデータからリンクされた LOD ハブになりやすく,
多様なデータ同士をマッシュアップするための基点になれる
• DBpedia:Wikipedia 記事のリンク構造を LOD 化したもの
– http://dbpedia.org/, http://ja.dbpedia.org/
• YAGO: WordNet という概念辞書を LOD 化したもの
– http://www.mpi-inf.mpg.de/yago-naga/yago/
• GeoNames: 地理情報
– http://www.geonames.org/
• LODAC Location: 日本の地理情報(国立情報学研究所による)
– http://lod.ac/apps/lodac_location/
2011 年 9 月時点で 295 データセット, 310 億 RDF トリプルが LOD として存在
(http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData)
- 17. LOD クラウド ( データセット群
)
DBpedia
メディア 出版
CGM
行政
地理情報 2011 年 9 月時点の
クロス 生命科学 295 データセット
ドメイン
- 18. 関係 ( リンク ) の種類はどうやって
見つけるの?
• よく使われるボキャブラリ
– Dublin Core: http://purl.org/dc/terms/
dc:title( タイトル ), dc:date( 日付 ), dc:creator( 作者 ), …
– SKOS: http://www.w3.org/2004/02/skos/core
skos:related( 関連する ), skos:example( 例 ), …
– FOAF (Friend of a Friend): http://xmlns.com/foaf/0.1/
foaf:name( 名前 ), foaf:knows( 知人 ), …
– Basic Geo: http://www.w3.org/2003/01/geo/wgs84_pos
geo:lat( 緯度 ), geo:long( 経度 )
• 適切な関係が上記 4 例などで定義されていない場合
1. Linked Open Vocabularies (LOV) というサイトで検索して探す
– http://lov.okfn.org/dataset/lov/
1. それでも無ければオントロジーでボキャブラリを定義して公開
- 19. オントロジーって何?
• オントロジー : データの種類(クラス)やデータ間の
リンク関係(プロパティ)を定義した辞書のようなもの
. セマンティック Web という研究分野で発展
– DublinCore や SKOS は多岐にわたって使える汎用オントロジ
ー
– FOAF は人間関係という領域に特化した領域オンとロンジー
• インスタンス : 実例データ. インスタンス
FOAF オントロジー 白松俊
foaf:name
http://xmlns.com/foa http://www.facebook.com/
siramatu
f/0.1/Person
foaf:name foaf:knows 河口信夫
foaf:name
foaf:knows 文字列データ http://www.facebook.com/
nobuo.kawaguchi
• LOD 普及の方針 :
「オントロジーとか難しいことをあまり気にせずに,
- 20. 行政データのボキャブラリは?
• 米 Data.gov の場合
行政情報,医療情報などの共通ボキャブラリを
http://vocab.data.gov/ で整備
• 日本の取り組み
http://opendata.openlabs.go.jp/ja/idea/00054/#002 より引用
- 22. RDF ストア
• RDF ストア : RDF 蓄積・公開用データベース
– SPARQL という問い合わせ言語で検索可能
• オープンソースの RDF ストア
– Apache Jena Fuseki
インストール簡単だがスケーラビリティがない
– 4store, Allegro
スケーラブル , 数十億トリプル程度は大丈夫?
(http://www.garshol.priv.no/blog/231.html に比較表 )
- 23. Excel から RDF へ変換して公開でき
るサービス LinkData
http://linkdata.org/
• LOD チャレンジ Japan 2011 アプリケーション部門最優秀
賞
• 緯度経度つきデータを地図上に配置するアプリも作成可能
• 鯖江市などがデータ公開に利用
- 24. HTML 文書と LOD をリンクさせる
• ふつうの HTML はそのままでは機械可読でない
– データの二次利用のためには, Web ラッパーあるいは
Web スクレイピングなどと呼ばれる技術が必要
– そのため「半構造化データ」と呼ばれる
• RDFa: HTML 文書に RDF トリプルを注釈付け
– HTML 文書を基点としたマッシュアップを可能に
• Microdata: HTML5 から導入 (RDFa と目的は同じ )
– Google, Microsoft, Yahoo が共同で進めている
schema.org イニシアチブで推奨
- 28. HTML 文書に DBpedia データを
RDFa 形式で注釈付けするシステム
• http://www.open-opinion.org/odday2013.html
• アノテーションシステム WFEa ( 仮称 , 試作の α バージョン
)
- 30. WFEa によるアノテーション作業
• 選択して右クリックで,新たなアノテーションを追加可能
• 関連ありそうな DBpedia のデータリソースが推薦される
• アノテーションは Google App Engine サーバに蓄積
• 様々な関係者が参画し,気づいたら注釈を付けるという
クラウドソーシング的なソーシャルアノテーションを想定
リンク
- 32. LOD 普及のためのコンテスト
LOD チャレンジ Japan
http://lod.sfc.keio.ac.jp/challenge2012/
• 米 Challenge.gov や欧州 Open Data Challenge
を参考に 2011 年より毎年開催(まだ 2 回目 )
– アイディア部門
– データセット部門
– アプリケーション部門
– ビジュアライゼーション(可視化)部門
• 昨年の第 1 回で「チャレンジデー賞」を頂いた
我々の取り組みを御紹介します
- 33. 参画,協働,復興促進への
応用を目指して
総務省 SCOPE (2010 ~ 2011 年度 )
「地域コミュニティにおける議論活性化のための
住民参画 Web プラットフォームの開発」の成果
- 34. 動機 : 何がしたいのか
• 地域社会が直面する多様な課題やリスク
– 自然災害 , 放射能汚染 , 福祉問題 , 不景気 , 過疎化 , etc.
– 日本人的な「お上がなんとかしてくれる」の限界
– 住民の知恵を結集する技術が欲しい.地域 SNS ? Twitter ?
• 住民が参画しやすいように, LOD で背景情報を共有化
SOCIA (Social Opinions and Concerns for Ideal Argumentation)
http://data.open-opinion.org/
– 議論の種 : 地域と出来事を基点に Web コンテンツを構造化
– 地域の社会問題の背景情報を提示し,住民の意見入力を支援
(LOD チャレンジ Japan 2011 チャレンジデー賞
- 35. 地域での住民参画と
コンサーン・アセスメント
• 地域での住民参画 (Public Involvement)
– 住民は,「何が問題か」を知らないと参画できない
• コンサーン・アセスメント
– コンサーン(人々の公的な問題意識)を調査・分析
– 意思決定の根拠として活用できるだけでなく,
住民間で問題意識を共有し,透明性を確保するために有効
( 問題点 ) 「でも、地域の時事問題なんて
追ってる暇ないし・・・」
- 36. Web 上の関連情報を活用した
コンサーン・アセスメント支援
議論の「種」として構造化した地域関連コンテンツを,
意見入力補助のための背景情報として活用
議論の「種」 LOD: 構造化した
として収集 関連コンテンツ・意見
コンサーン・
意見収集 活用 アセスメント
……
……
… ……
..… …
..
---..
---
------ ---
------
------------
------
------
Web 上の
地域関連 入力補助 研究用
コンテンツ コーパス
- 37. 住民参画のための LOD の要件
1. 地域ごとに社会問題 ( らしき情報 ) を構造化
2. 問題の背景情報を構造化
3. 問題に対する住民意見を構造化 これまでの
取り組み
今後の
4. 問題に係わる利害関係者を構造化 ターゲット
5. 利害関係者の目指すゴールを構造化
6. 利害関係者の意思決定とその根拠を構造化
これらの要件を満たす LOD データセット SOCIA
(Social Opinions and Concerns for Ideal Argumentation)
の構築を目指す
- 38. 住民参画 Web プラットフォーム O2
• LOD チャレンジ Japan 2011 応募作品で構成
• 地域の問題を議論するための情報共有基盤として開発中
– 透明性 (Transparency) 現段階での
– 参画 (Participation) フォーカス
住民参画に活
– 協働 (Collaboration) 用
議論の「種」 構造化
- 39. コンサーンの背景情報共有のためには
情報の構造化が不充分
同じ事象についての複数の記事 問題点 :
コンテンツの言及対象
≒ (地域,事件,話題)の同定
リンクはあるが… リンクもない
同一事象について述べられた Twitter /議会の発言
• 新聞社内では事件や話題に ID を振って管理
– 公開されておらず,コンサーン・アセスメントには不向き
• 実世界の出来事に ID を振り,
コンサーンの整理/共有のために活用したい
- 40. 地域・出来事を基点とした構造化
愛知県 地域
名古屋市 出来事
2011-06-12
栄
目指す状態
原子力撤廃
事故
現状 デモ活動
福島第一
原子力発電所
≒
ニュース記事
Twitter 上の発言 議事録中の発言
コンテンツの地域分類と出来事の自動抽出が必要
- 41. SOCIA での背景情報構造化
出来事と地域を基点として,
地域の社会問題の背景情報となる記事や意見を紐付け
核となるオントロジー
( LODAC Location )
LOD に蓄積された事例
他に,解決策やその評価基準を表すタグの付与もサポート
- 42. SOCIA を用いた議論支援システム
[ 佐野 + 12]
citispe@k
• SOCIA 中の地域関連情報を活用した議論支援機構を試作
• コンサーン整理のためのタグ付与機構
‑ 評価基準タグ : 経済 +/ -,環境 +/ -,福祉 +/ -,教育 +/ - ,
…
‑ 発言意図タグ : 質問,ツッコミ,非難,ファシリテーション,…
citispe@k = citizen + speak
SOCIA
Web
API
Endpoint
SPARQL
JSON
SOCIA SPARQL Query
XML, JSON
- 43. 評価基準タグ,発言タグ
• 評価基準タグ :
– 環境
– 経済
– 日本経済ポジティブ
– 日本経済ネガティブ
– 日本経済ニュートラル
– etc.
• 発言タグ :
– 質問,アイディア,ツッコミ , 罵倒,ファシリテーション , etc.
ユーザの増設を許し,
多様な価値観での
アセスメントに活用
- 45. 復興促進への適用
• SOCIA と O2 のターゲットである住民参画が
必要不可欠な課題
– これまで焦点にしてきた透明性,参画だけでなく
協働も支援できるような拡張が必要
• 東日本大震災の被災地以外でも災害リスク
備えとしての復興支援技術の開発が大切
- 47. 復興促進 / 協働支援のための課題
1. 各主体の復興目標の記述方法
– 復興目標が似た住民同士をマッチングするために
必要な構造を検討
1. 各主体の意思決定の記述方法
– 意思決定やその根拠に関する情報共有のために
必要な構造を検討
- 48. 復興目標の記述に必要な構造
Goal クラス
• 説明文
dc:description
• 目標への賛同者
socia:wisher
• 参加者
socia:participant
• 利害関係者
socia:stakeholder
• 部分目標
socia:subGoal
これらを用いた目標間の類似度計算
- 49. 決定事項やその根拠の記述に必要な構造
• 決定者と決定事項
socia:decision
Decision クラス
• 関連する課題
socia:issue
• 採用した解決策
socia:adopt
• 意思決定の根拠
socia:evidence
• 決定日
dc:acceptedDate
誰がどんな根拠でどんな意思決定をしたのかを共有可能に
- 50. 復興促進への適用に向けた展望
• JST A-STEP 復興促進プログラム
– 2012 年 10 月から 2013 年 9 月まで
– ニュース記事や関係者による公開資料から
復興目標や課題に関する LOD を人手で構築中
• 災害リスク情報や復興関連情報の共有化
– 復旧・復興支援制度データベース API を利用予定
• 復興に向けたコミュニティ形成を支援
– 復興のゴールを共有できる人達を推薦
• 復興に向けたプロジェクト進捗管理
– オープンにできない情報の扱いも
• 仮名化,秘匿化,アクセス制御
Notas do Editor
- ニュース記事からイベント抽出 イベントの地域分類 イベントに関連するニュース記事と意見もその地域へ関連づけ