O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
オープンデータをLOD化するデータソン
in 高槻
5つ星オープンデータ(LOD)の公開方法を学ぶ
「勉強会&データソン」
主催:LODチャレンジ関西支部
共催:アーバンデータチャレンジ2016 1
自己紹介
 オープンデータに関わる活動
 LODチャレンジ実行委員会(2011~)関西支部長(副実行委員長)
→LOD(Linked Open Data)を技術普及させたい
「LODチャレンジ」(コンテスト)への応募作品を増やしたい
 特...
注意事項・お願い
•WiFiについて
• 会場提供のWiFiはありませんので,
各自のモバイルルータ,テザリング等でネットワーク
への接続をお願いします.
•情報共有用シート
• https://goo.gl/qF1e2J にアクセスしてくださ...
本日のスケジュール
9:00 オープニング,LODC&UDC2016の紹介
9:10 LODと5つ星オープンデータに関する講演
9:30 各ツールの使い方の解説・ハンズオン
10:30 高槻市のオープンデータはLOD(5つ星)化
するデータソン...
LODチャレンジ2016 &
アーバンデータチャレンジ2016
の紹介
大阪大学産業科学研究所
LODチャレンジ実行委員会 関西支部長
アーバンデータチャレンジ2016 大阪ブロック コーディネータ
古崎 晃司
5
6
LODチャレンジ2016
(2011年~) ※自由課題型
キックオフ:2016年9月17日(予定)
エントリー開始:2016年10月1日
応募締切:2017年1月中旬頃
http://lodc.jp/
アーバンデータチャレンジ2016
(2...
Linked Open Data(LOD)チャレンジ
LOD( 5つ星オープンデータともいわれる)の技術普及を
目的として開催されている,日本初のオープンデータに
関するコンテスト(2011年より開催)
http://lodc.jp
ジャンルを...
5 ★ オープンデータ
http://5stardata.info/ より
オープン
ライセンス
(形式問わず)
機械可読な
フォーマット
オープンな
フォーマット
8
LODが利用できるサイトの例(1)
9
経済産業省法人ポータル
(メンテナンス中) 経済産業省OPEN DATA METI eStat 統計LOD
国立国会図書館LOD 大阪市オープンデータポータル DBpedia(WikipediaのLOD)
LODが利用できるサイトの例(2)
10
LinkData.org SparqlEPCU LOD4ALL
GeoNames.jp 大河配役LOD LODハッカソン関西
アーバンデータチャレンジ
2013年より毎年開催
課題解決型のコンテスト
2015年度
・地域拠点20か所
・158作品応募
2016年度
・地域拠点30か所
http://urbandata-challenge.jp/
11
UDC2016の地域拠点
12
UDC2016の地域拠点<関西>
13
大阪(大阪市,
枚方市,
高槻市など)
奈良
(生駒市ほか)
和歌山
(橋本市)
兵庫
(尼崎市)
滋賀(大津市)
京都
(京都市ほか)
鳥取
(鳥取市)
島根
(松江市)
岡山
(岡山市)
徳島
(徳島...
大阪での活動予定
• LODチャレンジ関西支部&
アーバンデータチャレンジ2016大阪ブロックとして
LODC&UDC2016のイベントを継続して開催予定
• 今年度の活動で注力したいこと
• 複数のオープンデータの連携(リンク)
→大阪/関西...
LOD(Linked Open Data)と
5つ星オープンデータ
LODチャレンジ実行委員会 関西支部長
/大阪大学 産業科学研究所
古崎 晃司
kozaki@ei.sanken.osaka-u.ac.jp
15
2016/8/21
オープン...
講演の概要
 本講演のメイントピック
 オープンデータをLOD (Linked Open Data)
として公開する際に,知っておきたい
Linked Dataの基本技術
 Linked Data の4原則
 覚えていただきたいキーワー...
オープンデータとは?
17
オープンデータとは
 オープンデータとは
 誰でも自由に使える形で公開されているデータ
 オープンデータの定義(Open Definition)
 “Open data and content can be freely used, m...
オープンデータの2つの観点
 ライセンス(cf.クリエイティブコモンズ)
 使用目的を限定せず(例:商用も可),再配布,改変も可
 「作成者のクレジットの表示」の義務付け程度の制限はOK
→“まじめな人”(※)が,安心して使える
=より多...
G8サミット「オープンデータ憲章」
http://www.mofa.go.jp/mofaj/gaiko/page23_000044.html
2013/06/18
我々は,オープンデータが,イノベーションと繁
栄を可能にし,また,市民のニーズに...
政府標準利用規約(第2.0版)
 日本政府が各サイトで公開するコンテンツの利用
規約の「ひながた」を与えるもの
 クリエイティブ・コモンズ・ライセンスの表示4.0国際
(CC BY)に互換性を持つ.
 https://creativeco...
日本のオープンデータ都市マップ
22
http://fukuno.jig.jp/2013/opendatamap
• 早期からオープンデータに
取り組んでいた鯖江市で
オープンデータの推進をさ
れている福野さん(jig.jp)
がまとめられてい...
オープンデータの2つの観点
 ライセンス(cf.クリエイティブコモンズ)
 使用目的を限定せず(例:商用も可),再配布,改変も可
 「作成者のクレジットの表示」の義務付け程度の制限はOK
→“まじめな人”(※)が,安心して使える
=より多...
Data.go.jp:日本政府の
オープンデータカタログサイト
http://data.go.jp/
本格運用を開始
2014年10月1日
2013年12月
↓
2014年4月休止
※コミュニティが
ミラーサイト作成
24
data.go.jpのデータの形式
25
まだまだ,PDFなど
機械可読でない
フォーマットが多い
技術的なサポートが
必要とされる
Linked Open Data (LOD)
-Webの仕組みを用いた
オープンデータの公開-
=Linked Data + Open Data(オープンデータ)
=Linked Dataとして公開されたOpen Data
※Linked Da...
Linked Data
 Linked Data:Web上のデータを,つなぐ(linkする)ことで,新し
い価値を生み出そうとする取り組み.
 Webの創始者Tim Berners-Lee氏が提唱
http://linkeddata.org...
Linked Dataが目指すこと
 WWW(World Wide Web)
 文書を公開し,相互に接続(ハイパーリンク
でつなぐ)ための革命的な仕組みを提供し
たことで,今日のWebの発展につながった.
 Linked Data
 デ...
既に公開・リンクされているLOD
~LODクラウド~
2007/5/1
2007/10/82008/9/182009/7/14
2010/9/222011/9/19時点
33
Linking Open Data cloud diagram 20...
既に公開・リンクされているLOD
~LODクラウド~
Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch
and...
既に公開・リンクされているLOD
~LODクラウド~
35
Domains # of dataset %
Government 183 18.05
Publications 96 9.47
Life sciences 83 8.19
User-...
5 ★ オープンデータ
http://5stardata.info/ より
オープン
ライセンス
(形式問わず)
機械可読な
フォーマット
オープンな
フォーマット
36
5 ★ オープンデータ
★ (どんな形式でも良いので) あなたのデータをオープンライセンスでWeb上に公
開しましょう
★★ データを構造化データとして公開しましょう
★★★ 非独占の形式を使いましょう
★★★★ 物事を示すのにURIを使いまし...
5★オープンデータにおけるLOD
 ★★★★ (RDF)
物事を示すのにURL(IRI)を使いましょう,そうすることで
他の人々があなたのデータにリンクすることができます
 ★★★★★ (LOD)
あなたのデータのコンテキストを提供するため...
Webの仕組み
 URLを指定することで,Webページにアクセス
 例)http://www.sigswo.org/papers/iswc2016hackathon
「ISWC2016@KOBE連携ハッカソン」のページ
 URLは,世界中...
Webの仕組み→Linked
Data
 URLを指定することで,Webページにアクセス
 例)http://www.sigswo.org/papers/iswc2016hackathon
「ISWC2016@KOBE連携ハッカソン」のペー...
Linked Open Data (LOD)
の基本原則と技術的仕組み
=Linked Data + Open Data(オープンデータ)
=Linked Dataとして公開されたOpen Data
※Linked Data:
Webの仕組みを...
Linked Dataの基本原則
1. Use URIs as names for things
全てのモノやコトにURIをつけましょう
2. Use HTTP URIs so that people can look
up those nam...
Linked Dataの背景となる
Webアーキテクチャ
 Http IRI(URI)による情報リソースの識別
 (IRIはURIの国際化版.以後,この発表ではURIとIRIが同
じものとして聞いて下さい.)
 Web上のすべての情報リソ...
IRIによる識別・Http IRIの利
用
 原則1:IRIによる識別
 情報リソース以外のすべての事物(モノやコト)にも
IRIを与える
 例)http://ja.dbpedia.org/resource/大阪市
→大阪市という事物自身...
IRIによる識別・外部へのリン
ク
 原則3:IRIの参照解決
 例:DBpedia Japaneseにおける大阪市
 事物(非情報リソース)
http://ja.dbpedia.org/resource/大阪市
 HTML表現(情報リ...
Linked Data (RDF)の例
大阪府
大阪市
都道府県
223㎢
2,687,287人
面積
人口
吹田市
豊中市
…
バラ科
市の木
隣接自治体
隣接自治体
…
http://ja.dbpedia.org/resource/大阪市 ...
Linked Data (RDF)の例
http://ja.dbpe
dia.org/resour
ce/大阪府
http://ja.dbpe
dia.org/resour
ce/大阪市
http://ja.dbpedia.org/resour...
データを「つなげる」仕組み
 「3つ組(トリプル)」により様々な構造のデータの
“つながりを柔軟に表現”できる
 Webサイトのリンクを辿るのと同様に,プロパティ(リンク)を辿る
ことで関連するデータの情報を辿ることが出来る.
 RDFの...
RDFのシリアル化形式
 RDFのシリアル化(serialize)
 RDFは,リソースを主語,目的語,述語の形式で記述
するデータモデルであって,データ形式ではない.
 RDFの形式に沿ってトリプルを特定の文法に従って
ファイルに書き出...
Turtle・N-Triplesの表現例
 Turtle
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
@prefix foaf: <http://xmlns.com/f...
Linked Dataの基本原則
1. Use URIs as names for things
全てのモノやコトにURIをつけましょう
2. Use HTTP URIs so that people can look
up those nam...
LODの公開方法
 参照解決可能なhttp URIsを用いた公開(原則2,3)
 URIでデータにアクセスが可能
 通常のWebページと同様に,データのURIを用いて「つながり」を辿る
ことが出来る=システムによる処理(リンク解析等)が可...
参照解決可能なLODの例
 日本語LODの例
 DBpedia Japanese http://ja.dbpedia.org/
 Web NDL Authorities(国会図書館典拠データ)
http://id.ndl.go.jp/au...
LODの公開例:DBpedia
Wikipediaの各記事のインフォボックスの情報を抽出して自動生成
されるLOD
様々なデータをつなぐLODのハブ的な存在となっている.
http://dbpedia.org/
日本語版のDBPediaは
ht...
データの例(大阪府)
55
すべてのWikipediaの記事が
http://ja.dbpedia.org/resource/大阪府
のようなURIでデータ化されている
DBpedia Japanese
56
http://jp.dbpedia.org/
SPARQL Endpoint
※ここから,検索可能
SPARQLによるRDFの検索
 SPARQL
 RDFデータに対するクエリ言語
 「指定したグラフ構造」に一致するトリプルを検索する
 最も基本的な検索
select ?s ?p ?o
where {
?s ?p ?o .
}
LIM...
SPARQL Endpointの例
58
サンプルクエリ集
https://t.co/6eQIPel5Vh
http://ja.dbpedia.org/sparql
ここに,クエリを入れる
※プログラムからのクエリ
+結果取得も可能
DBpedia Japaneseの検索例
 「各都道府県で生まれた政治家の数」を調べる
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX dbpedia-owl: <htt...
DBpedia Japaneseの検索例
 「各都道府県で生まれた芸人の数」を調べる
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX dbpedia-owl: <http...
まとめ:Linked Dataの基礎技術
• Linked Dataは,Web上で公開されたデータを
「つなぐ」仕組み
• URL(IRI)を用いたグローバルに一意なデータの識別
• データ間の“リンク”
• Webと同じ仕組みを用いたデータの...
オープンデータのLOD
化
大阪大学産業科学研究所
古崎 晃司
Kozaki@ei.sanken.osaka-u.ac.jp
62
2016/8/21
オープンデータをLOD化するデータソン in 高槻
利用するオープンデータ(例)
 「CSV形式」のファイルを利用します
 最初の1行に「データの項目」
2行目以降に各データが記入されているもの
 不要な行など,が入っているものは使えません
 利用できるオープンデータの例
 大阪市の「...
利用可能なデータ例
64
「高槻市 公園」のオープンデータ
http://linkdata.org/work/rdf1s3570i
を加工したもの
LODを公開するための作業
 1.公開するLODを用意する
 CSV形式のオープンデータをRDF形式に変換する
 外部のLODへのリンクを追加する
 2.RDFファイルをサーバにアップする
 方法(1):Webサーバに「単一のファイル...
既存データをRDF化する方
法
 RDFデータを作成するツールを使用
 Open Refine(http://openrefine.org/)+
RDF Refine(http://refine.deri.ie/)
 データを整備・公開す...
本日,利用するツール
 CSV2LOD~RDF変換支援ツール~
 http://lodosaka.jp/tool/CSV2LOD/
 CSV形式のデータをRDFに変換する
 プロトタイプなので,ご意見大歓迎!
 なんでもリンク
 h...
使用するツール①
CSV2LOD~RDF変換支援ツール
~
68
http:/lodosaka.jp/tool/CSV2LOD/
ツール開発の動機
 Linked Dataの基本原則に沿ったLODを,誰でも,(ある程度)
簡単に作成できるツールを提供したい
 元データ(CSV)の編集を,極力,減らしたい
 データが更新されたら,すぐに再変換したい
 →元データと変...
使用するツール②
なんでもリンク
70
http://link.lodosaka.jp/
使用するツール③
Simple LODI
71
https://github.com/uedayou/simplelodi
ハンズオンの概要
 目的
 オープンデータをLOD(5つ星)として公開する
 RDF形式への変換
 外部リンクを含める→DBpedia Japaneseへのリンク
 参照解決可能+コンテンツネゴシエーションに対応
 手順
 1.C...
1.CSVファイルの準備
1. CSVファイルを準備する
 練習では,
http://data.lodosaka.jp/takatsuki/takatsuki_sample.csv
をブラウザで「名前を付けて保存」して利用
2. Google...
2.外部LODとのリンク
1. なんでもリンクにアクセス
2. オープンデータ(CSV)の「名称」に相当する列をコピー
3. なんでもリンクの入力欄にペースト
 「SPARQLエンドポイント」欄に記入すれば,任意のエンドポイ
ントを利用可能
...
3.CSV2LODの作業手順
 作業の手順
1. 元データ(CSV形式)を選択して読み込む
2. 変換に必要な情報を入力
 URIに関する基本情報
 利用するプロパティ(関係の名称)
3. RDF変換用のテンプレートを生成
4. CSVを...
CSVファイルの読み込み
1. 「ファイルを選択」ボタンで,あらかじめ用意し
ておいたCSVファイルを選択する
2. 「CSVファイル読み込み・プレビュー」ボタンを
押し,正しく読み込めることを確認する
76
CSVのプレビュー結果
(例)
77
CSVファイル読み込み時の注意
 文字コードは自動判定されます
 サンプルデータについては動作確認済み
 ファイルサイズが大きい(200KB以上?)と読
み込めない場合があります
 テキストエディタ等で開いて,「テキストボックスに入
力...
テンプレート作成①
メタデータの入力
 変換するデータに関する基本情報を入力する
79
ベースIRI
:作成するRDFデータでIDに用いるIRI
(URI)の設定
ライセンス情報
今日のハンズオンでは
 ベースIRI
 http://data.lodosaka.jp/takatsuki/ファイル名
とする(拡張子はつけない)
 ファイル名は,練習では「作業者の名前(例:kozaki)」,
本番では「元のファイル名(...
ベースIRI(URI)とは,
 ベースIRIとは,
 RDFにおいてIDとするIRIを決める際に基準とするIRI
 例)DBpedia Japaneseの場合は
http://ja.dbpedia.org/resource/大阪府
↑この...
ベースIRI(URI)の決め方
 各データへはベースIRIによって決まるIRIでア
クセスされるので,
 データの公開者が管理している(できる)IRI
 データを公開する際に用いるIRI(URL)
を用いることが望ましい
 # と / ...
テンプレート作成②
プロパティ(語彙)の設定
83
「プロパティ選択表示」ボタンを押すと,
RDF変換で用いる語彙の候補が推薦される
推薦に用いる
語彙の選択
推薦された語彙
CSVの1行目
の項目名
語彙選択の考え方
 ID列
 CSVファイル内で「一意のID」となる項目があれば,「ID列」として選択する
 なければ「IDを自動付与」を選択する
 プロパティ
 適切な語彙が推薦されていたら選択
 今回,最低限,下記のプロパティを...
語彙選択の考え方
 プロパティ(続き)
 それ以外の語彙を利用する場合は「その他」の欄に入力
 「推薦に用いる語彙」の一覧にあるprefixは利用可能
 それ以外の場合は,語彙のIRIをすべて記載
→よく使われる語彙の一覧は次スライド参...
共通語彙
Schema.org http://schema.org/docs/schemas.html
Schema.org(日本語訳サイト) http://schema-ja.appspot.com/
共通語彙基盤(IMI) http://i...
語彙の推薦について
 現状では,推薦できる語彙は「ごく一部」のも
のに限られています
 共通語彙基盤には未対応です.
 今後,対応する語彙は順次増やす予定です
87
RDFファイルへの変換
88
• 「テンプレート生成/更新」:設定した情報に基づい
てCSVをRDFに変換するテンプレートを作成する
• 「テンプレートのダウンロード」で,作成したテンプ
レートをダウンロードして再利用できる
• 「CSV→RD...
RDFファイルへの変換結果
89
 変換結果は下記のように表示される
 「ファイル名」を入力し「RDFファイルのダウンロード」ボタンで
RDFをダウンロードする.→ファイル名は「作業者名(練習時)」
か「元ファイル名」+.ttlとする
 ...
保存したRDFテンプレートの利
用
 ダウンロードした「RDF変換テンプレート」を読み込んで利
用することも可能
 同じ形式のCSVファイルが複数ある場合に有効
 設定画面へは反映されないため「テンプレート生成/更新」ボ
タンを押すと,読...
4.LOD公開
 作成したRDFファイルをWebサイトで公開する
 今回は,イベント用のWebサイトに公開
 公開するURLは,
http://data.lodosaka.jp/takatsuki/data
※このサイトにはSimple ...
LOD公開①:Webサイト
1. FTPクライアントへログイン
 https://webftp.heteml.jp/ を利用
 ユーザー名:koujikozaki_takatsuki
 パスワード:******
 FTPクライアントを利...
Simple LODIの設定
 Simple LODIの設定については
https://github.com/uedayou/simplelodi
を参照
93
LODの閲覧
 ①Webブラウザでの閲覧
 WebブラウザのURL欄に
 http://data.lodosaka.jp/takatsuki/ファイル名
 のように,IRIを入れるとWebブラウザで閲覧可能
 ②LODブラウザでの閲覧...
高槻市のオープンデータのLOD
化
 高槻市オープンデータからLOD化したいもの選択
 http://www.city.takatsuki.osaka.jp/kakuka/soumu/itseisak/gyomu
annai/opendat...
Próximos SlideShares
Carregando em…5
×

オープンデータをLOD化するデータソン in 高槻

2016/8/21に高槻市で開催した
オープンデータをLOD化するデータソン in 高槻
- 5つ星オープンデータ(LOD)の公開方法を学ぶ 「勉強会&データソン」
の資料です.

  • Seja o primeiro a comentar

オープンデータをLOD化するデータソン in 高槻

  1. 1. オープンデータをLOD化するデータソン in 高槻 5つ星オープンデータ(LOD)の公開方法を学ぶ 「勉強会&データソン」 主催:LODチャレンジ関西支部 共催:アーバンデータチャレンジ2016 1
  2. 2. 自己紹介  オープンデータに関わる活動  LODチャレンジ実行委員会(2011~)関西支部長(副実行委員長) →LOD(Linked Open Data)を技術普及させたい 「LODチャレンジ」(コンテスト)への応募作品を増やしたい  特に,地元「関西・大阪」でのコミュニティを大きくしたい  神戸市オープンデータ推進会議,大阪市市民活動推進審議会 研究成果として 公開中のソフト  古崎(こざき)晃司 @koujikozaki  本職: 大阪大学の研究者  専門: 情報科学(オントロジー工学) =“かしこい”コンピュータ(ソフトウェア)を作る →学問にとどまらず, 世の中で使われる技術を作りたい 2
  3. 3. 注意事項・お願い •WiFiについて • 会場提供のWiFiはありませんので, 各自のモバイルルータ,テザリング等でネットワーク への接続をお願いします. •情報共有用シート • https://goo.gl/qF1e2J にアクセスしてください. •本日の資料 • Webに公開し,リンクを情報共有シート,および, 本イベントの申し込みサイトに掲載します. •写真撮影について 3
  4. 4. 本日のスケジュール 9:00 オープニング,LODC&UDC2016の紹介 9:10 LODと5つ星オープンデータに関する講演 9:30 各ツールの使い方の解説・ハンズオン 10:30 高槻市のオープンデータはLOD(5つ星)化 するデータソン 11:45 ラップアップ 12:00 終了 4
  5. 5. LODチャレンジ2016 & アーバンデータチャレンジ2016 の紹介 大阪大学産業科学研究所 LODチャレンジ実行委員会 関西支部長 アーバンデータチャレンジ2016 大阪ブロック コーディネータ 古崎 晃司 5
  6. 6. 6 LODチャレンジ2016 (2011年~) ※自由課題型 キックオフ:2016年9月17日(予定) エントリー開始:2016年10月1日 応募締切:2017年1月中旬頃 http://lodc.jp/ アーバンデータチャレンジ2016 (2013年~) ※課題解決型 キックオフ:2016年6月27日 エントリー締切:2016年12月23日 作品提出締切:2017年1月27日 http://urbandata-challenge.jp/ 2016年版のサイトは近日公開予定 重複応募可能 #lodc2016 #udc2016
  7. 7. Linked Open Data(LOD)チャレンジ LOD( 5つ星オープンデータともいわれる)の技術普及を 目的として開催されている,日本初のオープンデータに 関するコンテスト(2011年より開催) http://lodc.jp ジャンルを問わない様々な作品が毎年200以上応募される 7 これまでの 応募状況
  8. 8. 5 ★ オープンデータ http://5stardata.info/ より オープン ライセンス (形式問わず) 機械可読な フォーマット オープンな フォーマット 8
  9. 9. LODが利用できるサイトの例(1) 9 経済産業省法人ポータル (メンテナンス中) 経済産業省OPEN DATA METI eStat 統計LOD 国立国会図書館LOD 大阪市オープンデータポータル DBpedia(WikipediaのLOD)
  10. 10. LODが利用できるサイトの例(2) 10 LinkData.org SparqlEPCU LOD4ALL GeoNames.jp 大河配役LOD LODハッカソン関西
  11. 11. アーバンデータチャレンジ 2013年より毎年開催 課題解決型のコンテスト 2015年度 ・地域拠点20か所 ・158作品応募 2016年度 ・地域拠点30か所 http://urbandata-challenge.jp/ 11
  12. 12. UDC2016の地域拠点 12
  13. 13. UDC2016の地域拠点<関西> 13 大阪(大阪市, 枚方市, 高槻市など) 奈良 (生駒市ほか) 和歌山 (橋本市) 兵庫 (尼崎市) 滋賀(大津市) 京都 (京都市ほか) 鳥取 (鳥取市) 島根 (松江市) 岡山 (岡山市) 徳島 (徳島市) 愛媛 (松山市) 山口 (山口市) http://urbandata-challenge.jp/
  14. 14. 大阪での活動予定 • LODチャレンジ関西支部& アーバンデータチャレンジ2016大阪ブロックとして LODC&UDC2016のイベントを継続して開催予定 • 今年度の活動で注力したいこと • 複数のオープンデータの連携(リンク) →大阪/関西を中心とした地域間連携 →全国規模のデータとの連携 • 共通語彙基盤の活用 • 関西各地域で連携したイベント(例えば, 第2回関西オープンデータデイ)も開催したい 14
  15. 15. LOD(Linked Open Data)と 5つ星オープンデータ LODチャレンジ実行委員会 関西支部長 /大阪大学 産業科学研究所 古崎 晃司 kozaki@ei.sanken.osaka-u.ac.jp 15 2016/8/21 オープンデータをLOD化するデータソン in 高槻
  16. 16. 講演の概要  本講演のメイントピック  オープンデータをLOD (Linked Open Data) として公開する際に,知っておきたい Linked Dataの基本技術  Linked Data の4原則  覚えていただきたいキーワード  IRI(URI)  参照解決 16
  17. 17. オープンデータとは? 17
  18. 18. オープンデータとは  オープンデータとは  誰でも自由に使える形で公開されているデータ  オープンデータの定義(Open Definition)  “Open data and content can be freely used, modified, and shared by anyone for any purpose” (http://opendefinition.org/)  オープンデータでない例  改変や再配布が禁止されている  利用者を限定 例)学術機関のみ,個人利用不可  利用目的を限定 例)商用利用不可,コンテスト応募目的のみ 18
  19. 19. オープンデータの2つの観点  ライセンス(cf.クリエイティブコモンズ)  使用目的を限定せず(例:商用も可),再配布,改変も可  「作成者のクレジットの表示」の義務付け程度の制限はOK →“まじめな人”(※)が,安心して使える =より多くの人の利用が見込まれる (※悪いことをする人は,ライセンスを気にせず勝手に使う)  機械可読な形式 19
  20. 20. G8サミット「オープンデータ憲章」 http://www.mofa.go.jp/mofaj/gaiko/page23_000044.html 2013/06/18 我々は,オープンデータが,イノベーションと繁 栄を可能にし,また,市民のニーズに合致した, 強固かつ相互に繋がった社会を構築していく ための大きな可能性をもった未開発の資源で あることに合意する。 そのため,我々は,以下の原則に合意する。 • 原則としてのオープンデータ • 質と量 • すべての者が利用できる • 改善したガバナンスのためのデータの公表 • イノベーションのためのデータの公表 G8各国が, 「オープンデータを推進する」 ことに合意 20 オープン・バイ ・デフォルト
  21. 21. 政府標準利用規約(第2.0版)  日本政府が各サイトで公開するコンテンツの利用 規約の「ひながた」を与えるもの  クリエイティブ・コモンズ・ライセンスの表示4.0国際 (CC BY)に互換性を持つ.  https://creativecommons.org/licenses/by/4.0/legalcode  政府のサイトに公開されている情報利用が「自由に」 行えることを明記.  参考)「政府標準利用規約(第2.0版)」の概要  http://www.kantei.go.jp/jp/singi/it2/densi/kettei/g l2_betten_1_gaiyou.pdf 21
  22. 22. 日本のオープンデータ都市マップ 22 http://fukuno.jig.jp/2013/opendatamap • 早期からオープンデータに 取り組んでいた鯖江市で オープンデータの推進をさ れている福野さん(jig.jp) がまとめられている 「オープンデータに取り組ん でいる日本の都市の一覧」 • この一覧自体がLODとして 公開されている • 2016/05/31時点で204都市 多くの自治体が, オープンデータを 提供しつつある
  23. 23. オープンデータの2つの観点  ライセンス(cf.クリエイティブコモンズ)  使用目的を限定せず(例:商用も可),再配布,改変も可  「作成者のクレジットの表示」の義務付け程度の制限はOK →“まじめな人”(※)が,安心して使える =より多くの人の利用が見込まれる (※悪いことをする人は,ライセンスを気にせず勝手に使う)  機械可読な形式  プログラムで処理しやすいフォーマットが望まれる →“使いたい人”が,簡単に使える =低コストで多くのアプリ(活用事例)が作れる  LOD(Linked Open Data)は,「オープンデータの5つの段階」 で「5つ星」と言われている公開方法 23
  24. 24. Data.go.jp:日本政府の オープンデータカタログサイト http://data.go.jp/ 本格運用を開始 2014年10月1日 2013年12月 ↓ 2014年4月休止 ※コミュニティが ミラーサイト作成 24
  25. 25. data.go.jpのデータの形式 25 まだまだ,PDFなど 機械可読でない フォーマットが多い 技術的なサポートが 必要とされる
  26. 26. Linked Open Data (LOD) -Webの仕組みを用いた オープンデータの公開- =Linked Data + Open Data(オープンデータ) =Linked Dataとして公開されたOpen Data ※Linked Data: Webの仕組みを用いて相互に“リンクされた”データ 30
  27. 27. Linked Data  Linked Data:Web上のデータを,つなぐ(linkする)ことで,新し い価値を生み出そうとする取り組み.  Webの創始者Tim Berners-Lee氏が提唱 http://linkeddata.org/ 31
  28. 28. Linked Dataが目指すこと  WWW(World Wide Web)  文書を公開し,相互に接続(ハイパーリンク でつなぐ)ための革命的な仕組みを提供し たことで,今日のWebの発展につながった.  Linked Data  データを共有(公開)し,相互につなぐ仕組 みを提供する.  Linked Dataの原理  データの構造化  構造化されたデータはより洗練された処理を可能にする  分散したデータをつなぐハイパーリンク  文書単位では無く,データ単位のリンクを可能にする.  データの島々から一つのグローバルデータ空間へ  分散されたデータ群を1つのグローバルなデータ空間へ統合する 参考:『Linked Data-Webをグローバルな データ空間にする仕組み(Tom Heath, Christian Bizer(武田英明監訳),丸善,2013)』 1章. 32
  29. 29. 既に公開・リンクされているLOD ~LODクラウド~ 2007/5/1 2007/10/82008/9/182009/7/14 2010/9/222011/9/19時点 33 Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/ 1つの丸が個別に公開 されたDBを表す. 2014/08/30時点 公開したオープンデータが 他のオープンデータと「つながる」ことで「新たな価値」が生まれる DBpedia
  30. 30. 既に公開・リンクされているLOD ~LODクラウド~ Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/ 2014/08/30 34
  31. 31. 既に公開・リンクされているLOD ~LODクラウド~ 35 Domains # of dataset % Government 183 18.05 Publications 96 9.47 Life sciences 83 8.19 User-generated content 48 4.73 Cross-domain 41 4.04 Media 22 2.17 Geographic 21 2.07 Social web 520 51.28 Total 1014
  32. 32. 5 ★ オープンデータ http://5stardata.info/ より オープン ライセンス (形式問わず) 機械可読な フォーマット オープンな フォーマット 36
  33. 33. 5 ★ オープンデータ ★ (どんな形式でも良いので) あなたのデータをオープンライセンスでWeb上に公 開しましょう ★★ データを構造化データとして公開しましょう ★★★ 非独占の形式を使いましょう ★★★★ 物事を示すのにURIを使いましょう,そうすることで他の人々があなたのデータ にリンクすることができます ★★★★★ あなたのデータのコンテキストを提供するために他のデータへリンクしましょう http://5stardata.info/ja/ より引用 (図および原文は http://5stardata.info/ ) ライセンスについて フォーマットについて Webの発明者でありLinked Dataの創始者でもあ るティム・バーナーズ=リーがオープンデータのた めに提案したスキーム ※注:図中のPDF,エクセル,CSVのアイコンは, あくまでも例示であって,そのフォーマットを推奨 している訳ではない. LOD 37
  34. 34. 5★オープンデータにおけるLOD  ★★★★ (RDF) 物事を示すのにURL(IRI)を使いましょう,そうすることで 他の人々があなたのデータにリンクすることができます  ★★★★★ (LOD) あなたのデータのコンテキストを提供するために 他のデータへリンクしましょう →LOD(Linked Open Data) =Web上で相互にリンクされたOpen Data ※リンクする際には「Webの仕組み」を利用する  データ(物事)を示すのにURL(正確にはIRI)を用いる  データ間を(名前付き)Hyper-linkでリンクする http://5stardata.info/ja/ より引用 38
  35. 35. Webの仕組み  URLを指定することで,Webページにアクセス  例)http://www.sigswo.org/papers/iswc2016hackathon 「ISWC2016@KOBE連携ハッカソン」のページ  URLは,世界中“すべて”のWebページの場所(ID) を一意に特定できる仕組み  ハイパーリンクにより,Webページを“つなげる”  リンク先のURLを指定することで,好きなWebページ と自由に“リンク”できる  リンクを辿って,様々な情報にたどり着ける  リンクを解析による様々なビジネス  例)Googleなどの検索エンジン 39
  36. 36. Webの仕組み→Linked Data  URLを指定することで,Webページにアクセス  例)http://www.sigswo.org/papers/iswc2016hackathon 「ISWC2016@KOBE連携ハッカソン」のページ  URLは,世界中“すべて”のWebページの場所(ID) を一意に特定できる仕組み  ハイパーリンクにより,Webページを“つなげる”  リンク先のURLを指定することで,好きなWebページ と自由に“リンク”できる  リンクを辿って,様々な情報にたどり着ける  リンクを解析による様々なビジネス  例)Googleなどの検索エンジン データ データ Linked Data Webと同じ仕組みでデータを“公開”し, 相互に“つなぐ”(リンクする) 40
  37. 37. Linked Open Data (LOD) の基本原則と技術的仕組み =Linked Data + Open Data(オープンデータ) =Linked Dataとして公開されたOpen Data ※Linked Data: Webの仕組みを用いて相互に“リンクされた”データ 41
  38. 38. Linked Dataの基本原則 1. Use URIs as names for things 全てのモノやコトにURIをつけましょう 2. Use HTTP URIs so that people can look up those names. それらのURIをhttp(Webブラウザと同じ方法) で参照(アクセス)できるようにしましょう 3. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL) そのURIを参照したら,標準の技術(RDFやSPARQL)を使用し て,役に立つ情報を提供するように 4. Include links to other URIs. so that they can discover more things. 多くのモノ・コトを発見できるように,外部へのリンクを含めよう. 原文引用元 http://www.w3.org/DesignIssues/LinkedData.html 日本語訳参考 http://www.slideshare.net/takeda/lod-5163454 5★オープンデータ で言及 5★オープンデータ で言及 42
  39. 39. Linked Dataの背景となる Webアーキテクチャ  Http IRI(URI)による情報リソースの識別  (IRIはURIの国際化版.以後,この発表ではURIとIRIが同 じものとして聞いて下さい.)  Web上のすべての情報リソース(HTML文書,画像ファイル, …など)を,IRIによりグローバルに識別する.  Http IRIでサーバにアクセスすると,HTML文書や画像ファ イルが返ってくる<参照解決>  同じIRIに対し複数の表現(PNGファイルとGIFファイルなど) がある場合,Content Negotiation(内容折衝)という仕組み で,必要なファイルを返す  例)日本語環境からアクセスされたときは,日本語ページを返す  HTMLファイル内のハイパーリンク  他のIRIを指定することでリンク可能に! 43
  40. 40. IRIによる識別・Http IRIの利 用  原則1:IRIによる識別  情報リソース以外のすべての事物(モノやコト)にも IRIを与える  例)http://ja.dbpedia.org/resource/大阪市 →大阪市という事物自身を指している  原則2: Http IRIの利用  ISBNのURNなど他のIRIを使わない  Web標準技術であるHttp IRIを使う 44
  41. 41. IRIによる識別・外部へのリン ク  原則3:IRIの参照解決  例:DBpedia Japaneseにおける大阪市  事物(非情報リソース) http://ja.dbpedia.org/resource/大阪市  HTML表現(情報リソース) http://ja.dbpedia.org/page/大阪市  Turtle表現(情報リソース) http://ja.dbpedia.org/data/大阪市.ttl  RDF/XML表現(情報リソース) http://ja.dbpedia.org/data/大阪市.rdf  原則4:外部へのリンク  外部のIRIとリンクすることで,Webページのように データが「つながる」. 45
  42. 42. Linked Data (RDF)の例 大阪府 大阪市 都道府県 223㎢ 2,687,287人 面積 人口 吹田市 豊中市 … バラ科 市の木 隣接自治体 隣接自治体 … http://ja.dbpedia.org/resource/大阪市 というURIから得られる情報 サクラ 科 Cherry blossom英名 リソース: URIで表される モノ・コト プロパティ: リソース間の関 係を表す リテラル :文字列 主語 述語 目的語 トリプル ※RDF(Linked Dataのデータ モデル)は,「トリプルの組み 合わせ」で表される (DBpedia Japaneseより) 目的語が他のリソースのとき,トリプル を辿って更なる情報が得られる ※実際のリソースとプロパティは,すべてURIで表される. 46
  43. 43. Linked Data (RDF)の例 http://ja.dbpe dia.org/resour ce/大阪府 http://ja.dbpe dia.org/resour ce/大阪市 http://ja.dbpedia.org/resource/都道府県 223㎢ 2,687,287人 http://ja.dbpedia.org/resource/面積 http://ja.dbpedia.org/resource/人口 http://ja.dbpe dia.org/resour ce/吹田市 http://ja.dbpe dia.org/resour ce/豊中市 … http://ja.dbpe dia.org/resour ce/バラ科 http://ja.dbpedia.org/resource/市の木 http://ja.dbpedia.org/resource/隣接自治体 http://ja.dbpedia.org/resource/隣接自治体 … http://ja.dbpedia.org/resource/大阪市 というURIから得られる情報 http://ja.dbpe dia.org/resour ce/サクラ http://ja.dbpedia.org/resource/科 Cherry blossomhttp://ja.dbpedia.org/resource/英名 (DBpedia Japaneseより) ※実際のリソースとプロパティは,すべてURIで表される. 47
  44. 44. データを「つなげる」仕組み  「3つ組(トリプル)」により様々な構造のデータの “つながりを柔軟に表現”できる  Webサイトのリンクを辿るのと同様に,プロパティ(リンク)を辿る ことで関連するデータの情報を辿ることが出来る.  RDFのプロパティは,“関係の意味”を定義できる.  cf. Webのハイパーリンクは単に“つながり”を表すのみ  データ(リソース)をURIで表すことで,“外部のデータと つなげる”ことができる.  URIは,グローバルに一意のIDを表す.  WebサイトのURLと同じ仕組み.  cf.単なる数字をIDとすると,異なるDBが同じIDを使っている可能性 がある  Linked Data = 外部のデータとつながったデータ ≠ RDFフォーマットのデータ 48
  45. 45. RDFのシリアル化形式  RDFのシリアル化(serialize)  RDFは,リソースを主語,目的語,述語の形式で記述 するデータモデルであって,データ形式ではない.  RDFの形式に沿ってトリプルを特定の文法に従って ファイルに書き出す(シリアル化する)必要がある.  代表的なシリアル化形式  RDF/XML:計算機向け  RDFa:HTMLにRDFを埋め込む  Turtle:プレーンテキストで人間向けに読みやすい  N-Triples:1行単位で処理できるので処理しやすい  RDF/JSON:Web開発向け  JSON-LD:Linked Data用のJSON(Web開発向け) 49
  46. 46. Turtle・N-Triplesの表現例  Turtle @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> @prefix foaf: <http://xmlns.com/foaf/0.1/> <http://www.ei.sanken.osaka-u.ac.jp/~kozaki/> rdf:type foaf:Person ; foaf:name “Kouji Kozaki” .  N-Triples <http://www.ei.sanken.osaka-u.ac.jp/~kozaki/> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person>. <http://www.ei.sanken.osaka-u.ac.jp/~kozaki/> <http://xmlns.com/foaf/0.1/name> “Kouji Kozaki”. 50 http://www.ei.sanken. osaka-u.ac.jp/~kozaki/ foaf:Person rdf:type foaf:name Kouji Kozaki 1行 1行 ヘッダ
  47. 47. Linked Dataの基本原則 1. Use URIs as names for things 全てのモノやコトにURIをつけましょう 2. Use HTTP URIs so that people can look up those names. それらのURIをhttp(Webブラウザと同じ方法) で参照(アクセス)できるようにしましょう 3. When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL) そのURIを参照したら,標準の技術(RDFやSPARQL)を使用し て,役に立つ情報を提供するように 4. Include links to other URIs. so that they can discover more things. 多くのモノ・コトを発見できるように,外部へのリンクを含めよう. 原文引用元 http://www.w3.org/DesignIssues/LinkedData.html 日本語訳参考 http://www.slideshare.net/takeda/lod-5163454 51
  48. 48. LODの公開方法  参照解決可能なhttp URIsを用いた公開(原則2,3)  URIでデータにアクセスが可能  通常のWebページと同様に,データのURIを用いて「つながり」を辿る ことが出来る=システムによる処理(リンク解析等)が可能  コンテントネゴシエーションに対応している場合,  Webブラウザからのアクセス→HTMLファイルを返す  Linked Dataブラウザからのアクセス→RDFを返す  .html,.rdf,.ttlなど拡張子に合わせた形式のファイルを返す などの要求に応じたデータ形式で返す →Linked Dataブラウザなど汎用のアプリの開発が可能に!  その他のLOD公開方法  RDFファイルのダンプ(全データ)をダウンロードできるところに置く  SPARQLエンドポイント(LODを検索可能なAPI)を公開する →これだけではLinked Dataの基本原則を満たしていない! 52
  49. 49. 参照解決可能なLODの例  日本語LODの例  DBpedia Japanese http://ja.dbpedia.org/  Web NDL Authorities(国会図書館典拠データ) http://id.ndl.go.jp/auth/ndla/  GeoNames.jp http://geonames.jp/  Linked Open Addresses Japan(試作版) http://uedayou.net/loa/  ねじLOD http://monodzukurilod.org/neji/  Linked Dataブラウザ  Quick and Dirty RDF browser ※日本語IRIは文字化けする http://graphite.ecs.soton.ac.uk/browser/  (Yet Another) Linked Data Browser http://www.kanzaki.com/works/2014/pub/ld-browser 53
  50. 50. LODの公開例:DBpedia Wikipediaの各記事のインフォボックスの情報を抽出して自動生成 されるLOD 様々なデータをつなぐLODのハブ的な存在となっている. http://dbpedia.org/ 日本語版のDBPediaは http://jp.dbpedia.org/ インフォボックスの例 54
  51. 51. データの例(大阪府) 55 すべてのWikipediaの記事が http://ja.dbpedia.org/resource/大阪府 のようなURIでデータ化されている
  52. 52. DBpedia Japanese 56 http://jp.dbpedia.org/ SPARQL Endpoint ※ここから,検索可能
  53. 53. SPARQLによるRDFの検索  SPARQL  RDFデータに対するクエリ言語  「指定したグラフ構造」に一致するトリプルを検索する  最も基本的な検索 select ?s ?p ?o where { ?s ?p ?o . } LIMIT 100 ←取得する数の制限 ←検索するグラフのパターン ←返す要素 (*は全て) この例では「任意のトリプルの組み合わせ」 このパターンを変 えることで,欲しい データを取得する 57
  54. 54. SPARQL Endpointの例 58 サンプルクエリ集 https://t.co/6eQIPel5Vh http://ja.dbpedia.org/sparql ここに,クエリを入れる ※プログラムからのクエリ +結果取得も可能
  55. 55. DBpedia Japaneseの検索例  「各都道府県で生まれた政治家の数」を調べる PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX dbpedia-owl: <http://dbpedia.org/ontology/> PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX dbpedia-ja: <http://ja.dbpedia.org/resource/> PREFIX category-ja: <http://ja.dbpedia.org/resource/Category:> select distinct ?pref (count(?s) AS ?c) where { ?pref rdf:type dbpedia-owl:Place. ?pref dbpedia-owl:wikiPageWikiLink category-ja:日本の都道府県. ?s rdf:type dbpedia-owl:Politician; dbpedia-owl:birthPlace ?pref. }GROUP BY ?pref ORDER BY ?c 59 (解説)Qiita:DBpediaを使った都道府県別ランキング http://qiita.com/koujikozaki/items/439fa7ce3e28b738fe10
  56. 56. DBpedia Japaneseの検索例  「各都道府県で生まれた芸人の数」を調べる PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX dbpedia-owl: <http://dbpedia.org/ontology/> PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX dbpedia-ja: <http://ja.dbpedia.org/resource/> PREFIX category-ja: <http://ja.dbpedia.org/resource/Category:> select distinct ?pref (count(?s) AS ?c) where { ?pref rdf:type dbpedia-owl:Place. ?pref dbpedia-owl:wikiPageWikiLink category-ja:日本の都道府県. ?s rdf:type dbpedia-owl:Comedian; dbpedia-owl:birthPlace ?pref. }GROUP BY ?pref ORDER BY ?c ここを, Politician→Comedian に変えるだけ! 60
  57. 57. まとめ:Linked Dataの基礎技術 • Linked Dataは,Web上で公開されたデータを 「つなぐ」仕組み • URL(IRI)を用いたグローバルに一意なデータの識別 • データ間の“リンク” • Webと同じ仕組みを用いたデータのアクセス • URIによる直接アクセス・参照解決 • SPARQLエンドポイント(API)によるアクセス • いろんなデータをつなぐことで, 「おもろい」組み合わせが見つかるかも!? • オープンデータをLinked Open Data(LOD)として公開する ための方法は,ハンズオンで. 61
  58. 58. オープンデータのLOD 化 大阪大学産業科学研究所 古崎 晃司 Kozaki@ei.sanken.osaka-u.ac.jp 62 2016/8/21 オープンデータをLOD化するデータソン in 高槻
  59. 59. 利用するオープンデータ(例)  「CSV形式」のファイルを利用します  最初の1行に「データの項目」 2行目以降に各データが記入されているもの  不要な行など,が入っているものは使えません  利用できるオープンデータの例  大阪市の「施設情報ポイントデータ(官公庁)」 (CC-BY:大阪市) http://www.city.osaka.lg.jp/contents/wdu090/opendata/ mapnavoskdat_csv/mapnavoskdat_kankouchou.csv  神戸市の「市役所・区役所」(CC-BY:神戸市) http://www.city.kobe.lg.jp/information/opendata/img/inst itution01_20141128.csv  ハンズオンに利用するオープンデータ  https://goo.gl/qF1e2J 63
  60. 60. 利用可能なデータ例 64 「高槻市 公園」のオープンデータ http://linkdata.org/work/rdf1s3570i を加工したもの
  61. 61. LODを公開するための作業  1.公開するLODを用意する  CSV形式のオープンデータをRDF形式に変換する  外部のLODへのリンクを追加する  2.RDFファイルをサーバにアップする  方法(1):Webサーバに「単一のファイル」として公開  方法(2):RDFデータベース(トリプルストア)を用いて 公開 65
  62. 62. 既存データをRDF化する方 法  RDFデータを作成するツールを使用  Open Refine(http://openrefine.org/)+ RDF Refine(http://refine.deri.ie/)  データを整備・公開するための多様な機能をサポート  LinkData(http://linkdata.org/)  テーブルデータをRDFに変換して公開することができるサイト  SparqlEPCU(http://lodcu.cs.chubu.ac.jp/SparqlEPCU/)  LODの作成・活用のための支援サイト  CSVファイルをRDFとしての公開する機能もあり  StatLD(http://satolab.tiu.ac.jp/statld/)  統計Linked Dataの活用を中心としたツールを公開  一般のLinked Dataの作成にも使用可能  独自のプログラム用でRDFデータを作成 66 LODチャレンジ2011 アプリケーション部門最優秀賞 LODチャレンジ2012 アプリケーション部門最優秀賞
  63. 63. 本日,利用するツール  CSV2LOD~RDF変換支援ツール~  http://lodosaka.jp/tool/CSV2LOD/  CSV形式のデータをRDFに変換する  プロトタイプなので,ご意見大歓迎!  なんでもリンク  http://link.lodosaka.jp/  オープンデータに外部のLODへのリンクを追加する  Simple LODI  https://github.com/uedayou/simplelodi  DBpediaのようにLinked Open Data(LOD)を公開する =参照解決可能+コンテンツネゴシエーションに対応した LODを公開する. 67
  64. 64. 使用するツール① CSV2LOD~RDF変換支援ツール ~ 68 http:/lodosaka.jp/tool/CSV2LOD/
  65. 65. ツール開発の動機  Linked Dataの基本原則に沿ったLODを,誰でも,(ある程度) 簡単に作成できるツールを提供したい  元データ(CSV)の編集を,極力,減らしたい  データが更新されたら,すぐに再変換したい  →元データと変換情報のテンプレートは別ファイルに  足りない機能があれば,気軽に拡張したい  小規模なプログラムで開発+オープンソース化により改変を自由に  初心者から上級者まで使いやすいものを  汎用性の高いテンプレート(Turtleライクな形式)により,複雑なRDFモデル にも対応  初心者向けには,語彙選択支援など,簡単にテンプレートが作れる  動作環境  インストール不要,かつ,ネットがなくても使える→JavaScritptのみで開発  IE8にも,できれば対応したかったが…(現時点は×) 69
  66. 66. 使用するツール② なんでもリンク 70 http://link.lodosaka.jp/
  67. 67. 使用するツール③ Simple LODI 71 https://github.com/uedayou/simplelodi
  68. 68. ハンズオンの概要  目的  オープンデータをLOD(5つ星)として公開する  RDF形式への変換  外部リンクを含める→DBpedia Japaneseへのリンク  参照解決可能+コンテンツネゴシエーションに対応  手順  1.CSVファイルを用意する  2.「なんでもリンク」を使いDBpedia Japaneseへの リンク情報をCSVファイルに追加する  3.「CSV2LOD」を使いRDFに変換する  4.「Simple LODI」を使い公開 72
  69. 69. 1.CSVファイルの準備 1. CSVファイルを準備する  練習では, http://data.lodosaka.jp/takatsuki/takatsuki_sample.csv をブラウザで「名前を付けて保存」して利用 2. Google Sheets(またはExcel等)でCSVファイルを開く  Google Sheetsでは「File」→「Open」→「Upload」  エクセル等を利用してもよいが「UTF-8」のファイルを開く際 には,注意が必要 3. 形式に問題がないかを確認する 1. 1行目が項目,2行目以降がデータ(値)になっているか? 2. 1行目の項目と2行目以降にずれがないか? 3. 不要な行がないか? 73
  70. 70. 2.外部LODとのリンク 1. なんでもリンクにアクセス 2. オープンデータ(CSV)の「名称」に相当する列をコピー 3. なんでもリンクの入力欄にペースト  「SPARQLエンドポイント」欄に記入すれば,任意のエンドポイ ントを利用可能 4. DBpediaのデータと一致するデータの一覧が表示され る(最初の10件) 5. 「ダウンロード」ボタンで結果をダウンロード 6. エクセル等で開き,元のオープンデータの最終列に マッピング情報をコピー&ペースト  項目名は「参照」としておく 74
  71. 71. 3.CSV2LODの作業手順  作業の手順 1. 元データ(CSV形式)を選択して読み込む 2. 変換に必要な情報を入力  URIに関する基本情報  利用するプロパティ(関係の名称) 3. RDF変換用のテンプレートを生成 4. CSVをRDFに変換(今回はTurtle形式のみ) 5. RDFファイルをダウンロード 75
  72. 72. CSVファイルの読み込み 1. 「ファイルを選択」ボタンで,あらかじめ用意し ておいたCSVファイルを選択する 2. 「CSVファイル読み込み・プレビュー」ボタンを 押し,正しく読み込めることを確認する 76
  73. 73. CSVのプレビュー結果 (例) 77
  74. 74. CSVファイル読み込み時の注意  文字コードは自動判定されます  サンプルデータについては動作確認済み  ファイルサイズが大きい(200KB以上?)と読 み込めない場合があります  テキストエディタ等で開いて,「テキストボックスに入 力」の欄にコピー&ペースとして読み込むと,ある程 度のサイズのデータでも読み込めます.  「ファイルを選択」がうまく動かないとき  「テキストボックスに入力」を利用して下さい 78
  75. 75. テンプレート作成① メタデータの入力  変換するデータに関する基本情報を入力する 79 ベースIRI :作成するRDFデータでIDに用いるIRI (URI)の設定 ライセンス情報
  76. 76. 今日のハンズオンでは  ベースIRI  http://data.lodosaka.jp/takatsuki/ファイル名 とする(拡張子はつけない)  ファイル名は,練習では「作業者の名前(例:kozaki)」, 本番では「元のファイル名(例:takatsuki_city_park)」  オプションは「データベース(トリプルストア)を用いて 公開(/)」を選択  ライセンス  高槻市のオープンデータは,すべてCC-BYで公開され ているものなの,下記のように選択・入力する  クレジットで表示すべき名前:高槻市,作業者  ライセンスは,クリエイティブ・コモンズ(CC)の「CC-BY」 80
  77. 77. ベースIRI(URI)とは,  ベースIRIとは,  RDFにおいてIDとするIRIを決める際に基準とするIRI  例)DBpedia Japaneseの場合は http://ja.dbpedia.org/resource/大阪府 ↑この部分に相当  RDFファイルでは,Prefixがついていないリソース (データ)のIRIは,行頭にベースIRIが付加されるもの と扱われる  例)ベースIRIがhttp://test.data/とすると そのRDFファイルで<1>というリソースのIRIは <http://test.data/1>となる  ※Turtle形式の@baseには,#のIRIは使えない. 81
  78. 78. ベースIRI(URI)の決め方  各データへはベースIRIによって決まるIRIでア クセスされるので,  データの公開者が管理している(できる)IRI  データを公開する際に用いるIRI(URL) を用いることが望ましい  # と / の使い分けは,一般に,  1つRDFファイルでデータを公開するときは http://test/data#001 のように#を  データサイズが大きく,RDFデータベースを用いて 公開するときは http://test/data/001 のように/を使うことが多い 82
  79. 79. テンプレート作成② プロパティ(語彙)の設定 83 「プロパティ選択表示」ボタンを押すと, RDF変換で用いる語彙の候補が推薦される 推薦に用いる 語彙の選択 推薦された語彙 CSVの1行目 の項目名
  80. 80. 語彙選択の考え方  ID列  CSVファイル内で「一意のID」となる項目があれば,「ID列」として選択する  なければ「IDを自動付与」を選択する  プロパティ  適切な語彙が推薦されていたら選択  今回,最低限,下記のプロパティを用いる (他のプロパティが使われる場合もある)  名称 rdfs:label  説明 rdfs:comment  Webサイト foaf:homepage  緯度 geo:lat  経度 geo:long  外部LODとのマッピング情報 rdfs:seeAlso 84
  81. 81. 語彙選択の考え方  プロパティ(続き)  それ以外の語彙を利用する場合は「その他」の欄に入力  「推薦に用いる語彙」の一覧にあるprefixは利用可能  それ以外の場合は,語彙のIRIをすべて記載 →よく使われる語彙の一覧は次スライド参照.  CSVの項目名を利用するときは「bp:項目名」を選択する  bp: は「ベースIRI+/property#」を表すprefix  データ型は,できれば適切なものを選択する ※プロパティを複数選択することも可 →複数の語彙に対応したいときに利用(例:共通語彙基盤+Schema.org) 85
  82. 82. 共通語彙 Schema.org http://schema.org/docs/schemas.html Schema.org(日本語訳サイト) http://schema-ja.appspot.com/ 共通語彙基盤(IMI) http://imi.ipa.go.jp/ Linked Open Vocabularies (LOV) http://lov.okfn.org/dataset/lov/ DBPedia http://mappings.dbpedia.org/index.php/Main_Page Dublin Core http://dublincore.org/documents/dcmi-terms/ →解説 http://www.kanzaki.com/docs/sw/dublin-core.html Friend of a Friend (FOAF) http://xmlns.com/foaf/spec/ →解説 http://www.kanzaki.com/docs/sw/foaf.html 86
  83. 83. 語彙の推薦について  現状では,推薦できる語彙は「ごく一部」のも のに限られています  共通語彙基盤には未対応です.  今後,対応する語彙は順次増やす予定です 87
  84. 84. RDFファイルへの変換 88 • 「テンプレート生成/更新」:設定した情報に基づい てCSVをRDFに変換するテンプレートを作成する • 「テンプレートのダウンロード」で,作成したテンプ レートをダウンロードして再利用できる • 「CSV→RDFの変換実行」で,CSVファイルをRDF に変換する
  85. 85. RDFファイルへの変換結果 89  変換結果は下記のように表示される  「ファイル名」を入力し「RDFファイルのダウンロード」ボタンで RDFをダウンロードする.→ファイル名は「作業者名(練習時)」 か「元ファイル名」+.ttlとする  うまくダウロードできない場合は,コピー&ペーストを利用する
  86. 86. 保存したRDFテンプレートの利 用  ダウンロードした「RDF変換テンプレート」を読み込んで利 用することも可能  同じ形式のCSVファイルが複数ある場合に有効  設定画面へは反映されないため「テンプレート生成/更新」ボ タンを押すと,読み込んだテンプレートが破棄されるので注意  テンプレートは,直接,画面上で編集することも可能  読み込んだテンプレートの修正や,設定からは生成できない 複雑なRDF変換用のテンプレートを生成するのに利用できる 90
  87. 87. 4.LOD公開  作成したRDFファイルをWebサイトで公開する  今回は,イベント用のWebサイトに公開  公開するURLは, http://data.lodosaka.jp/takatsuki/data ※このサイトにはSimple LODIを設定済み  アップする前に,RDFのファイル名がベースIRIで指 定したもの+.ttlになっているか確認 例)http://data.lodosaka.jp/takatsuki/kozaki ならば kozaki.ttl 91
  88. 88. LOD公開①:Webサイト 1. FTPクライアントへログイン  https://webftp.heteml.jp/ を利用  ユーザー名:koujikozaki_takatsuki  パスワード:******  FTPクライアントを利用する場合は  ホスト名(アドレス) ftp187.heteml.jp  ※FTPS 接続 の場合は ssl187.heteml.jp (推奨) 2. FTPでアップロード  「data」フォルダを選択  「ファイルを選択」ボタン →作成したRDF(****.ttl)を選択してアップロード ※上書き時には,「上書き」にチェック 92
  89. 89. Simple LODIの設定  Simple LODIの設定については https://github.com/uedayou/simplelodi を参照 93
  90. 90. LODの閲覧  ①Webブラウザでの閲覧  WebブラウザのURL欄に  http://data.lodosaka.jp/takatsuki/ファイル名  のように,IRIを入れるとWebブラウザで閲覧可能  ②LODブラウザでの閲覧  下記のLODブラウザのIRIの欄に入力する  Quick and Dirty RDF browser ※日本語IRIは文字化けする http://graphite.ecs.soton.ac.uk/browser/  (Yet Another) Linked Data Browser ※フォーマットでTurtleを選択する必要あり http://www.kanzaki.com/works/2014/pub/ld-browser 94
  91. 91. 高槻市のオープンデータのLOD 化  高槻市オープンデータからLOD化したいもの選択  http://www.city.takatsuki.osaka.jp/kakuka/soumu/itseisak/gyomu annai/opendata/opendata.html  Linkdata.orgのサイトへのリンクをたどりオープンデータを 選択した後,「Action」→「APIリストの一覧」→「CSVのURL をコピーしてブラウザで開く」  選択したオープンデータと作業者名を共有用スプ レッドシートに記入  以下のファイルをサイトにアップ  元にしたCSVファイル,  作成した変換テンプレート  生成したRDF(ttl)ファイル  共有スプレッドシートにLODをアップしたURLを記入 95

×