More Related Content Similar to Linked Open Dataによる多様なミュージアム情報の統合 (20) Linked Open Dataによる多様なミュージアム情報の統合2. 背景 技術背景 関連研究 LODAC Museum 考察 発表内容 2 LODACについて オープン化の時代 新しい情報流通の形 Linked Data(LOD) 循環型情報活用 RDF表現 データの標準化 情報源と情報統合 公開・共有 利用データについて まとめ 応用例 LODへの誘い 4. オープン化の情報時代へ 4 人文系分野で構築されてきたデータ 資料データベース化、デジタルアーカイブ データ精度も高く情報資産としての価値が高い どこにあるのか? 研究機関や個人研究者が保有 外部には公開していない情報が大量に存在 データ整理されていない情報もある ミュージアム領域ではその数程しれず 今まで知らなかった情報が使えるようになったら? 5. 新しい情報流通の形 5 Web of Document = 従来のWeb上のデータ Webで公開した情報は情報として利用可能 PDF、HTML、CSV等で公開 データとして利用するには情報の加工が必要 例:HTMLから余計なタグを排除してデータを抽出する Web of Data = 新しいWebの情報流通 Webで公開した情報はデータとして利用可能 RDF、SPARQL Endpoint等 リンクを参照してデータとして使える公開情報 例:アーティストプロフィール、書誌情報、イベント情報 6. Linked Open Data(LOD) 6 公開情報を蓄積し、誰でも使えるようにする Linked Dataの原則 あらゆる事柄にURIをつける HTTP経由でURIを参照 URIを参照したときは情報を閲覧できる 他の関連情報へのリンクを含める 11. 標準化データ形式 9 RDF 1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す トリプルが複数集まることで1データとして構成される 横山大観 述語 http://lod.ac/id/1767 http://lod.ac/id/4471 http://lod.ac/id/4580 skos:prefLabel dc:creator 目的語 rdf:type foaf:person http://lod.ac/id/1767 http://lod.ac/id/4773 lodac:creates F主語 lodac:creates dc:title 生々流転図 2つのトリプルからなる1データ 4つのトリプルからなる1データ 12. 標準化データ形式 10 RDF 1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す トリプルが複数集まることで1データとして構成される F主語 横山大観 述語 http://lod.ac/id/1767 http://lod.ac/id/4471 http://lod.ac/id/4580 http://lod.ac/id/1767 skos:prefLabel dc:creator 目的語 目的語 foaf:person rdf:type 述語 F主語 http://lod.ac/id/4773 lodac:creates lodac:creates F主語 dc:title 目的語 生々流転図 目的語 6つのトリプルからなる1データ 13. RDF形式による表現 11 <?xml version="1.0" encoding="utf-8"?> </rdf:Description> <rdf:Descriptionrdf:about="http://lod.ac/ref/20811"> <ns0:P62I_is_depicted_by xmlns:ns0="http://purl.org/NET/cidoc-crm/core#">巻末に年記、落款、印章</ns0:P62I_is_depicted_by> </rdf:Description> <rdf:Descriptionrdf:about="http://lod.ac/ref/20811"> <ns0:creator xmlns:ns0="http://purl.org/dc/elements/1.1/">横山大観</ns0:creator> </rdf:Description> <rdf:Descriptionrdf:about="http://lod.ac/ref/20811"> <ns0:source xmlns:ns0="http://purl.org/dc/terms/" rdf:resource="http://search.artmuseums.go.jp"/> </rdf:Description></rdf:RDF> F主語 述語 1 目的語 2 4 3 述語「P62I_is_depected_by」の表す意味はhttp://purl.org/NET/cidoc-crm/coreにある 「http://lod.ac/ref/20811」「P62I_is_depicted_by」は「巻末に年記、落款、印章」がある 「http://lod.ac/ref/20811」の「creator」は「横山大観」である 「http://lod.ac/ref/20811」の「source」は「http://search.artmuseums.go.jp」である 「http://lod.ac/ref/20811」のデータは1-3で構成されている。 14. RDFによる情報共有の利点 12 URIがリソースIDとして機能する URIを見ることで情報の定義が書いてある 共通のURIを利用(共有)することで出所が保証された内容の情報を利用することが出来る XMLの問題なぜXMLはだめなのか? <person> <name>横山大観</name> </person> <作家> <作家名>横山大観</作家名> </作家> ・personとnameはなにを意味するのか。人物? 本名? 作家名? ・nameと作家名は同じ意味なのだろうか? (同一性問題) ・作家名にpersonと記述して良いのだろうか(拘束条件) 15. LOD活動事例 13 国立国会図書館(NDLSH) RDF/SKOS語彙を使用した件名目録表のLinked Data DBpedia(英語版) WikiPediaの情報をLODで利用可 ※日本語版DBpediaはLODACプロジェクトで準備中 19. LODAC Museum 17 Web of Document をWeb of Dataへ 1.データの標準化 異なる情報源からのデータを収集して標準形式に変換 2.情報関連付け・統合化 標準形式に基づいた複数の情報源のデータを統合 3.公開・共有 統合したデータの一覧、網羅性のある一般的な検索 LODとして利用できる基盤構築 同じ内容を含む情報を統合化 LODとして公開 20. ミュージアム資料 実在するミュージアム14館から収集 関連資料 別の視点から整理された資料情報 国指定文化財データベース 文化遺産オンライン その他の情報 日本語版Dbpedia (国土交通省国土計画局GIS) 統合化の基点になる情報 日本美術シソーラス(筑波大学日本美術シソーラスデータベース作成委員会編) 美術に関する作品、人物、流派、所蔵館情報が含まれたデータセット 標準化と情報源 18 情報源 22. 統合データと参照データ 20 参照用データ(http://lod.ac/ref/) 収集したデータをそのまま参照し、メタデータ以外の内容は加工しない データ内容の権限は情報源が持つ 統合データ(http://lod.ac/id) LODACが関連ある参照用データを統合したデータ 統合内容、編集内容権限はLODACが持つ 各データには管理するために識別子が付けられる 情報源Bの参照用データ 統合データ 情報源Aの参照用データ crm:P55_has_current_location dc:creator 作品 dc:references dc:references crm:P55_has_current_location crm:P55_has_current_location 収蔵館 dc:creator dc:references dc:references dc:creator 作者 dc:references dc:references 23. 21 所蔵館情報の統合化 文字列完全一致による所蔵館情報の統合 A.日本美術シソーラスDBの所蔵館情報648件 B.文化遺産オンラインの所蔵館情報915件 結果77件の所蔵館が一致し、それぞれの情報を統合した A、Bともに異なる情報をリンクとしてLODACが管理するデータに統合 統合化情報(LODAC管理) Aの情報 Bの情報 24. 22 その他構築時における課題 日本語読みと複数人名表記 foaf:nick [ a lodac:Name; lodac:label “嘉村"@ja; lodac:label “かむら"@ja-hrkt; lodac:label ”KAMURA"@en; ]. ID700 ID100 ID700 REF100 REF700 ID400 同一内容の統合情報複数存在時の対応 「ID100の内容がID700と同じ場合」 1. ID100に記述されるREF700を一旦削除する 2. ID700をリンク先とする他のID(ID400)の リンク先をID100に変更する 3. ID700を削除し、ID700のアクセスはID100 へいくようリダイレクトさせる 4. ID100にはID700としてアクセスできるよう REF700のリンクを再リンクする 26. LODAC Museumのデータ 24 特定項目キーの単純文字列統合実験結果 総データ数 「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった 「機械処理による可能性」 複合的な項目に対して複数アルゴリズムによる抽出 31. 29 まとめ 特定項目をキーに統合 -> 分散する情報が集積 複数情報の統合によって元データにない情報(発見)の獲得 多様な情報のLinked Data化はさらなる発見・知の獲得可能性 予想できないデータの使い方やアプリケーションが期待できる 情報源に変更があった際の参照用データの同期方法 人名辞典や専門辞書の情報をどこから収集するか CSVインポートなど容易なLOD参加のための基盤準備 LODAC Museumのデータ拡充(西洋美術など) 考察 おもな課題 32. 30 LOD応用例(地域情報+ミュージアム) 地域情報LOD 観光情報LOD + ミュージアムLOD 地図情報LOD 関連資料を巡る日本縦断ツアー 地域とイベント情報による展覧会+αの情報 資料に登場する歴史メニューが食べられる食情報+資料情報+地域情報 ゲームやドラマに使用された資料軌跡(新たなターゲット層の獲得) 34. LOD応用例: ミュージアムマスターオンライン 32 ユーザによるコメントとコレクション関係の発見 学芸員ではない一般ユーザによる資料コメント 資料にある情報だけを見るのではなく様々な情報とつなげてコレクションを作る -> 元資料に興味を持つ可能性も 例えば・・・ 仏像への個人的解釈 お寺にある弁財天像 動画サイトの動画 周辺情報の発信 1.重要文化財弁財天像 2.了法寺(八王子) ミュージアムマスター(JMMA2009) 3.了法寺テーマソング 4.イベント 35. 情報をLODで公開しよう 33 まずは情報をオープンに、共有することから始めよう 文化遺産(Cultural Heritage)から文化資産・資源へ (芸術・文化) × 情報 =多様多面な日本を世界に発信 Museum Library Archives(MLA)を超えた連携を MLA3(Museum Library Archives, Arts andAcademia)えむえるえーきゅーぶ 多くの人が使えば、それだけ多くの使い方が生まれます 37. We Are LODAC Project 35 LODのことならLODACへご相談下さい! http://lod.ac/ ご静聴ありがとうございました※LODAC Museumは試験公開版になります