SlideShare uma empresa Scribd logo
1 de 39
Baixar para ler offline
Introduktion till Länkade Data

Arkitekturnätverket
2013-10-01

Hannes Ebner
hannes@metasolutions.se

Matthias Palmér
matthias@metasolutions.se
Vilka är vi
Matthias Palmér
●
●

Bakgrund: datalogi, matematik
Tekn. dr. i medieteknik, fokus på hur man bygger moderna
webbapplikationer mha Semantic Web/Länkade Data

Hannes Ebner
●
●

Bakgrund: telekommunikation, informationssystem
Doktorsavhandling med fokus på samarbetsmiljöer som är
baserade på semantiska teknologier och länkade data
Om MetaSolutions produkter

RForms – Konfigurerbara webbformulär för redigera
grafbaserad information (RDF)

EntryStore – Repository för hantera kombinationen av
resurser och tillhörande metadata

EntryScape – Webbapplikation som ger gränsnitt till
EntryStore, påminner om filutforskaren på windows/mac...

(Dvs, inte bara teori, vi har omfattande erfarenhet med att utveckla system för/med Länkade data.)
Några av våra kunder och partners
Innehåll
1. Introduktion till länkade data
2. Kort om Publicering av länkade data

(12 slides)
(3

slides)
3. Vokabulärer och vokabulärspråk

(7 slides)

4. Dataintegration och länkade data

(9 slides)

5. Lösningar för att exponera länkade data

(2 slides)
Om stjärnor

★★★★★
★★★★★
★★★★★
★★★★★
★★★★★
★★★★★
★★★★★

gör din information tillgänglig på Webben
(oberoende av format) under en öppen licens
gör informationen tillgänglig som strukturerad data
(t. ex., Excel format istället för en bild av en tabell)
använd icke-proprietära format
(t. ex., CSV istället för Excel)
använd URI:er för att identifiera ting,
och RDF för att uttrycka påståenden om dem
★★★★★ länka dina data till andras data, det ger sammanhang

1. Introduktion
Länkade data

●
●
●
●
●
●

1. Introduktion

Påståenden om ting
Länkar mellan ting
Hämta påståenden om ting över HTTP
Ett språk (RDF) många format
Ett frågespråk (SPARQL)
Vokabulärer är också länkade data
Påståenden om ting

●

Data om ting identifierade av URI:er

●

Påståenden om dessa ting kan vara:
○
○

●

1. Introduktion

egenskaper som titel, storlek, datum, osv.
länkar till andra ting som “känner”, “är del av”, osv.

Hämtning av ett ting (mha dess URI) ger en
samling påståenden, några länkar vidare
Resource Description Format (RDF)

Tre enkla regler:
1. Ett påstående uttrycks som “trippel” (“statement”),
med subjekt, predikat och object
2. Alla delar av ett trippel är namn (identifierare) för
entiteter (konkret eller abstrakt)
3. Objekt kan även ha ett text- eller datavärde
(literaler)
1. Introduktion
Hämta påståenden om ting

1. Introduktion
Samma i “Turtle” format
GET http://data.nobelprize.org/resource/nobelprize/Physics/1903

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix dbpedia: <http://dbpedia.org/ontology/> .
@prefix nobel: <http://data.nobelprize.org/resource/terms/> .
http://data.nobelprize.org/resource/nobelprize/Physics/1903
rdf:type nobel:nobelPrize ;
rdf:type dbpedia:Award ;
nobel:laureate http://data.nobelprize.org/resource/laureate/4 ;
nobel:laureate http://data.nobelprize.org/resource/laureate/5 ;
nobel:laureate http://data.nobelprize.org/resource/laureate/6 ;
nobel:category http://data.nobelprize.org/resource/category/Physics ;
nobel:year 1903 ;
rdfs:label “Physics 1903”@en .

1. Introduktion
Webben vs. länkade data

“Gamla” webben
●
●

●

●

●

Nätverk av sidor
Varje sida har en
identifierare (URL)
Bakom varje URL ligger ett
dokument
Sidor är ihopkopplade via
länkar
“Open world”

1. Introduktion

Länkade data (“Web of Data”)
●
●

●

●

●

Nätverk av ting (4★)
Varje ting har en
identifierare (URI) (4★)
Bakom varje URI ligger
“statements” (5★)
Ting är ihopkopplade via
länkar (5★)
“Open world”
2007

1. Introduktion
2008

1. Introduktion
2009

1. Introduktion
2010

1. Introduktion
2011

1. Introduktion
Datapublicering – initiala frågor

●
●
●
●
●

2. Publicering

Identifiera vad man vill göra tillgängligt
Vad är nyttigt/användbart?
Var ligger det nu?
Hur är det underhållet nu?
Kan det bli identifierat?
Datapublicering – licensiering (!)

Säkerställa att licensiering är entydig
● Creative Commons (CC0)
● Open Data Commons
● Egen licens
Data != Metadata
● Blandas ihop ofta

2. Publicering
Publicering - länkning

Vanligt att använda DBpedia och andra stora dataset
som “länkningscentraler”
● Leder automatiskt till ett flertal av indirekta länkar
pga att andra data redan länkar till dem
●

Hur skapas länkar?
○
○
○
○

2. Publicering

Bra utgångsmaterial underlättar automatisk länkning
Textanalys (“named entity extraction”)
Disambiguering (Homonymer)
Manuellt
DCMI Terms Qualified Dublin Core
Properties:
abstract, accessRights, accrualMethod, accrualPeriodicity,
accrualPolicy, alternative, audience, available, bibliographicCitation,
conformsTo, contributor, coverage, created, creator, date,
dateAccepted, dateCopyrighted, dateSubmitted, description,
educationLevel, extent, format, hasFormat, hasPart, hasVersion,
identifier, instructionalMethod, isFormatOf, isPartOf, isReferencedBy,
isReplacedBy, isRequiredBy, issued, isVersionOf, language, license,
mediator, medium, modified, provenance, publisher, references,
relation, replaces, requires, rights, rightsHolder, source, spatial,
subject, tableOfContents, temporal, title, type, valid

Intoducerades 1995 på Workshop i Dublin Ohio
av olika biblioteksorganisationer
Fokus: beskriva resurser/verk av olika slag
Underhålls av DCMI (Dublin Core Metadata Initiative)
3. Vokabulärer
FOAF - Friend Of A Friend

Properties:

account | age | based_near | birthday | currentProject | depicts |
dnaChecksum | gender | givenName | holdsAccount | img | interest | knows | lastName | mbox |
member | nick | openid | page | phone | plan | status | surname | thumbnail | title | topic | weblog

Specification: http://xmlns.com/foaf/spec
Introduced in 2000, latest update 2010
Builds upon Dublin Core
3. Vokabulärer
Schema.org
Bing,
Google
och Yahoo
Introducerade schema.org 2011
Mer än 800 typer och 600 egenskaper
Används för att förbättra sökresultat
3. Vokabulärer
Koncept-, vokabulär- och ontologispråk
SKOS, RDFS och OWL
SKOS - “Simple Knowledge Organisation System”
●
●
●
●

Concepts in ConceptSchemes
Namn via prefLabel, altLabel
Hierarkier via narrow/broader
relationer via related

RDFS - “RDF Vocabulary Description Language”
● Definera klasser och properties i RDF
● subClassOf och subPropertyOf för att förfina

OWL - “Web Ontology Language”
● Kraftfullare än RDFS

3. Vokabulärer
SNOMED CT och ICD9 i SKOS
id (URI):
61462000
Namn (prefLabel):
Malaria
Synonymer (altLabel):
Plasmodiosis, Paludism
Förfining av (broader):
105649009
Närbesläktad (closeMatch): ICD9:084_6
id (URI):
Namn (prefLabel):

105649009
Disease due to Plasmodiidae

Snomed CT

id (URI):
Namn (prefLabel):

3. Vokabulärer

Snomed CT

084_6
Malaria, Unspecified

ICD9
SNOMED CT och ICD9 i SKOS

Utforska själv på: http://schemes.caregraf.info/snomed#!
61462000
3. Vokabulärer
Mer om SKOS
Notes:
note, changeNote, definition, historyNote,
editorialNote, example, scopeNote
transitivity:
broaderTransitive, narrowTransitive
Match:
closeMatch, relatedMatch, narrowMatch,
broaderMatch
Concept Collections
3. Vokabulärer
Problembild - Dataintegration

●
●
●

Många disparata datakällor och silos
Många punkt-till-punkt gränssnitt
Datakällor med liknande eller inkonsistent
information

Data IN - Använda andras data korrekt
Data UT - Egen data förstådd och rätt använd
Helst på ett enkelt, hållbart och skalbart sätt!

4. Dataintegration
Förstådd och rätt använd
Hitta/anpassa den bästa standarden
● Hur avgränsa ett område
● Hur komma överens, legitimitet
Använd många vokabulärer och Länkade data
● Kombinera existerande vokabulärer + egna
● Best practise växer fram, dubblera där så saknas

4. Dataintegration
Interoperabilitet vs. Harmonisering
En enskild standard ger interoperabilitet
● Maskiner kan utbyta data efter noggrann programmering
● Oftast punkt till punkt

Länkade data ger harmonisering mellan
standarder/vokabulärer
● Olika data kan blandas och samexistera
● Maskiner förstår de delar de programmerats för
● Ibland genom att förgrova och dra slutsatser enligt
förberedda regler

4. Dataintegration
Importera eller länka
Importera data som behövs
● Hur mycket ska man importera?
● Kvalité och underhåll ditt ansvar
● Hur länge är data korrekt?
● Vilka protokoll ska användas? (WS* vs. REST)
Länka till data som behövs
● Kvalité och underhåll leverantörens ansvar
● HTTP och SPARQL väl etablerade,
● kan kombineras med t. ex. SRU
● Cacha bara nödvändig data (förlita dig på http)

4. Dataintegration
Datamodell för disparata data
Egen datamodell
● Datamodellen blir en union av alla behov
● Dokumentation och underhåll
● Ursprung bör hanteras noga (provenance)

Utnyttja RDF
● Datamodellen är given av RDF abstract model
● Ursprung hanteras via URI:er (och named graphs)
● Många format finns att välja på

4. Dataintegration
Länkade data ger möjligheter (1)
Förenkling av informationsintegrationsprocesser
● Flexibelt och enkelt för evolverande datamodeller
● Ignorera det du inte förstår eller behöver
● Integrera data av olika informationskvalite
● Hantera synonymer och homonymer i data
(reconciliation och disambiguation)
Tillhandahålla ett enterprise metadatalager
● Enhetliga metadatavokabulär inom organisationen
● Harmonisera “legacy” datasilos
● Förbättring av informationsspridning
● Agilt “Master Data Management”

4. Dataintegration
Länkade data ger möjligheter (2)
Identifiering och förädling av information
● Länka ihop personer, organisationer, händelser, …
● Förädla organisationsinnehåll med strukturerade
annotationer
● Identifiera implicita länkar och relationer
Enhetlig tillgång till information inom organisationen
● Förenklad infrastruktur baserad på öppna
standarder
Informationsutbyte mellan olika organisationer
● Enkel publicering och konsumtion av länkade data

4. Dataintegration
Typiska enterprise use cases
Publicering och konsumtion av länkade data
● Länkade data behöver inte vara öppna / gratis
● Stödjer datautbyte inom värdekedjan
Informationsintegration
● Integrerad asset-hantering / harmonisering av data
silos)
● Master Data Management
Knowledge discovery och semantisk sökning

4. Dataintegration
Framgångshistorier
Linked Life Data
● Semantisk warehouse som integrerar och länkar fler
än 25 öppna biomedicinska datakällor
● Interaktiv utforskning
Dynamisk semantisk publicering
● BBC World Cup 2010 och London Olympics 2012
● Länkade data för att automatisera dynamisk
publicering av innehåll
Data om Nobelpris
● Länkar ihop pristagare, dokumentation och externa
datakällor
4. Dataintegration
Olika kategorier av lösningar
för att exponera länkade data
Mål - exponera sina data som länkade data
Givet - en plattform som inte stöder länkade data

Påverkan

Ändra arkitektur

Lösning

Byta plattform
Utvidga plattformen
Lager ovanpå
plattformen
Använda en
molntjänst

5. Lösningar

X

Extra teknisk
kompetens krävs

Påverkan på
Driftsäkerhet

Underhåll krävs

X

X

X

?

?

X

X

X

X

?

?
Arkitekturskiss LODify

WebbApp
entrystore.js

LOD
EntryStore - molntjänst
Resurser

Config

Sökindex

Kalkylb
lad
5. Lösningar

Config

Tabular importer

Relational importer

RDB

Rättigheter

Config

Triple store

Webbdokument importer

API based importer

Doku
ment

API

Config
Tack för er uppmärksamhet!

Frågestund!

Hannes Ebner
<hannes@metasolutions.se>
Matthias Palmér
<matthias@metasolutions.se>
Kontakta oss gärna, tex om ni:
- har frågor om länkade data
- vill bli informerade om LODify

MetaSolutions AB
www.metasolutions.se
info@metasolutions.se

Mais conteúdo relacionado

Semelhante a Introduktion till länkade data

Webbens Arkitektur
Webbens ArkitekturWebbens Arkitektur
Webbens Arkitekturniklal
 
LODify - länkade data i molnet
LODify - länkade data i molnetLODify - länkade data i molnet
LODify - länkade data i molnetMetaSolutions AB
 
Librisxl treffpunkt mikromarc
Librisxl treffpunkt mikromarcLibrisxl treffpunkt mikromarc
Librisxl treffpunkt mikromarcJanne Johannesson
 
Metadata (Vad är metadata?)
Metadata (Vad är metadata?)Metadata (Vad är metadata?)
Metadata (Vad är metadata?)Stina Degerstedt
 
Xml tilltro
Xml tilltroXml tilltro
Xml tilltrotilltro
 
Webbapplikationer - Kursintroduktion (anton.tibblin@mah.se)
Webbapplikationer - Kursintroduktion (anton.tibblin@mah.se)Webbapplikationer - Kursintroduktion (anton.tibblin@mah.se)
Webbapplikationer - Kursintroduktion (anton.tibblin@mah.se)Anton Tibblin
 
Effektiv dokumenthantering i SharePoint frukost seminarium NFI
Effektiv dokumenthantering i SharePoint frukost seminarium NFIEffektiv dokumenthantering i SharePoint frukost seminarium NFI
Effektiv dokumenthantering i SharePoint frukost seminarium NFILars Blixt
 
Att bygga webbapplikationer baserade på länkad data
Att bygga webbapplikationer baserade på länkad dataAtt bygga webbapplikationer baserade på länkad data
Att bygga webbapplikationer baserade på länkad dataMatthias Palmer
 
HT17 - DA156A - Introduktion till HTML
HT17 - DA156A - Introduktion till HTMLHT17 - DA156A - Introduktion till HTML
HT17 - DA156A - Introduktion till HTMLAnton Tibblin
 
Namespaces
NamespacesNamespaces
Namespacesbjornh
 
Presentation dokumenthantering workshop 27 april 2016
Presentation dokumenthantering workshop 27 april 2016Presentation dokumenthantering workshop 27 april 2016
Presentation dokumenthantering workshop 27 april 2016Lars Blixt
 
Datalistor i alfresco
Datalistor i alfrescoDatalistor i alfresco
Datalistor i alfrescoLoftux
 
Presentation av OER projekt under OER konferens 2010-02-09
Presentation av OER projekt under OER konferens 2010-02-09Presentation av OER projekt under OER konferens 2010-02-09
Presentation av OER projekt under OER konferens 2010-02-09Erik Axdorph
 
Rough guide to data vault modelling
Rough guide to data vault modellingRough guide to data vault modelling
Rough guide to data vault modellingDmitri Apassov
 

Semelhante a Introduktion till länkade data (20)

Webbens Arkitektur
Webbens ArkitekturWebbens Arkitektur
Webbens Arkitektur
 
Introduktion till LODify
Introduktion till LODifyIntroduktion till LODify
Introduktion till LODify
 
LODify - länkade data i molnet
LODify - länkade data i molnetLODify - länkade data i molnet
LODify - länkade data i molnet
 
Librisxl treffpunkt mikromarc
Librisxl treffpunkt mikromarcLibrisxl treffpunkt mikromarc
Librisxl treffpunkt mikromarc
 
Länkade data – intro på LDSV 2013
Länkade data – intro på LDSV 2013Länkade data – intro på LDSV 2013
Länkade data – intro på LDSV 2013
 
Metadata (Vad är metadata?)
Metadata (Vad är metadata?)Metadata (Vad är metadata?)
Metadata (Vad är metadata?)
 
Xml tilltro
Xml tilltroXml tilltro
Xml tilltro
 
Webbapplikationer - Kursintroduktion (anton.tibblin@mah.se)
Webbapplikationer - Kursintroduktion (anton.tibblin@mah.se)Webbapplikationer - Kursintroduktion (anton.tibblin@mah.se)
Webbapplikationer - Kursintroduktion (anton.tibblin@mah.se)
 
Effektiv dokumenthantering i SharePoint frukost seminarium NFI
Effektiv dokumenthantering i SharePoint frukost seminarium NFIEffektiv dokumenthantering i SharePoint frukost seminarium NFI
Effektiv dokumenthantering i SharePoint frukost seminarium NFI
 
Fileserver Search Assessment - Comperio
Fileserver Search Assessment - ComperioFileserver Search Assessment - Comperio
Fileserver Search Assessment - Comperio
 
Att bygga webbapplikationer baserade på länkad data
Att bygga webbapplikationer baserade på länkad dataAtt bygga webbapplikationer baserade på länkad data
Att bygga webbapplikationer baserade på länkad data
 
XMLinfoEpidFo
XMLinfoEpidFoXMLinfoEpidFo
XMLinfoEpidFo
 
HT17 - DA156A - Introduktion till HTML
HT17 - DA156A - Introduktion till HTMLHT17 - DA156A - Introduktion till HTML
HT17 - DA156A - Introduktion till HTML
 
Namespaces
NamespacesNamespaces
Namespaces
 
Presentation dokumenthantering workshop 27 april 2016
Presentation dokumenthantering workshop 27 april 2016Presentation dokumenthantering workshop 27 april 2016
Presentation dokumenthantering workshop 27 april 2016
 
Synd presentation
Synd presentationSynd presentation
Synd presentation
 
Datalistor i alfresco
Datalistor i alfrescoDatalistor i alfresco
Datalistor i alfresco
 
Presentation av OER projekt under OER konferens 2010-02-09
Presentation av OER projekt under OER konferens 2010-02-09Presentation av OER projekt under OER konferens 2010-02-09
Presentation av OER projekt under OER konferens 2010-02-09
 
Rough guide to data vault modelling
Rough guide to data vault modellingRough guide to data vault modelling
Rough guide to data vault modelling
 
JavaScript - Intro
JavaScript - IntroJavaScript - Intro
JavaScript - Intro
 

Introduktion till länkade data

  • 1. Introduktion till Länkade Data Arkitekturnätverket 2013-10-01 Hannes Ebner hannes@metasolutions.se Matthias Palmér matthias@metasolutions.se
  • 2. Vilka är vi Matthias Palmér ● ● Bakgrund: datalogi, matematik Tekn. dr. i medieteknik, fokus på hur man bygger moderna webbapplikationer mha Semantic Web/Länkade Data Hannes Ebner ● ● Bakgrund: telekommunikation, informationssystem Doktorsavhandling med fokus på samarbetsmiljöer som är baserade på semantiska teknologier och länkade data
  • 3. Om MetaSolutions produkter RForms – Konfigurerbara webbformulär för redigera grafbaserad information (RDF) EntryStore – Repository för hantera kombinationen av resurser och tillhörande metadata EntryScape – Webbapplikation som ger gränsnitt till EntryStore, påminner om filutforskaren på windows/mac... (Dvs, inte bara teori, vi har omfattande erfarenhet med att utveckla system för/med Länkade data.)
  • 4. Några av våra kunder och partners
  • 5. Innehåll 1. Introduktion till länkade data 2. Kort om Publicering av länkade data (12 slides) (3 slides) 3. Vokabulärer och vokabulärspråk (7 slides) 4. Dataintegration och länkade data (9 slides) 5. Lösningar för att exponera länkade data (2 slides)
  • 6. Om stjärnor ★★★★★ ★★★★★ ★★★★★ ★★★★★ ★★★★★ ★★★★★ ★★★★★ gör din information tillgänglig på Webben (oberoende av format) under en öppen licens gör informationen tillgänglig som strukturerad data (t. ex., Excel format istället för en bild av en tabell) använd icke-proprietära format (t. ex., CSV istället för Excel) använd URI:er för att identifiera ting, och RDF för att uttrycka påståenden om dem ★★★★★ länka dina data till andras data, det ger sammanhang 1. Introduktion
  • 7. Länkade data ● ● ● ● ● ● 1. Introduktion Påståenden om ting Länkar mellan ting Hämta påståenden om ting över HTTP Ett språk (RDF) många format Ett frågespråk (SPARQL) Vokabulärer är också länkade data
  • 8. Påståenden om ting ● Data om ting identifierade av URI:er ● Påståenden om dessa ting kan vara: ○ ○ ● 1. Introduktion egenskaper som titel, storlek, datum, osv. länkar till andra ting som “känner”, “är del av”, osv. Hämtning av ett ting (mha dess URI) ger en samling påståenden, några länkar vidare
  • 9. Resource Description Format (RDF) Tre enkla regler: 1. Ett påstående uttrycks som “trippel” (“statement”), med subjekt, predikat och object 2. Alla delar av ett trippel är namn (identifierare) för entiteter (konkret eller abstrakt) 3. Objekt kan även ha ett text- eller datavärde (literaler) 1. Introduktion
  • 10. Hämta påståenden om ting 1. Introduktion
  • 11. Samma i “Turtle” format GET http://data.nobelprize.org/resource/nobelprize/Physics/1903 @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix dbpedia: <http://dbpedia.org/ontology/> . @prefix nobel: <http://data.nobelprize.org/resource/terms/> . http://data.nobelprize.org/resource/nobelprize/Physics/1903 rdf:type nobel:nobelPrize ; rdf:type dbpedia:Award ; nobel:laureate http://data.nobelprize.org/resource/laureate/4 ; nobel:laureate http://data.nobelprize.org/resource/laureate/5 ; nobel:laureate http://data.nobelprize.org/resource/laureate/6 ; nobel:category http://data.nobelprize.org/resource/category/Physics ; nobel:year 1903 ; rdfs:label “Physics 1903”@en . 1. Introduktion
  • 12. Webben vs. länkade data “Gamla” webben ● ● ● ● ● Nätverk av sidor Varje sida har en identifierare (URL) Bakom varje URL ligger ett dokument Sidor är ihopkopplade via länkar “Open world” 1. Introduktion Länkade data (“Web of Data”) ● ● ● ● ● Nätverk av ting (4★) Varje ting har en identifierare (URI) (4★) Bakom varje URI ligger “statements” (5★) Ting är ihopkopplade via länkar (5★) “Open world”
  • 18. Datapublicering – initiala frågor ● ● ● ● ● 2. Publicering Identifiera vad man vill göra tillgängligt Vad är nyttigt/användbart? Var ligger det nu? Hur är det underhållet nu? Kan det bli identifierat?
  • 19. Datapublicering – licensiering (!) Säkerställa att licensiering är entydig ● Creative Commons (CC0) ● Open Data Commons ● Egen licens Data != Metadata ● Blandas ihop ofta 2. Publicering
  • 20. Publicering - länkning Vanligt att använda DBpedia och andra stora dataset som “länkningscentraler” ● Leder automatiskt till ett flertal av indirekta länkar pga att andra data redan länkar till dem ● Hur skapas länkar? ○ ○ ○ ○ 2. Publicering Bra utgångsmaterial underlättar automatisk länkning Textanalys (“named entity extraction”) Disambiguering (Homonymer) Manuellt
  • 21. DCMI Terms Qualified Dublin Core Properties: abstract, accessRights, accrualMethod, accrualPeriodicity, accrualPolicy, alternative, audience, available, bibliographicCitation, conformsTo, contributor, coverage, created, creator, date, dateAccepted, dateCopyrighted, dateSubmitted, description, educationLevel, extent, format, hasFormat, hasPart, hasVersion, identifier, instructionalMethod, isFormatOf, isPartOf, isReferencedBy, isReplacedBy, isRequiredBy, issued, isVersionOf, language, license, mediator, medium, modified, provenance, publisher, references, relation, replaces, requires, rights, rightsHolder, source, spatial, subject, tableOfContents, temporal, title, type, valid Intoducerades 1995 på Workshop i Dublin Ohio av olika biblioteksorganisationer Fokus: beskriva resurser/verk av olika slag Underhålls av DCMI (Dublin Core Metadata Initiative) 3. Vokabulärer
  • 22. FOAF - Friend Of A Friend Properties: account | age | based_near | birthday | currentProject | depicts | dnaChecksum | gender | givenName | holdsAccount | img | interest | knows | lastName | mbox | member | nick | openid | page | phone | plan | status | surname | thumbnail | title | topic | weblog Specification: http://xmlns.com/foaf/spec Introduced in 2000, latest update 2010 Builds upon Dublin Core 3. Vokabulärer
  • 23. Schema.org Bing, Google och Yahoo Introducerade schema.org 2011 Mer än 800 typer och 600 egenskaper Används för att förbättra sökresultat 3. Vokabulärer
  • 24. Koncept-, vokabulär- och ontologispråk SKOS, RDFS och OWL SKOS - “Simple Knowledge Organisation System” ● ● ● ● Concepts in ConceptSchemes Namn via prefLabel, altLabel Hierarkier via narrow/broader relationer via related RDFS - “RDF Vocabulary Description Language” ● Definera klasser och properties i RDF ● subClassOf och subPropertyOf för att förfina OWL - “Web Ontology Language” ● Kraftfullare än RDFS 3. Vokabulärer
  • 25. SNOMED CT och ICD9 i SKOS id (URI): 61462000 Namn (prefLabel): Malaria Synonymer (altLabel): Plasmodiosis, Paludism Förfining av (broader): 105649009 Närbesläktad (closeMatch): ICD9:084_6 id (URI): Namn (prefLabel): 105649009 Disease due to Plasmodiidae Snomed CT id (URI): Namn (prefLabel): 3. Vokabulärer Snomed CT 084_6 Malaria, Unspecified ICD9
  • 26. SNOMED CT och ICD9 i SKOS Utforska själv på: http://schemes.caregraf.info/snomed#! 61462000 3. Vokabulärer
  • 27. Mer om SKOS Notes: note, changeNote, definition, historyNote, editorialNote, example, scopeNote transitivity: broaderTransitive, narrowTransitive Match: closeMatch, relatedMatch, narrowMatch, broaderMatch Concept Collections 3. Vokabulärer
  • 28. Problembild - Dataintegration ● ● ● Många disparata datakällor och silos Många punkt-till-punkt gränssnitt Datakällor med liknande eller inkonsistent information Data IN - Använda andras data korrekt Data UT - Egen data förstådd och rätt använd Helst på ett enkelt, hållbart och skalbart sätt! 4. Dataintegration
  • 29. Förstådd och rätt använd Hitta/anpassa den bästa standarden ● Hur avgränsa ett område ● Hur komma överens, legitimitet Använd många vokabulärer och Länkade data ● Kombinera existerande vokabulärer + egna ● Best practise växer fram, dubblera där så saknas 4. Dataintegration
  • 30. Interoperabilitet vs. Harmonisering En enskild standard ger interoperabilitet ● Maskiner kan utbyta data efter noggrann programmering ● Oftast punkt till punkt Länkade data ger harmonisering mellan standarder/vokabulärer ● Olika data kan blandas och samexistera ● Maskiner förstår de delar de programmerats för ● Ibland genom att förgrova och dra slutsatser enligt förberedda regler 4. Dataintegration
  • 31. Importera eller länka Importera data som behövs ● Hur mycket ska man importera? ● Kvalité och underhåll ditt ansvar ● Hur länge är data korrekt? ● Vilka protokoll ska användas? (WS* vs. REST) Länka till data som behövs ● Kvalité och underhåll leverantörens ansvar ● HTTP och SPARQL väl etablerade, ● kan kombineras med t. ex. SRU ● Cacha bara nödvändig data (förlita dig på http) 4. Dataintegration
  • 32. Datamodell för disparata data Egen datamodell ● Datamodellen blir en union av alla behov ● Dokumentation och underhåll ● Ursprung bör hanteras noga (provenance) Utnyttja RDF ● Datamodellen är given av RDF abstract model ● Ursprung hanteras via URI:er (och named graphs) ● Många format finns att välja på 4. Dataintegration
  • 33. Länkade data ger möjligheter (1) Förenkling av informationsintegrationsprocesser ● Flexibelt och enkelt för evolverande datamodeller ● Ignorera det du inte förstår eller behöver ● Integrera data av olika informationskvalite ● Hantera synonymer och homonymer i data (reconciliation och disambiguation) Tillhandahålla ett enterprise metadatalager ● Enhetliga metadatavokabulär inom organisationen ● Harmonisera “legacy” datasilos ● Förbättring av informationsspridning ● Agilt “Master Data Management” 4. Dataintegration
  • 34. Länkade data ger möjligheter (2) Identifiering och förädling av information ● Länka ihop personer, organisationer, händelser, … ● Förädla organisationsinnehåll med strukturerade annotationer ● Identifiera implicita länkar och relationer Enhetlig tillgång till information inom organisationen ● Förenklad infrastruktur baserad på öppna standarder Informationsutbyte mellan olika organisationer ● Enkel publicering och konsumtion av länkade data 4. Dataintegration
  • 35. Typiska enterprise use cases Publicering och konsumtion av länkade data ● Länkade data behöver inte vara öppna / gratis ● Stödjer datautbyte inom värdekedjan Informationsintegration ● Integrerad asset-hantering / harmonisering av data silos) ● Master Data Management Knowledge discovery och semantisk sökning 4. Dataintegration
  • 36. Framgångshistorier Linked Life Data ● Semantisk warehouse som integrerar och länkar fler än 25 öppna biomedicinska datakällor ● Interaktiv utforskning Dynamisk semantisk publicering ● BBC World Cup 2010 och London Olympics 2012 ● Länkade data för att automatisera dynamisk publicering av innehåll Data om Nobelpris ● Länkar ihop pristagare, dokumentation och externa datakällor 4. Dataintegration
  • 37. Olika kategorier av lösningar för att exponera länkade data Mål - exponera sina data som länkade data Givet - en plattform som inte stöder länkade data Påverkan Ändra arkitektur Lösning Byta plattform Utvidga plattformen Lager ovanpå plattformen Använda en molntjänst 5. Lösningar X Extra teknisk kompetens krävs Påverkan på Driftsäkerhet Underhåll krävs X X X ? ? X X X X ? ?
  • 38. Arkitekturskiss LODify WebbApp entrystore.js LOD EntryStore - molntjänst Resurser Config Sökindex Kalkylb lad 5. Lösningar Config Tabular importer Relational importer RDB Rättigheter Config Triple store Webbdokument importer API based importer Doku ment API Config
  • 39. Tack för er uppmärksamhet! Frågestund! Hannes Ebner <hannes@metasolutions.se> Matthias Palmér <matthias@metasolutions.se> Kontakta oss gärna, tex om ni: - har frågor om länkade data - vill bli informerade om LODify MetaSolutions AB www.metasolutions.se info@metasolutions.se