1. Introduktion till Länkade Data
Arkitekturnätverket
2013-10-01
Hannes Ebner
hannes@metasolutions.se
Matthias Palmér
matthias@metasolutions.se
2. Vilka är vi
Matthias Palmér
●
●
Bakgrund: datalogi, matematik
Tekn. dr. i medieteknik, fokus på hur man bygger moderna
webbapplikationer mha Semantic Web/Länkade Data
Hannes Ebner
●
●
Bakgrund: telekommunikation, informationssystem
Doktorsavhandling med fokus på samarbetsmiljöer som är
baserade på semantiska teknologier och länkade data
3. Om MetaSolutions produkter
RForms – Konfigurerbara webbformulär för redigera
grafbaserad information (RDF)
EntryStore – Repository för hantera kombinationen av
resurser och tillhörande metadata
EntryScape – Webbapplikation som ger gränsnitt till
EntryStore, påminner om filutforskaren på windows/mac...
(Dvs, inte bara teori, vi har omfattande erfarenhet med att utveckla system för/med Länkade data.)
5. Innehåll
1. Introduktion till länkade data
2. Kort om Publicering av länkade data
(12 slides)
(3
slides)
3. Vokabulärer och vokabulärspråk
(7 slides)
4. Dataintegration och länkade data
(9 slides)
5. Lösningar för att exponera länkade data
(2 slides)
6. Om stjärnor
★★★★★
★★★★★
★★★★★
★★★★★
★★★★★
★★★★★
★★★★★
gör din information tillgänglig på Webben
(oberoende av format) under en öppen licens
gör informationen tillgänglig som strukturerad data
(t. ex., Excel format istället för en bild av en tabell)
använd icke-proprietära format
(t. ex., CSV istället för Excel)
använd URI:er för att identifiera ting,
och RDF för att uttrycka påståenden om dem
★★★★★ länka dina data till andras data, det ger sammanhang
1. Introduktion
8. Påståenden om ting
●
Data om ting identifierade av URI:er
●
Påståenden om dessa ting kan vara:
○
○
●
1. Introduktion
egenskaper som titel, storlek, datum, osv.
länkar till andra ting som “känner”, “är del av”, osv.
Hämtning av ett ting (mha dess URI) ger en
samling påståenden, några länkar vidare
9. Resource Description Format (RDF)
Tre enkla regler:
1. Ett påstående uttrycks som “trippel” (“statement”),
med subjekt, predikat och object
2. Alla delar av ett trippel är namn (identifierare) för
entiteter (konkret eller abstrakt)
3. Objekt kan även ha ett text- eller datavärde
(literaler)
1. Introduktion
12. Webben vs. länkade data
“Gamla” webben
●
●
●
●
●
Nätverk av sidor
Varje sida har en
identifierare (URL)
Bakom varje URL ligger ett
dokument
Sidor är ihopkopplade via
länkar
“Open world”
1. Introduktion
Länkade data (“Web of Data”)
●
●
●
●
●
Nätverk av ting (4★)
Varje ting har en
identifierare (URI) (4★)
Bakom varje URI ligger
“statements” (5★)
Ting är ihopkopplade via
länkar (5★)
“Open world”
18. Datapublicering – initiala frågor
●
●
●
●
●
2. Publicering
Identifiera vad man vill göra tillgängligt
Vad är nyttigt/användbart?
Var ligger det nu?
Hur är det underhållet nu?
Kan det bli identifierat?
19. Datapublicering – licensiering (!)
Säkerställa att licensiering är entydig
● Creative Commons (CC0)
● Open Data Commons
● Egen licens
Data != Metadata
● Blandas ihop ofta
2. Publicering
20. Publicering - länkning
Vanligt att använda DBpedia och andra stora dataset
som “länkningscentraler”
● Leder automatiskt till ett flertal av indirekta länkar
pga att andra data redan länkar till dem
●
Hur skapas länkar?
○
○
○
○
2. Publicering
Bra utgångsmaterial underlättar automatisk länkning
Textanalys (“named entity extraction”)
Disambiguering (Homonymer)
Manuellt
24. Koncept-, vokabulär- och ontologispråk
SKOS, RDFS och OWL
SKOS - “Simple Knowledge Organisation System”
●
●
●
●
Concepts in ConceptSchemes
Namn via prefLabel, altLabel
Hierarkier via narrow/broader
relationer via related
RDFS - “RDF Vocabulary Description Language”
● Definera klasser och properties i RDF
● subClassOf och subPropertyOf för att förfina
OWL - “Web Ontology Language”
● Kraftfullare än RDFS
3. Vokabulärer
25. SNOMED CT och ICD9 i SKOS
id (URI):
61462000
Namn (prefLabel):
Malaria
Synonymer (altLabel):
Plasmodiosis, Paludism
Förfining av (broader):
105649009
Närbesläktad (closeMatch): ICD9:084_6
id (URI):
Namn (prefLabel):
105649009
Disease due to Plasmodiidae
Snomed CT
id (URI):
Namn (prefLabel):
3. Vokabulärer
Snomed CT
084_6
Malaria, Unspecified
ICD9
26. SNOMED CT och ICD9 i SKOS
Utforska själv på: http://schemes.caregraf.info/snomed#!
61462000
3. Vokabulärer
27. Mer om SKOS
Notes:
note, changeNote, definition, historyNote,
editorialNote, example, scopeNote
transitivity:
broaderTransitive, narrowTransitive
Match:
closeMatch, relatedMatch, narrowMatch,
broaderMatch
Concept Collections
3. Vokabulärer
28. Problembild - Dataintegration
●
●
●
Många disparata datakällor och silos
Många punkt-till-punkt gränssnitt
Datakällor med liknande eller inkonsistent
information
Data IN - Använda andras data korrekt
Data UT - Egen data förstådd och rätt använd
Helst på ett enkelt, hållbart och skalbart sätt!
4. Dataintegration
29. Förstådd och rätt använd
Hitta/anpassa den bästa standarden
● Hur avgränsa ett område
● Hur komma överens, legitimitet
Använd många vokabulärer och Länkade data
● Kombinera existerande vokabulärer + egna
● Best practise växer fram, dubblera där så saknas
4. Dataintegration
30. Interoperabilitet vs. Harmonisering
En enskild standard ger interoperabilitet
● Maskiner kan utbyta data efter noggrann programmering
● Oftast punkt till punkt
Länkade data ger harmonisering mellan
standarder/vokabulärer
● Olika data kan blandas och samexistera
● Maskiner förstår de delar de programmerats för
● Ibland genom att förgrova och dra slutsatser enligt
förberedda regler
4. Dataintegration
31. Importera eller länka
Importera data som behövs
● Hur mycket ska man importera?
● Kvalité och underhåll ditt ansvar
● Hur länge är data korrekt?
● Vilka protokoll ska användas? (WS* vs. REST)
Länka till data som behövs
● Kvalité och underhåll leverantörens ansvar
● HTTP och SPARQL väl etablerade,
● kan kombineras med t. ex. SRU
● Cacha bara nödvändig data (förlita dig på http)
4. Dataintegration
32. Datamodell för disparata data
Egen datamodell
● Datamodellen blir en union av alla behov
● Dokumentation och underhåll
● Ursprung bör hanteras noga (provenance)
Utnyttja RDF
● Datamodellen är given av RDF abstract model
● Ursprung hanteras via URI:er (och named graphs)
● Många format finns att välja på
4. Dataintegration
33. Länkade data ger möjligheter (1)
Förenkling av informationsintegrationsprocesser
● Flexibelt och enkelt för evolverande datamodeller
● Ignorera det du inte förstår eller behöver
● Integrera data av olika informationskvalite
● Hantera synonymer och homonymer i data
(reconciliation och disambiguation)
Tillhandahålla ett enterprise metadatalager
● Enhetliga metadatavokabulär inom organisationen
● Harmonisera “legacy” datasilos
● Förbättring av informationsspridning
● Agilt “Master Data Management”
4. Dataintegration
34. Länkade data ger möjligheter (2)
Identifiering och förädling av information
● Länka ihop personer, organisationer, händelser, …
● Förädla organisationsinnehåll med strukturerade
annotationer
● Identifiera implicita länkar och relationer
Enhetlig tillgång till information inom organisationen
● Förenklad infrastruktur baserad på öppna
standarder
Informationsutbyte mellan olika organisationer
● Enkel publicering och konsumtion av länkade data
4. Dataintegration
35. Typiska enterprise use cases
Publicering och konsumtion av länkade data
● Länkade data behöver inte vara öppna / gratis
● Stödjer datautbyte inom värdekedjan
Informationsintegration
● Integrerad asset-hantering / harmonisering av data
silos)
● Master Data Management
Knowledge discovery och semantisk sökning
4. Dataintegration
36. Framgångshistorier
Linked Life Data
● Semantisk warehouse som integrerar och länkar fler
än 25 öppna biomedicinska datakällor
● Interaktiv utforskning
Dynamisk semantisk publicering
● BBC World Cup 2010 och London Olympics 2012
● Länkade data för att automatisera dynamisk
publicering av innehåll
Data om Nobelpris
● Länkar ihop pristagare, dokumentation och externa
datakällor
4. Dataintegration
37. Olika kategorier av lösningar
för att exponera länkade data
Mål - exponera sina data som länkade data
Givet - en plattform som inte stöder länkade data
Påverkan
Ändra arkitektur
Lösning
Byta plattform
Utvidga plattformen
Lager ovanpå
plattformen
Använda en
molntjänst
5. Lösningar
X
Extra teknisk
kompetens krävs
Påverkan på
Driftsäkerhet
Underhåll krävs
X
X
X
?
?
X
X
X
X
?
?
38. Arkitekturskiss LODify
WebbApp
entrystore.js
LOD
EntryStore - molntjänst
Resurser
Config
Sökindex
Kalkylb
lad
5. Lösningar
Config
Tabular importer
Relational importer
RDB
Rättigheter
Config
Triple store
Webbdokument importer
API based importer
Doku
ment
API
Config
39. Tack för er uppmärksamhet!
Frågestund!
Hannes Ebner
<hannes@metasolutions.se>
Matthias Palmér
<matthias@metasolutions.se>
Kontakta oss gärna, tex om ni:
- har frågor om länkade data
- vill bli informerade om LODify
MetaSolutions AB
www.metasolutions.se
info@metasolutions.se