Introduction à la fouille de textes et positionnement de l'offre logicielle
Semantic web-and-public-data
1. Mise à disposition et valorisation
des données publiques
COEPIA – 2014-01-17 09:30/partie 2
EU F7 projet - LOD2: Le partenaire TenForce (BE)
Johan De Smedt
2014-01-17
TenForce – project: LOD2
1
2. Web sémantique et web des données
Ingénierie des connaissances
Groupe Français de l’Industrie de l’Information (GFii)
EU F7 projet - LOD2: Le partenaire TenForce (BE)
Johan De Smedt
2014-01-17
TenForce – project: LOD2
2
5. Example – L’ internet (2/2)
• L'Internet comme il est familier aujourd'hui:
– texte, photo, vidéo, ....
– hyperliens
• URL en format: http://{domaine}/{chemin}
• Livraison lien hypertexte sur le protocole HTTP
– Avec une immense infrastructure
(serveurs: DNS, proxy, gestion du cache, DHCP, ...)
– Soutenir les paramètres HTTP et négociation de
contenu (type MIME/format, langue, ...)
2014-01-17
TenForce – project: LOD2
5
6. Catégories d'usagers de l'Internet (1/3)
• Catégories d'usagers
– Humains
– Applications (logiciel)
• La manipulation de l'information
– Les consommateurs
– Les fournisseurs
2014-01-17
TenForce – project: LOD2
6
7. Catégories d'usagers de l'Internet 2/3
• Exemples
–
–
–
–
Robots d'indexation et de recherche
Applications sur les appareils mobiles
Browsers
Fournisseurs d'information d'origine
agrégateur d'information
•
•
•
•
•
•
•
2014-01-17
Portails – éditeurs scientifiques (et autres)
Prévisions météo
Circulation
Actualités
L'administration en ligne (le e-Gouvernement)
Réservation d'hôtel et de voyage
...
TenForce – project: LOD2
7
8. Catégories d'usagers de l'Internet 3/3
• Au service de l'intérêt humain
– les activités économiques
– la curiosité
– le contrôle (des procès, de la sécurité, ...)
– la mise en œuvre de la politique
– la circulation
– ...
2014-01-17
TenForce – project: LOD2
8
9. But de la technologie du web
sémantique
• Fournir les outils (sémantique de la langue) pour
rendre la communication entre les utilisateurs
d'Internet (en particulier entre les applications)
possible
– Manipulation des données brutes pour produire des
informations de valeur ajoutée est un élément primordial
de l'industrie des services de la connaissance
• établir
– "Une compréhension commune"
– "De l’interopérabilité"
– "La collaboration"
2014-01-17
TenForce – project: LOD2
9
10. Les éléments clés pour la construction
d'une "Compréhension commune"
•
Publier des dictionnaires (par domaine spécialisé)
– Taxonomie, classification, Thesaurus, référentiels, registres de sujet, ...
– Les édition générale, le marché du travail, la législation, la géolocalisation, les sports, la
politique, ...
•
Publier des vocabulaires pour exprimer des relations, des dépendances, des
valeurs
= Schéma des bases de connaissances (ontologie)
– Œuvres d'art, les droits, les licences, le commerce, ...
– Établir le cadre de construire (mise à jour et de maintenir) les publications ci-dessus et de les
exploiter
– Contribuer à faire de l'Internet une collection croissante de bases de données liées
•
•
Utiliser des dictionnaires et des vocabulaires de référence
Publier en formats sémantique:
– contenu (HTML/humain) ET métadonnées (RDF/applicaition)
•
Éditeurs fiables et de sources fiables de publication
2014-01-17
TenForce – project: LOD2
10
12. Application de démonstration:
CELLAR - LOD2
• C' est quoi - le CELLAR
– Propriétaire: Office des publications de l'Union européenne
– En ligne de publications:
• Législation de l'UE - le contenu et les métadonnées
• Prochainement: Jurisprudence de l’UE et jurisprudence national - le contenu et
les métadonnées
• C' est quoi - le LOD2
– LOD: données public liées (« Linked Open Data »@en)
– liées: lien hypertexte (HTTP)
• Un projet de recherche du programme-cadre européen 7e
• Participants: Industrie, éditeurs, Université, entreprise TIC
• Application de démonstration
– Utilisez CELLAR comme la source d'origine dans les produits d'une
entreprise privée
• (par exemple, un éditeur: Wolters Kluwer – Allemagne [WKD])
2014-01-17
TenForce – project: LOD2
12
13. Cas d'utilisation de la démo (1/5)
• Législation des produits associés ou les outils utilisés
par:
–
–
–
–
La rédaction des éditeurs commerciaux,
Leurs clients,
Les clients de leurs clients et
Le grand public
... obtiennent un accès direct à source primaire de
l'UE en matière de contenu et métadonnées à:
– améliorer la qualité de l'information
– réduire le travail éditorial
– élargir les offre de produits en matière de contenu et des
métadonnées
2014-01-17
TenForce – project: LOD2
13
14. Produits - sans LOD 2/5
Produits internet
1 Source
source unique de contenu et
des métadonnées pour le produit
Révision éditoriale de liens et de métadonnées
2014-01-17
TenForce – project: LOD2
14
15. Produits - sans LOD 3/5
• Sans données public liées (LOD)
– L'accès se fait par Eur-Lex, qui n'est pas la principale
source d'information, mais une publication sur son
propre
• délai, la disponibilité, pas le contenu brut ou des
métadonnées brut
– Informations raclée est examiné et stocké localement
• tâche pour le personnel WKD de rédaction
– Produits de WKD doivent être complète et autonome
• avec des capacités limitées de liaison à la source d'origine
(quand même) disponible en ligne
2014-01-17
TenForce – project: LOD2
15
16. Produits - avec LOD 4/5
1) source brut de contenu et
de métadonnées
– interface application
2) source de contenu et de métadonnées
- interface humain
Produits internet
3 Source
3) source de contenu enrichi et
des métadonnées enrichi
2014-01-17
TenForce – project: LOD2
16
17. Produits - avec LOD 5/5
• Avec LOD il y a:
– Accès direct à la source de l'information d'origine
• contenu et les métadonnées
– Aide de l'application de la liaison avec et la
réutilisation du contenu et des métadonnées à
partir de la source d'origine
• WKD gamme de produits est complétée par la source
d'origine disponible en ligne et exposant les origines
2014-01-17
TenForce – project: LOD2
17
18. La Démo
• Recherche avancée
– vocabulaire de catalogue des ensembles de données: DCAT
• Les informations de licence sur les données liées (= LD)
• Récupérer le contenu et les métadonnées CELLAR en
utilisant LD
• L'intégration du EUROVOC au moyen de LD
• Réutiliser les publications de CELLAR et établir la
provenance et LD
• Aller à l'URL publique
– http://212.71.25.157:8080/wp9IntAppEx-1.0/
2014-01-17
TenForce – project: LOD2
18
19. La Démo (1/.)
• Excuses:
– La démo est limitée à l'allemand et l'anglais
• Combined search on CELLAR WP7 LOD DCAT
– Full text = Agrarstruktur Griechenland
– Title = Kommission
– Issue date = [ 1986-07-05 , 2000-01-15 [
– Theme = Besteuerung
2014-01-17
TenForce – project: LOD2
19
20. •
plein texte = Agrarstruktur Griechenland
–
rang (en: score/rank)
La Démo (1.1/.)
2014-01-17
TenForce – project: LOD2
20
21. •
•
plein texte = Agrarstruktur Griechenland
titre = Kommission
La Démo (1.2/.)
2014-01-17
TenForce – project: LOD2
21
22. •
•
•
plein texte = Agrarstruktur Griechenland
titre = Kommission
date de publicaiton [ 1986-07-05 , 2000-01-15 [
La Démo (1.3/.)
2014-01-17
TenForce – project: LOD2
22
23. •
•
•
•
plein texte = Agrarstruktur Griechenland
titre = Kommission
date de publicaiton [ 1986-07-05 , 2000-01-15 [
thème = Besteuerung
La Démo (1.4/.)
2014-01-17
TenForce – project: LOD2
23
24. La Démo (2/.)
• Informations sur la licence
– Devrait être disponible dans la source d'origine
– Peut être fusionné dans la source par un service
de téléchargement, adressée par des informations
sur la distribution DCAT
– Référence de licence fournit
•
•
•
•
2014-01-17
Titre de l‘œuvre
Éditeur: Office des Publications de l’UE
Déclaration de la licence
La source primaire du contenu et des métadonnées
TenForce – project: LOD2
24
25. référ. de licence avec titre de la source primaire (du registre DCAT)
2014-01-17
La Démo (2.1/.)
TenForce – project: LOD2
25
29. La Démo (3/.)
• Récupérer un document d'CELLAR
– n'importe quel format disponible
• La démo utilise: html, xhtml, pdf, pdfa1a, pdfa1b
• Récupérer les métadonnées de CELLAR
– Le vocabulaire ELI des métadonnées (RDF/XML format)
– Le vocabulaire CELLAR des métadonnées (RDF/XML format)
– Le format "Notice" des métadonnées (Format XML propriétaire)
• ELI
– identifiant européen de la législation
• “European Legislation Identifier”@en
– http://publications.europa.eu/resource/oj/JOC_2012_325_R_00
03_01.FRA.xhtml
2014-01-17
TenForce – project: LOD2
29
32. La Démo (3.3/.)
• les options de
récupération sur
les métadonnées
de la source
primaire
– ELI (RDF/XML)
– raw RDF
(RDF/XML)
– Format XML
propriétaire
“notice”
2014-01-17
TenForce – project: LOD2
32
33. Note: Requires proper browser XML and RDF viewing options
La Démo (3.4/.)
2014-01-17
TenForce – project: LOD2
Récupérer les métadonnées de CELLAR
33
38. Exemples des cas d’usage connexes
2014-01-17
TenForce – project: LOD2
38
39. Scenario 1 – Le marché de l'emploi
cas d’usage:
PME dans la région aixoise a une offre d'emploi pour un programmeur Java
cadre:
Il devient plus difficile de trouver de bons développeurs de logiciels, en
particulier au-delà des centres urbains. Les candidats dans les zones
proches des frontières nationales doivent relever le défi qu'ils ont besoin
des informations très pratiques autour de la mobilité, qui est actuellement
à peine disponible
Sujets couverts EUROVOC:
travail, le marché du travail, mobilité de l'emploi, les postes vacants
sources impliqués:
Législation européenne, Eurostat, de-stat (fr-stat?), ESCO, Open Street Map,
le transport public de Aix, Agence européenne pour la sécurité et la santé
au travail
Solution:
La CE contribue les ingrédients de base pour une plate-forme centrale pour
problèmes de mobilité transnationale de l'emploi
TenForce – project: LOD2
2014-01-17
39
40. Scenario 2 – L’ environnement
cas d’usage:
Une chaîne de supermarchés allemande veut lancer une campagne d'image sur fruits
de mer qui n'est pas en danger vers la surpêche dans les années à venir
cadre:
En Allemagne, le marché des aliments biologiques est en croissance rapide comme le
soutien de la durabilité. Malheureusement, l'information sur le développement
durable est ainsi dispersée, qu'il n'y a aucun moyen - par exemple pour l'industrie de
la publicité - de réagir correctement et sérieusement sur cette tendance des
consommateurs
Sujets couverts EUROVOC :
Réserve naturelle, la politique de l'environnement, gestion des ressources, Industrie
de la pêche, le poisson frais, les quotas de capture
sources impliqués :
Législation européenne, Eurostat, destat, la FAO, la Banque mondiale, l'Agence
européenne pour l'environnement
Solution:
La CE contribue les ingrédients de base pour une plate-forme centrale pour la
protection de l'environnement
TenForce – project: LOD2
2014-01-17
40
41. Scenario 3 – L’ énergie
cas d’usage:
Le propriétaire de la maison dans le Pays-Bas veulent construire des cellules
solaires sur son toit
cadre:
En raison de la "transition énergétique" ("Energiewende") en Allemagne, beaucoup
de connaissances sur l'énergie renouvelable, l'impact, les technologies et les
fournisseurs a été créé au niveau national. Cette information est également
pertinente pour les autres Etats membres de l'UE et leurs citoyens
Sujets couverts EUROVOC :
L'industrie de l'énergie, l'énergie solaire, cellule photovoltaïque
sources impliqués:
Législation européenne, Eurostat, destat, Centre commun de recherche,
l'Agence de coopération des régulateurs de l'énergie, de l'Agence
internationale de l'énergie, Stiftung Warentest
Solution:
La CE contribue des ingrédients de base pour relever les défis énergétiques
transnationaux
TenForce – project: LOD2
2014-01-17
41
42. Prochaines étapes pour CELLAR (2014)
• Publier la législation de l’UE selon les normes
ELI
• Publier jurisprudence selon les normes de ECLI
• Publier le catalogue de la législation et de la
jurisprudence (éventuellement en utilisant la
recommandation DCAT)
• Publier toutes les taxonomies de l'UE selon
des niveaux plus élevés de normes LOD
2014-01-17
TenForce – project: LOD2
42
44. Le projet ESCO
• ESCO
– Projet du DG emploi de l’UE
– ESCO
• https://ec.europa.eu/esco/home (version 0)
• Classification européenne des
Aptitudes, Compétences, Certifications et Professions
– European Skills, Competences, Qualifications and Occupations
• Une taxonomie de trois piliers [sous-taxonomies]
(S/C, Q et O) et le relations entre eux.
• Réutilise plusieurs autres taxonomie
2014-01-17
TenForce – project: LOD2
44
45. ESCO Modèle de Données
Pilier Profession
Taxonomy par secteur industrielle
- Agriculture
- Education
- ...
NACE
marquage
correspondance
exactMatch
ISCO08
ISCO88
ROME
O [profession]
broaderMatch
•
correspondance avec
– ISCO xx (Norme OIT/ONU)
– ROME (Norme Française)
– ...
2014-01-17
broaderMatch
broaderMatch
exactMatch
TenForce – project: LOD2
45
46. 2014-01-17
ESCO Modèle de Données
Pilier Profession
• relation descriptif
document texte - non structurées ou semi-structurées
Occupation
TenForce – project: LOD2
à propos de
(about)
Profession journaliste:
==================
=============================
=============================
=============================
Compétences: ================
=============================
=============================
=============================
Qualifications: ================
=============================
================
=============================
46
47. •
Les compétences peuvent être
– transversal
– spécifique au secteur
•
Le genre de compétence
– connaissances, les compétences, la
compétence, la capacité
•
ESCO Modèle de Données
Pilier Compétences [Skill]
Compétences et Groupe
– Compétence & Leaf Group
•
Compétence (membre d'un groupe)
document texte - non structurées ou semi-structurées
à propos de
Occupation
2014-01-17
TenForce – project: LOD2
Description de la Profession:
================
=============================
=============================
=============================
Compétences: ================
=============================
=============================
=============================
Qualifications: ================
=============================
•
================
=============================
skill
essentiel
skill
désirée
relation
profession - compétences
47
48. ESCO Modèle de Données
Expertise
en langues
étrangères
facette principale
facette sous
sub facet
(1)
(1)
Facet
sur
l'utilisa
tion de la
langue
Facette de
langues
(4)
(4)
english
membre
(2)
german
skos:exactMatch
oasis
LoC
EU-PO
compréhe
nsion
écoute
membre
membre
spécifique
lecture
dutch
parlant
interaction
orale
spécifique
proclamer
• Facette d'une compétence
2014-01-17
TenForce – project: LOD2
écriture
48
50. 2014-01-17
ESCO Modèle de Données
Pilier Profession (Reprise)
• relation descriptif
document texte - non structurées ou semi-structurées
Occupation
TenForce – project: LOD2
à propos de
(about)
Profession journaliste:
==================
=============================
=============================
=============================
Compétences: ================
=============================
=============================
=============================
Qualifications: ================
=============================
================
=============================
50
51. 2014-01-17
ESCO Modèle de Données
Pilier Profession (Reprise)
• Association: Profession - Qualification
à propos de
(about)
Occupation
TenForce – project: LOD2
document texte - non structurées ou semi-structurées
Description de la Profession:
================
=============================
=============================
=============================
Compétences: ================
=============================
=============================
=============================
Qualifications: ================
=============================
================
=============================
qualification
51
52. ESCO Modèle de Données
Pilier Qualification
• Qualification inclus de manière indirect ou direct
• Qualification directement inclus sont maintenues par DG-EMPL/ESCO sur
une base «au besoin» ou sur la base de la pertinence
– qualification internationale (hors UE)
• Etats-Unis, Chine, ...
– qualification d'entreprise
• ORACLE, CISCO, Microsoft, ...
• Qualification indirectement inclus sont
– Maintenu par des organisations nationales
– Enregistré par la DG EAC
– Transférée à la DG EMPL selon la structure XML du DG-EAC
(enseignement et culture)
– Chargé dans ESCO par DG-EMPL/ESCO
2014-01-17
TenForce – project: LOD2
52
53. ESCO Modèle de Données
Pilier Qualification
• relation descriptif
document texte - non structurées ou semi-structurées
à propos de
(about)
Description de la Qualification:
================
=============================
=============================
=============================
qualification
organisme certificateur
skill
compétences
Compétences: ================
=============================
=============================
=============================
2014-01-17
awarding body
TenForce – project: LOD2
skill
53
54. ESCO Modèle de Données - résumé
•
ESCO a trois piliers (Un pilier est une classe de concepts)
– occupation
– compétence
– qualification
•
ESCO supporte la correspondance complète ou partielle à des autre taxonomie
[mappé] (la correspondance est exprimer avec les propriétés de correspondance
SKOS)
– La correspondance entre ESCO et ISCO (profession ESCO et groupe de profession ISCO)
– La correspondance entre ESCO ROME (professions)
... d'autres si on en a besoin (O * NET)
•
ESCO utilise des taxonomies de soutien
– à marquer les concepts pilier ESCO (Marquage utilise DCMI sujet de la propriété)
– pour le organiser le modèle ESCO avec des facettes (Groupement de concepts)
– Exemples
•
•
•
•
•
•
•
2014-01-17
Lieu (Eurostat: NUTS; ISO)
Secteur d'activité (Eurostat: NACE)
Cadre européen des certifications (EQF)
CEFR
Unesco - ISU: FoET, ISCED
Langues (PO de l'UE, Lib du Congrès, OASIS-psi, ISO 639)
...
TenForce – project: LOD2
54
56. Quelques outils pour
Données Public Liées
• SPARQL end-point – Base de données type NoSQL (RDF
graph, Colonne)
– Virtuoso, Oracle, Allegrograph
• Cadre de développement
– Jena, Sesame
• Analyser
– Topbraid, Protégé
• Alignement des bases de connaissances
– SILK:
• http://lod2.eu/Project/Silk.html
• http://wifo5-03.informatik.uni-mannheim.de/bizer/silk/
• Les meilleures pratiques
– https://dvcs.w3.org/hg/gld/raw-file/default/bp/index.html
2014-01-17
TenForce – project: LOD2
56
57. Références
• Projets sur web sémantique
–
–
–
–
–
–
–
Eurovoc
Cellar
ESCO
LOD2 (R&D)
Wolters Kluwer
ODP (Open Data Portal)
ODS (Open Data Support)
• ISO 25964 (normalisation thésaurus)
• TenForce.com
• johan.de-smedt@tenforce.com
2014-01-17
TenForce – project: LOD2
57
Notes de l'éditeur
@frL'Internet comme il est familier aujourd'hui: - texte, photo, vidéo, .... - hyperliens (URL en format: http://{domaine}/{chemin} )Livraison lien hypertexte sur le protocole HTTP - Avec une immense infrastructure (serveurs: DNS, proxy, gestion du cache, DHCP, ...) - Soutenir les paramètres HTTP et négociation de contenu (type MIME/format, langue, ...)@enThe internet as it is familiar now:text, photo, video, ....hyperlinks (URL en format: http://{domain}/{path} )Hyperlinked delivery over the HTTP protocolWith an immense infrastructure (servers for DNS, Proxy, cache management, DHCP, ...)Supporting HTTP parameters and content negotiation (format/mime-type, language, ...)
The internet as it is familiar now:text, photo, video, ....hyperlinksURL en format: http://{domain}/{path}Hyperlinked delivery over the HTTP protocolWith an immense infrastructure (servers for DNS, Proxy, cache management, DHCP, ...)Supporting HTTP parameters and content negotiation (format/mime-type, language, ...)