From data and information to knowledge : the web of tomorrow - Serge abitboul...
Le Data guide de Data Publica
1.
2. Avant propos
Introduction
A. Les annuaires de données.
L’annuaire Open Data de Data Publica
Google Public Data Explorer
DataMarket
Quandl
Les annuaires institutionnels
B. Les sources publiques
L’INSEE
Les données des collectivités
Les Ministères
Les organisations publiques nationales
Les organisations publiques internationales
C.Les sources de données privées
Les Sociétés
Associations, Organisations professionnelles et syndicats
Crowdsourcing
D. Chercher sur le Web
Chercher des données sur grâce aux moteurs de recherche
Chercher des données sur Common Crawl
Chercher avec les outils de Data Publica
Conclusion
Data Guide – Le Pense-bête des sources de données du Web 1
3. Avant propos
Avec l’expérience acquise par la mise en place de son annuaire
aujourd’hui riche de plus de 16 000 jeux de données créé dès
septembre 2010, les équipes de Data Publica ont souhaité partager
leur connaissance des sources.
Les données que vous cherchez existent-elles ? Comment les
trouver ? Quels sont les sites où ces données peuvent être
répertoriées ? Existe t-il des astuces pour trouver des données sur
les moteurs de recherche ? Ce livre blanc est un début de réponse
dont nous espérons qu’il vous aidera à trouver les données que
vous cherchez.
Ce guide ne prétend pas à l’exhaustivité. Il vise simplement à offrir
au lecteur un panorama des sources disponibles.
Data Guide – Le Pense-bête des sources de données du Web 2
4. Introduction
Les sources disponibles
Il existe quantité de sources de données disponibles parmi lesquelles on
distinguera :
- Sources publiques : administration, organisations publiques nationales
et internationales, collectivités
- Sources privées : entreprises, syndicats professionnels ou associations
- Les annuaires de données (tels que celui développé par Data Publica)
Toutefois ces sources ne sont pas les seules possibilités offertes aux
internautes pour trouver des données. Les données peuvent également
être disséminées sur la toile et d’autant plus difficiles à trouver.
Que ce soient des astuces pour chercher sur les moteurs de recherches
ou bien des archives du web créées par des sociétés spécialisées,
d’autres solutions existent pour trouver les données. Le pense-bête des
sources des données du Web est justement l’outil à conserver près de
soi.
NB : Attention « données publiques » ne signifie pas pour autant « données gratuites »
même si une grande partie d’entre elles sont gratuites. Le dernier rapport de Mohammed
Adnène Trojette, par ailleurs magistrat à la Cour desComptes, fait la liste de toutes les
données publiques qui restent soumises à redevance dans son rapport remis au Premier
Ministre le 5 novembre dernier et disponible sur cette page.
Data Guide – Le Pense-bête des sources de données du Web 3
5. A. Les annuaires de données.
Les annuaires de données sont des sites qui regroupent des données
disponibles par ailleurs.
L’annuaire Open Data de Data Publica
L’annuaire Open Data de Data Publica est l’exemple même d’un
annuaire de données.
Sur l’annuaire Open Data de Data Publica, près de 16 000 jeux de
données peuvent être recherchés et sont accessibles gratuitement, en
libre service, sans inscription. 200 éditeurs publics et privés ont une
partie de leurs données référencées dans cet annuaire : INSEE,
ministère, préfectures, institutions publiques internationales, Eurostat,
OCDE, Banque Mondiale. Attention l’annuaire Open Data ne contient
pas toutes les données de ces éditeurs. Si vous ne trouvez pas les
données sur Data Publica et que vous pensez que ces éditeurs publics
les diffusent, alors nous vous invitons à visiter leur portail d’accès à
leurs données [voir plus bas].
Data Guide – Le Pense-bête des sources de données du Web 4
6. Sur Data Publica, la navigation est simple : tapez dans la barre de
recherche les données dont vous avez besoin, affinez et triez ensuite les
premiers résultats avec les facettes présentes dans la colonne de
gauche : vous pouvez sélectionner plusieurs thèmes, éditeurs, formats,
licence..
Un peu plus de 4 000 jeux de données sont visualisables sous forme de
cartes, histogrammes, courbes et tableaux. Les fonctionnalités de cet
outil permettent d’intégrer des visualisations dans les articles, posts de
blog et pages web. Vous pouvez également paramétrer les séries : cela
permet d’afficher et de comparer uniquement les indicateurs désirés.
Les données peuvent enfin être exportées sous de multiples formats :
xls, csv, Kml, png…
Carte, histogramme, tableau ou courbe : insérez facilement une visualisation interactive
dans vos articles en ligne grâce au visualisateur générique de données de l’annuaire open
data de Data Publica.
Data Guide – Le Pense-bête des sources de données du Web 5
7. Google Public Data Explorer
Googe a également mis au point un service d’indexation des données
publiques visible à http://www.google.com/publicdata/directory Sur ce
site, vous aurez accès à quelques séries d’indicateurs des grandes
institutions internationales : Banque Mondiale, Bureaux des études
statistiques américaines, OCDE, Fonds Monétaire International...
Google Public Data Explorer est avant tout un outil de visualisation des
principaux indicateurs démographiques, sociologiques et économiques
publiés par les organisations internationales.
Cet outil facilement paramétrable est surtout utile pour afficher des
séries et les partager sur les réseaux sociaux et dans des articles. Par
ailleurs, Google Public Data Explorer n’est pas exhaustif : il n’indexe pas
non plus toutes les données des organisations nationales et
internationales.
Visitez et utilisez Google Public Data Explorer
Data Guide – Le Pense-bête des sources de données du Web 6
8. DataMarket
Datamarket est une société islandaise qui a développé un catalogue de
données en répertoriant comme Data Publica et Google Public Data
Explorer des données d’organisations publiques et privées, nationales et
internationales. Ces données sont classées par thèmes, pays,
organisations...
Les données sont visualisables et peuvent être exportées, à la condition
de s’être préalablement inscrit. Par ailleurs, certains jeux de données
sont payants parmi les 44 200 en ligne : consultez le site Datamarket
7Data Guide – Le Pense-bête des sources de données du Web
9. Quandl
Plus jeune société présente sur le créneau de l’agrégation de données,
Quandl est une start up canadienne qui a déjà indexé près de 8 millions
de jeux de données principalement économiques, et financiers, dont une
grande partie concerne surtout l’Amérique du nord pour le moment.
Avec l’objectif de devenir l’équivalent de Wikipedia pour les données,
Quandl fonctionne sur un mode collaboratif.
Visitez et testez Quandl : http://www.quandl.com/
Taux d’homicides aux Etats-Unis
Data Guide – Le Pense-bête des sources de données du Web 8
10. Les annuaires institutionnels
De nombreux Etats ont déjà mis en place des annuaires de données.
Petit état des lieux de sites incontournables.
Data.gouv.fr
L’annuaire français des données publiques a été lancé le 5 décembre
2011. Actuellement près de 353 000 jeux de données y sont disponibles.
Cet annuaire officiel des données publiques est placé sous l’autorité de
la mission Etalab dirigée par Henri Verdier.
Data.gov
Premier annuaire national de données publiques mis en place par l’Etat
fédéral en mai 2009, le site data.gov dispense aujourd’hui plus de 91000
jeux de données diffusés par les services de l’administration.
Data.gov.uk
Le site officiel servant de répertoire pour les données publiques du
gouvernement du Royaume-Uni, mis en place en septembre 2009
donnant accès à environ 9650 jeux de données.
Data Guide – Le Pense-bête des sources de données du Web 9
Sur Data.gov, retrouvez la carte interactive de près de 300 sites open data par pays
Cliquez sur la carte et téléchargez la liste en xls sur ce lien
11. B. Les producteurs publics de données
Les organisations publiques nationales et locales diffusent de
nombreuses données parfois non répertoriées par les annuaires :
ministères, collectivités, organisations publiques, institutions,
collectivités, les sources sont particulièrement nombreuses et les
données abondantes.
L’INSEE
Si vous cherchez des données statistiques sur la France alors le site de
l’INSEE vous permettra d’accéder à des bases de données
particulièrement détaillées : économie, population, logement, éducation
ainsi qu’à des indicateurs mis à jour mensuellement.
Plusieurs centaines de milliers de fichiers excel auxquels s’ajoutent plus
de 200 000 fichiers pdf, des centaines de fichiers zippés et des cartes
interactives sont consultables sur le site. A lui seul le site de l’INSEE
contient plus de données que le site data.gouv.fr. D’ailleurs comme
détaillé dans notre analyse, une grande partie des 350 000 fichiers de
Data.gouv.fr provient de seulement quelques bases de données INSEE.
Outre les études ponctuelles, trois types de données produites et
publiées par l’INSEE sont particulièrement intéressantes :
1. Les données détaillées par thème : http://www.insee.fr/fr/themes/
Retrouvez des études statistiques sur les thèmes de l’agriculture, du
commerce, des conditions de vie, de l’économie etc.. Dans ces données
thématiques vous pouvez également retrouver des indices conjoncturels
mis à jour mensuellement ou trimestriellement : enquête de
conjoncture sur les ménages, sur l’industrie, l’automobile, le commerce
de détail, la création d’entreprise etc..
Data Guide – Le Pense-bête des sources de données du Web 10
12. 2. Les grandes bases de données: http://www.insee.fr/fr/bases-de-
donnees/
Dans les grandes bases de données de l’INSEE vous aurez accès par
exemple :
- aux Statistiques structurelles d'entreprises : toutes les statistiques
d'entreprise issues du dispositif Esane et de la statistique publique.
- aux indices et séries chronologiques : tous les indices et indicateurs de
l’Insee, sur de longues périodes, documentés et accompagnés de
graphiques.
- aux résultats des recensements de la population : les résultats
détaillés, les cartes et toutes les informations utiles sur les
recensements.
- aux Données locales : de nombreuses données très détaillées sont
disponibles à l’échelle de votre commune ou de votre quartier (IRIS).
- Au Répertoire Sirene qui permet d’accéder à des données d’entreprises
http://www.sirene.fr
3. Les bases de données régionales http://www.insee.fr/fr/regions/
Dans ces bases locales, sont regroupés un certain nombre d’indicateurs
locaux : présentation de la région en chiffres, conjoncture régionale,
études..
Presque chaque pays dispose d’une organisation équivalente à notre
institut statistique national : une liste assez complète mais non
exhaustive, est disponible sur cette page.
Data Guide – Le Pense-bête des sources de données du Web 11
13. Les données des collectivités
De nombreuses collectivités ont déjà ouvert leur portail de données.
Aussi si vous cherchez des données particulièrement concernant un
territoire, essayez d’abord de voir si il existe un portail d’une collectivité
au niveau géographique communal, de la communauté d’agglomération,
du département ou de la région.
Nantes, Rennes, Paris, le conseil général du 71, Montpellier, la
Communauté urbaine de Bordeaux, Lyon et Toulouse très récemment :
ces collectivités, entre autres, ont déjà référencé de nombreuses
données à dimension locale sur des portails dédiés.
L’association nantaise Libertic a créé une carte interactive à laquelle vous
pouvez collaborer qui liste les initiatives. Voir le projet en ligne
Data Guide – Le Pense-bête des sources de données du Web 12
14. Les Ministères
Les ministères sont des sources de données parfois négligées : pourtant
ils sont nombreux à compiler et éditer des données souvent diffusées
dans des chapitres dédiés de leurs sites web. Vous cherchez par
exemple:
- des données sur le tourisme ? Alors n’hésitez pas à vous rendre sur le
site du ministère du tourisme sur cette page.
- des résultats d’élection manquent à votre étude : le ministère de
l’intérieur aura quelque chose pour vous sur ces pages.
Parmi les ministères les plus productifs en terme de données n’oubliez
pas :
1. Le ministère du développement durable :
http://www.developpement-durable.gouv.fr/ il s’agit de l’un des plus
prolifiques : énergie, écologie, bâtiment etc.. des centaines de sources
sont accessibles depuis le site du ministère.
2. Le ministère de l’agriculture et notamment son site :
http://www.franceagrimer.fr/
3. Le ministère de l’éducation nationale : séries du bac, le personnel
enseignant etc..
4. Le ministère du travail et ses pages statistiques notamment sur le
chômage
Sans oublier les préfectures : source de données méconnues mais qui
diffusent régulièrement des informations sur les élus (maires, députés,
sénateurs), les autorisations officielles d’exercer certaines activités etc..
13Data Guide – Le Pense-bête des sources de données du Web
15. A noter : chaque ministère dispose normalement d’un correspondant
open data (lire l’interview de Philippe Guiraud, le correspondant open
data du ministère de l’intérieur). Vous avez également la possibilité de
contacter chaque ministère pour être mis en relation avec ce
correspondant qui pourra peut-être vous informer des données
publiques disponibles.
Les organisations publiques nationales
Les 560 opérateurs de l’Etat sont également des producteurs de données
auxquels on ne pense pas suffisamment. Parmi ces opérateurs, on trouve
par exemple : les agences régionales de santé, l’agence du médicament,
le CNRS, INRIA, les musées nationaux, Pôle emploi, l’Institut National des
Etudes Démographiques etc... Tous ces opérateurs dont la liste est
accessible ici peuvent avoir les données que vous cherchez.
N’oubliez pas non plus des institutions telles que la Banque de France qui
présente des dizaines d’indicateurs particulièrement pertinents mis à
jour mensuellement sur l’activité économique dans un chapitre dédié de
son site web.
Data Guide – Le Pense-bête des sources de données du Web 14
16. Les organisations publiques internationales
On sous estime également la quantité de données disponibles au sein
des institutions publiques internationales : Eurostat, la Banque
Mondiale, le Bureau International du Travail, l’OCDE etc..
L’Union européenne - Eurostat
Certainement l’une des sources les plus complètes pour comparer des
données européennes, des milliers de statistiques sont disponibles à
plusieurs niveaux de granularité géographique (3 niveaux détaillés de
granularité régionale européenne : NUTS 1, 2 et 3) sous format tableur.
Outre Eurostat, l’Union européenne regroupe également un certain
nombre d’organisation qui diffusent également des données dont la liste
est disponible sur cette page.
Banque Mondiale - http://data.worldbank.org/
La Banque Mondiale est l’une des premières organisations
internationales à avoir consacré un chapitre entier de son site à la
diffusion de données statistiques. Plus de 8 000 séries temporelles sont
accessibles et vous y trouverez des fiches pays à jour pour chacun des
200 nations référencées exportables sous format xls et xml. Près de 800
indicateurs par pays sont disponibles concernant l’économie, la
démographie, la santé etc... Il s’agit de l’une des bases de données les
plus complètes par pays.
L’OCDE - http://stats.oecd.org/
On peut également ajouter à cette liste les bases de données statistiques
disponibles sur le site de l’OCDE. 22 thèmes couverts et exportables des
formats différents (CSV, XLS, XML..)
Data Guide – Le Pense-bête des sources de données du Web 15
17. Ajoutons à cette liste des organisations internationales les producteurs de
données tels que :
Le FMI : http://www.imf.org/external/data.htm
La CNUCED : http://unctad.org/fr/Pages/Statistics.aspx
La FAO : http://faostat.fao.org/
Le BIT : http://kilm.ilo.org/KILMnetBeta/default2.asp
L’OMS : http://www.who.int/research/en/
L’OMC : http://stat.wto.org/Home/WSDBHome.aspx?Language=
C. Les sources de données privées (ou d’entreprises détenues par l’Etat)
Même si leur nombre reste encore particulièrement faible, les
organisations privées ne sont pas les moins réactives à mettre des données
à disposition du public.
Les Sociétés
Si vous cherchez des données spécifiques à un secteur, il est envisageable
que l’un des acteurs de ce secteur rende publiques certaines informations.
Voici plusieurs exemples concrets tant en France qu’à l’étranger.
La SNCF : http://test.data-sncf.com/
Depuis plusieurs mois la SNCF s’est engagée dans une démarche de
libération d’un certain nombre de données. Petit à petit des données sont
disponibles sous la forme de jeux de données ou accessibles par API :
horaires des lignes Transilien, équipements des gare d’Ile-de-France, tarifs
des abonnements, liste des gares, nombre moyen de voyageurs par gare
du réseau Ile de France etc..
La RATP : http://data.ratp.fr
La régie Autonome des Transports Parisiens s’est également convertie à
une démarche open data depuis peu de temps : trafic entrant par stations,
qualité de l’air mesuré, accessibilité des lignes etc... Des données que Data
Publica a notamment utilisé pour ce tableau de Bord de la RATP.
Data Guide – Le Pense-bête des sources de données du Web 16
18. JC DECAUX : https://developer.jcdecaux.com/
Avec l’ouverture des données du réseau Vélib, la société JC Decaux est
l’une des rares sociétés privées à jouer le jeu de l’open data. Les données
en temps réel des velib’ permet le développement d’applications et
optimise les usages du service.
La Française des Jeux - http://www.fdj.fr
A titre d’exemple, la Française des Jeux met à la disposition des joueurs
les statistiques sur les jeux de tirages et les paris sportifs. Vous avez ainsi
accès aux séries des tirages du loto et euromillions, des loto sportifs ou
encore du keno (qui malheureusement ne seront sans doute pas utiles
pour prédire les combinaisons à venir).
BP - British Petroleum
La société BP diffuse sur son site un volumineux jeu de données sur le
secteur de l’énergie. Dans ce fichier, on trouve plus d’une cinquantaine
d’onglets avec des séries statistiques temporelles longues relatives à la
production internationale des différentes énergies, fossiles et
renouvelables.
ENEL - Société Italienne d’Electricité http://data.enel.com
La société ENEL a décidé d’emboiter le pas de l’open data en mettant
près de 300 de jeux de données à la disposition des internautes :
données financières de la société, statistiques écologiques,
développement durable, vous serez surpris par la richesse de leur
portail.
Data Guide – Le Pense-bête des sources de données du Web 17
19. Associations, Organisations professionnelles et syndicats
Les organisations, associations et syndicats professionnels disposent de
nombreuses données. Dans un premier temps, vous pouvez prendre
connaissance des syndicats professionnels qui existent en consultant le
fichier des fédérations professionnelles françaises disponible sur
l’annuaire open data de Data Publica.
Data Publica a relevé trois initiatives open data provenant d’associations
et d’organisations.
Le Comité des Constructeurs Automobiles Français - CCFA
http://www.ccfa.fr/
Sur le site du Comité des Constructeurs Automobiles Français, vous avez
accès à des données mensuelles uniques sur la production et les
immatriculations de véhicules : http://www.ccfa.fr/Donnees-mensuelles
Disponibles sous des formats excel et pdf, cette source de données reste
méconnue et offre pourtant des données détaillées pour la production
et les immatriculations des véhicules par type, par pays (en Europe), et
par marque.
L’organisation internationale du café - International Coffee Organization
Cette organisation qui fédère les pays exportateurs et importateurs
donne accès à de multiples séries statistiques sur la production et les
exportations de café dans le monde.
http://www.ico.org/coffee_prices.asp?section=Statistics
Le Comité International Olympique
Les données accumulées par le Comité International Olympique sont
nombreuses et variées : elles sont également disponibles aujourd’hui
sur un portail dédié http://www.olympic.org/olympic-results qui permet
d’accéder à des séries détaillées par J.O., épreuves, pays ou athlètes.
Data Guide – Le Pense-bête des sources de données du Web 18
20. Crowdsourcing
Le crowdsourcing consiste à mobiliser une communauté afin de collecter
des données. Les sites de crowdsourcing permettent d’accéder aux
informations qui ne sont pas libérées ou qui le sont mais à des
conditions financières empêchant leur réutilisation. Voici trois
expériences de crowdsourcing des données qui offrent des solutions
alternatives.
Données géographiques : OSM (Open Street Map )
http://www.openstreetmap.org/
Le site d’OpenStreetMap rassemble une communauté à travers le monde
dont l’objectif vise à rendre libre et accessible l’information
géographique. Les données sont librement réutilisables et offrent donc
une alternative aux données payantes fournies par l’IGN ou Google. Lire
l’interview de son représentant français, Gaël Musquet,
Données sur l’alimentation : Openfoodfacts
http://openfoodfacts.org/
Openfoodfacts est une initiative consacrée au recueil de données sur
l’alimentation détaillée sur les étiquettes et les codes barres des
produits. Ce sont près de 11 000 produits qui sont référencés sur ce site.
Les données peuvent être réutilisées avec la licence ODBL. Lire
l’interview de Stéphane Gigandet.
Les données politiques : Regards Citoyens
http://www.regardscitoyens.org/
Depuis 2009, l’association Regards Citoyens travaille à la transparence
des données politiques notamment en collectant et en rendant
disponibles des données sur les parlementaires au travers des sites qu’ils
ont édités : nosdeputes.fr et nossenateurs.fr. Relire l’interview de l’un
des fondateurs de Regards Citoyens.
Data Guide – Le Pense-bête des sources de données du Web 19
21. D. Chercher sur le Web
Chercher des données sur grâce aux moteurs de recherche
Les moteurs de recherche restent les outils les plus simples pour trouver
les données dont on a besoin et vérifier leur disponibilité. Parmi ceux-ci,
Google occupe une place majeure : c’est le moteur de recherche le plus
utilisé dans le monde et qui indexe le plus de pages web (près de 40
milliards).
Afin de mieux chercher vos données, il existe quelques manipulations à
connaître qui permettent de mieux parcourir et sélectionner les
résultats. D’abord dans les paramétrages de la recherche, Google offre la
possibilité de chercher dans certains types de contenus (livre, vidéos,
actualités etc..), pour la période voulue, dans la langue souhaitée.
Chercher uniquement les résultats dans un seul site :
Dans la barre de recherche, indiquez la formule suivante
“site:nomdusite.fr” suivi des mots clés.
Chercher uniquement les résultats dans un site et pour un type de
fichier en particulier
Vous cherchez des données uniquement disponibles dans un format
tableur ou dans un pdf, là encore une autre formule permet de le faire.
Dans la barre de recherche, indiquer la formule suivante (sans espace)
“site:nomdusite.fr” suivi d’un espace et “filetype:xls” et les mots clés.
Par exemple vous ne cherchez que des statistiques éditées par
l’administration sur la discrimination dans des fichiers excel ? Alors tapez
dans la barre de recherche :
site:gouv.fr filetype:xls discrimination
Data Guide – Le Pense-bête des sources de données du Web 20
22. Exemple de recherche avec le mot discrimination limité aux sites gouvernementaux français (gouv.fr) et dans
les fichiers excel (filetype:xls). Cette recherche spécifique indique que 108 fichiers excel publiés par les sites
des ministères et préfectures évoquent ce thème.
Exclure des mots clés de votre recherche
Afin d’exclure des mots clés de votre recherche, il vous suffit d’indiquer
le signe “-” collé au mot que vous souhaitez exclure des résultats. Par
exemple, pour ne pas avoir dans la liste de vos résultats les pages
wikipédia, indiquez “-wikipedia” : faîtes l’expérience d’abord en tapant le
mot wikipedia suivi de “-wikipedia” et ensuite sans cette exclusion et
comparez les résultats.
Trouver l’expression exacte
Pour limiter votre recherche à une sélection de mots précise, il faudra
mettre en guillemets les mots clés.
Il ne s’agit que d’un échantillon des possibilités offertes par Google. Un
excellent document résumant toutes les possibilités grâce aux moteurs
de recherche est librement disponible et consultable réalisé et produit
par Victorine Porte, étudiante à l’université de Poitiers : télécharger le
document
Data Guide – Le Pense-bête des sources de données du Web 21
23. Chercher des données sur Common Crawl
Common Crawl est une fondation américaine dont l’objectif est de
mettre en place une copie du web et de la rendre librement accessible
auprès du public. Ce sont ainsi 100 tera octets qui sont aujourd’hui
accessibles pour y effectuer des recherches et extraire ainsi des
données. Cette option n’est ouverte qu’aux développeurs aguerris. Data
Publica par exemple a utilisé les données de Common Crawl afin de
réaliser une carte de l’éco-système de l’opendata. Cette cartographie a
pour objectif d’identifier les acteurs sur le web de l’open data français,
leur importance et les liens qu’ils entretiennent. Ce travail a été
récompensée par Common Crawl. Ce travail met en lumière le potentiel
du web comme ressource de données.
Chercher avec les outils de Data Publica
Vous n’avez pas trouvé les données que vous cherchiez dans les sources
évoquées, vous savez qu’elles sont disponibles mais éparses, difficiles à
rassembler. Effectivement, il faut parfois développer des programmes
d’extraction, de nettoyage, de déduplication pour obtenir les données
que l’on cherche. C’est le métier de Data Publica de vous fournir les
données dont vous avez besoin mais qu’il vous est difficile d’acquérir.
L’expertise des équipes de Data Publica repose justement sur cette
connaissance des sources et la maîtrise des outils pour extraire les
données des sources. De nombreux outils ont été développés par nos
équipes techniques afin de pouvoir extraire, nettoyer, dédupliquer et
livrer les données dont les organisations ont besoin.
Data Guide – Le Pense-bête des sources de données du Web 22
24. Chaîne de valeur de la production de données par Data Publica
Data Guide – Le Pense-bête des sources de données du Web 23
25. Data Publica a développé plusieurs services autour de la recherche de
données parmi lesquels :
• un service de données sur mesure : indiquez-nous les spécificités des
données que vous cherchez et nous vous les livrerons.
• un service de tableau de bord : vous souhaitez construire un tableau
de bord à n’importe quel niveau géographique (commune, nation,
département etc...) et qui présente des données à jour sur les
thèmes souhaités ? Data Publica vous construit l’application
alimentée par les données désirées et mis à jour en temps réel.
• un service d’enrichissement de données B2B : vous disposez de
données que vous désirez enrichir d’informations disponibles sur
Internet : par exemple, un fichier d’entreprises auquel vous souhaitez
ajouter des données précises comme les comptes de réseau social,
horaires, des adresses mails etc...
Revenons par exemple sur le Tableau de bord avec celui que Data Publica
a produit pour la société Secafi. Ce tableau de bord a été réalisé en
utilisant de multiples sources de données publiques : ministère de
l’intérieur, Direccte, Pole emploi, INSEE...
Secafi est une société spécialisée dans l'expertise, l'assistance et le
conseil auprès des Instances Représentatives du Personnel : comité
d'entreprise, comité de groupe, comité d'entreprise européen... La
société intervient principalement dans des missions de conseils et de
diagnostics : ses consultants sont amenés à utiliser régulièrement les
mêmes indicateurs économiques territoriaux pour porter un avis, établir
une analyse et alimenter une étude.
Pour éviter ce travail rébarbatif de recherche des données, souvent
toujours les mêmes données, la société Secafi a demandé à Data Publica
de lui fournir un outil de visualisation et de manipulation des données
publiques sur les thèmes de l’emploi, l’économie (etc..) niveau
géographiques des 300 zones d’emploi de métropole.
Data Guide – Le Pense-bête des sources de données du Web 24
26. Pour ce faire, Data Publica a mis en place un processus de scraping
[recueil] de données sur plusieurs dizaines de sites pour extraire des
centaines d’indicateurs en temps réel et les visualiser dans un tableau de
bord des zones d’emploi sur mesure.
Cet outil illustre les possibilités d’utilisation des données dès lors que les
sources sont connues. De la même manière, des tableaux de bord
peuvent être créés qui mixeraient des données publiques avec des
données internes.
Data Guide – Le Pense-bête des sources de données du Web 25
27. Conclusion
Les sources de données sont nombreuses sur Internet. Même si des sites
comme Google, Bing ou Yahoo peuvent vous permettre d’affiner vos
recherches, une bonne connaissance des ressources vous permettra de
gagner du temps. D’abord n’oubliez pas qu’il existe :
- des annuaires de données (Data Publica, Google Public Data Explorer..)
- des producteurs de données à chaque niveau géographique :
o communal (exemple la petite ville de Brocas, 800 habitants)
o de la communauté urbaine (comme celle de Bordeaux)
o du département (ex : Conseil Général de Saône et Loire)
o de la région (ex : Pays de Loire)
o national (ex : Data.gouv.fr)
o international (ex : Eurostat, Banque Mondiale..)
- des producteurs institutionnels de données publiques
o préfecture
o ministère
o institutions
o opérateurs de l’Etat
- des producteurs privés :
o associations, fédérations, syndicats
o sociétés
o sites de crowdsourcing des données
Et si votre recherche est plus compliquée que prévue, alors vous avez
toujours la possibilité de faire appel aux services de Data Publica qui a
développé des outils uniques de recherche, d’extraction et de traitement
des données.
Contactez-nous pour en savoir plus.
Data Guide – Le Pense-bête des sources de données du Web 26