Interopérabilité et information gouvernementale – Quand l’UE rencontre le W3C avec les vocabulaires ADMS et DCAT

Deux constats :

Des masses de données et des flux tendus => impossible donc d’envisager des recherches d’info et des sélections au sein des résultats « à la main ». un accès direct au contenu de la « bonne » ressource sans intervention humaine devient indispensable ;
Des données dans les nuages => des manipulations doivent être possibles « à distance » et « hors de chez nous ». Tout repose sur l’interopérabilité des systèmes, techniques et sémantique.

Je vous propose aujourd’hui (mai 2013) un aperçu de deux vocabulaires encore en chantier, utilisés dans le cadre de la valorisation de l’information gouvernementale* proposés par l’Union européenne avec comme visée d’optimiser la circulation de cette information et faciliter leur exposition.

Un billet (un peu long) en 4 parties :

L’Union européenne (UE) et l’interopérabilité – une histoire ancienne qui aboutit au programme actuel ISA
(Interoperability Solutions for European Public Administrations)
L’UE et l’information gouvernementale avec Semic.eu (Semantic Interop. Community) et ADMS (Asset Description Metadata
Schema)
Le W3C et l’information gouvernementale avec (entre autre) le vocabulaire DCAT (Data Catalog Vocabulary)
enfin des exemples articulant 1+2+3

* je préfère utiliser le terme d’information gouvernementale comme les canadiens, trouvant le terme « information administrative » trop ambigu (surtout si on quitte le territoire strictement de la France), des entreprises pouvant aussi produire de l’information administrative. Un autre terme mais plus long, utilisable : information de l’administration publique ou info administrative du gouvernement ?.

1. Union européenne et interopérabilité – le programme ISA (Interoperability Solutions for European Public
Administrations)

Très tôt, l’interopérabilité a été considérée par l’Union européenne (UE) comme un moyen de rapprocher les pays qui la composait via un rapprochement de leurs systèmes d’information – dès 1986, des textes législatifs abordaient la question des « échanges d’information et de données et l’interopérabilité des systèmes ».

En 1995, était lancé un programme visant l’échange de données entre administrations des états membres : IDA (Interchange of Data between Administrations). (Wikipedia fr).

En 1999, prenant le relais du programme IDA I, le programme IDA II se réorientait vers « le marché et l’interopérabilité en vue d’accroître l’efficacité de la fourniture de services publics en ligne aux entreprises et aux citoyens européens ». Ce programme prenait en compte les « réseaux télématiques au service des politiques communautaires telles que l’Union économique et monétaire (UEM), la protection du consommateur, la santé, le transport » avec parmi les objectifs, un haut degré d’interopérabilité entre les réseaux.

En 2004, prenant le relais d’IDA II, le programme IDABC (Interoperable Delivery of European eGovernment Services to public Administrations, Businesses and Citizens) qui tout en préservant l’enjeu d’interopérabilité d’IDA, renforçait l’orientation « terrain » en vue « d’accroître l’efficacité de la fourniture des services publics en ligne aux entreprises et aux citoyens européens ». On commence à intégrer une sémantique plus forte à la notion d’interopérabilité.

Le programme IDABC a produit notamment deux outils-clé :

Le Cadre européen d’interopérabilité – EIF (European Interoperability
Framework), un ensemble de normes et de bonnes pratiques qui précisent comment les administrations, les entreprises et les citoyens communiquent les uns avec les autres au sein de l’UE et dans les États membres frontières, avec comme objectifs : multilinguisme ; accessibilité; sécurité ; vie privée (pleine conformité avec la législation nationale et européenne en vigueur); subsidiarité; usage de standards ouverts ; … Le « RGI » français s’est inspirée de la démarche européenne. La révision de la version 1 (2004) a suscité de vives polémiques et conduit à un recul vis à vis du concept de « Standards Ouverts comme levier crucial pour l’interopérabilité » qui faisait la force de la version 1. On arrive à suivre les (d)ébats de ces travaux grâce à quelques pisteurs (1) (2). La version 2 de ce cadre d’interopérabilité – l’European Interoperability Framework (EIF) for European public services » – date de 2010.

Un Cadre commun sur les métadonnées – initié sous la houlette du programme MIReG (Management Information Resources for eGovernement), avec comme objectif de développer des extensions au Dublin Core (ISO 15863) pour l’information gouvernementale. Cette partie du projet, réalisée entre 2001-2003 est plus délicate à suivre, mais il semble que cetravail ait été à la base d’un profil d’application DC eGov en 2004, et qu’ilsoit à la source des travaux de l’atelier du CEN « WS/eGov-Share »= Discovery of and Access to eGovernment Resources ».

Nous voici arrivé en 2010 avec la poursuite de ces actions au sein du programme ISA (Interoperability Solutionsfor European Public Administrations), programme qui courre jusqu’en 2015. (Actions du Programme ISA).

Il s’agit aujourd’hui (2010-2015) d’améliorer l‘interopérabilité sémantique dans les systèmes paneuropéens de gouvernement électronique (3e révision 2013, pdf en eng).

Intéropérabilité sémantique – Nous y voilà !

Bien sûr l’Union européenne n’a pas attendu 2012 pour travailler sur lescouches sémantiques les plus profondes (voir :eGov-Share. Part 4 : Federated Terminological Resources – CWA 15971-5:2009 sur la terminologie ou, au début des années 2000, le travail autour du schéma SDMX pour les (méta)données statistiques), mais ce dernier programme donne uncoup d’accélérateur à cette problématique.

2. UE et information gouvernementale

2.1. Semic.eu, plateforme collaborative

Pour suivre les échanges, participer aux travaux sur l’interopérabilité sémantique, ne serait-ce que pour publier des retours d’expérience, rendez-vous sur la plate forme collaborative et ouverte pour promouvoir l’interopérabilité sémantique pour les administrations dans les États membres de l’UE : SEMIC.EU (Semantic Interoperability Community) dans le cadre du programme européen d’action eGoverment 2011-2015.

SEMIC.EU Communautes et projets-2013-05-09 à 14.37.38

SEMIC – 3 communautés et 6 projets

Il s’agit de fédérer les travaux de trois communautés concernées respectivement par :

la mutualisation de bonnes pratiques de gestion de métadonnées (pour des données ouvertes) et de production de répertoires de ressources »sémantisées » (CESAR !) ;
des forges de logiciels (Software Forges Community) ;
la mutualisation de pratiques d’alignement entre vocabulaires (e-Government Core Vocabularies community).

2.2. ADMS (Asset Description Metadata Schema)

Ces actions reposent sur ADMS (Asset DescriptionMetadata Schema), un vocabulaire initié au sein de l’UE en 2011, de description de ressources telles que des listes de codes, taxonomies, modèles de données, etc à exploiter sur le Web.

Cette spécification repose sur l’utilisation de 4 vocabulaires courants : DC Metadata Element Set (DCMES), FOAF, vCard, SKOS pour la représentation des nomenclatures. C’est un profil d’application de DCAT (Data Catalog Vocabulary) (voir partie 3), développé au sein du W3C, d’où une présentation d’ADMS (« note ») sur le site du W3C (en version de travail).

Modèle de données ADMS

ADMS (Documentation sur JoinUp de la v1.00 d’avril 2012 fonctionne plutôt comme une couche commune aux référentiels voulant échanger des données, donc plutôt comme un modèle facilitant la fédération et la coopération.

Like any core vocabulary, the CPSV does not, and cannot, provide all the terms necessary to describe every public service in all contexts. Rather, it provides a foundation that, when used, provides a common interoperability layer.

ADMS is intended as a model that facilitates federation
and co-operation. It is not the primary intention that repository owners
redesign or convert their current systems and data to conform to ADMS, but
rather that ADMS can act as a common layer among repositories that want to
exchange data. (voir « Abstract » – « Namespace Document » ADMS sur le site du W3C.

3. W3C et information gouvernementale – DCAT (Data Catalog Vocabulary)

Le Groupe de travail du W3C sur les « Données Liées Gouvernementales » (Government Linked Data (GLD) Working Group), groupe en incubation en 2012, vient de publier (entreautres documents) un vocabulaire RDF pour les catalogues de données : DCAT pour Data Catalog Vocabulary (mars 2013).

Le site de ce projet – http://www.w3.org/2011/gld/wiki/Data_Catalog_Vocabulary

DCAT est utilisable pour des catalogues de toutes sortes de données et passeulement de données RDF, mais il utilise RDF pour assurer l’agrégation decatalogues et l’élaboration de services permettant d’effectuer des recherchesdans de nombreux catalogues indépendants.

Attention : ces vocabulaires sont des projets de la rédaction (editor’s draft) mais pas encore des projets de recommandation du W3C.

Les objectifs de ce groupe de travail sont plus larges que la seule mise àdisposition ou aide au repérage des données, avec en particulier :

La possibilité de créer des catalogues à partir d’autres catalogues. Par exemple, un catalogue de jeux de données sur l’éducation à partir du thème Education de différents autres catalogues locaux ;
L’intégration (automatiquement) dans un catalogue existant, de la description de jeux de données publiées sur des sites web ;
Le développement d’applications non seulement pour trouver des jeux de données, mais également pour les tédé(dé)charger et les réutiliser de façon plus automatique..

Pour cela, le vocabulaire s’étend jusqu’à la prise en charge de fonctions de diffusion, et distingue mieux :

Le catalogue lui-même (catalog) et les fiches du catalogue (catalogrecord) représentant des jeux de données ;
Les jeux de données (dataset) eux-mêmes ;
La distribution de jeux de données (d’un catalogue) avec les dates des versions qui circulent et les autorisations associées.

Si vous connaissez un peu FRBR, la dernière couche isole la « manifestation » et les « items »(exemplaires).

Catalogues, fiches et Jeux de données sont chacun représentés par une sélection d’éléments Dublin Core : titre, éditeur, description, date, , …

Concernant l’indexation thématique, le modèle part du catalogue. Le catalogue permet de classer les jeux de données en suivant un ensemble de domaines (URI:themes). SKOS peut être exploité dans ce contexte – et chaudement recommandé si on veut vraiment atteindre les 3 objectifs visés pour consolider des données en provenance de plusieurs catalogues.

On parle bien de distribution car il ne s’agit pas ici seulement de fournir un saccès aux fichiers de données. C’est ainsi que le format pour les jeux de données distingue :

une URL d’accès quelle que soit la forme de la cible – page d’un site, fil RSS, point determinaison SPARQL ( la base de triplets),… ;
une URL qui mène directement au(x) fichier(s) de données à télédécharger (en rdf ou csv…).

Modèle DCAT W3C (« editor’s draft du 12 mars 2013)

Modèle de données de DCAT

Cette deuxième version de cette spécification du 12 mars 2013, est complétée par un document montrant des cas d’utilisation et listant des exigences (« editor’s draft » du 10 mai 2013).

Un wiki du W3C fournis d’autres exemples de représentation en DCAT – http://www.w3.org/2011/gld/wiki/Dcat_examples

12 exigences sont énoncées.

Les entrées du catalogue sont directement exploitables par des machines
Toutes les entrées de catalogue sont interrogeables ;
URI stables et persistantes pour les entrées de catalogue ;
Contrôles de mise à jour sur chacun des jeux de données entrés aucatalogue ;
Exploration des entrées nouvelles ou mises à jour du catalogue ;
Contrôle de la provenance des données ;
Couverture des métadonnées caractéristiques du catalogue ;
Transformation simple des données d’un catalogue existant (sans production de nouvelle métadonnée) ;
Extension possible du modèle de métadonnées ;
Economie de bande passante ;
Utilisation de mécanismes de requêtes standards (sparql,opensearch,..) sur les métadonnées des entrées et du catalogue.

Je ne suis pas sûre que toutes ces exigences passent la barre d’une recommandation W3C…

4. A ces propositions s’appuyant sur des modèles connus s’ajoutent trois projets concernant :

* les organismes (organization) modélisant la structure des organismes à des fins d’exposition sur le web ; avec la notion d’exploitant du catalogue (catalog operator), organisme qui collecte et publie ces données (mais qui peut ne pas en être l’auteur).

* les personnes (people) et leurs relations aux projets et/ou organisations

* enfin des pistes concernant les informations spatiales et géographiques. A ce stade ces travaux pointent d’une part les vocabulaires géographiques et les ontologies existants

Cet ensemble de trois vocabulaires semble la moins avancée.

Si le schéma ADMS est opérationnel, DCAT pourtant déjà utilisé reste encore un chantier en cours…Les discussions se poursuivent au niveau du W3C et de ce groupe de travail eGov.

Et les participants à ce Government Linked Data (GLD)WG ?

Il me paraît toujours intéressant de regarder qui participe à ces travaux.

Environ 95 personnes…..Une diversité de profils et de pays représentés parmi ces participants. Bien sûr beaucoup en provenance des USA (de différentes agences fédérales, la LC, …) ou UK (dont les Archives nationales) ; toujours une bonne représentation de l’Espagne, très présente dans les données ouvertes et le web sémantique (dont quelqu’un du Ministère de l’administration publique); des représentants de différents gouvernements (indiens, irlandais, nouvelle zélande, …), des experts invités italien, allemand, israélien, brésilien grec,… ; des représentants de l’Onu; quelques entreprises ou industriels affiliés au W3C (Adobe, Fujitsu, Oracle,…) … dont un français,régulier des travaux du W3C aujourd’hui dans une société du sud de la France, Raphaël Troncy, et une société française: Innovimax. L’honneur est sauf dirait certains …

4. 1+2+3 – ADMS et DCAT pour l’interopérabilité de données

Ces vocabualires sont en chantier mais des expériences sont en cours.

Sur JoinUp, on trouve un espace réservé au référencement de données de catalogues conformes à ADMS. Un exemple de ce type de répertoire à triple détente :

la fiche du registre de l’Office des publications (accès html) de l’UE et l’ensemble de ses ressources (listes d’assets). Le registre est référencé au sein du répertoire fédéré de catalogues sur JoinUp. (cette même ressource (le catalogue) au format ADMS rdf)
une ressource (accès html) particulière : le vocabulaire contrôlé des noms de langue au 12/12/2012 (Languages Named Authority List 20121212-0) (cette ressource au format ADMS rdf, avec les informations précises sur chacun des « fichiers » distribués)
les différents fichiers proposés : là la ressource Language Named Authority en SKOS et ici cette même ressource en HTML sur le répertoire des métadonnées des Publications de l’UE.

Cela semble bouger en France.

En 2012, le Mouvement OpenData en France [2020-source indisponible] faisait le point sur le format DCAT (le Dataset des Datasets), et fournissait en particulier des pistes pour générer des fichiers en RDF-DCAT à partir d’un tableur et de Google-refine.
OpenDataSoft, plateforme spécialisée pour exposer les données dans les nuages, est compatible DCAT [2020-source indisponible]
Etalab semblait être impliqué en 2012 ; les tests doivent probalement se poursuivre encore…

Pour revenir à ADMS et à l’information gouvernementale, côté pouvoir public, je ne vois aucun répertoire français en vue ni même de retour d’expériences (pour l’instant?). Je ne trouve
pas non plus la France dans les pays ayant participé à l’enquête ISA sur cette question et qui vient d’être publiée (résultats Avril 2013, en anglais, pdf). Frilosité ?

L’UE a quant à elle, mis en place sur sa plateforme de données ouvertes d’Europa [lien cassé : http://open-data.europa.eu/fr/; 2020 – https://www.europeandataportal.eu/fr), un profil d’application s’appuyant sur DCAT et aligné « selon des termes généraux afin d’être compatible avec l’Asset Description Metadata Schema (ADMS) ». Ce vocabulaire est fourni pour l’instant sous la forme d’une feuille de spécification et d’une ontologie. Les spécifications ADMS et DCAT étant encore en chantier, ce profil est considéré comme un prototype . Ce qui est d’ores et déjà prévu est l’intégration d’EuroVoc comme vocabulaire contrôlé.
Ce site est ergonomiquement perfectible pour un humain à la recherche de données (par exemple les données de contexte dans la zone Informations supplémentaires, pourtant importantes, sont peu visibles).
Une ressource (pour un humain) – http://open-data.europa.eu/fr/data/dataset/hYEchdUGi94T499XlbAw.

Descripteurs

Quand les données seront interopérables ….