Métadonnées en SHS – DDI (Data Documentation Initiative)

Depuis ma petite incursion en 2008 (séminaire Inria, Métadonnées), je n'avais pas reparlé de ce vocabulaire : DDI (sur fr.wikipedia), un autre schéma de "métadonnées de la publication scientifique" et professionnelle qu'il nous faudrait bien maîtriser aussi. Pourtant le schéma lui-même et son déploiement ont bien évolué. 

Ce projet de schéma est partie d'un premier constat largement partagé par les producteurs d'enquêtes : les enquêtes, et de façon plus générale les données économiques et sociales, sont à la fois peu accessibles et insuffisamment utilisées en regard des efforts consentis à leur production et acquisition.

A ce constat initial est venu s'ajouter le phénomène plus général des "datas" : l'exploitation dans nos environnements complexes et mobiles par des publics élargis de ces matériaux de base que sont les données brutes (raw materials) va au-delà des analyses et synthèses produites par les auteurs des données. 
Des catalogues d'enquêtes (références + documentation + données) se sont déployés [1]. 
Exemple d'une documentation d'enquête au format DDI

Exemple d'une documentation d'enquête au format DDI

Mais il est possible également de constituer des "bases de questions" autorisant ainsi des recherches et réexploitation sur les questions elles-mêmes, d'administrer des données complexes et d'exploiter les informations géographiques détaillées. Ici le résultat sur le catalogue Quetelet d'une recherche portant sur "lecture publique".
Base de questions - exploitation des métadonnées DDI

Base de questions – exploitation des métadonnées DDI
Enfin le modèle et les technologies employées permettent d'établir de façon formalisée des liens entre enquêtes, les travaux de comparaison s'en trouvant facilités et qualifiés.  

Jalons de DDI

  • 1995 – Initialisation
  • 1996 – Première DTD SGML 
  • 2000 – DDI 2
  • 2003 – Traduction en français par Quetelet, du dictionnaire des données de la version 2.0 - http://www.reseau-quetelet.cnrs.fr/spip/IMG/pdf/DDI_versionFR.pdf
  • 2008/2009 changement majeur avec l'intégration dans le vocabulaire de description des données, l'ensemble des données du cycle de vie du projet. Cette période est également l'occasion d'une mise à jour des technologies utilisées (passage à W3C XML Schema) et du principe d'espaces de nom. L'administration de ce schéma se professionnalise en formalisant le processus de développement et basculant sous un système de gestion des versions (http://mantis.ddialliance.org/login_page.php) et des bogues garantissant un meilleur suivi et anticipation des versions par les utilisateurs.
  • 2009 – DDI-L 3.1. (DDI-Lifecycle), (avec l'utilisation d'URN dans le cadre de DDI-L). (848 éléments) http://www.ddialliance.org/what
  • 2011 – Vocabulaires contrôlés (mise à jour) –  http://www.ddialliance.org/Specification/DDI-CV/
  • 2012 – DDI-C 2.5. (DDI-Codebook – version allégée) (347 éléments)
  • A suivre : actions pour le web de données

Quelques mots sur le modèle d'organisation des connaissances

Le schéma [3] est structuré en 5 parties principales et comporte plus de 350 éléments pour la version allégée dite Codebook.
Partie 1 : Présentation (succincte) du projet (docDscr)
Partie 2 : Description de l’enquête - objet, sujet, limite, méthodologie, description sommaire des données, …(stdyDscr)

Partie 3 : Description des fichiers de données (fileDscr)

Partie 4 : Description des variables (dataDscr)
Partie 5 : Description d'autres documents relatifs à l’enquête (otherMat)
Le schéma est interopérable Dublin Core (étendu) et pour faire aussi toutes les contorsions bibliothéconomiques ou documentaires possibles.

Vocabulaires contrôlés pour DDI

DDI offre la possibilité de développer et de publier des vocabulaires contrôlés exprimés dans le format "genericode" proposé par l'OASIS, un format bien adapté aux nomenclatures (en français sur OSITI). 
DDI édite également des  vocabulaires de base (type de données, …) pour une exploitation directe avec DDI ou pour être intégrés à des vocabulaires existants; le type et la source du vocabulaire peuvent être intégrés au schéma. 
Un vrai défi pour maintenir ces vocabulaires contrôlés entre projets ou environnement et dans la durée…

Ecosystème "documentation et données d'enquêtes"

Citons également SDMX (Statistical Data and Metadata eXchange), une initiative commune entre l'OCDE, Eurostat, l'ONU et de grandes institutions bancaires, pour promouvoir les échanges de données statistiques et de métadonnées associées. C'est une norme ISO/TS 17369:2005, en cours d'examen. Un projet a été initié pour développer un outillage sémantique prenant en compte le cycle de vie des données. Des travaux sont également en cours pour associer les données SDMX au web de données (microdata). 
Le focus de DDI est la capitalisation pour la réutilisation, celui de SDMX plutôt l'échange. Mais leur périmètre d'action se recoupe conduisant ces deux équipes à initier des travaux d'interopérabilité entre DDI et SDMX. 

[1]  Sources de données d'enquêtes
[2] Ressources documentaires

 

[3] La structure du schéma de métadonnées DDI

 

DDI schéma

DDI – schéma

 

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s