Isidore, plateforme de recherche d’information en SHS

Des portails en SHS, il en existe de nombreux ; chacun ayant une orientation particulière selon les trois axes « catégories de publics – catégories de sources – type de traitement/accès ». Nous pouvons citer : un méta-catalogue vers de nombreuses sources pour le public « interne » , dédiés à des revues , à des vidéos ou à des archives audiovisuelles, à des données d'enquêtes ou des corpus numérisés (là çà foisonne…); certains sont construit autour d'un point de vue particulier sur la recherche (valorisation des SHS), d'une discipline (une foultitude), d'un public ou environnement cible (Université Ouverte des Humanités pour l'enseignement supérieur)….

Dans ce contexte, ISIDORE est une "plateforme de recherche permettant l'accès [à des] données numériques des sciences humaines et sociales (SHS). Ouverte à tous et en particulier aux enseignants, chercheurs, doctorants et étudiants, elle s'appuie sur les principes du web de données et donne accès à des données en accès libre (open access)" [Extrait de "A propos"] – réalisé dans le cadre des travaux TGE/Adonis et mis en oeuvre par le CCSD/CNRS (le producteur de HAL).

ISIDORE est ouvert depuis décembre 2010. Ce premier niveau béta déjà est fort intéressant à étudier.

Après une présentation rapide sur le tableau de bord proposé pour conduire les recherches d'information (1), nous regarderons sous le "capot de cet engin" en reprenant les processus : Acquisition de la matière (2), Traitements (3), Identification et stockage (4), Services (5). Et pour finir quelques mots sur la gestion de projet (6). J'essaierai de poursuivre cette présentation par un témoignage.

Merci infiniment à Gautier Poupeau d'Antidot qui m'a si aimablement et longuement (!) présenté les arcanes de cette très belle réalisation à la fois bibliographique, documentaire, éditoriale, technique, ergonomique et politique !

1. Tableau de bord pour conduire la recherche d'information

Une ergonomie réussie pour ce tableau de bord très fluide : autour de l'espace désormais classique pour reporter sa question pour traitement par le moteur,…. cette page d'accueil propose différentes zones (Chiffres, Zoom, Tags clés,…). Celles-ci  fournissent à l'internaute, un premier niveau d'information sur les fonds disponibles sur le portail  : les domaines de la bibliothèque (le domaine SHS, les thèmes via le nuage de tags, les disciplines et le catalogue des sources), sa dimension (la taille des collections, mais aussi les occurrences des valeurs dans les différentes facettes). Une deuxième assistance est proposée lors de la rédaction de la requête grâce à un correcteur orthographique et une auto-complétion s'appuyant sur … Rameau et Frantiq !

Des résultats présentés « classiquement » en liste, par "pertinence" (mais pas d'ordonnancement par date de publication ?), entourés d'un ensemble de filtres dynamiques permettant de "fouiller" ce lot-résultat comme on le ferait d'un dossier mis à notre disposition, ainsi que des possibilités de relance de sa requête sur d'autres fonds bibliographiques.

Des "petites choses" à rajouter ? 

  • Désélection de valeurs. On peut affiner autrement qu'en sélectionnant une clé supplémentaire par l'exclusion ("sauf") ;
  • Possibilité de modifier l'ordre des facettes – (le type de données m'intéresse plus que la période historique).

Figure 1 – Isidore – Interface de recherche

Isidore - Interface de recherche
 

2. Acquisition de la matière première

Isidore est à ce jour (mars 2011) une bibliothèque de 35 collections, 745 sources triées et traitées, et au final 905 168 ressources (voir l'Annuaire des collections et sources).

Une terminologie a été choisie pour structurer cette matière première, une même collection pouvant posséder plusieurs sources. Par exemple la « collection isidore » Persée possède 98 « sources isidore »  (des titres de revues) ; la "collection isidore" Centre national pour la numérisation de sources visuelles propose 5 "sources isidore" qui sont des corpus ou fonds numériques. Et parmi la « collection isidore"  Revues.org, essentiellement constituée de titres de revues, on trouve la source Calenda – des données évènementielles. En se plaçant dans un autre environnement et en utilisant une terminologie plus traditionnelle, cela donnerait  : 35 fonds, 745 (res)sources documentaires et 905 168 documents 😉

Ces documents publiés et déjà organisés dans des réservoirs, constituent la matière premier d'Isidore.

Cette matière première est récupérée selon trois protocoles : OAI-PMH et OAI/ORE, RSS/Atom, ou par indexation directe de certains sites Web sélectionnés. Ces derniers sont collectés en exploitant le protocole sitemap (un plan de site compréhensible par les moteurs) et les données en RDFa. Pas de crawl donc ("limiter le bruit"). Les chaînes d'acquisition OAI-PMH et RSS sont plus immédiates et permettent la capture des métadonnées en Dublin Core.

L'idée de départ est d'optimiser cette collecte (pas de connecteurs spécialisés), à charge à chacune des collections/sources de s'aligner sur ces formats.

Bien sûr cette simplicité à un impact sur la qualité (quoique faible en raison d'une présélection draconienne) : mais on peut retrouver dans ISIDORE les limites des sources elles-mêmes. J'ai noté en particulier quelques difficultés liées à des différences de granularité. Par exemple, une ressource Isidore correspond à un numéro complet d'un titre de revue regroupant donc, derrière une même unité documentaire Isidore, un ensemble d'articles autonomes (un Bulletin de l'EPI sous HAL), alors qu'ailleurs, 1000 unités documentaires isidore sont proposées pour les 1000 lettres tirées de la Correspondance d'Ampère, corpus littéraire rdfisés. Peut être que les traitements d'indexation automatique effectués sur les textes eux-mêmes (les fichiers pdf sous HAL) rééquilibres partiellement ce déséquilibre ?

Parmi ces ressources, matière première du dispositif, nous pouvons citer aussi les référentiels terminologiques tels Rameau ou les Pactols de Frantiq, utilisés pour indexer par « sujets » les ressources intégrées au portail.  Tout comme pour les sources elles-mêmes, la production et la gestion de ces référentiels restent du ressort de leurs propriétaires/producteurs.

3. Enrichir : industrialisation de la chaîne de traitements

Le challenge aujourd'hui est de trouver des réponses fonctionnelles et techniques appropriées aux volumes et aux flux des données ainsi qu'aux pratiques et contraintes des utilisateurs de ce type de portail. Bien sûr les techniques du Web lorsqu'elles sont correctement choisies et mises en oeuvre offrent des réponses pertinentes, mais je dirais qu'elles ne répondent aux besoins et contraintes que si l'on accepte aussi de  penser automatisation de ces traitements. Ainsi le dispositif Isidore articule des traitements humains (production initiale de descriptions des ressources) et automatiques ou semi-automatiques (collecte, mais aussi enrichissement de ces métadonnées collectées ou assistance à la recherche) pour la constitution d'un répertoire optimisé pour l'exploitation par un moteur de recherche (ici Antidot).

Une chaîne de traitement bien connue de tous ceux qui depuis 30 ans développent des dispositifs de veille ou dédiés à la scientométrie : identification des sources et récupération des données, traitements plus ou moins riches permettant de normaliser ces données pour les exploiter de façon cohérente. Tout l'art réside dans le choix des traitements, leur ordonancement, pour que tout en préservant les spécificités des sources d'origine, il soit possible d'exploiter de façon cohérente et riche cet ensemble.

Ici ces traitements aboutissent à une unité documentaire qui constitue un format pivot, obtenu par normalisation puis enrichissement.

Citons la normalisation de la date ou du nom de l'auteur (et oui, ces données ne sont pas normées…), puis l'ajout d'un identifiant en propre pour le système (voir plus loin l'openurl) ainsi que des vignettes pour toutes les ressources.

Un certain nombre de traitements (14) sont mis en oeuvre successivement et/ou parallèlement en vue d'unifier les représentations des ressources :

  1. Alignement des langues (ISO 639-3 rdfisé), des types de documents ou des dates;

  2. Classification/indexation de toutes ces ressources sous des angles variés :

    • Classification Sujets, Temps et Géographie à partir des référentiels de Calenda pour les données évènementielles
    •  Classification disciplinaires à partir de la taxonomie de HAL
    •  Classification Sujets à partir des référentiel Rameau, Pactols de Frantiq (recherche sur le thésaurus). Au lieu d'une indexation Sujets, ce serait plutôt une indexation "Concepts" puisque justement on fait imploser la syntaxe traidtionnellement associée aux vedettes-matières avec Rameau, et que l'on fonctionne ici comme il est d'usage pour une indexation à base de thésaurus, post-coordonnée (au moment de la recherche).
    • Classification Lieux avec Geonames.
    • Classification par Périodes historiques à partir de l'exploitation du Thésaurus W (SIAF) (je suppose que la nouvelle version de ce thésaurus n'a pas modifié ce domaine "Périodes"…).

Le classement des ressources s'effectue par entraînement à partir de documents déjà classés pour chacun des référentiels en fonction de la nature de la taxonomie utilisée. Il y a 10 ans et plus nous parlions de « classification a priori par apprentissage ». (Notons que le principe est assez différent de la catégorisation à la volée des résultats d'une recherche, non proposée ici).  Cette indexation/annotation sujet repose sur un algorithme morphologique d'extraction des chaînes de caractères des textes eux-mêmes, alignés aux  concepts/termes proposés par ces référentiels. Bien sûr ces techniques peuvent toujours être enrichies et optimisées…

Ce système de classification a priori, qui se décline par facettes (Temps, Lieux, Sujets,…) constitue une des étapes-clés de cette chaîne industrielle de traitements, qui sera certainement enrichie par la suite – des post-filtrages sont actuellement en tests…

Bref toutes ces taxonomies deviennent les outils d'indexation pour les ressources de cette bibliothèque qu'est Isidore, la plupart de ces ressources n'étant pas indexées à l'origine.

Le choix a été pris de fusionner dans une même zone les indexations Rameau / Pactols, je suppose en supprimant ce qui serait des doublons ? Mais des recherches sont donc possibles à partir de ces vocabulaires : 

Les résultats de ces différents traitements sont articulés et/ou fusionnés, aboutissant à  :

  • un répertoire d'unités documentaires unifiées et cohérentes quelle que soit la collection/source 
  • un lot de critères offrant des filtres dynamiques sur l'ensemble du corpus.

Liste des "facettes" permettant de naviguer dans les ressources

A ces traitements de normalisation vient s'ajouter l'établissement de liens de citation entre une ressource et les ressources qu'elle cite et qui sont dans ce même portail (voir tout en bas de la fiche)

En résumé : aux traitements réalisés par les éditeurs pour chaque source se sont ajouter des traitements de normalisation unitaire puis d'enrichissements au moment de leur regroupement dans un réceptacle commun.

4. Identification et Stockage

Comme dans tout entrepôt, on soigne le stockage des objets et leur identification, et on adopte une organisation aisée pour les logisticiens/manutentionnaires, surtout qu'ici ce n'est qu'un entrepôt de métadonnées.

Isidore distribue donc pour chaque ressource, un identifiant unique de type Handle (tient, pourquoi Handle?) avec au choix des producteurs, d'afficher cet identifiant Isidore ou de conserver celui du producteur.

Le résolveur de lien permet de rerouter les références Isidore vers la ressource elle-même sur le site de l'éditeur. Un exemple :

A venir : la prise en charge des identifiants ARK utilisés par la Bnf pour ses données bibliographiques par le résolveur de lien Isidore.

Le tout est exporté en RDF … ou plus exactement en RDFa, syntaxe conforme au modèle RDF. Ce réservoir d'unités documentaires rdfisées (i.e. identifiées et encodées en triplets) est exploité en aval pour la diffusion/réutilisation.

Un exemple d'une unité documentaire rdfisée 

icone rdfEt en suivant ces icones vous accédez à :

 

Je n'ai pas (encore!) réussi à faire fonctionner Zotéro avec le système : que ce soit avec la Fiche documentaire ou en import avec un fichier rdf, rien hormis l'URL n'a été chargé … Si vous avez des pistes…..

5. Services – communication

Fondamentalement, deux services sont proposées. Le premier service, la recherche unifiée, ne pâtit pas des volumes en raison des différents traitements amont et de l'ensemble des fonctions de tri proposés. Un deuxième service qui ne nécessite aucun autre traitement : la réutilisation des données au sens de réutilisation adapté à des traitements machines (rdf). Tout est là, il y a juste un rubrique à ouvrir …

6. Conduite du projet

Un projet rondement mené entre 2009 et 2011…

C'est bien connu, il ne suffit pas de choisir les techniques les meilleures pour réussir un projet. Et même sil faut toujours un meneur, un dispositif comme celui-ci ne se conçoit qu'à plusieurs : le commanditaire, le concepteur, l'architecte, le chef de chantier, le réalisateur, les usines, la voirie,…  

  • Une direction de projet, commanditaire, co-concepteurs : TGE ADONIS
  • Un chef de projet / architecte : CCSD
  • Un support d'infrastructure : Centre de calcul de l'IN2P3
  • Réalisation, développement et interfaces : TGE ADONIS
  • Un consortium pour le moteur (Antidot), l'outil pour les référentiels terminologiques (Mondeca) et la SSII qui a construit le système (Sword, connu dans nos milieux pour la réalisation et la maintenance applicatives de Légifrance) 

N'oublions bien sûr ceux sans qui rien de tout cela n'existerait pas : les auteurs bien sûr !

Et entre les deux groupes cités, les éditeurs, bibliothèques et centres documentaires qui ont produits la matière première d'Isidore. 

On peut dire que la maison est bien construite, des fondations saines, aménagées et surtout réaménageables – bref  du développement économique et durable puisque pleinement réutilisable.

7. Une version bêta … et après

Une architecture riche et ouverte, accueillante pour des usages diversifiés … 

Et comme on nous autorise à faire des propositions, ne nous censurons pas ! Je reviens ici sur les services aux utilisateurs, avec quelques fonctionnalités qui m'ont manquées en tant qu'utilisatrice.

Il manque par exemple soit des paniers pour faire ses courses (une solution unique : zotéro ?), soit des fauteuils confortables. Car à ce stade on a l'impression que l'on vient pour emprunter quelque chose ponctuellement, mais qu'après il faille repartir sans pouvoir échanger avec les autres isidoriens, ni même venir 2/3 jours d'affiler en déposant ces affaires.

Même si le projet vise l'exploitation du réservoir RDF ainsi constitué afin que d'autres construisent des portails spécialisés prenant en charge les besoins précis de leurs propres utilisateurs, il y aurait, me semble-t-il une situation intermédiaire pour que les lecteurs de l'ISIDORE d'aujourd'hui puissent réaliser des sélections parmi les résultats de recherche, conserver des paniers ou des dossiers afin de poursuivre leurs travaux sur des périodes plus longues qu'une session, les exporter pour les insérer dans leurs outils de travail (zotéro,…), sans avoir à manipuler du rdf… Ce service me semblerait indispensable en raison de la répartition des ressources elles-mêmes qui nous font allez vers tant de systèmes ergonomiquement différents. 

Mais bien sûr cela dépend de la position stratégique qu'entend remplir ISIDORE parmi d'autres offres …

Pour aller plus loin

Les présentations de la journée Adonis de décembre 2010 :http://www.tge-adonis.fr/article/2eme-universite-du-tge-adonis

Les vidéos des journées du 7 décembre

Publicités

4 réflexions sur “Isidore, plateforme de recherche d’information en SHS

  1. Pierre Col - Antidot 4 avril 2011 / 22 h 17 min

    L’Open Data, et plus largement la vague du Linked Data et du « web des données », concerne les États, avec leurs administrations et services publics, ainsi que les collectivités locales et aussi toutes les organisations, y compris les entreprises privées, petites et grandes, qui ont intérêt à partager ouvertement certaines informations (pas toutes évidemment) avec leurs clients, fournisseurs, partenaires, bref avec leur écosystème.
    Et les technologies du web des données, ou web 3.0, en donnant directement accès à des données interconnectées plutôt qu’en ouvrant des API spécifiques à chaque source d’information ou silo de données, apportent un gain considérable en matière d’interopérabilité.
    A cet égard, le projet ISIDORE, du CNRS – TGE Adonis, que vous avez très bien présenté, constitue le plus grand projet « web des données » / Linked Data / Open Data mené à bien en France à ce jour.
    Le portail web, qui était ouvert en beta test depuis décembre 2010, donne accès à plus d’un million de documents et publications de la recherche française en sciences humaines et sociales, issues de plus de 850 sources différentes, qui sont collectées, analysés, traitées et enrichies automatiquement.
    Les métadonnées de tous ces documents ont été normalisées et alignées sur des référentiels et thésaurus scientifiques, automatiquement classifiées, articulées entre elles et enrichies et, pour finir, publiées dans un triple store RDF de plusieurs millions de triplets, où elles sont librement interrogeables en SparQL. Une démo de ce qu’il est possible de développer à partir de ce point d’entrée SparQL est disponible ici : http://www.lespetitescases.net/semweblabs/isidore/
    Plus d’info sur ce projet et sur les outils logiciels pour le réaliser, fournis par Antidot (éditeur de logiciel français très impliqué dans les outils pour le web de données) :
    http://bit.ly/CasClientISIDORE (PDF de 4 pages présentant le projet ISIDORE)
    http://bit.ly/AIF-v1 (PDF de 4 pages présentant la solution Antidot Information Factory)

    J'aime

  2. Stéphane Pouyllau 22 avril 2011 / 18 h 36 min

    Bonsoir,
    Merci pour ce billet très pédagogique sur ISIDORE. C’est un véritable mode d’emploi. Certaines de vos remarques viendront alimenter le projet. Nous allons ouvrir très prochainnement l’API d’ISIDORE (API en mode REST, permettant de développer des mashups se connectant à ISIDORE) et le sparql end point. ISIDORE sera présenté très bientôt aux journées de l’ABES à Montpellier (17 mai) et sur le stand IST de la DIS du CNRS lors d’i-expo (18-19 mai sur le stand n°1D6).
    Cordialement,
    Stéphane Pouyllau
    Ingénieur de recherche au CNRS / TGE Adonis
    Co-responsable de la réalisation d’ISIDORE.

    J'aime

  3. gracy 14 mars 2013 / 9 h 57 min

    En temps de crise, mobiliser des fonds et des fonctionnaires pour un nième site référençant les publications me paraît démesuré car les sites comme BNF, SUDOC, GALLICA, IdREF, worldcat, viaf, … donnent tous les éléments pour les étudiants et les chercheurs. Il suffit tout simplement que l’on fasse un peu d’effort pour aller chercher l’information.
    Bien cordialement

    J'aime

  4. Dalb 14 mars 2013 / 10 h 47 min

    @gracy – Merci de votre commentaire.
    Je ne sais pas qui vous êtes, mais vous semblez ne pas bien évaluer le périmètre des outils bibliographiques que vous citez par rapport à celui d’ISIDORE.
    Je pourrais pointer de nombreux gâchis depuis 35 ans que j’utilise les dispositifs infodoc français, mais je trouve qu’isidore remplit dans l’urgence un vide. On aurait aimé que cela se passe progressivement à partir des dispositifs existants…mais malheureusement l’éclatement et les aléas des politiques d’information en FR en ont décidé autrement. je pointe ici surtout le « conservatisme » :
    – en termes de types de ressources d’information pris en compte par les bibliothèques : comme si depuis 50 ans, les savoirs ne se trouvaient que dans les livres et les périodiques : par exemple les bases de données d’enquêtes comme http://www.epsilon.insee.fr traitée dans ISIDORE,…
    – en terme de niveau de traitement : pas d’évolution par rapport aux traitements mis en oeuvre à la fin du XIXè siècle – la notice catalographique de l’ouvrage et du titre du périodique mais pas le dépouillement des articles,… (ou alors il aurait fallu citer pascal/francis !)
    – en terme de mise à disposition des ressources : nous sommes nombreux à solliciter les documents numériques et pas uniquement la référence…
    Justement une grande masse des fonds rassemblés autour du portail ISIDORE ne se retrouvent pas du tout dans les outils que vous citez. Ceux-ci sont, j’ose le dire, « pauvres » (références + uniquement de monographies ou de titres de périodiques mais ni les articles ni toutes les autres types de ressources d’information) par rapport à ISIDORE, et en plus avec des recouvrements entre sudoc/bnf énervants en tant de crise…
    Il est vrai que je mets en avant ici non pas les traitements évolués qui ont été déployés avec ISIDORE, mais le fait d’avoir rassemblé des fonds non répertoriés par ailleurs.
    En même temps il est plus efficace de faire une recherche directe via un moteur, que d’avoir un accès via une classification à mon avis très difficile à proposer à un internaute à l’écran de ces milliers de ressources…et là les techniques traditionnelles (manuelles) auraient été impensables.
    Par contre comme je le signalais, l’investissement intellectuel et technique pourrait être valorisé pour d’autres portails plus thématiques…

    J'aime

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s