OAI, recherche fédérée et « exemplaires » multiples !

Interroger simultanément plusieurs ressources à partir d'une seule requête est une fonctionnalité fondamentale bien connue des documentalistes qui interrogent depuis les années 1970, les serveurs professionnels, comme Dialog, STN, Questel,.. (une histoire de ces serveurs).

Un des problèmes de cette fonctionnalité reste la présentation des résultats fournis par ces diverses sources, et plus particulièrement la suppression des doublons pouvant exister entre les ressources.
En imposant des principes de dépôt et surtout un format "normalisé" de description des ressources (même s'il est possible d'enrichir le DC simple), la recherche sur des entrepôts OAI devrait nous éviter ces problèmes.

Or une recherche sur le métamoteur OAI, ScientificCommons, nous ramène très fréquemment des doublons et même, comme nous allons le voir, 6 résultats pour un même titre !

Résultats en double

1. Pourquoi ces doublons ?
L'application de ScientificCommons nous offrant la possibilité de contrôler l'origine des enregistrements, nous voyons qu'il s'agit de la même ressource OAI dans laquelle l'application de moissonnage a rapatrié la page liée à l'identifiant, ici le DOI mais aussi la page "résumé" .

Ce doublon pourrait donc être résolu techniquement (assez simplement ?), soit au niveau de l'application ScientificCommons, soit peut être à la source.

D'autres résultats montrent que ces doublons peuvent être dus aux différents accès à une même ressource. Par exemple pour cette OAI australienne, les doublons proviennent du moisonnage via deux URL :

(PS: ceci n'est pas visible sur le site de ScientificCommons. C'est en récupérant les notices bibliographiques sous Zotero que l'on identifie ces deux accès à la même source)  

L'URL d'accès étant différente, le moteur de moissonnage semble les considérer comme différentes … Alors que l'adresse (l'identifiant?) de l'OAI reste la même (ici – http://search.arrow.edu.au/apps/ArrowUI/OAIHandler).

Encore un point technique qui pourrait être résolu, me semble-t-il en prenant l'adresse de l'OAI et non pas l'adresse des accès proposés ? (mais je ne connais pas tous les arcanes de la norme OAI !).

2. L'écran suivant montre un problème qui n'est pas à caractère technique mais organisationnel.

OAI - Résultats multiples

Une étude poussée de ces 6 réponses nous permet de noter que les OAI moissonnées sont au nombre de 4 :

Sources des OAI

  1. http://archive-edutice.ccsd.cnrs.fr/oai/oai.php
  2. http://archive-edutice.ccsd.cnrs.fr/oai/oai.php (identique à 1.)
  3. http://edutice.archives-ouvertes.fr/oai/oai.php (alias, renvoi à 1.)
  4. http://hal.ccsd.cnrs.fr/oai/oai.php
  5. http://hal.ccsd.cnrs.fr/oai/oai.php (identique à 4.)
  6. http://hal.inria.fr/oai/oai.php

Nous retrouvons les doublons évoqués dans la première partie de ce billet, pour une même Archive OAI.

Nous avons identifié trois autres motifs possibles aux nombreux "exemplaires" :

  • HAL est déjà en fait une méta-archive moissonnant les archives Edutice (produite par la Fondation Maison des Sciences de l’Homme de Paris) et Inria, tout comme ScientificCommon
  • La structure interne des enregistrements que nous avons étudié montre des différences qui peuvent également être à la source de ces problèmes
  • Des différences sur la description du document (type de document, les mots clés, langue)  montrent qu'il y a eu deux saisies du même document

L'informatique nous aide, mais il faut aussi aider l'informatique 😉

Et après de multiples recherches en français ou en anglais, je peux vous dire que ce problème est particulièrement visible pour les entrepôts Français. 

Tout cela ne n'arrange pas les affaires de l'utilisateur exploitant SciencesCommons, pourtant si efficace !

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s