Partie 2 de la norme ISO 25964 sur l’interopérabilité – consultable en ligne

Comme pour la partie 1, le BSI (UK) vous propose de consulter et surtout de commenter, sur sa plateforme de documents en projets, la Partie 2 de la norme des thésaurus pour la recherche concernant l'interopérabilité entre vocabulaires contrôlés.

Une fois sur le site :

  • Faire une recherche rapide "25964"; vous tombez sur le projet…
  • Cliquez alors sur Draft Details, puis Read Draft.
  • Le système vous demande alors de vous vous connecter.
    Si vous n'avez pas pris encore un compte, n'héistez pas : le BSI ne vous demande qu'une adresse électronique (pour laisser des commentaires, c'est préférable).

Plus encore que pour la partie 1, cette partie 2 (présentation rapide sur Descripteurs) peut être lue sélectivement. Si vous êtes intéressé par : les classifications (dont celles utilisées en RM), les vedettes matières ou plutôt les ontologies ou les terminologies, il y en a pour tous les goûts !

N'hésitez pas !

Site du BSI –  http://drafts.bsigroup.com/    Draft review

Publicités

Interopérabilité entre thésaurus : le cas d’Eurovoc et de 5 autres thésaurus

L’Office des publications de l’UE a transmis au groupe ISO sur les thésaurus les résultats d’une étude sur l’interopérabilité entre Eurovoc, le thésaurus de l’UE et 4 autres thésaurus : deux thésaurus multidisciplinaires, l’ECLAS et le thésaurus de l’Unesco, et deux thésaurus spécialisés, l’ETT (European Training Thesaurus ou TEF) et le GEMET (voir la liste de thésaurus sur Dmoz).

L’objectif de l’étude était d’identifier une méthode de correspondance entre thésaurus et de mettre sur pied un environnement d’évaluation de l’interopérabilité pour tester les correspondances obtenues.  L’étude a été réalisée en 2007 par S. Faro, E. Francesconi, V. Sandrucci de l’ITTIG-CNR de l‘Institute of Legal Information Theory and Techniques (Italie).

Deux documents de présentation nous ont été transmis (pourquoi ne sont-ils pas diffusés librement d’ailleurs ?)

1. Thesauri KOS analysis and selected thesaurus mapping methodology on the project case-studyo. Final version (TENDER N◦ 10118 – EUROVOC Studies LOT2. D1.5) – Fichier en / pdf

Un exposé des questions liées à l’interopérabilité entre langages prenant appui sur les thésaurus cités.
Les études comparées de langages sont toujours intéressantes même si je les trouve toujours superficielles sur le plan de la sémantique. L’intérêt ici est l’approche méthodologique visant à mettre en place une procédure automatique de mise en correspondance qui tienne compte des relations et des notes d’application (fichier pdf)
On arrive (pages 57 et 58) dans les propositions à cette approche générale :

Proposed Logical Views of terms in source (Q) and target (D) thesauri
Each term (simple or complex) has to be described to capture its semantics
The semantics of a term is conveyed:

  1. by its morphological characteristics
  2. by the context in which the term is used (dans le langage)
  3. by the relations with other terms

We propose to represent the semantics of a term in a thesaurus, according to an ascending degree of expressiveness, by:

  1. its Lexical Manifestation (a string of characters, in case normalized according to pre-processing steps)
  2. its Lexical Context (vector of binary/weighted terms composed by
    the term itself, relevant terms in its definition and linked terms)
  3. its Lexical Network (a graph where nodes are terms along with
    related ones, and the labeled edges are semantically characterized
    relations between terms)

Les propositions d’ordonnancement des résultats des traitements pour chacun des trois composants
(Lexical Manifestations – morpho, Lexical contexte et Lexical Network) sont à regarder de plus près…

2. Report on execution and results of the interoperability tests. Final Version (TENDER N◦ 10118 – EUROVOC Studies LOT2. D2.3) (fichier results.pdf
)

La solution développée par l’ITTIG exploite plusieurs fonctions différentes pour les trois niveaux de traitements et s’appuie sur un « Gold standard », un fichier témoin d’exemples de mise en correspondance de termes de thésaurus, c’est-à-dire un ensemble idéal de mises en correspondance. Ce « gold standard » est de 104 relations entre Eurovoc et ETT, 198 avec Eclas, 170 pour le Gemet ou 150 pour l’Unesco. La combinaison entre toutes ces possibilités fournit 18 alternatives.

Mais que l’on ait une pondération de 0.7 entre « occupational accident » et « occupational-safety » ou « safety-training », et que ces termes (concepts) se trouvent respectivement dans une même grappe sémantique (exact match), ou encore que « retired person » soit considéré comme un broadMatch de « retirement » sous le principe qu’ils partagent la même racine (p. 60) sans combinatoire, pour des thésaurus cela me laisse perplexe tout de même …
Par contre que holding of two jobs soit en correspondance exacte avec « multiple employment » grâce à une définition équivalent, me semble prometteur.

La solution informatique développée par l’IITG s’appuie sur des outils informatiques libres (Jena, Apache Lucene et Jgraph).

Trois modules logiciels ont été développés :

  • thmbuild (Thesaurus Mapping Builder) pour establir la mise en correspondance entre un thésaurus source et cible
  • 2 thmcompare (Thesaurus Mapping Comparator): utilitaire pour produire un rapport de toutes les prévisions de mise en correspondance produite par thmbuild et des correspondance within a “gold standard”;
  • 3 thmvalid (Thesaurus Mapping Validator): fournit une évaluation globale et détaillée des performances algorithmiques dans le respect du « standard gold »

L’application basée sur le SGBDR MS Acess se nomme THALEN pour THesauri ALigning ENvironment;  sous windows les promoteurs réfléchissent à un développement sous Linux et MacOS.

Les tests ont été réalisés en prenant Eurovoc en version anglaise comme pivot.

Les tests entre chaque couple de thésaurus ont été faits à partir des 5, 10 ou 20 prédictions proposées par le système entre un concept dans une source et les concepts possibles dans les cibles. Des validations humaines ont été réalisées.

Les conclusions :

  • la distinction entre les relations narrowMatch et broadMatch est très incertaine ; ces données ne sont pas exploitées dans les résultats. On a donc seulement exactMatch et unTypeMatch
  • les algorithmes qui portent sur le lexique (Lexical Manifestation) fonctionnent bien et le taux de correspondance exacte à partir du calcul de similarité sur la base de la distance de Levenshtein (proposée ici au lieu de la base des caractères seulement) est important. Exemple : 82.3% entre Eurovoc/ETT, 76% avec ECLAS, 76% avec GEMET, 79,8% avec Unesco.
  • Les traitements portant sur le contexte lexical ou le réseau souffrent comme le disent les auteurs, « de problème de maîtrise informatique » et d’une variabilité très rande des mesures de similarité qui affectent les performances algorithmiques. Bref pas top pour le moment.
  • Les performances (niveau de rappel) ne changent pas de façon significative entre les 5 premières prédictions faites par la machine, et les 10 ou 20 suivantes.

On aimerait avoir les résultats complets (le nombre de termes traités par exemple)….

En tous les cas, l’équipe qui a produit cette application souhaiterait poursuivre son travail sur trois axes : améliorer les résultats sur les 2 axes – Context et Network, développer un Web-THALEN et poursuivre les réflexions en direction des ontologies.

Qui est l’IITG ? L’IITG fait suite à une réorganisation de l' »Italian National Research
Council » (le CNRS italien). C’est
un Institut récent (2001) issu de la fusion de l' »Institute for Legal Documentation » (IDG, Florence) et du « Research Centre for the Study of Roman Law and Legal Systems » (CSDRSG, Rome). Elle assure des activités de recherche, de conseil, de formation dans le domaine de l’information juridique, mais elle développe aussi une offre de publications et d’outils et de produits d’information (banques de données juridiques, nationales ou européennes, bibliographies, des guides sur la littérature juridique électroniques, un site pour personnes handicapées ….
Je ne suis pas sûre qu’il y ait un équivalent aujourd’hui en France …

Interopérabilité entre langages : le projet HiLT

Le projet HiLT (High-level Thesaurus Project ou Projet de Thésaurus de haut niveau) a pour but de présenter un ensemble de recommandations concernant l’interopérabilité des accès dits matière entre systèmes documentaires, et la navigation par sujets « dans un contexte où il y a une variété de communautés, de services ainsi que de types de services ou de ressources ».

Piloté par le RSLP (Research Support Libraries Programme – http://www.rslp.ac.uk/) et JISC (Joint Information Systems Committee – http://www.jisc.ac.uk/) au Royaume-Uni, ce projet concerne les dispositifs proposés par « les archives, les services électroniques, le milieu des bibliothèques et des musées ».

Initié au début des années 2000, HiLT va bientôt entrer dans sa troisième phase :

Phase I : l’étude du contexte et des problématiques posées a conclu à l’intérêt pour des systèmes d’interopérabilité entre langages contrôlés.
Rapport final de 2001, http://hilt.cdlr.strath.ac.uk/Reports/FinalReport.html

Phase II : un pilote de mise en correspondance (mapping) terminologique entre vocabulaires documentaires a été réalisé. Il assure les échanges avec d’autres services partagés, plutôt qu’un accès direct à l’utilisateur d’où le terme de M2M pour machine-to-machine.
Le processus est initié par la requête posée sur un système A par un utilisateur ; le système A interroge le serveur terminologique pour trouver d’autres ressources. Le prototype est structuré autour de la classification décimale Dewey (quelques niveaux hiérarchiques, mais plus de niveaux que dans l’interface DeweyBrowser). Le prototype prend en compte la LCSH (liste des vedettes matières de la Library of Congress), quelques centaines de termes du thésaurus de l’Unesco ou du MeSH, dans les domaines de la santé, de la médecine et de l’éthique. La faisabilité pour le développement d’une interface SOAP adaptée a également été conduite.

Phase III : dans cette phase qui débute en novembre 2005 pour une période de 15 mois, il s’agira de développer un serveur M2M (machine-to-machine). Celui-ci offrira un accès de type service web avec le protocole SRW basé sur SOAP – des extensions possibles dans le future à d’autres protocoles comme Z39.50 ou SRU par exemple. Le dispositif exploitera le noyau SKOS pour l’encodage des vocabulaires et des réponses “classificatoires” avec des possibilités ultérieures d’exploitation d’autres formats comme Zthes ou MARC.

Ressources utilisées

Lire la suite