Interopérabilité entre thésaurus : le cas d’Eurovoc et de 5 autres thésaurus

L’Office des publications de l’UE a transmis au groupe ISO sur les thésaurus les résultats d’une étude sur l’interopérabilité entre Eurovoc, le thésaurus de l’UE et 4 autres thésaurus : deux thésaurus multidisciplinaires, l’ECLAS et le thésaurus de l’Unesco, et deux thésaurus spécialisés, l’ETT (European Training Thesaurus ou TEF) et le GEMET (voir la liste de thésaurus sur Dmoz).

L’objectif de l’étude était d’identifier une méthode de correspondance entre thésaurus et de mettre sur pied un environnement d’évaluation de l’interopérabilité pour tester les correspondances obtenues.  L’étude a été réalisée en 2007 par S. Faro, E. Francesconi, V. Sandrucci de l’ITTIG-CNR de l‘Institute of Legal Information Theory and Techniques (Italie).

Deux documents de présentation nous ont été transmis (pourquoi ne sont-ils pas diffusés librement d’ailleurs ?)

1. Thesauri KOS analysis and selected thesaurus mapping methodology on the project case-studyo. Final version (TENDER N◦ 10118 – EUROVOC Studies LOT2. D1.5) – Fichier en / pdf

Un exposé des questions liées à l’interopérabilité entre langages prenant appui sur les thésaurus cités.
Les études comparées de langages sont toujours intéressantes même si je les trouve toujours superficielles sur le plan de la sémantique. L’intérêt ici est l’approche méthodologique visant à mettre en place une procédure automatique de mise en correspondance qui tienne compte des relations et des notes d’application (fichier pdf)
On arrive (pages 57 et 58) dans les propositions à cette approche générale :

Proposed Logical Views of terms in source (Q) and target (D) thesauri
Each term (simple or complex) has to be described to capture its semantics
The semantics of a term is conveyed:

  1. by its morphological characteristics
  2. by the context in which the term is used (dans le langage)
  3. by the relations with other terms

We propose to represent the semantics of a term in a thesaurus, according to an ascending degree of expressiveness, by:

  1. its Lexical Manifestation (a string of characters, in case normalized according to pre-processing steps)
  2. its Lexical Context (vector of binary/weighted terms composed by
    the term itself, relevant terms in its definition and linked terms)
  3. its Lexical Network (a graph where nodes are terms along with
    related ones, and the labeled edges are semantically characterized
    relations between terms)

Les propositions d’ordonnancement des résultats des traitements pour chacun des trois composants
(Lexical Manifestations – morpho, Lexical contexte et Lexical Network) sont à regarder de plus près…

2. Report on execution and results of the interoperability tests. Final Version (TENDER N◦ 10118 – EUROVOC Studies LOT2. D2.3) (fichier results.pdf
)

La solution développée par l’ITTIG exploite plusieurs fonctions différentes pour les trois niveaux de traitements et s’appuie sur un « Gold standard », un fichier témoin d’exemples de mise en correspondance de termes de thésaurus, c’est-à-dire un ensemble idéal de mises en correspondance. Ce « gold standard » est de 104 relations entre Eurovoc et ETT, 198 avec Eclas, 170 pour le Gemet ou 150 pour l’Unesco. La combinaison entre toutes ces possibilités fournit 18 alternatives.

Mais que l’on ait une pondération de 0.7 entre « occupational accident » et « occupational-safety » ou « safety-training », et que ces termes (concepts) se trouvent respectivement dans une même grappe sémantique (exact match), ou encore que « retired person » soit considéré comme un broadMatch de « retirement » sous le principe qu’ils partagent la même racine (p. 60) sans combinatoire, pour des thésaurus cela me laisse perplexe tout de même …
Par contre que holding of two jobs soit en correspondance exacte avec « multiple employment » grâce à une définition équivalent, me semble prometteur.

La solution informatique développée par l’IITG s’appuie sur des outils informatiques libres (Jena, Apache Lucene et Jgraph).

Trois modules logiciels ont été développés :

  • thmbuild (Thesaurus Mapping Builder) pour establir la mise en correspondance entre un thésaurus source et cible
  • 2 thmcompare (Thesaurus Mapping Comparator): utilitaire pour produire un rapport de toutes les prévisions de mise en correspondance produite par thmbuild et des correspondance within a “gold standard”;
  • 3 thmvalid (Thesaurus Mapping Validator): fournit une évaluation globale et détaillée des performances algorithmiques dans le respect du « standard gold »

L’application basée sur le SGBDR MS Acess se nomme THALEN pour THesauri ALigning ENvironment;  sous windows les promoteurs réfléchissent à un développement sous Linux et MacOS.

Les tests ont été réalisés en prenant Eurovoc en version anglaise comme pivot.

Les tests entre chaque couple de thésaurus ont été faits à partir des 5, 10 ou 20 prédictions proposées par le système entre un concept dans une source et les concepts possibles dans les cibles. Des validations humaines ont été réalisées.

Les conclusions :

  • la distinction entre les relations narrowMatch et broadMatch est très incertaine ; ces données ne sont pas exploitées dans les résultats. On a donc seulement exactMatch et unTypeMatch
  • les algorithmes qui portent sur le lexique (Lexical Manifestation) fonctionnent bien et le taux de correspondance exacte à partir du calcul de similarité sur la base de la distance de Levenshtein (proposée ici au lieu de la base des caractères seulement) est important. Exemple : 82.3% entre Eurovoc/ETT, 76% avec ECLAS, 76% avec GEMET, 79,8% avec Unesco.
  • Les traitements portant sur le contexte lexical ou le réseau souffrent comme le disent les auteurs, « de problème de maîtrise informatique » et d’une variabilité très rande des mesures de similarité qui affectent les performances algorithmiques. Bref pas top pour le moment.
  • Les performances (niveau de rappel) ne changent pas de façon significative entre les 5 premières prédictions faites par la machine, et les 10 ou 20 suivantes.

On aimerait avoir les résultats complets (le nombre de termes traités par exemple)….

En tous les cas, l’équipe qui a produit cette application souhaiterait poursuivre son travail sur trois axes : améliorer les résultats sur les 2 axes – Context et Network, développer un Web-THALEN et poursuivre les réflexions en direction des ontologies.

Qui est l’IITG ? L’IITG fait suite à une réorganisation de l' »Italian National Research
Council » (le CNRS italien). C’est
un Institut récent (2001) issu de la fusion de l' »Institute for Legal Documentation » (IDG, Florence) et du « Research Centre for the Study of Roman Law and Legal Systems » (CSDRSG, Rome). Elle assure des activités de recherche, de conseil, de formation dans le domaine de l’information juridique, mais elle développe aussi une offre de publications et d’outils et de produits d’information (banques de données juridiques, nationales ou européennes, bibliographies, des guides sur la littérature juridique électroniques, un site pour personnes handicapées ….
Je ne suis pas sûre qu’il y ait un équivalent aujourd’hui en France …

Publicités

2 réflexions sur “Interopérabilité entre thésaurus : le cas d’Eurovoc et de 5 autres thésaurus

  1. Laaboudi-Spoiden Christine 4 novembre 2008 / 15 h 50 min

    Pour être précis, l’Office des publications a transmis les résultats de l’étude aux membres du groupe NKOS (et non au groupe ISO sur les thésaurus).

    J'aime

  2. Dalb 4 novembre 2008 / 16 h 04 min

    ah, effectivement je me suis trompée de réseau, les 2 étant très proches.
    Mais ces documents ne sont pas diffusés sur le net ? Dalb

    J'aime

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s