Thésaurus EuroVoc : retour d’expérience

Nous avons présenté dans un précédent billet, le nouveau site de diffusion du thésaurus EuroVoc de l'Union Européenne.

Nous laissons la parole ici à Christine LAABOUDI-SPOIDEN qui travaille depuis 6 ans au sein de l'équipe en charge de ce thésaurus et qui a particulièrement oeuvré pour ces nouveaux développements.

ACTU : Conférence EuroVoc et Web Sémantique, les 18 et 19 novembre 2010 (Luxembourg)
Seminaire EuroVoc Novembre 2010

[Quelles ont été vos motivations pour modéliser le thésaurus suivant SKOS ?]

En 2007, l’Office des publications a commandité deux études : l'une sur les différents systèmes de gestion de thésaurus, l’autre sur la faisabilité d’interopérer Eurovoc et d’autre thesauri. En même temps, nous avons fait de la « veille »  sur les tendances dans le monde des thésaurus et constaté les changements chez AgroVoc et Gemet notamment.

Lire la suite

Publicités

EuroVoc : du changement

Thésaurus EuroVoc : Porte d'entrée sur le site EuroVoc est le thésaurus de l'Union Européenne utilisé par plusieurs institutions, dont le Parlement européen, le Conseil de l'UE et le Conseil de l'Europe.
Ce nouveau site de consultation du thésaurus multilingue EuroVoc fait suite à la dernière révision réalisée en 2008 (éd.4.3), révision qui modifiait en profondeur deux domaines – géographie (domaine 72) et organisations internationales (domaine 76). 

Je vous propose deux billets sur le thésaurus EuroVoc : ce premier  billet porte sur le travail de modélisation (SKOS) réalisé et un deuxième billet est consacré à un retour d'expérience de Christine LAABOUDI-SPOIDEN, responsable du thésaurus au sein de l'UE.

Les 21 domaines du thésaurus EuroVoc couvrent les centres d'intérêt de l'Union Européenne
vie politique, relations internationales, communautés européennes, droit, vie économique, échanges économiques et commerciaux, finances, questions sociales, éducation et communication, sciences, entreprise et concurrence, emploi et travail, transports, environnement, agriculture, sylviculture et pêche, agroalimentaire, production, technologie et recherche, énergie, industrie ainsi que deux listes de noms propres: géographie et organisations internationales.

Versions linguistiques : toutes les langues officielles de l'UE (soit 22 à ce jour) sont couvertes, ainsi que le croate et le serbe. Un lien conduit vers d'autres versions linguistiques hébergées à l'extérieur : le russe et deux langues régionales (catalan et basque).

Droit : Les mentions juridiques sont bien précisées, avec une grande liberté d'utilisation de ces données, offertes sous réserve que figure la mention «© Union européenne, 2010, http://eurovoc.europa.eu/». Une pratique bien utile, que d'autres administrateurs de vocabulaires pourraient appliquer.

Lire la suite

Interopérabilité entre thésaurus : le cas d’Eurovoc et de 5 autres thésaurus

L’Office des publications de l’UE a transmis au groupe ISO sur les thésaurus les résultats d’une étude sur l’interopérabilité entre Eurovoc, le thésaurus de l’UE et 4 autres thésaurus : deux thésaurus multidisciplinaires, l’ECLAS et le thésaurus de l’Unesco, et deux thésaurus spécialisés, l’ETT (European Training Thesaurus ou TEF) et le GEMET (voir la liste de thésaurus sur Dmoz).

L’objectif de l’étude était d’identifier une méthode de correspondance entre thésaurus et de mettre sur pied un environnement d’évaluation de l’interopérabilité pour tester les correspondances obtenues.  L’étude a été réalisée en 2007 par S. Faro, E. Francesconi, V. Sandrucci de l’ITTIG-CNR de l‘Institute of Legal Information Theory and Techniques (Italie).

Deux documents de présentation nous ont été transmis (pourquoi ne sont-ils pas diffusés librement d’ailleurs ?)

1. Thesauri KOS analysis and selected thesaurus mapping methodology on the project case-studyo. Final version (TENDER N◦ 10118 – EUROVOC Studies LOT2. D1.5) – Fichier en / pdf

Un exposé des questions liées à l’interopérabilité entre langages prenant appui sur les thésaurus cités.
Les études comparées de langages sont toujours intéressantes même si je les trouve toujours superficielles sur le plan de la sémantique. L’intérêt ici est l’approche méthodologique visant à mettre en place une procédure automatique de mise en correspondance qui tienne compte des relations et des notes d’application (fichier pdf)
On arrive (pages 57 et 58) dans les propositions à cette approche générale :

Proposed Logical Views of terms in source (Q) and target (D) thesauri
Each term (simple or complex) has to be described to capture its semantics
The semantics of a term is conveyed:

  1. by its morphological characteristics
  2. by the context in which the term is used (dans le langage)
  3. by the relations with other terms

We propose to represent the semantics of a term in a thesaurus, according to an ascending degree of expressiveness, by:

  1. its Lexical Manifestation (a string of characters, in case normalized according to pre-processing steps)
  2. its Lexical Context (vector of binary/weighted terms composed by
    the term itself, relevant terms in its definition and linked terms)
  3. its Lexical Network (a graph where nodes are terms along with
    related ones, and the labeled edges are semantically characterized
    relations between terms)

Les propositions d’ordonnancement des résultats des traitements pour chacun des trois composants
(Lexical Manifestations – morpho, Lexical contexte et Lexical Network) sont à regarder de plus près…

2. Report on execution and results of the interoperability tests. Final Version (TENDER N◦ 10118 – EUROVOC Studies LOT2. D2.3) (fichier results.pdf
)

La solution développée par l’ITTIG exploite plusieurs fonctions différentes pour les trois niveaux de traitements et s’appuie sur un « Gold standard », un fichier témoin d’exemples de mise en correspondance de termes de thésaurus, c’est-à-dire un ensemble idéal de mises en correspondance. Ce « gold standard » est de 104 relations entre Eurovoc et ETT, 198 avec Eclas, 170 pour le Gemet ou 150 pour l’Unesco. La combinaison entre toutes ces possibilités fournit 18 alternatives.

Mais que l’on ait une pondération de 0.7 entre « occupational accident » et « occupational-safety » ou « safety-training », et que ces termes (concepts) se trouvent respectivement dans une même grappe sémantique (exact match), ou encore que « retired person » soit considéré comme un broadMatch de « retirement » sous le principe qu’ils partagent la même racine (p. 60) sans combinatoire, pour des thésaurus cela me laisse perplexe tout de même …
Par contre que holding of two jobs soit en correspondance exacte avec « multiple employment » grâce à une définition équivalent, me semble prometteur.

La solution informatique développée par l’IITG s’appuie sur des outils informatiques libres (Jena, Apache Lucene et Jgraph).

Trois modules logiciels ont été développés :

  • thmbuild (Thesaurus Mapping Builder) pour establir la mise en correspondance entre un thésaurus source et cible
  • 2 thmcompare (Thesaurus Mapping Comparator): utilitaire pour produire un rapport de toutes les prévisions de mise en correspondance produite par thmbuild et des correspondance within a “gold standard”;
  • 3 thmvalid (Thesaurus Mapping Validator): fournit une évaluation globale et détaillée des performances algorithmiques dans le respect du « standard gold »

L’application basée sur le SGBDR MS Acess se nomme THALEN pour THesauri ALigning ENvironment;  sous windows les promoteurs réfléchissent à un développement sous Linux et MacOS.

Les tests ont été réalisés en prenant Eurovoc en version anglaise comme pivot.

Les tests entre chaque couple de thésaurus ont été faits à partir des 5, 10 ou 20 prédictions proposées par le système entre un concept dans une source et les concepts possibles dans les cibles. Des validations humaines ont été réalisées.

Les conclusions :

  • la distinction entre les relations narrowMatch et broadMatch est très incertaine ; ces données ne sont pas exploitées dans les résultats. On a donc seulement exactMatch et unTypeMatch
  • les algorithmes qui portent sur le lexique (Lexical Manifestation) fonctionnent bien et le taux de correspondance exacte à partir du calcul de similarité sur la base de la distance de Levenshtein (proposée ici au lieu de la base des caractères seulement) est important. Exemple : 82.3% entre Eurovoc/ETT, 76% avec ECLAS, 76% avec GEMET, 79,8% avec Unesco.
  • Les traitements portant sur le contexte lexical ou le réseau souffrent comme le disent les auteurs, « de problème de maîtrise informatique » et d’une variabilité très rande des mesures de similarité qui affectent les performances algorithmiques. Bref pas top pour le moment.
  • Les performances (niveau de rappel) ne changent pas de façon significative entre les 5 premières prédictions faites par la machine, et les 10 ou 20 suivantes.

On aimerait avoir les résultats complets (le nombre de termes traités par exemple)….

En tous les cas, l’équipe qui a produit cette application souhaiterait poursuivre son travail sur trois axes : améliorer les résultats sur les 2 axes – Context et Network, développer un Web-THALEN et poursuivre les réflexions en direction des ontologies.

Qui est l’IITG ? L’IITG fait suite à une réorganisation de l' »Italian National Research
Council » (le CNRS italien). C’est
un Institut récent (2001) issu de la fusion de l' »Institute for Legal Documentation » (IDG, Florence) et du « Research Centre for the Study of Roman Law and Legal Systems » (CSDRSG, Rome). Elle assure des activités de recherche, de conseil, de formation dans le domaine de l’information juridique, mais elle développe aussi une offre de publications et d’outils et de produits d’information (banques de données juridiques, nationales ou européennes, bibliographies, des guides sur la littérature juridique électroniques, un site pour personnes handicapées ….
Je ne suis pas sûre qu’il y ait un équivalent aujourd’hui en France …

Thésaurus du réseau européen du patrimoine (HEREIN)

« système terminologique relatif aux politiques nationales [des
différents pays de l’UE] concernant le
patrimoine architectural et archéologique au sens défini par les
Conventions de Grenade (octobre 1985) et de La Vallette (janvier 1992) »

Un thésaurus dédié exclusivement à la recherche au sein d’un corpus
particulier de documents multilingues sur les politiques
nationales des Pays de l’UE. Les documents ne sont pas indexés avec ce vocabulaire ; celui-ci sert exclusivement à interroger de façon transversale, les textes nationaux dans leur intégralité et dans chacune des langues.

Localisation

http://www.european-heritage.net/sdx/herein/thesaurus/consult.xsp

Consultable de façon autonome (indépendamment de l’interrogation d’une
banque de données)

Site du Réseau européen du patrimoine :

http://www.european-heritage.net/sdx/herein/thesaurus/introduction.xsp

Editeur

Réseau européen du patrimoine
(système permanent d’information regroupant au sein du Conseil de
l’Europe les services gouvernementaux européens responsables de la
protection du patrimoine)

Correspondant en France : France Ministère de la Culture et de la Communication,
Direction de l’Architecture et du Patrimoine

Mise à jour

Essentiellement sur les versions linguistiques, les définitions et les notes historiques

Quelques données
chiffrées

Domaines thématiques : 9

Champs sémantiques : –

Descripteurs : environ 500 termes (dans chacune des langues)

Non-descripteurs : –

Relations – à compléter

Multilingue : 8 langues (allemand, anglais,
bulgare, espagnol, français, hongrois, polonais, slovène)

A venir : 23 langues à terme

Facettes
(Domaines)

1    Agents (organisations and people), Organismes et
intervenants, Agentes (colectivos e individuales)

2    Heritage Category, Catégories de biens culturels,
Tipos de bienes

       biens culturels, espaces,
intérêt patrimonial, patrimoine

3    Documentation, Systèmes de
documentation, Documentacion

       documentation,
inventaires, listes des biens protégés

4    Legal systems, Système
légal, Sistema legal

       instruments légaux, Outils
d’aménagement, gestion du patrimoine, propriété, délits

5    Interventions,
Interventions, Intervenciones

       types d’intervention,
politique d’intervention, programmes d’intervention, outils
d’intervention

6    Professional training,
skills and qualifications, Formation, métiers, compétences, Formacion y
cualificacion

7    Access and Interpretation, Communication et
sensibilisation, Comunicacion y sensibilizacion

8    Economic and Financial systems, Système économique
et financier, Aspectos económico – financieros

9    Broad concepts, Concepts généraux, Conceptos
generales

Concepts généraux liés au
patrimoine, par exemple archéologie.

Interface
d’interrogation

http://www.european-heritage.net/sdx/herein/national_heritage/search.xsp?action=thesaurus

Herein


Voici la résultat d’une requête : « espaces boisés »
Requête : espaces
boises (sites naturels sites tis sites peuplement sites arch ologiques
prot secteurs sauvegard prot paysages urbains paysages culturels zones
int historique zones arch ologiques lieux couverte ensembles arch
ologiques parcs jardins ruraux sites arch ologiques sites parcs arch
ologiques serves naturelles parcs naturels gionaux parcs naturels
nationaux zones naturelles int cologique floristique faunistique zones
protection patrimoine architectural urbain paysager emprises fonci res
abords bois jardins historiques centres villes historiques champs
bataille sites pave ensembles historiques sites patrimoine mondial
sites prot ume ter letek obmo ja espacios areas gebieden podru ja
obszary)

Langue(s) : N’importe quelle langue

Pays : N’importe quel pays