Thésaurus EuroVoc : retour d’expérience

Nous avons présenté dans un précédent billet, le nouveau site de diffusion du thésaurus EuroVoc de l'Union Européenne.

Nous laissons la parole ici à Christine LAABOUDI-SPOIDEN qui travaille depuis 6 ans au sein de l'équipe en charge de ce thésaurus et qui a particulièrement oeuvré pour ces nouveaux développements.

ACTU : Conférence EuroVoc et Web Sémantique, les 18 et 19 novembre 2010 (Luxembourg)
Seminaire EuroVoc Novembre 2010

[Quelles ont été vos motivations pour modéliser le thésaurus suivant SKOS ?]

En 2007, l’Office des publications a commandité deux études : l'une sur les différents systèmes de gestion de thésaurus, l’autre sur la faisabilité d’interopérer Eurovoc et d’autre thesauri. En même temps, nous avons fait de la « veille »  sur les tendances dans le monde des thésaurus et constaté les changements chez AgroVoc et Gemet notamment.

Le monde des thésauri est une petite communauté avec des préoccupations similaires. Avec nos collègues gestionnaires de thésaurus des autres institutions particulièrement, nous nous sommes rendus compte que nous devions collaborer afin d’éviter un travail redondant (par exemple, dans les tâches de traduction)

Nous avons décidé d’opter pour un logiciel spécialisé dans la gestion des ontologies [Note de "Descripteurs" – intégrant des fonctions de gestion des vocabulaires, ce qui n’est pas commun !], plutôt qu'une solution purement I&T comme par le passé.

L’exigence supplémentaire est qu’EuroVoc est un vocabulaire multilingue et que nous avions besoin de gérer les relations hiérarchiques et associatives au niveau du concept, peu importe la langue mais d’être capable de gérer les termes et leurs relations d’équivalence indépendamment (et non comme un attribut du concept).

Nous n’avons plus de versions linguistiques d’EuroVoc parallèles mais une structure « concept – termes », dans laquelle les éléments du terme (valeur lexicale, note) sont repris pour le concept. Il est également possible de produire des notes spécifiques à des termes par langue.
Pour la géographie, une sous-classe conceptuelles "Pays" a été définie et représentée par une valeur indépendante de la langue : les codes ISO.

Pour la gestion des pays et les noms des régions de l’UE (microthésaurus 7211), nous collaborons avec les collègues de l’Office des publications qui gèrent  cette nomenclature pour l'UE. Nous avons la possibilité d’importer/exporter ces données du registre de l'Office des publications dans EuroVoc. Les noms de régions proviennent directement de la classification territoriale NUTS d’Eurostat et dans certains cas de la nomenclature administrative du pays.

[Qu'est-ce qui vous amené à choisir Mondeca ?]

On peut seulement dire que nous avons publié un appel d’offre pour l’acquisition d’un système de gestion de thésaurus et le développement d’un site web pour la diffusion du thésaurus. Le cahier des charges a été rédigé sur base du résultat de l’étude sur les logiciels spécialisés faite en 2007.

Le consortium Tenforce/Mondeca a remporté le marché.  Il s’agit d’un contrat cadre, le Cedefop (pour le thesaurus sur la formation ETT) et la DG emploi de la Commission (taxonomie ESCO) exploite ITM de Mondeca pour la gestion de leur vocabulaire.

ITM a été adapté à nos besoins spécifiques. Par exemple, nous avons un module de workflow qui nous permet de gérer les différents statuts d’un concept et des termes, depuis sa création, sa validation par le comité de maintenance et sa traduction.

[Qu'est-ce qui vous a paru le plus difficile ou délicat?]

Il y a deux ans, nous avons dû expliciter le choix du format SKOS/RDF et convaincre de ses applications futures (Linked data). Il existe deux mondes : le web sémantique et le monde purement I&T.

[Quels sont vos autres projets ?]

1)  Préparation de la version 4.4 d’Eurovoc qui prend en compte les modifications du traité de Lisbonne (en particulier des changements de dénomination)
2)  Projet TAE – Thesaurus Alignement Environment (mai 2010 – mai 2011), projet d’alignement automatique entre EuroVoc et deux thesauri spécialisés – Gemet (environnement) et ETT (formation), une taxonomie (code de la législation en vigueur) utilisé dans EUR-Lex et deux versions d’EuroVoc (4.3 – 4.2). Le contractant est le consortium Mondeca/Inria/Tenforce. A la fin du projet, nous aurons à notre disposition un système d'alignement nous permettant de charger des vocabularies en SKOS et de lancer un alignement automatique sur base d'algorithmes pré-sélectionnés. Les résultats de l'alignement pourront être interrogés à partir d'un webservice.

Un projet plus immédiat : nous préparons une conférence les 18 et 19 novembre 2010 sur EuroVoc et le web sémantique (pour plus d'information >).

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s