EuroVoc : du changement

Thésaurus EuroVoc : Porte d'entrée sur le site EuroVoc est le thésaurus de l'Union Européenne utilisé par plusieurs institutions, dont le Parlement européen, le Conseil de l'UE et le Conseil de l'Europe.
Ce nouveau site de consultation du thésaurus multilingue EuroVoc fait suite à la dernière révision réalisée en 2008 (éd.4.3), révision qui modifiait en profondeur deux domaines – géographie (domaine 72) et organisations internationales (domaine 76). 

Je vous propose deux billets sur le thésaurus EuroVoc : ce premier  billet porte sur le travail de modélisation (SKOS) réalisé et un deuxième billet est consacré à un retour d'expérience de Christine LAABOUDI-SPOIDEN, responsable du thésaurus au sein de l'UE.

Les 21 domaines du thésaurus EuroVoc couvrent les centres d'intérêt de l'Union Européenne
vie politique, relations internationales, communautés européennes, droit, vie économique, échanges économiques et commerciaux, finances, questions sociales, éducation et communication, sciences, entreprise et concurrence, emploi et travail, transports, environnement, agriculture, sylviculture et pêche, agroalimentaire, production, technologie et recherche, énergie, industrie ainsi que deux listes de noms propres: géographie et organisations internationales.

Versions linguistiques : toutes les langues officielles de l'UE (soit 22 à ce jour) sont couvertes, ainsi que le croate et le serbe. Un lien conduit vers d'autres versions linguistiques hébergées à l'extérieur : le russe et deux langues régionales (catalan et basque).

Droit : Les mentions juridiques sont bien précisées, avec une grande liberté d'utilisation de ces données, offertes sous réserve que figure la mention «© Union européenne, 2010, http://eurovoc.europa.eu/». Une pratique bien utile, que d'autres administrateurs de vocabulaires pourraient appliquer.

Site Web et interface

On ne peut que remarquer, au premier coup d'oeil (un exemple : environnement du concept "action civile"), la qualité du site et de son ergonomie ! Celui-ci vous offre la possibilité de : trouver l'environnement sémantique de chaque termes, afficher ou non les relations associatives, naviguer à partir des domaines et micro-thésaurus, télédécharger selon différents critères et formats (dont SKOS), et contribuer en faisant des propositions.
La visualisation de l'environnement sémantique sous la forme d'une carte est mentionnée, mais non encore opérationnelle  ce jourLes fonctions de consultation sont proposées dans toutes les langues.
La documentation est, à ce stade du projet,  bi- voire monolingue  (en anglais pour la rubrique "ontologie")
. A terme, elle sera disponible dans toutes les versions linguistiques.

Passons au plat de résistance : la composition et la structure du thésaurus

Un thésaurus est un répertoire de concepts représentés par des termes, préférentiels (descripteurs) ou non préférentiels (non-descripteurs), et dans le cas d'un thésaurus multilingue, d'équivalences linguistiques. Les relations sont celles que l'on retrouve classiquement dans un thésaurus documentaire : relations entre concepts – hiérarchiques ou associatives, entre termes avec les relations d'équivalence et appartenance à un micro-thésaurus ou domaine (MT). La relation conceptuelle de polyhiérarchie est proposée depuis les années 1980 ; depuis la version 4.3. elle est conservée uniquement pour le domaine 72. Géographique.

Ecran de l'application de gestion ITM de Mondeca
Outlook


Les changements les plus importants viennent de l'utilisation de l'ontologie de schéma de concepts SKOS proposée par le W3C et de son extension lexicale SKOS XL pour modéliser le vocabulaire (précisions dans la rubrique "Ontologie" du site).

Ainsi les différents éléments du thésaurus (domaines, termes,…) ne se baladent pas dans la nature mais sont associés à des espaces de nom et possèdent des identifiants (pérennes) :

  • espaces de noms utiles dans le cadre de la modélisation avec SKOS (Dublin Core, RDF, XML schema ,…) incluant l'espace de nom spécifique à EuroVoc :  "eu= http://eurovoc.europa.eu/schema#", ainsi que "eu:Domain" et "eu:Microthesaurus" comme sous-classes (rdfs:subClass) du schéma de concepts (skos:ConceptScheme) EuroVoc.
  • identifiants utilisant la propriété "dc:identifier », avec une notation à 2 chiffres (04 pour le domaine Vie politique) et à 4 chiffres pour le micro-thésaurus (0406 pour le sous-domaine Cadre politique).

SKOS a été adaptée pour les besoins d'Eurovoc; il est ainsi prévu (2011) une gestion des équivalences composées des termes (non préférés ou préférés) – (un exemple de ces fameux UF+ des thésaurus les plus travaillés).

Les résultats de cette modélisation étant aussi utiles et utilisés par les machines, ils ne sont pas tous visibles pour un humain. Le fichier SKOS (rdf/xml) (2) nous fournit plus d'indications.

ont comme "topConcept" : 0426 travaux parlementaires (http://eurovoc.europa.eu/100167).
Eurovoc-hasTopConcept
Ergonomiquement, il est possible de faire remonter à l'écran cette information : le concept/terme de tête (top concept) représenté par la propriété "skos:hasTopconcept" non visible dans cette application en ligne pourrait l'être dans une autre.
  • Le fait que les concepts ne puissent pas être associés à plus d'un autre concept est formellement prévu par le biais de la propriété "eu: hasPolyHierarchy" avec les valeurs : (true) or not (false), propriété appliquée au nom de domaine.

Eurovoc-haspolyhierarchy-trueEurovoc-haspolyhierarchy
L'un des résultats le plus visible sur la modélisation venant du modèle SKOS est la distinction entre les concepts (eu:ThesaurusConcept) et les "termes" qui deviennent dans le monde skosien de "simples" étiquettes lexicales ou label (eu :ThesaurusTerm) de ces concepts. D'où la notion dans le monde du Web de schéma de concepts ….
Techniquement cela se traduit par des identifiants (URI) pour tout : les concepts, les termes mais aussi les relations, et par une double structure dans le modèle de données :

  • une classe pour tous les concepts "eu:ThesaurusConcept" : chaque concept est attaché au schéma de concepts (« eu :EuroVoc ») et au moins, à un microthésaurus (« eu :MicroThesaurus")
  • une classe pour tous les termes "eu:ThesaurusTerm", avec des propriétés particulières pour distinguer les différentes catégories de termes en fonction d'une caractéristique précise : préférentiel/non préférentiel, composition ("eu:SimpleNonPreferredTerm" ou "eu:CompoundNonPreferredTerm"), permutation pour la liste permutée ("eu:permutedLiteralForm"), et en appliquant le schéma SKOS XL, les 4 propriétés lexicales : acronyme ("eu:acronym"), nom développé ("eu:fullName") ou abréviation ("eu:shortName") et  linguistique ("eu:translationOf").
Exemple : URI du concept (465) et du terme préférentiel (229744) pour Ressource alimentaire
Ressource-alimentaire-relation-equivalence

Un identifiant pour la relation d'équivalence (relationship/170037) pour le concept "Ressource alimentaire"
7-ressource alimentaire-preflabel-concept

Remarque : Dans l'application actuelle, les URI des relations d'équivalence ne sont pas accessibles. L'URI http://eurovoc.europa.eu/relationship/170037 ne se confond pas avec l'URI du concept/terme http://eurovoc.europa.eu/170037.

Notons le traitement des concepts obsolètes renvoyant à un nouveau concept en usage, par le biais d'une propriété "eu:useInstead" (#1).

Le thésaurus semble le même : un ensemble de termes reliés entre eux complétés par des notes d'usage. En fait cette modélisation – suivant l'ontologie SKOS (#2)- apporte plus d'information sur les concepts, les termes et leurs relations.Le fichier SKOS est ainsi plus directement exploitable. La prochaine norme thésaurus ISO 25964-1 est élaborée suivant ces mêmes principes.

Du beau travail à la fois sur le thésaurus, le modèle et la présentation, réaménagés pour le Web. Bravo aussi pour le site !
Et les projets d'alignement à venir (voir billet suivant) montrent une volonté d'optimiser les moyens au sein de l'UE, tout en améliorant la qualité de ces outils sémantiques et leur valorisation.

> Voir aussi "Retour d'expérience de l'équipe en charge de la maintenance du thésaurus EuroVoc"

(#1) On peut bien sûr discuter sur cette "équivalence historique" alors que dans certains cas, il pourrait être nécessaire de préserver cette distinction entre deux concepts en créant une relation associative ou même hiérarchique de nature "historique" entre ces deux concepts qui sont ici de même rang, pour indexer une ressource récente traitant de cette entité ancienne.
(#2) Les données du thésaurus multilingue sont réparties sur plusieurs fichiers (definitions.rdf, groups.rdf,…) avec un fichier principal en rdf/xml de …. 245 Mo qui correpond à une base de données complète d'un thésaurus (mais éditable avec un bon éditeur XML/texte). Un problème toutefois pour les praticiens – problème sur lequel je reviendrais une autre fois : l'optimisation de l'écriture de ces fichiers les rende non compréhensible/utile par nous puiqu'ils affichent les URI et non les termes eux-mêmes. Difficile de faire des contrôles "visuels" avant chargement …

Autres ressources en français, de nature historique sur ce thésaurus
– Eurovoc, thésaurus multilingue : maintenance et aspects pratiques (en ligne) (texte en pdf). Exemple à la bibliothèque du Parlement européen, Isabelle GAUTIER (Représentante du Parlement européen au Comité de maintenance Eurovoc. Chargée du groupe de travail "Coordination de l'indexation" à la bibliothèque du Parlement européen), Cahiers de la documentation (EBV), 2006, n°1, mars 2006 – Disponible en ligne – http://www.abd-bvd.be/index.php?page=cah/rc-2006-1&lang=fr
– Eurovoc, Lazzeri V., Communautés européennes, Terminologie (Luxembourg), 1983 (ref.Inist), no44, pp. 31-35, ISSN  0250-5797 (Structure, présentation et utilisation du thesaurus multilingue EUROVOC élaboré par l'office des publications des Communautés européennes et destiné à permettre l'indexation des documents officiels de la Communauté européenne)
Appel d'offre de l'UE – AO 10122: Eurovoc Thesaurus Management and Dissemination System – http://publications.europa.eu/tenders/our/documents/ao_10122/ao_10122_en.htm

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s