Le TAG – Thésaurus de l’activité gouvernementale du Québec : retour d’expérience

Annonce octobre 2014 :  Mai 2012 – Je vous avais parlé du TAG (Thésaurus de l’activité gouvernementale) du Québec. Octobre 2014 : diffusion au format skos de ce thésaurus : http://www.thesaurus.gouv.qc.ca/tag/consultation/oa.do.
Adresse de déchargement direct – http://www.thesaurus.gouv.qc.ca/tag/tag_skos.xml

Lire la suite

Thésaurus et autres schémas de concepts : documents normatifs

Liste des normes ou documents normatifs, quels que soient leur état et leurs origines, concernant les thésaurus, plus globalement les vocabulaires contrôlés et les index.
Création : le 18 août 2005. Dernière mise à jour : août 2014
Mise à  jour : 20 Novembre 2005 ; 15 Avril 2006 ; 10 Novembre 2007, août 2008; ocotbre 2009; août 2010 ; mars 2013 ; août 2014


  1. Normes sur les thésaurus et autres schémas de concepts
  2. Schémas XML et autres outils associés
  3. Normes nationales sur les thésaurus
  4. Autres normes en proximité

Lire la suite

Partie 2 de la norme ISO 25964 sur l’interopérabilité – consultable en ligne

Comme pour la partie 1, le BSI (UK) vous propose de consulter et surtout de commenter, sur sa plateforme de documents en projets, la Partie 2 de la norme des thésaurus pour la recherche concernant l'interopérabilité entre vocabulaires contrôlés.

Une fois sur le site :

  • Faire une recherche rapide "25964"; vous tombez sur le projet…
  • Cliquez alors sur Draft Details, puis Read Draft.
  • Le système vous demande alors de vous vous connecter.
    Si vous n'avez pas pris encore un compte, n'héistez pas : le BSI ne vous demande qu'une adresse électronique (pour laisser des commentaires, c'est préférable).

Plus encore que pour la partie 1, cette partie 2 (présentation rapide sur Descripteurs) peut être lue sélectivement. Si vous êtes intéressé par : les classifications (dont celles utilisées en RM), les vedettes matières ou plutôt les ontologies ou les terminologies, il y en a pour tous les goûts !

N'hésitez pas !

Site du BSI –  http://drafts.bsigroup.com/    Draft review

Logiciel de création et maintenance de thésaurus et taxonomies


Création : le 5 janvier 2006 – Dernière mise à jour : Juill.2018 et janv.2019 (liens contrôlés)
Mise à jour : 03/03/2008, 11/2009,
15/09/2010 ; Janv.2011; Avril 2011; Déc 2011, Août 2011, Juillet 2013, Août 2014; mars 2016 ; mai 2018

N’hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb


La construction et la maintenance d’un thésaurus, ou plus globalement d’un vocabulaire organisé et contrôlé à des fins d’organisation et d’accès à l’information, nécessitent l’adoption de règles et de fonctions applicatives spécialisées.

Ce secteur de l’édition de progiciel peut être scindé en France en trois catégories principales selon le degré d’autonomie ou l’orientation (gestion, utilisation) du module applicatif :

  • Les « modules Thésaurus » de logiciels de gestion et recherche documentaires, ou aujourd’hui, les modules dits « Taxonomie » de CMS (avec pour ces derniers des fonctions certes plus ergonomiques mais souvent moins riches) ;
  • Des outils d’exploitation de thésaurus en ligne
    (la première famille citée intègre bien souvent ce type de module fonctionnel) ;
  • Des logiciels autonomes (« standalone » en anglais) qui assurent la conception, la gestion et la diffusion de vocabulaires.

Voici une liste de logiciels appartenant à cette dernière famille.

Ces logiciels offrent l’ensemble des fonctionnalités utiles à la création et à la maintenance de vocabulaires contrôlés et suivent les normes de thésaurus (avant 2011). Ces outils sont vendus indépendamment de tout logiciel documentaire ou plateforme (moteur) de recherche – ce qui ne veut pas dire qu’ils ne nécessitent pas un SGBD pour tourner.

[Nom du produit, nom de la société, pays d’origine, plateforme du serveur ou pour l’offre autonome, adresse Web, export [SKOS]
(*)
offre d’outils automatiques

Visualiseur de vocabulaire

Quelques produits en mutation ou supprimés

Quelques mots sur ces produits

  • Une famille de quelques logiciels, immuables pendant 30 ans, qui se sont transformés au fur et à mesure des évolutions techniques. Et qui continuent à se transformer …
  • A cette famille historique s’ajoutent depuis 10 ans de nouveaux entrants dans la mouvance des techniques du Web (skos, ontologie, indexation automatique, extraction automatique)
  • Le marché peut être appréhendé en fonction de l’étendu des fonctionnalités proposées. Entre :
    • des produits offrant des fonctionnalités strictement de production, d’exploitation et de diffusion de vocabulaires.
    • des produits offrants d’autres modules complémentaires : classification automatique, alignement, … (marqués dans la liste par le signe (*).
  • Deux axes d’évolution :
    • l’utilisation des technologies informatiques les plus récentes : éditeur SKOS (un modèle de données simple), XML, intégration et/ou articulation avec des fonctions d’édition d’ontologies,…
    • une meilleure prise en compte des besoins dans la phase de création et de maintenance de vocabulaires : import, multilingue, champs spécifiques de gestion, gestion du travail, gestion de travail collaboratif/workflow ; outils de mise en correspondance….
  • Certains produits nécessitent un système de gestion de base de données en sus ….Attention donc à certains tarifs dans le cas de bases de données propriétaires.
  • L’offre en services en ligne arrive (depuis 2011).
  • Les prix varient beaucoup. Pour des versions monopostes, le produit de base (donc « nu ») : gratuit (The32W, un produit open source comme Tematres), 300€  (MultiTes, Amicus Thesaurus Tool), 500 (Multites) à 1300€ (Lexaurus) ou plus pour une version monoposte ; au-dessus de 3000€ pour des  versions en réseau. Au-delà de 25000€ pour des distributions sur des intranets d’entreprise. Les tarifs varient également suivant les fonctionnalités couvertes (création, consultation publique, exploitation à l’indexation ou à la recherche,…). Compter aussi la maintenance en sus.
  • Concernant les fonctionnalités, on repère un noyau dur, commun à tous ces produits : les normes de construction de thésaurus constituent un cadre formalisé pour le modèle des données métiers avec des variations possibles (plus ou moins grandes possibilités de personnalisation et prises en compte des caractéristiques des divers types de langage dont la nouvelle norme ISO de 2011). Mais certains offrent des fonctions de gestion de la structure de description de thésaurus, voire uniquement des fonctions d’exploitation d’un thésaurus, mais sans fonction d’aide à la conception ou à la maintenance dans le temps (trace des versions,…). Les outils les plus récents intègrent des possibilités de modélisation plus poussées (base de connaissance, référentiels pour des usages multiples, ontologies).
  • Certaines fonctionnalités feront la différence comme : la diversité de formats d’import/export (dont txt ou tableur…) ou une réelle gestion de versions multilingues de thésaurus (et non uniquement une équivalence entre termes), ainsi que la dénomination ou la présence de champs spécifiques ou paramétrables, la variété du typage des relations ou encore l’ergonomie fonctionnelle – en particulier les capacités d’import de données et d’aide à la création. Certains outils proposent aujourd’hui des modules de gestion du travail de maintenance en réseau (workflow plus ou moins paramétrables).
  • L’ergonomie visuelle de ces produits est variable, et pour les outils les plus anciens, datée.
  • La deuxième catégorie citée – de visualisation et/ou de manipulation à la recherche d’un thésaurus – se développe suivant en cela le déploiement de l’utilisation de ces systèmes d’organisation des concepts (SKO=SOC) sur le Web. Ces développements se font bien souvent indépendamment du logiciel de conception. Nous pouvons citer SKOS Play, un service Web qui permet de visualiser un vocabulaire sur le Web – http://labs.sparna.fr/skos-play/about?lang=fr

Publications concernant les outils de gestion de vocabulaires (rubrique à réviser  – prochainement)

N’hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb

 

> Logiciels pour vocabulaires orientés « organisation et recherche »


Regroupements de différents billets sur le thème des logiciels pour vocabulaires dédiés à la recherche d’information
Création : 27 Janvier 2010. Mis-à-jour: août 2014
Voir aussi sur Descripteurs – Logiciels de création et maintenance de thésaurus (2016) 


Par vocabulaires, nous nous limitons ici aux thésaurus et autres répertoires de concepts/termes utilisés dans des dispositifs informationnels et documentaires. Ce sont :

  • des listes de concepts
  • organisés entre eux par différents types de relations (hiérarchiques, associatives, équivalence, ou plus spécialisées : cause/conséquence, historique,…)
  • caractérisés par différents attributs spécifiques à la catégorie de concepts (date de création pour des noms d’organismes, lieu pour la localisation d’un monument, appartenance à un ou plusieurs domaines d’activité …),
  • représentés en général par des termes ou des notations

Un autre terme rencontré est celui de référentiel ou référentiel terminologique (https://www.diigo.com/user/dalbin/Dalbin%28nom%29%20r%C3%A9f%C3%A9rentiel-termino%28sujet%29).

Des logiciels ou applications en ligne couvrent cinq grandes familles de fonctions dédiées à ces vocabulaires :

  1. Concevoir un vocabulaire ;
  2. Aligner des vocabulaires entre eux ;
  3. Gérer un ou plusieurs vocabulaires ;
  4. Exploiter (en recherche) un vocabulaire ;
  5. Communiquer un vocabulaire.

A ces fonctionnalités liées aux vocabulaires, certains produits offrent des modules de gestion du travail en équipes (workflow, collaboratif).

En France traditionnellement (depuis 30 ans), la gestion informatisée des thésaurus s’effectue au moyen d’un module particulier des logiciels documentaires. Ces modules ne sont pas utilisables de façon autonome, et leur coût d’acquisition ne se comprend que dans le cadre du développement d’une application documentaire (base documentaire, catalogue, portail). Ces « modules de gestion de thésaurus » couvrent des fonctions de gestion d’un vocabulaire déjà construit (étape 3) et d’exploitation (étape 4) dans le cadre d’une application documentaire particulière.

Les fonctions d’assistance aux étapes de conception (étape 1) et celles propres à la communication de ces ressources terminologiques (étape 5) sont respectivement très faibles ; et pour les fonctions d’édition/communication limitées; celles d’alignement (étape 2), plus récentes sont inexistantes ou font l’objet d’une offre de services dédiée.

Le monde anglo-saxon (UK, USA, mais aussi AUS) a toujours eu un marché de progiciels de gestion de thésaurus spécialisés utilisables de façon autonome. Les termes employés en anglais sont : « Thesaurus management software » ou « Software for building and editing thesaurus ». Ces applications sont centrées sur des fonctions d’aide à la conception ou au réengineering de vocabulaires (étape 1), leur gestion dans le temps indépendamment de leurs usages (étape 2), leur communication sous de multiples formes ce qui supposent des fonctions d’import/export et d’éditions variées. La souplesse fonctionnelle (typage des relations, personnalisation) permettent d’initier des activités d’alignement « simples » entre vocabulaires. Ce type d’outils spécialisés existaient également dans le monde germanique. Aujourd’hui, ce type d’outil est également exploité en France.

=> Sur Descripteurs – Logiciels de création et maintenance de thésaurus (2014)

L’appellation « Taxonomy Management Software » rend compte de l’évolution fonctionnelle vers un élargissement des types de vocabulaires pris en compte et vers une extension pour certaines offres à des automates pour des fonctions de catégorisation ou d’extraction automatiques d’entités par exemple.

Des standards ou normes existent pour concevoir les thésaurus (Norme ISO 25964-1) et les exploiter sur le Web (SKOS).

Les évolutions les plus récentes conduisent à une articulation ou une transformation de ces vocabulaires de nature essentiellement terminologique à des vocabulaires partagés et structurés de façon formelle (ontologies informatiques), des transformations adaptées d’une part au web (web de donnée et web sémantique) et aux applications ouvertes et interopérables (sortir des silos). Nous pouvons citer comme exemple public le travail réalisé au Ministère de la Culture et de la Communicationhttp://data.culture.fr/thesaurus/.

Thésaurus EuroVoc : retour d’expérience

Nous avons présenté dans un précédent billet, le nouveau site de diffusion du thésaurus EuroVoc de l'Union Européenne.

Nous laissons la parole ici à Christine LAABOUDI-SPOIDEN qui travaille depuis 6 ans au sein de l'équipe en charge de ce thésaurus et qui a particulièrement oeuvré pour ces nouveaux développements.

ACTU : Conférence EuroVoc et Web Sémantique, les 18 et 19 novembre 2010 (Luxembourg)
Seminaire EuroVoc Novembre 2010

[Quelles ont été vos motivations pour modéliser le thésaurus suivant SKOS ?]

En 2007, l’Office des publications a commandité deux études : l'une sur les différents systèmes de gestion de thésaurus, l’autre sur la faisabilité d’interopérer Eurovoc et d’autre thesauri. En même temps, nous avons fait de la « veille »  sur les tendances dans le monde des thésaurus et constaté les changements chez AgroVoc et Gemet notamment.

Lire la suite

EuroVoc : du changement

Thésaurus EuroVoc : Porte d'entrée sur le site EuroVoc est le thésaurus de l'Union Européenne utilisé par plusieurs institutions, dont le Parlement européen, le Conseil de l'UE et le Conseil de l'Europe.
Ce nouveau site de consultation du thésaurus multilingue EuroVoc fait suite à la dernière révision réalisée en 2008 (éd.4.3), révision qui modifiait en profondeur deux domaines – géographie (domaine 72) et organisations internationales (domaine 76). 

Je vous propose deux billets sur le thésaurus EuroVoc : ce premier  billet porte sur le travail de modélisation (SKOS) réalisé et un deuxième billet est consacré à un retour d'expérience de Christine LAABOUDI-SPOIDEN, responsable du thésaurus au sein de l'UE.

Les 21 domaines du thésaurus EuroVoc couvrent les centres d'intérêt de l'Union Européenne
vie politique, relations internationales, communautés européennes, droit, vie économique, échanges économiques et commerciaux, finances, questions sociales, éducation et communication, sciences, entreprise et concurrence, emploi et travail, transports, environnement, agriculture, sylviculture et pêche, agroalimentaire, production, technologie et recherche, énergie, industrie ainsi que deux listes de noms propres: géographie et organisations internationales.

Versions linguistiques : toutes les langues officielles de l'UE (soit 22 à ce jour) sont couvertes, ainsi que le croate et le serbe. Un lien conduit vers d'autres versions linguistiques hébergées à l'extérieur : le russe et deux langues régionales (catalan et basque).

Droit : Les mentions juridiques sont bien précisées, avec une grande liberté d'utilisation de ces données, offertes sous réserve que figure la mention «© Union européenne, 2010, http://eurovoc.europa.eu/». Une pratique bien utile, que d'autres administrateurs de vocabulaires pourraient appliquer.

Lire la suite

Guide du Getty sur les vocabulaires contrôlés

Le Getty vient (2010) d’éditer une version fortement remaniée de leur guide sur les vocabulaires contrôlés.

Ce nouveau guide – en version électronique et papier – présente les enjeux, les caractéristiques et les usages des vocabulaires contrôlés en recherche et indexation, dans le domaine du « patrimoine culturel et artistique ». 

Lire la suite

Consulter et commenter en ligne le projet ISO DIS 25964-1 sur les thésaurus

The English people impress me (Les Anglais m'impressionnent) !

Le BSI – British Standard Institution, nous propose le projet de norme ISO DSI 25964-1 sur les thésaurus, en ligne sous la forme d'un document manipulable, à partir de la table des matières qui est – selon les règles de l'ISO -finement structurée. 

En fait, ce document numérique structuré est accessible sur le site du BSI entièrement dédié depuis 2008, aux projets de norme, consultables et commentables en ligne.

Ceci nous/vous permet : 

– de lire la norme !

– d'étudier les commentaires des autres

– de commenter

Le support pdf ou papier du projet de norme est disponible au BSI pour les non-membres (faut-il être anglais ? je le ne pense pas) à environ 40 euros, au lieu de 65 euros sur le site de l'ISO.

La clôture des commentaires est prévue pour le 28/02/2009 (la fin de la période officielle est fin mars), ceci pour laisser le temps au groupe anglais de traiter ces informations…. et de sélectionner dans ce corpus ce qu'ils feront remonter comme "British Comments".

Je vais également exploiter cette plateforme…. De plus en tant que responsable du groupe français pour ce projet de norme, j'utiliserai également les commentaires diffusés pour enrichir les commentaires français.

N'hésitez donc pas.

PS : le site ISO 25964 sur le NISOhttp://www.niso.org/schemas/iso25964/

Ajout du 25/12/2009

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus pour la recherche et les points communs ou de divergences avec la norme NF 47-100:1981
http://www.slideshare.net/Dalb/presentation-du-projet-de-norme-iso-dis-259641-sur-les-thsaurus