Thésaurus et autres schémas de concepts : documents normatifs

Liste des normes ou documents normatifs, quels que soient leur état et leurs origines, concernant les thésaurus, plus globalement les vocabulaires contrôlés et les index.
Création : le 18 août 2005. Dernière mise à jour : août 2014
Mise à  jour : 20 Novembre 2005 ; 15 Avril 2006 ; 10 Novembre 2007, août 2008; ocotbre 2009; août 2010 ; mars 2013 ; août 2014


  1. Normes sur les thésaurus et autres schémas de concepts
  2. Schémas XML et autres outils associés
  3. Normes nationales sur les thésaurus
  4. Autres normes en proximité

Lire la suite

Publicités

CMIS – Interopérabilité chez les CMS (système de gestion de contenu)

CMIS (Content Management Interoperability Standard) est une spécification d'OASIS en phase de commentaire public : vous avez jusqu'au 22 décembre 2009 pour donner votre avis.

CMIS est une spécification technique conçue pour favoriser l’interaction entre systèmes de Gestion de Contenus via des Services Web pour permettre une intégration plus aisée dans les infrastructure "documentaire" des entreprises et faciliter l'interopérabilité entre les systèmes eux-mêmes.  Cette spécification est indépendante de l’architecture du serveur d’application implémentée dans les CMS.
Les participants : IBM, EMC, SAP, Open Text, Microsoft ainsi que plus récemment les éditeurs de logiciels libres comme Alfresco et Nuxeo.

Premier apport : CMIS inclut la prise en compte de SOAP (pour la transmission de messages entre objets distants bati sur XML) et REST/ATOM.
ATOM, le format de syndication, on connaît.
REST ("Representational State Transfer") me plaît beaucoup. C'est plus un style, une démarche d'architecture technique qu'une architecture à proprement parlé.  Il s'agit de suivre les principes de : "fonctionnement d'une application Web bien construite […..] un réseau de pages Web (…) où l'utilisateur progresse dans l'application en cliquant sur des liens (…) ce qui provoque l'affichage de la page suivante (représentant le nouvel état de l'application) à l'utilisateur qui peut alors l'exploiter" (T.Fielding). Les fondamentaux du développement autour du Web : URI comme syntaxe universelle pour adresser les ressources, HTTP,  des liens hypermedia dans des documents (X)HTML et XML, et les types MIME pour la représentation (encodage) des ressources. Des bonnes pratiques. Simple, robuste, extensible (normalement).

Cette spécification s'appuie sur ces principes, et propose tout d'abord (Chapitre 2. Domain model) un modèle de données (2.1.) – avec un entrepôt (repository), des objets "document" et des objets "dossiers" et leurs attributs, des relations parents-enfants (les associés, trop compliqués, je suppose), le contrôle des accès, le versionning.

Attention à la terminologie employée en lisant ces spécifications : MAY/MUST/SHOULD => PEUT (éventualité), DOIT (obligation), DEVRAIT (conditionnel). C'est l'objet de la norme rfc2119 (eng)  (rfc2119 brièvement exposée ici en Français).

Je m'intéresse toujours à la RECHERCHE…ce qui bien sûr n'est pas le propre des CMS….mais stocker pour stocker, ce n'est pas non plus l'idéal.

Question "recherche", on nous annonce que le CMIS suit le SQL-92 (1992), mais …. on ne prend pas tout dans ce standard de 1992, et on ajoute surtout de nouvelles fonctionnalités ! La grammaire de base de SQL-92 reste toutefois valable. Je suppose que cela veut dire que de nombreux développeurs pourront prendre en main ce (futur) standard ?  C'est une bonne chose.

Alors fonction de recherche, ou plutôt ici fonction de "requêtage" (Chapitre 2.1.10 query) : on retrouve ce que l'on a mis dans un entrepôt, sous la même forme et lorsqu'elle existe, à partir de l'organisation hiérarchique ! Heureusement quelques ajouts au SQL (CMIS-SQL Extension) dont :
– l'expression d'une requête "plein texte" (MAY seulement) avec : la formulation de la requête "entre guillemets", et (seulement) OU et AND.  (bien sûr, la recherche "plein texte" existe aujourd'hui pour SQL, mais n'existait pas dans sa version de 1992). Je suis toujours dubitative du "texte intégral" avec SQL, mais cela doit suffire dans de nombreux cas.
– On peut ajouter dans des fonctions de comparaison mais seulement MAY et SHOULD (et non MUST) : IN, LIKE et NOT.
Ainsi que définir les "Membres d'un dossier" (folder membership) ou "Ordonnancer les objets".

Au requêtage type SQL, CMIS popose en sus des services web (chapitre 2.2) associés aux objets définis dans le modèle, dont :
– des éléments de base communs à plusieurs services web, dont un élément servant à récupérer d'autres informations sur les objets (2.2.1.2. Retrieve additional info…) : par exemple retrouver les relations dans lesquelles les objets participent. (2.2.1.2.2.) , le rendu/présentation/restitution (renditions) des objets
– Un Service web pour la navigation (2.2.3) au sein de l'arbre hiérarchique (parent, enfant, descendants).
– Un autre service propose un requêtage pour "search for query-able objects within the Repository" (2.2.6). Donc ici on initie le processus en identifiant d'abord l'entrepôt à exploiter, et en actionnant des filtres (les versions de documents, les relations…).

Deux mises en oeuvre sont proposées dans les chapitres 3 et 4 :
– le premier qui s'appuie (obligatoirement MUST) sur Atom (RFC4287) et sur le protocole de publication de documents Atom (RFC5023), ATOM étant également un standard d'OASIS
– le deuxième prend en charge tous les services et toutes les opérations définie dans la Partie 1 de la spécification CMIS – je n'arrive pas à voir à quoi correspond cette "Part I" : est-ce bien tout le chapitre 2 ou une partie seulement de ce chapitre 2 ?

Les CMS se parlent entre eux. C'est bien. La recherche fédérée sera probablement plus aisée.
Par contre, j'attends d'éventuelles relations entre ce TC et l'autre TC d'OASIS qui nous (me) concerne plus, sur les Search Web Services (SRU-Search/Retrieval via URI ou CQL – context query language)

Note aux afficionados du RM
Vous pouvez aller au chapitre "2.1.9. Versionning", et peut être aussi étudier ce qui est proposé pour le "journal des modifications" (MAY seulement) ?

D'autres liens
CMIS v1.0. en ligne http://docs.oasis-open.org/cmis/CMIS/v1.0/cd04/cmis-spec-v1.0.html
Examen public de CMIS v1.0. – http://lists.oasis-open.org/archives/tc-announce/200910/msg00015.html (vous trouverez ici les localisations de différents schémas XML)
La rubrique Documents publics du TC CMIS
http://www.oasis-open.org/committees/documents.php?wg_abbrev=search-ws

Comparaison CMIS / JCS, JCS – la solution actuelle entièrement sous Java (document du 24/06/2009, voir planches 33-44  (JCR pour tout type de besoins versus CMIS spécifiques au CM)

Mises en oeuvre Joomla/Afresco ou Drupal/Afresco (vu chez SMILE) http://blog.smile.fr/cmis-une-future-norme-deja-appliquee
Ever Team annonce également une API, ainsi que Sharepoint http://www.iptech-offshore.net/blog/2009/11/20/cmis4sharepoint/

Consulter et commenter en ligne le projet ISO DIS 25964-1 sur les thésaurus

The English people impress me (Les Anglais m'impressionnent) !

Le BSI – British Standard Institution, nous propose le projet de norme ISO DSI 25964-1 sur les thésaurus, en ligne sous la forme d'un document manipulable, à partir de la table des matières qui est – selon les règles de l'ISO -finement structurée. 

En fait, ce document numérique structuré est accessible sur le site du BSI entièrement dédié depuis 2008, aux projets de norme, consultables et commentables en ligne.

Ceci nous/vous permet : 

– de lire la norme !

– d'étudier les commentaires des autres

– de commenter

Le support pdf ou papier du projet de norme est disponible au BSI pour les non-membres (faut-il être anglais ? je le ne pense pas) à environ 40 euros, au lieu de 65 euros sur le site de l'ISO.

La clôture des commentaires est prévue pour le 28/02/2009 (la fin de la période officielle est fin mars), ceci pour laisser le temps au groupe anglais de traiter ces informations…. et de sélectionner dans ce corpus ce qu'ils feront remonter comme "British Comments".

Je vais également exploiter cette plateforme…. De plus en tant que responsable du groupe français pour ce projet de norme, j'utiliserai également les commentaires diffusés pour enrichir les commentaires français.

N'hésitez donc pas.

PS : le site ISO 25964 sur le NISOhttp://www.niso.org/schemas/iso25964/

Ajout du 25/12/2009

Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus pour la recherche et les points communs ou de divergences avec la norme NF 47-100:1981
http://www.slideshare.net/Dalb/presentation-du-projet-de-norme-iso-dis-259641-sur-les-thsaurus

Parution de la norme ISO DIS 25964 (thésaurus)

MAJ de Janvier 2012

ISO 25964-2 – Thésaurus et interopérabilité avec d'autres vocabulaires – DIS – Enquête publique 

MAJ de Décembre 2011

ISO 25964-1(2011) – Thésaurus pour la recherche documentaire" : publication août 2011 

 


MAJ de Mars 2011

N'attendons pas la publication officielle de la norme ISO – qui semble s'éterniser, et commençons à travailler sur le fond.
  • Un atelier à l'ADBS sur la norme ISO 25964-1 sur les thésaurus présenté par Hélène Zysman et Hélène Rabault, le 15 février 2011 (sur slideshare)
  • Une présentation de cette norme à l'attention d'éditeurs de logiciels (sur slideshare)

 


MAJ de Janvier 2011

Le document de norme en projet FDIS a été approuvé pour publication le 23/12/2010.

Nous attendons donc sa publication prochaine en tant que norme ISO 25964-1 – Thesauri and interoperability with other vocabularies: Thesaurus for information retrieval, en anglais donc. Nous essayons de produire une version en Français (les bonnes volontés sont très attendues…).

Et je le voie seulement maintenant que le titre sur le site de l'ISO n'a pas été traduit en français comme le groupe d'expert l'avait demandé !! Oh les joie de l'ISO/Afnor !!


MAJ de Juillet 2010 

Après une phase de commentaires publics, le projet est en phase DIS – Draft Int. Standard.http://www.iso.org/iso/iso_catalogue/catalogue_ics/catalogue_detail_ics.htm?ics1=01&ics2=140&ics3=20&csnumber=53657

La deuxième partie de ce projet de norme est en cours de production.Part 2: Interoperability with other vocabularies


 MAJ du 29/12/2009
Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus pour la recherche et des points de convergence/divergence avec la norme NF 47-100:1981http://www.slideshare.net/Dalb/presentation-du-projet-de-norme-iso-dis-259641-sur-les-thsaurus

Mise à jour 20 Novembre 2009
Norme en anglais en ligne (après simple inscription sur le site du BSI) : http://drafts.bsigroup.com/?i=517  [Fermé fin mars 2010]
Autres documents en français sur Delicious


Après SKOS en août 2009 qui est devenue une recommandation du W3C, voici venir la norme ISO DIS 25964-1 sur les thésaurus.
Pas de doublon, mais deux documents à caractère normatif qui se complètent. D'ailleurs, beaucoup au sein du Groupe ISO sur les thésaurus ont également participé aux réflexions et échanges sur SKOS.

La norme ISO DIS 25964-1 vient remplacer deux (très) anciennes normes, l'une sur les thésaurus monolingues (ISO 2788:1986) et l'autre sur les thésaurus multilingues (ISO 5964:1986).

ISO DIS 25964-1 
– Information and documentation — Thesauri and interoperability with other vocabularies — Part 1: Thesauri for information retrieval
– Information et documentation – Thésaurus et interopérabilité avec d'autres vocabulaires — Partie 1: Thésaurus pour la recherche documentaire

Nous avons 5 mois (jusqu'en mars 2010) pour commenter.

Et pour vous appâter, le sommaire de ce document :

Introduction viii
1 Scope 1
2 Definitions 1
3 Symbols, abbreviations and other conventions 10
4 Thesaurus overview and objectives 13
5 Concepts and their scope in a thesaurus 15
6 Thesaurus terms 18
7 Complex concepts 31
8 The equivalence relationship, in a monolingual context 37
9 Equivalence across languages 41
10 Relationships between concepts 48
11 Facet analysis 58
12 Presentation and layout 60
13 Managing thesaurus construction and maintenance 78
14 Guidelines for thesaurus management software 88
15 Data model 93
16 Integration of thesauri with the applications that use them 106
17 Exchange formats 109
18 Protocols 110
Annex A (informative)  Examples of displays found in published thesauri 112
Annex B (informative)  XML Schema for data exchange 130
Bibliography 131
Index 135

 

Pour les professionnels (et les formateurs) des changements importants, un peu plus encore pour ceux qui utilisaient la norme NF Z 47-100:1981 : distinction formalisée entre concepts et termes, enrichissement des types de relations, facette, ….Cette version, à la suite de la norme américaine sur les thésaurus de 2005, intègre des recommandations concernant les logiciels de gestion et l'intégration de thésaurus dans des applications.
Le modèle de données constitue une bonne source de travail pour les développeurs (ne pas hésiter à diffuser largement). Mais ce chapitre est également un bon outil de travail pour les professionnels pour comprendre les évolutions. Enfin le schéma XML n'est pas encore testé et n'est pas encore proposé dans le DIS.

Je rappelle que ce document ne constitue que la première partie de la norme, qui sera complétée par une deuxième partie sur l'interopérabilité avec d'autres thésaurus. Nous venons de démarrer ces travaux…

Le groupe français qui travaille sur cette norme prépare un document de communication sur la norme.

Mais n'hésitez pas à en faire l'acquisition (pour la somme de 65€ ou 98 F suisses sur le site de l'ISO), et à le commenter, même de façon partielle.
A suivre.

La nouvelle norme américaine sur les vocabulaires contrôlés (NISO Z39.19-200x)

La proposition d’évolution de la norme sur les thésaurus faite par la NISO (National Information Standards Organization) a été approuvée en Juillet 2005 par l’ANSI (American National Standards Institute).
Elle est encore en accès libre (et gratuit) sur le site de la NISO avant publication officielle (elle sera alors payante ;-).

La NISO  « repère, développe, maintien et publie des normes techniques
pour le management de l’information dans un environnement évolutif et
toujours plus numérique qu’est le notre (libre traduction de About NISO) ». NISO représente les USA auprès de l’ISO/TC46 (Information & documentation).
Bref un regroupement professionnel autonome par rapport à la structure officielle de normalisation.

Une vaste étude avait été engagée dès 1999 au sein de l’ANSI. Les résultats montraient  qu’un simple « toilettage » de la norme n’était pas suffisant. D’où des changements importants :

  • D’abord sur le territoire de la norme : du thésaurus, on passe à une prise en charge des vocabulaires contrôlés, c’est-à-dire des thésaurus mais aussi des lexiques, listes de synonymes et taxonomies, les règles portant sur les termes étant considérés comme identiques pour ces différents vocabulaires. D’où le titre de la nouvelle norme Z39.19 : « Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies ».
  • Rigueur et précision dans la présentation du coeur de la norme (les termes, leurs relations);
  • Officialisation, sous la forme d’une notation spécifique, des relations partitives (TGP/TSP) et d’instance (TSI/TGI).
  • Une prise en compte de la diversité des publics : gestionnaire/éditeur ou utilisateur final, et de celle des supports (papier, écran, Web) pour la présentation des vocabulaires.
  • Les questions liées à l’interopérabilité fait l’objet d’un chapitre autonome.
  • Un autre chapitre traite de la construction et de la maintenance des vocabulaires contrôlés. Ce dernier inclut une liste de fonctionnalités que devraient posséder les outils informatiques de gestion des langages.

Complétée par de nombreux exemples (qui ne sont pas officiellement inclus dans la norme) et rédigée avec un souci de clarification voire pédagogique, la norme ainsi enrichie, totalise…. 188 pages.
Bonne lecture !