> Logiciels pour vocabulaires orientés « organisation et recherche »


Regroupements de différents billets sur le thème des logiciels pour vocabulaires dédiés à la recherche d’information
Création : 27 Janvier 2010. Mis-à-jour: août 2014
Voir aussi sur Descripteurs – Logiciels de création et maintenance de thésaurus (2016) 


Par vocabulaires, nous nous limitons ici aux thésaurus et autres répertoires de concepts/termes utilisés dans des dispositifs informationnels et documentaires. Ce sont :

  • des listes de concepts
  • organisés entre eux par différents types de relations (hiérarchiques, associatives, équivalence, ou plus spécialisées : cause/conséquence, historique,…)
  • caractérisés par différents attributs spécifiques à la catégorie de concepts (date de création pour des noms d’organismes, lieu pour la localisation d’un monument, appartenance à un ou plusieurs domaines d’activité …),
  • représentés en général par des termes ou des notations

Un autre terme rencontré est celui de référentiel ou référentiel terminologique (https://www.diigo.com/user/dalbin/Dalbin%28nom%29%20r%C3%A9f%C3%A9rentiel-termino%28sujet%29).

Des logiciels ou applications en ligne couvrent cinq grandes familles de fonctions dédiées à ces vocabulaires :

  1. Concevoir un vocabulaire ;
  2. Aligner des vocabulaires entre eux ;
  3. Gérer un ou plusieurs vocabulaires ;
  4. Exploiter (en recherche) un vocabulaire ;
  5. Communiquer un vocabulaire.

A ces fonctionnalités liées aux vocabulaires, certains produits offrent des modules de gestion du travail en équipes (workflow, collaboratif).

En France traditionnellement (depuis 30 ans), la gestion informatisée des thésaurus s’effectue au moyen d’un module particulier des logiciels documentaires. Ces modules ne sont pas utilisables de façon autonome, et leur coût d’acquisition ne se comprend que dans le cadre du développement d’une application documentaire (base documentaire, catalogue, portail). Ces « modules de gestion de thésaurus » couvrent des fonctions de gestion d’un vocabulaire déjà construit (étape 3) et d’exploitation (étape 4) dans le cadre d’une application documentaire particulière.

Les fonctions d’assistance aux étapes de conception (étape 1) et celles propres à la communication de ces ressources terminologiques (étape 5) sont respectivement très faibles ; et pour les fonctions d’édition/communication limitées; celles d’alignement (étape 2), plus récentes sont inexistantes ou font l’objet d’une offre de services dédiée.

Le monde anglo-saxon (UK, USA, mais aussi AUS) a toujours eu un marché de progiciels de gestion de thésaurus spécialisés utilisables de façon autonome. Les termes employés en anglais sont : « Thesaurus management software » ou « Software for building and editing thesaurus ». Ces applications sont centrées sur des fonctions d’aide à la conception ou au réengineering de vocabulaires (étape 1), leur gestion dans le temps indépendamment de leurs usages (étape 2), leur communication sous de multiples formes ce qui supposent des fonctions d’import/export et d’éditions variées. La souplesse fonctionnelle (typage des relations, personnalisation) permettent d’initier des activités d’alignement « simples » entre vocabulaires. Ce type d’outils spécialisés existaient également dans le monde germanique. Aujourd’hui, ce type d’outil est également exploité en France.

=> Sur Descripteurs – Logiciels de création et maintenance de thésaurus (2014)

L’appellation « Taxonomy Management Software » rend compte de l’évolution fonctionnelle vers un élargissement des types de vocabulaires pris en compte et vers une extension pour certaines offres à des automates pour des fonctions de catégorisation ou d’extraction automatiques d’entités par exemple.

Des standards ou normes existent pour concevoir les thésaurus (Norme ISO 25964-1) et les exploiter sur le Web (SKOS).

Les évolutions les plus récentes conduisent à une articulation ou une transformation de ces vocabulaires de nature essentiellement terminologique à des vocabulaires partagés et structurés de façon formelle (ontologies informatiques), des transformations adaptées d’une part au web (web de donnée et web sémantique) et aux applications ouvertes et interopérables (sortir des silos). Nous pouvons citer comme exemple public le travail réalisé au Ministère de la Culture et de la Communicationhttp://data.culture.fr/thesaurus/.

Publicités

Métadonnées (biblio)

En 2008 a été publié un ouvrage : Metadata.
Sobre : aucun sous-titre ou complément de titre !

ImagesMetadata de Marcia Lei Zeng et Jian Qin, Neal-Schuman Publishers, 2008
ISBN: 978-1555706357

Marcia Lei Zeng et Jian Qin sont respectivement professeure à la
School of Library and Information Science (LIS) de l'Université du Kent et
professeure associée à l'Institute of Information Studies de l'Université de Syracuse, ce
dernier institut regroupant des formations LIS habituelles et des cursus en
réseaux et télécommunications.

Cet imposant ouvrage (365 pages) fait le tour de la question sur les métadonnées
pour un public ayant à l'esprit le catalogue bibliographique. Ce qui selon
moi, réduit considérablement le périmètre réel du phénomène des métadonnées et
de tout les outillages associés (voir les activités depuis 10 ans du Metadata OpenForumhttp://tinyurl.com/chmvwf).
En effet, les deux éléments évoqués par les
auteures pour distinguer les principes des métadonnées de ceux du catalogage
restent complètement dans la lignée de la stricte référence
bibliographique (p8): tout d'abord naviguer de l'enregistrement (record) à la
ressource (mais pas à l'intérieur de celle-ci !) ; en second lieu l'automatisme
des processus directement à partir de la ressource.

Cette approche – surtout
le 1er point – me semble très restrictive car toujours en extériorité par
rapport aux ressources. Ce qui rejaillit bien sûr sur le contenu de l'ouvrage
qui aborde les schémas de métadonnées que l'on pourrait appeler de description externe
de ressources. Des langages comme la TEI ou DAISY (fr) pour les livres numériques ne
sont mêmes pas cités. Par contre sont exposés les schémas , maintenant traditionnels,
intéressants les musées (CDWA, VRA), les bibliothèques (LOM, MODS, MPEG7 ou PBCore)
ou le RM et les archives (EAD) ou plus largement pour des fonctions de préservation (OAIS). Ce qui est déjà pas mal.

Malgré cette restriction personnelle, cet ouvrage est très intéressant y compris pour ceux 
moins concernés par les schémas de métadonnées traités dans la partie 1. Sont
ainsi étudiés dans la partie 2 (chapitres 3 à 5) : la composition des schémas de métadonnées, des comparaisons sur
leur formalisme, la question d'interopérabilité entre éléments de données et
entre schémas de métadonnées, les espaces de valeurs…La partie 3 (chapitres 6 à 8) porte successivement sur les référentiels ou
registres, la qualité et l'interopérabilité.
L'ouvrage se termine par des perspectives portant sur l'architecture, la
modélisation et la sémantique.

Les auteurs ont souhaité faire un ouvrage utile aussi bien aux praticiens
qu'aux formateurs sur ce domaine. L'approche pédagogique est assez réussie. L'ouvrage est complété en ligne par un site compagnon agrémentés de quiz et d'exercices, ainsi que d'un wiki et d'un forum.

J'en profite pour citer d'autres ressources sur le sujet …

N'oublions pas les journées Inria de 2008 et l'ouvrage publié à cet occasion : Métadonnées : mutations et perspectives : Séminaire INRIA, 29 septembre-3
octobre 2008, Dijon par Lisette Calderan, Bernard Hidoine, et Jacques Millet,
Editions ADBS, 2008, 26€ – http://tinyurl.com/de7yut

Et en anglais:

100 Most asked questions on Meta how-to Management, Repositories, Software, Standards, Tools and Databases,
George Nelson
Tout est dit dans le titre. Je rajoute seulement que cet ouvrage est
constitué d'un ensemble de 110 "fiches" d'une ou deux pages, sur des points précis qui vont
de:Learning to Understand XMP Metadata , The Beauty of Interoperability
Metadata, Metadata in Today’s Digital Libraries, GIS Metadata Software
Tools, Customer Usage …
Pratique, d'un périmètre large, simple (il ne faut
pas s'attendre à des révélations), il ne vous en coutera que … 15,86€ en
version électronique ! Chez Lulu :
http://www.lulu.com/content/3895833

Introduction to
Metadata
de Tony Gill, Anne J. Gilliland, Maureen Whalen, and Mary
S. Woodley (Online version 3.0.); Edited by Murtha Baca – Datant dans sa 1ère version de 1998, ce
guide aujourd'hui accessible librement en ligne reste toujours
d'actualité.


Descriptive
Metadata for Television: An End-to-End Introduction,
Mike Cox (Auteur), Ellen
Mulder, Linda Tadic, Focal Press; 2006. Très
pertinent pour cet environnement professionnel.

Metadata in Practice de Diane I. Hillmann and Elaine L. Westbrooks, ALA Editions, 2004 –
http://www.alastore.ala.org/detail.aspx?ID=146

Metadata Fundamentals
for All Librarians
, de Priscilla Caplan, ALA Editions, 2003 (48$) –
(including the TEI Header, the Dublin Core, EAD, GILS, ONIX and the Data
Documentation Initiative)

Metadata and Its
Impact on Librarie
s
(Library and Information Science Text Series)de 
Sheila S. Intner, Susan i Lazinger, Jean Weihs, Libraries Unlimited; 1
edition,2005 (45$) –
http://www.amazon.fr/Metadata-Impact-Libraries-Sheila-Intner/dp/1591581451

Metadata and
Semantics
,
Sicilia, Miguel-Angel; Lytras, Miltiadis D., Eds.
Springer US, 2009, XVI, 552 p. – sur le site de l'éditeur –
http://tinyurl.com/cdumnq
Un ensemble de communications très riches et plus académiques.

D'autres repérés mais non (encore!) lus

Developing quality metadata : building innovative tools and workflow solutions / Cliff
Wootton, 2007. Sommaire alléchant…

Metadata :
for information management and retrieval
/ David Haynes, Facet, 2004. Manqué. Tarif rédhibitoire…Sur le Sudoc, il n'est qu'à Lyon, un peu loin…

Bonne lecture.

Conférence Internationale sur les Métadonnées pour la Photographie

Voici un compte-rendu de la 1ère Conférence Internationale sur les Métadonnées pour la Photographie qui s’est tenue en Italie à Florence le 7 juin 2007 (http://www.phmdc.org/). Cette conférence, organisée par l’IPTC et l’IFRA comme « invitée » pendant la conférence du Cepic 2007 (Coordination of European Picture Agencies Press Stock Heritage).

Ce compte-rendu a été établi par David Riecks, photographe (http://www.riecks.com/), créateur du site ControlledVocabulary.com, un lieu-ressource sur les vocabulaires contrôlés – listes, thésaurus et mots clés hiérarchisés pour la description de photos dans des bases de données. David est également l’animateur attentif et même pourrait-on dire, le coach du forum spécialisé du même nom (http://groups.yahoo.com/group/controlledvocabulary/).  Un site et un forum incontournables.

New au 6 juillet 2007 > Le compte-rendu en trois parties est en ligne sur le site de david http://www.controlledvocabulary.com/imagedatabases/phmdc_2007a.html

Merci à David de m’avoir autorisée à diffuser son compte-rendu.

La synthèse du compte-rendu !
Les photographes aiment qu’il y ait des métadonnées avec leurs photos, mais ils ont tendance à ne pas les intégrer spontanément….
Ils devraient pourtant insérer des métadonnées le plus tôt possible dans le processus, si possible pendant l’étape de capture de l’image, et il semble nécessaire de les former (D.Riecks)
Histoire (M. Steidl) et utilisation de différents jeux de métadonnées (Exif, IMM, IPTC Core, XMP…) depuis 1994 où le 1er jeu de métadonnées a été proposé (S.Span; J.Leidicke; R.Bacon). Présentation du schéma XML (G.Penikis) – Interopérabilité entre schémas : IPTC et XMP (P Krogh) et problèmes de récupération des données (P.Krog). Les métadonnées pour la gestion des droits des photos (J. Sedlik)
L’appareillage proposé pour l’alimentation des métadonnées (H.Schorr, C.Molinari, P.Stig, J.Weisberg).

La question de la poursuite d’un tel évènement a été posée pendant les échanges, sans qu’une décision soit prise. A surveiller.

Le compte-rendu de David Riecks …..

Lire la suite

Le 12 via le 018

Je fais suite à Abondance concernant l’annuaire (pages jaune/blanche électroniques)

Recherche
Abondance a pris comme exemple un nom « brezinski » offrant un lot
résultat de 11 noms seulement. Mais prenez donc un nom plus fréquent….
Même avec le mien pourtant pas très fréquent, vous avez 22
pages soit 216 réponses (au dessus de 500, le système ne répond pas).
Vous voyez deux choses :
– des numéros de particuliers en « 080 » sont présents. Mais sans savoir pourquoi, toutes les séries de numéros ne s’y trouvent pas. Comparaison avec l’annuaire d’Orange / France Telecom qui affiche aussi ces mêmes informations : sur Orange j’ai retrouvé ceux de Free, mais pas tous !?. Ces mêmes numéros affichés dans Orange sont absents du 118012. Mystère.
– comme le dit Abondance, la recherche s’effectue sur toute la fiche descriptive : « toubib versaille paris » vous offre toutes les combinaisons Nom-Rue-Ville. Heureusement car en fonction des sources, le nom et le prénom sont inversés (attention donc à l’ordre alphabétique). Mais toujours le même problème de bruit et volume des réponses avec des noms fréquents. Rien que Charpentier Emile (pris tout à fait au hasard) vous avez 15 pages, soit 147 noms que vous devez regarder les unes après les autres car vous n’avez pas de filtres (région, département). En rajoutant 06 pour le département, j’ai 117 réponses, avec comme premier nom, quelqu’un qui habite sur Emile Charpentier, le lieutenant.

On vous propose toutefois une « Recherche à l’ancienne » !!! , c’est à dire avec Formulaire.
Et bien mon Emile Charpentier dans le 06 vous donne 7 réponses.

C’est comme dans les catalogues, mon coeur balance entre les 2 Formules de recherche.
Quant utiliser l’une ou l’autre interface… en fonction de quoi ? de la probabilité d’avoir un lot résultat volumineux. C’est dire qu’il faut déjà bien connaître le système !
Lorsque les résultats dépassent un certain volume difficile à traiter à la main (100 ?), le système pourrait vous proposer le formulaire prérempli avec ce qu’il a compris de votre question, histoire de stimuler l’utilisateur. Mais nous n’en sommes pas encore là…

Autres fonctions intéressantes

118012 propose aussi la liste des annuaires du monde par pays. Très pratique.

Enfin le service propose d’autres fonctions qui n’existe pas dans le service d’Orange, comme celle de rapatrier une fiche soit dans un espace personnel (il faut s’inscrire pour cela) , soit sous forme d’un fichier à décharger. les formats proposés sont Outlook, Lotus Notes, Lotus organiser ou Palm destop. Derrière le mot Outlook, se cache en fait le format VCard, normalisé et qui sert pour tous les logiciels !
Il faut le savoir.

Lire la suite

Documents numériques: spécifications et normes

Demandé par certains, un inventaire de …. 42 normes, standards ou recommandations dans le domaine des documents numériques.
Un outil de travail à
l’attention des professionnels de l’infodoc.
(FT-normedocnum-ATD2006.pdf)

Le Web sémantique : quelques notions de base

Evoquant les thésaurus, on arrive immanquablement au Web sémantique.

Prenons un peu de temps pour dégrossir ce sujet avant de plonger dans les développement du Web qui concerne directement les vocabulaires contrôlés, tels les thésaurus, classifications et autres : le projet SKOS.

Mais qu’est-ce-que le Web sémantique ?
Une nouvelle méthode de management ? une technologie ?
Je dirais plus volontiers : un projet d’avenir, dont les propositions peuvent être exploitées comme cadre de développement de projets conduits aujourd’hui. Lorsque le projet porte sur des vocabulaires contrôlés d’accès à l’information, le Web sémantique oblige à plus de rigueur en particulier dans la sélection des concepts, des termes et des relations. Ce qui ne fait jamais de mal.

Si l’intérêt du Web sémantique dans le monde des langages est intéressant, cela nous oblige à faire un détour par le vocabulaire de ce domaine. Nous allons donc aborder URI, RDF, XML, PURL…

Lire la suite