Le TAG – Thésaurus de l’activité gouvernementale du Québec : retour d’expérience

Annonce octobre 2014 :  Mai 2012 – Je vous avais parlé du TAG (Thésaurus de l’activité gouvernementale) du Québec. Octobre 2014 : diffusion au format skos de ce thésaurus : http://www.thesaurus.gouv.qc.ca/tag/consultation/oa.do.
Adresse de déchargement direct – http://www.thesaurus.gouv.qc.ca/tag/tag_skos.xml

Lire la suite

La Télévision dans le Web – LinkedTV

Raphaël Troncy nous exposait en 2005 dans la revue Documentation de l’ADBS, les applications des technologies du web sémantique aux documents audiovisuels.  10 ans plus tard, poursuivant ses travaux sur ces thématiques au sein d’Eurecom, voici venu le temps des réalisations et des démonstrations concrètes : d’une présentation générale en 2005 de ces technologies et des scénarios envisageables, nous voici donc avec une plateforme basée sur une ontologie informatique et appuyée par des traitements automatiques d’extraction d’entités nommées, permettant d’exploiter des ressources audiovisuelles sur le web.

Lire la suite

De retour de WebSem Pro 2012

Les présentations de SemWebPro 2012 sont en ligne – séminaire et ateliers.

Merci aux organisateurs et aux participants pour cette excellente journée.

Mes prises de note sur la première journée de conférence du 2 mai.

Lire la suite

Outils sémantiques – linguistiques

Répertoire d’outils – Mise à jour : 30 Avril 2012 ; 12 nov.2012; En cours de mise à jour (fin 2018)

  1. Plateformes linguistiques (TALN)
  2. Résumeurs  automatiques
    1. Produits commerciaux ou applications en ligne 
    2. Systèmes « R&D »
    3. Produits non accessibles
  3. Ressources bibliographiques
    1. Généralités
    2. Résumé automatique

Des solutions embarquant de la linguistique comme celles proposées par Erli(1) dès 1977, ou des produits comme SPIRIT (1979-80) ou Cora (1983)  ont été utilisés assez tôt en recherche documentaire (y compris sur « mainframe »). Des tests à l’époque portait aussi sur l’indexation (semi)automatique en vue de diminuer les coûts et délais de cette activité (article, 1989, pdf).  Puis dès la fin des années 1990 sont apparues des solutions pour résumer automatiquement un document puis plusieurs documents (voir les billets (1) et (2) sur ce site).

Aujourd’hui les offres, intégrant ces technologies sémantiques (statistiques, linguistiques) devenues matures, se multiplient et les applications pourraient et devraient se déployer plus fortement. se sont développées dans toutes les directions…

Cette liste proposée ici regroupe quelques outils disponibles sur le marché français, sans aucune prétention à l’exhaustivité, ainsi que quelques ressources bibliographiques. En particulier reste à revoir certains usages précis : la textométrie, la recherche d’information (moteur),…

Lire la suite

Le TAG, le thésaurus de l’activité gouvernementale du Québec

Note : Billet complémentaire (Témoignage et SKOS)

Les actions du gouvernement du Québec en vue de se doter de politiques et d’outils communs pour administrer et valoriser l’information produite dans le cadre de ses activités est déjà ancienne. Un premier « Chantier en ingénierie documentaire » avait été initié en 1997.

Plusieurs actions (projets) se sont succédées, prenant appui sur les résultats des travaux précédents (je suis admirative…). Le dispositif prend en charge les multiples facettes de cette problématique documentaire. Tout est exposé sur le site des Services gouvernementaux, à la rubrique  Administration électronique et plus particulièrement Gestion intégrée des documents, formulation prisée par les québecois.

Ce chantier d’ingéniérie documentaire (de longue haleine) se poursuit avec par exemple une publication en 2010 sur les   « Orientations pour la gestion documentaire des courriels au gouvernement du Québec (datée de janvier 2009).

Dans le document de référence CRGGID  de 2004 en ligne (pdf), se trouve une annexe assez précise concernant l’une des 12 recommandations et qui porte sur le Thésaurus de l’activité gouvernementale : le TAG.

Thésaurus de l’activité gouvernementale (p.143)
Recommandation 3: Le thésaurus de l’activité gouvernementale (TAG) semble être un concept rassembleur et fédérateur d’efforts au sein de l’appareil gouvernemental. Il faut poursuivre le  développement, le déploiement et l’intégration de cet outil qui sensibilise de façon très concrète et éloquente aux problématiques de gestion de l’information et de contrôle du vocabulaire.

Lire la suite

SemWeb Pro 2012

SemWeb Pro 2012, c'est une journée de conférence (02 mai 2012) et une journée de tutoriels (03 Mai 2012) sur Paris (FIAP), pour faire se rencontrer les professionnels du Web Sémantique, à savoir :

  • les praticiens des systèmes d'info-doc/connaissances souhaitant faire évoluer leurs environnements techniques et/ou chef de projet (et pas que des informaticiens) – un public totalement oublié dans la présentation de ces journées !!  Alors que la 1ère journée, en particulier, leur est totalement ouverte selon moi…
  • les membres de la communauté scientifique
  • les industriels ayant mis ou désireux de mettre en œuvre ces nouvelles techniques.

Je suis enchantée de voir un programme riche en retours d'expérience (première journée) avec bien sûr les inconditionnels (DBPedia, BPI et 2 papiers rien que pour la Bnf !), mais surtout des présentations qui montrent que les applications se déploient dans tous les environnements de travail :

  • Linked Enterprise Data : les données au cœur de l’entreprise ! (F.Lacroix), ce qui va dans le sens du papier rédigé fin 2011 sur le web sémantique/de données dans l'entreprise (numéro spécial de Documentaliste), 
  • L'entrepôt RDF développé à Supelec (UNT) - http://semunt.supelec.fr/portal/
  • La description des gammes d'automobiles de Renault

2 présentations plus techniques mais qui concernent tout le monde : 

  • en amont des processus  d'accès : un projet Apache, Stanbol, d'automatisation de la création de liens entre les données (basé sur OpenNLP)
  • en aval des processus d'accès ;  un outil de visualisation des graphes, Protovis (http://mbostock.github.com/protovis/

La table ronde qui se déroule la première journée sera consacrée à "L'open data peut-il se passer du web sémantique ?".

Les tutoriels me semblent également très bien couvrir les besoins. Ce sera l'année schema.org apparemment (on en reparlera à i-expo2012).

Le programme: http://www.semweb.pro/conference/semwebpro2012

Merci aux organisateurs !

Ingénierie sémantique et sociale – séminaire IRI-MuseoWeb du 11 mars 2012

Comment les musées peuvent articuler leurs collections avec des plateformes contributives ? 

Telle était la question posée aux intervenants pour cette 5ème séance 2011/2012 de MuséoWeb. Une suite plus technique que la séance du 12 Février 2012 (sur ce blogue), qui rebondit sur l'apport de Wikipédia/DBpédia.

N'hésitez pas à vous ballader dans la vidéo twittée. J'utilise cette vidéo annotée pour compléter ma prise de note, parfois déficiente…. Comme dans la vraie vie, des infos "sérieuses" (dont certaines n'avaient pas été tracées par ma plume) et des tranches de rigolades. Je suis admirative de ceux qui arrivent, sur le vif et en quelques mots, à rebondir sur des propos ou des situations.  

On aura le temps d'aborder Polemic Tweet à la prochaine séance, mais pendant que j'y suis — sur PolemicTweet en situation de lecture des tweets : il me manque un "sommaire" pour passer d'un intervenant/sujet à un autre sans être obligé de faire diffuser la vidéo. (d'ailleurs la vidéo, je n'ai pas réussi à la faire fonctionner) - http://polemictweet.com/2011-2012-museo-ingenierie/client.php. 

Dans le désordre par rapport à l'ordre de passage.

Lire la suite

Dynamique de contribution avec les publics – retour d’un séminaire IRI du 14 fév. 2012

Muséologie, muséographie et nouvelles formes d’adresse au public : un rapide retour du séminaire du 14 Février 2012, à l'IRI

Cette 4ème séance  du séminaire Muséologie 2.0 était intitulée "Comment la dynamique de contribution peut-elle converger avec l'indexation et la mise en place par les musées".

Rapide tour de piste des 5 interventions :

1. Stratégie de notoriété de photographes via Flickr, par Maxime Crépel

2. Flickr Commons par Patrick Peccatte (SoftExperience)

3. Fonds Trutat sur Commons / Flickr et Wikimédia, Bibliothèque de Toulouse, par Pascal Krajewski

4. Wikimédia Commons, par Jean-Frédéric Berthelot (Wikimédia France)

5. La (future) plateforme collaborative de la Cité de l’immigration, par François Queré et Renaud Sagot

6. La notion d’autorité et d’identifiant dans l’écosystème du Web par Romain Wenz (BNF)

 


Lire la suite

Logiciel de création et maintenance de thésaurus et taxonomies


Création : le 5 janvier 2006 – Dernière mise à jour : Juill.2018 et janv.2019 (liens contrôlés)
Mise à jour : 03/03/2008, 11/2009,
15/09/2010 ; Janv.2011; Avril 2011; Déc 2011, Août 2011, Juillet 2013, Août 2014; mars 2016 ; mai 2018

N’hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb


La construction et la maintenance d’un thésaurus, ou plus globalement d’un vocabulaire organisé et contrôlé à des fins d’organisation et d’accès à l’information, nécessitent l’adoption de règles et de fonctions applicatives spécialisées.

Ce secteur de l’édition de progiciel peut être scindé en France en trois catégories principales selon le degré d’autonomie ou l’orientation (gestion, utilisation) du module applicatif :

  • Les « modules Thésaurus » de logiciels de gestion et recherche documentaires, ou aujourd’hui, les modules dits « Taxonomie » de CMS (avec pour ces derniers des fonctions certes plus ergonomiques mais souvent moins riches) ;
  • Des outils d’exploitation de thésaurus en ligne
    (la première famille citée intègre bien souvent ce type de module fonctionnel) ;
  • Des logiciels autonomes (« standalone » en anglais) qui assurent la conception, la gestion et la diffusion de vocabulaires.

Voici une liste de logiciels appartenant à cette dernière famille.

Ces logiciels offrent l’ensemble des fonctionnalités utiles à la création et à la maintenance de vocabulaires contrôlés et suivent les normes de thésaurus (avant 2011). Ces outils sont vendus indépendamment de tout logiciel documentaire ou plateforme (moteur) de recherche – ce qui ne veut pas dire qu’ils ne nécessitent pas un SGBD pour tourner.

[Nom du produit, nom de la société, pays d’origine, plateforme du serveur ou pour l’offre autonome, adresse Web, export [SKOS]
(*)
offre d’outils automatiques

Visualiseur de vocabulaire

Quelques produits en mutation ou supprimés

Quelques mots sur ces produits

  • Une famille de quelques logiciels, immuables pendant 30 ans, qui se sont transformés au fur et à mesure des évolutions techniques. Et qui continuent à se transformer …
  • A cette famille historique s’ajoutent depuis 10 ans de nouveaux entrants dans la mouvance des techniques du Web (skos, ontologie, indexation automatique, extraction automatique)
  • Le marché peut être appréhendé en fonction de l’étendu des fonctionnalités proposées. Entre :
    • des produits offrant des fonctionnalités strictement de production, d’exploitation et de diffusion de vocabulaires.
    • des produits offrants d’autres modules complémentaires : classification automatique, alignement, … (marqués dans la liste par le signe (*).
  • Deux axes d’évolution :
    • l’utilisation des technologies informatiques les plus récentes : éditeur SKOS (un modèle de données simple), XML, intégration et/ou articulation avec des fonctions d’édition d’ontologies,…
    • une meilleure prise en compte des besoins dans la phase de création et de maintenance de vocabulaires : import, multilingue, champs spécifiques de gestion, gestion du travail, gestion de travail collaboratif/workflow ; outils de mise en correspondance….
  • Certains produits nécessitent un système de gestion de base de données en sus ….Attention donc à certains tarifs dans le cas de bases de données propriétaires.
  • L’offre en services en ligne arrive (depuis 2011).
  • Les prix varient beaucoup. Pour des versions monopostes, le produit de base (donc « nu ») : gratuit (The32W, un produit open source comme Tematres), 300€  (MultiTes, Amicus Thesaurus Tool), 500 (Multites) à 1300€ (Lexaurus) ou plus pour une version monoposte ; au-dessus de 3000€ pour des  versions en réseau. Au-delà de 25000€ pour des distributions sur des intranets d’entreprise. Les tarifs varient également suivant les fonctionnalités couvertes (création, consultation publique, exploitation à l’indexation ou à la recherche,…). Compter aussi la maintenance en sus.
  • Concernant les fonctionnalités, on repère un noyau dur, commun à tous ces produits : les normes de construction de thésaurus constituent un cadre formalisé pour le modèle des données métiers avec des variations possibles (plus ou moins grandes possibilités de personnalisation et prises en compte des caractéristiques des divers types de langage dont la nouvelle norme ISO de 2011). Mais certains offrent des fonctions de gestion de la structure de description de thésaurus, voire uniquement des fonctions d’exploitation d’un thésaurus, mais sans fonction d’aide à la conception ou à la maintenance dans le temps (trace des versions,…). Les outils les plus récents intègrent des possibilités de modélisation plus poussées (base de connaissance, référentiels pour des usages multiples, ontologies).
  • Certaines fonctionnalités feront la différence comme : la diversité de formats d’import/export (dont txt ou tableur…) ou une réelle gestion de versions multilingues de thésaurus (et non uniquement une équivalence entre termes), ainsi que la dénomination ou la présence de champs spécifiques ou paramétrables, la variété du typage des relations ou encore l’ergonomie fonctionnelle – en particulier les capacités d’import de données et d’aide à la création. Certains outils proposent aujourd’hui des modules de gestion du travail de maintenance en réseau (workflow plus ou moins paramétrables).
  • L’ergonomie visuelle de ces produits est variable, et pour les outils les plus anciens, datée.
  • La deuxième catégorie citée – de visualisation et/ou de manipulation à la recherche d’un thésaurus – se développe suivant en cela le déploiement de l’utilisation de ces systèmes d’organisation des concepts (SKO=SOC) sur le Web. Ces développements se font bien souvent indépendamment du logiciel de conception. Nous pouvons citer SKOS Play, un service Web qui permet de visualiser un vocabulaire sur le Web – http://labs.sparna.fr/skos-play/about?lang=fr

Publications concernant les outils de gestion de vocabulaires (rubrique à réviser  – prochainement)

N’hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb

 

> Logiciels pour vocabulaires orientés « organisation et recherche »


Regroupements de différents billets sur le thème des logiciels pour vocabulaires dédiés à la recherche d’information
Création : 27 Janvier 2010. Mis-à-jour: août 2014
Voir aussi sur Descripteurs – Logiciels de création et maintenance de thésaurus (2016) 


Par vocabulaires, nous nous limitons ici aux thésaurus et autres répertoires de concepts/termes utilisés dans des dispositifs informationnels et documentaires. Ce sont :

  • des listes de concepts
  • organisés entre eux par différents types de relations (hiérarchiques, associatives, équivalence, ou plus spécialisées : cause/conséquence, historique,…)
  • caractérisés par différents attributs spécifiques à la catégorie de concepts (date de création pour des noms d’organismes, lieu pour la localisation d’un monument, appartenance à un ou plusieurs domaines d’activité …),
  • représentés en général par des termes ou des notations

Un autre terme rencontré est celui de référentiel ou référentiel terminologique (https://www.diigo.com/user/dalbin/Dalbin%28nom%29%20r%C3%A9f%C3%A9rentiel-termino%28sujet%29).

Des logiciels ou applications en ligne couvrent cinq grandes familles de fonctions dédiées à ces vocabulaires :

  1. Concevoir un vocabulaire ;
  2. Aligner des vocabulaires entre eux ;
  3. Gérer un ou plusieurs vocabulaires ;
  4. Exploiter (en recherche) un vocabulaire ;
  5. Communiquer un vocabulaire.

A ces fonctionnalités liées aux vocabulaires, certains produits offrent des modules de gestion du travail en équipes (workflow, collaboratif).

En France traditionnellement (depuis 30 ans), la gestion informatisée des thésaurus s’effectue au moyen d’un module particulier des logiciels documentaires. Ces modules ne sont pas utilisables de façon autonome, et leur coût d’acquisition ne se comprend que dans le cadre du développement d’une application documentaire (base documentaire, catalogue, portail). Ces « modules de gestion de thésaurus » couvrent des fonctions de gestion d’un vocabulaire déjà construit (étape 3) et d’exploitation (étape 4) dans le cadre d’une application documentaire particulière.

Les fonctions d’assistance aux étapes de conception (étape 1) et celles propres à la communication de ces ressources terminologiques (étape 5) sont respectivement très faibles ; et pour les fonctions d’édition/communication limitées; celles d’alignement (étape 2), plus récentes sont inexistantes ou font l’objet d’une offre de services dédiée.

Le monde anglo-saxon (UK, USA, mais aussi AUS) a toujours eu un marché de progiciels de gestion de thésaurus spécialisés utilisables de façon autonome. Les termes employés en anglais sont : « Thesaurus management software » ou « Software for building and editing thesaurus ». Ces applications sont centrées sur des fonctions d’aide à la conception ou au réengineering de vocabulaires (étape 1), leur gestion dans le temps indépendamment de leurs usages (étape 2), leur communication sous de multiples formes ce qui supposent des fonctions d’import/export et d’éditions variées. La souplesse fonctionnelle (typage des relations, personnalisation) permettent d’initier des activités d’alignement « simples » entre vocabulaires. Ce type d’outils spécialisés existaient également dans le monde germanique. Aujourd’hui, ce type d’outil est également exploité en France.

=> Sur Descripteurs – Logiciels de création et maintenance de thésaurus (2014)

L’appellation « Taxonomy Management Software » rend compte de l’évolution fonctionnelle vers un élargissement des types de vocabulaires pris en compte et vers une extension pour certaines offres à des automates pour des fonctions de catégorisation ou d’extraction automatiques d’entités par exemple.

Des standards ou normes existent pour concevoir les thésaurus (Norme ISO 25964-1) et les exploiter sur le Web (SKOS).

Les évolutions les plus récentes conduisent à une articulation ou une transformation de ces vocabulaires de nature essentiellement terminologique à des vocabulaires partagés et structurés de façon formelle (ontologies informatiques), des transformations adaptées d’une part au web (web de donnée et web sémantique) et aux applications ouvertes et interopérables (sortir des silos). Nous pouvons citer comme exemple public le travail réalisé au Ministère de la Culture et de la Communicationhttp://data.culture.fr/thesaurus/.