Résumé automatique (2)

Ce billet "Résumé automatique (2)" correspond à une "note de lecture" publiée récemment dans Documentaliste – Sciences de l’information (2012, vol. 49, n°3, p. 14-15) et légèrement modifiée. Cette note s'appuie sur l'ouvrage récent de Juan-Manuel Torres-Moreno sur  le résumé automatique de documents.

La partie 1 présente un test fait avec le service en ligne d'Essential Summarizer de la société française Essentiel Mining, et donne quelques éléments sur les résumeurs autoatiques.

*****

Résumer automatiquement, un rêve pour certains devenu réalité. Un ouvrage récent de Juan-Manuel Torres-Moreno(1) dresse un panorama historique des différentes approches en mettant l’accent sur la dimension statistique des traitements.

« Réduire le contenu des documents » : activité phare des professionnels de l'info-doc, un des moyens pour valoriser les ressources et en faciliter l'accès. Les modalités pratiques de cette « réduction » ont évolué en fonction des périodes, besoins, contraintes et technologie : sommaire et table de fin de livre pour une publication, puis tables/index des titres, sujets, auteurs pour des collections, indexation par descripteurs, synthèse et résumé documentaires. Le résumé documentaire – analytique ou informatif, obligatoirement rédigé (pour le moment), met en évidence les informations quantitatives et qualitatives apportées par un auteur, et peut dans certains cas, remplacer le document analysé.

Progressivement, la machine a assisté l'homme. Mais ce qui n’était qu’un service accessoire dans les années 1980 devient aujourd'hui un élément décisif des dispositifs d'accès à l'information.

Alors, que peut faire la machine ? Pas tout, mais beaucoup…

Lire la suite

Résumé automatique (1)

Les volumes et les flux d'information sous forme textuelle impose une révision drastique de notre perception des modalités d'accès à l'information et des outils à déployer. C'est dans ce contexte que la production automatique de résumé mono- ou multi-documents devient, me semble-t-il une fonctionnalité décisive dans les dispositifs documentaires. 

Ce billet sur la production automatique de résumés, en deux parties, est le fruit d'une "note de lecture" publiée récemment dans Documentaliste – Sciences de l’information (2012, vol. 49, n°3, p. 14-15). Les contraintes éditoriales papier ne m'ont pas permis d'y intégrer des informations sur les logiciels et un test. C'est l'objet de ce premier billet, le second billet intégrera la note éditée dans Documentaliste, légèrement modifié.

Logiciels / applications

Les résumeurs automatiques sont proposés à la fois en ligne (SAAS) ou en local, en monoposte ou en serveur. On trouve à côté d'un certain nombre de produits commerciaux, des applications relevant de projet de recherche et développement. 

Lire la suite

> Outils sémantiques – linguistiques

Répertoire d’outils – Mise à jour : 30 Avril 2012 ; 12 nov.2012

 

  1. Plateformes linguistiques (TALN)
  2. Résumeurs  automatiques
    1. Produits commerciaux ou applications en ligne 
    2. Systèmes « R&D »
    3. Produits non accessibles
  3. Indexeurs automatiques
  4. Ressources bibliographiques
    1. Généralités
    2. Résumé automatique

Des solutions comme celles proposés par Erli dès 1977, ou des produits comme SPIRIT (1979-80) ou Cora (1983)  ont été utilisés assez tôt en recherche documentaire (y compris sur « mainframe »). Des tests à l’époque portait aussi sur l’indexation (semi)automatique en vue de diminuer les coûts et délais de cette activité (article sur Lexinet, 1989, pdf).  Puis dès la fin des années 1990 sont apparues des solutions pour résumer automatiquement un document puis plusieurs documents (voir les billets (1) et (2) sur ce site).

Aujourd’hui les offres, intégrant ces technologies sémantiques (statistiques, linguistiques) devenues matures, se multiplient et les applications pourraient et devraient se déployer plus fortement.

Cette liste proposée ici regroupe quelques outils disponibles sur le marché français, sans aucune prétention à l’exhaustivité, ainsi que quelques ressources bibliographiques. 

 


Plateformes linguistiques (TALN)

(MAJ – 10 mai 2012)

Des plateformes offrent des solutions génériques et des outils de personnalisation (aucune recherche d’exhaustivité dans cette énumération) :

Il existe aussi différentes  solutions orientées par type de ressources et/ou usage particulier.
Par exemple pour le traitement des courriels, Noopsis – http://www.noopsis.fr/ ou OWI (http://www.owi-tech.com/).

Répertoires 

 

Résumeurs  automatiques

(MAJ – 10 mai 2012; 12 novembre 2012)

N’hésitez pas à réaliser des tests, avec par exemple le démonstrateur d’Essential-Mining

Produits commerciaux ou applications en ligne 

Des offres plus globales intègrent des fonctions de génération automatique de résumé comme Nstein ou laplateforme GATE (outil SUMMA résumeur).

 

Systèmes « R&D« 

Produits non accessibles

 

Indexeurs automatiques

(à suivre)

 

Ressources bibliographiques

Généralités

Résumé automatique

Editeur / visualiseur graphique de thésaurus

OpenVocabs est un éditeur-visualiseur de thésaurus…qui va bientôt disparaître. Quel dommage.

Visualisation-Th-RisquesTechno-

http://openvocabs.org/vocabularies/th-risques-technos-test/

L'éditeur Web permet de construire un vocabulaire contrôlé comme une structure hiérarchique arborescente mais graphiquement sous la forme d'une roue – ce qui permet de mieux repérer des concepts/termes éloignés les uns des autres…. Des limites toutefois au volume de données manipulées. 

Il propose également un service pour la gestion et le stockage de vocabulaires, et intègre la capacité d'importer des vocabulaires existants à partir d'excel ou SKOS, et d'exporter des fichiers SKOS.  Un deuxième module sous la forme d'une appliquette (!) pour google chrome permet d'indexer taguer  annoter des ressources avec ce vocabulaire.

J'ai mis 2 minutes pour charger le thésaurus Risques (désolée je n'ai pas demandé l'autorisation d'utiliser ce (petit) vocabulaire "Risques" très spécialisé que je trouve très bien). Mais je n'ai pas réussi par contre à utiliser l'outil d'annotation.

Quant à la navigation et la visualisation dans le thésaurus … je vous laisse découvrir….

Lire la suite

Logiciel de création et maintenance de thésaurus


Création : le 5 janvier 2006 – Dernière mise à jour : Mars 2016 (en cours)
Mise à jour : 03/03/2008, 11/2009,
15/09/2010 ; Janv.2011; Avril 2011; Déc 2011, Août 2011, Juillet 2013, Août 2014; mars 2016

N'hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb


La construction et la maintenance d’un thésaurus, ou plus globalement d'un vocabulaire organisé et contrôlé à des fins d'organisation et d'accès à l'information, nécessitent l'adoption de règles et de fonctions applicatives spécialisées.

Ce secteur de l'édition de progiciel peut être scindé en France en trois catégories principales selon le degré d'autonomie ou l'orientation (gestion, utilisation) du module applicatif :

  • Les "modules Thésaurus" de logiciels de gestion et recherche documentaires,
    • ou aujourd'hui, les modules dits "Taxonomie" de CMS (avec pour ces derniers des fonctions ergonomiques, mais souvent moins riches) ;
  • Des outils d'exploitation de thésaurus en ligne
        (la première famille citée intègre bien souvent ce type de module fonctionnel) ;
  • Des logiciels autonomes (« standalone » en anglais) qui assurent la conception, la gestion et la diffusion de vocabulaires.

Voici une liste de logiciels appartenant à cette dernière famille.

Ces logiciels offrent l'ensemble des fonctionnalités utiles à la création et à la maintenance de vocabulaires contrôlés et suivent les normes de thésaurus (avant 2011). Ces outils sont vendus indépendamment de tout logiciel documentaire ou plateforme (moteur) de recherche – ce qui ne veut pas dire qu’ils ne nécessitent pas un SGBD pour tourner.

[Nom du produit, nom de la société, pays d’origine, plateforme du serveur ou pour l’offre autonome, adresse Web, export [SKOS]
(*)
offre d'outils automatiques

Visualiseur – Evaluateur

Quelques produits en mutation ou supprimés

Quelques mots sur ces produits

  • Une famille de quelques logiciels, immuables pendant 30 ans, qui se sont transformés au fur et à mesure des évolutions techniques. Et qui continuent à se transformer .
  • A cette famille historique s'ajoutent de nouveaux entrants dans la mouvance des techniques du Web (skos, ontologie, indexation automatique, extraction automatique)
  • Le marché peut être appréhendé en fonction de l'étendu des fonctionnalités proposées
    Entre :
    • des produits offrant des fonctionnalités strictement de production et diffusion de vocabulaires.
    • des produits offrants d'autres modules complémentaires : classification automatique, alignement, … (marqués dans la liste par le signe (*).
  • Deux axes d'évolution :
    • l’utilisation des technologies informatiques les plus récentes : éditeur SKOS (un modèle de données simple), XML, voire intégration et/ou articulation avec des fonctions d'édition d'ontologies,…
    • une meilleure prise en compte des besoins dans la phase de création et de maintenance de vocabulaires : import, multilingue, champs spécifiques de gestion, gestion du travail, gestion de travail collaboratif/worflow ; outils de mise en correspondance….
  • Certains produits nécessitent un système de gestion de base de données en sus ….Attention donc à certains tarifs dans le cas de bases de données propriétaires.
  • L'offre en services en ligne arrive (depuis 2011).
  • Les prix varient beaucoup. Pour des versions monopostes, le produit de base (donc "nu") : gratuit (The32W, un produit open source comme Tematres), 300€  (MultiTes, Amicus Thesaurus Tool), 500 (Multites) à 1300€ (Lexaurus) ou plus pour une version monoposte ; au-dessus de 3000€ pour des  versions multiaccès. Au-delà de 25000 euros pour des distributions sur des intranets d'entreprise. Les tarifs varient également suivant les fonctionnalités couvertes (création, consultation publique, exploitation à l'indexation ou à la recherche,…). Compter aussi la maintenance en sus.
  • Concernant les fonctionnalités, on repère un noyau dur, commun à tous ces produits : les normes de construction de thésaurus constituent un cadre formalisé pour le modèle des données métiers avec des variations possibles (plus ou moins grandes possibilités de personnalisation et prises en compte des caractéristiques des divers types de langage dont la nouvelle norme ISO de 2011). Mais certains offrent des fonctions de gestion de la structure de description de thésaurus, voire uniquement des fonctions d'exploitation d'un thésaurus, mais sans fonction d'aide à la conception ou à la maintenance dans le temps (trace des versions,…). Les outils les plus récents intègrent des possibilités de modélisation plus poussées (base de connaissance, référentiels pour des usages multiples, ontologies).
  • Certaines fonctionnalités feront la différence comme : la diversité de formats d’import/export ou une réelle gestion de versions multilingues de thésaurus (et non uniquement une équivalence entre termes), ainsi que la dénomination ou la présence de champs spécifiques, la variété du typage des relations ou encore l'ergonomie fonctionnelle – en particulier les capacités d'import de données et d'aide à la création. Certains outils proposent aujourd'hui des modules de gestion du travail de maintenance en réseau (workflow plus ou moins paramétrables).
  • L’ergonomie visuelle de ces produits est variable, et pour les outils les plus anciens, un peu datée.
  • La deuxième catégorie citée – de visualisation et/ou de manipulation à la recherche d’un thésaurus – se développe suivant en cela le déploiement de l'utilisation de ces systèmes d'organisation des concepts (SKO=SOC) sur le Web. Ces développements se font bien souvent indépendamment du logiciel de conception. Nous pouvons citer SKOS Play, un service Web qui permet de visualiser un vocabulaire sur le Web – http://labs.sparna.fr/skos-play/about?lang=fr

Publications concernant les outils de gestion de vocabulaires

N'hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb

http://logiciel_de_thesaurus_fichiers/Descripteurs.js
http://logiciel_de_thesaurus_fichiers/Descripteurs_002.js

> Logiciels pour vocabulaires orientés « organisation et recherche »


Regroupements de différents billets sur le thème des logiciels pour vocabulaires dédiés à la recherche d’information
Création : 27 Janvier 2010. Mis-à-jour: août 2014
Voir aussi sur Descripteurs – Logiciels de création et maintenance de thésaurus (2014) 


Par vocabulaires, nous nous limitons ici aux thésaurus et autres répertoires de concepts/termes utilisés dans des dispositifs informationnels et documentaires. Ce sont :

  • des listes de concepts 
  • organisés entre eux par différents types de relations (hiérarchiques, associatives, équivalence, ou plus spécialisées : cause/conséquence, historique,…)
  • caractérisés par différents attributs spécifiques à la catégorie de concepts (date de création pour des noms d’organismes, lieu pour la localisation d’un monument, appartenance à un ou plusieurs domaines d’activité …),
  • représentés en général par des termes ou des notations

Un autre terme rencontré est celui de référentiel ou référentiel terminologique (https://www.diigo.com/user/dalbin/Dalbin%28nom%29%20r%C3%A9f%C3%A9rentiel-termino%28sujet%29).

Des logiciels ou applications en ligne couvrent cinq grandes familles de fonctions dédiées à ces vocabulaires :

  1. Concevoir un vocabulaire ;
  2. Aligner des vocabulaires entre eux ;
  3. Gérer un ou plusieurs vocabulaires ;
  4. Exploiter (en recherche) un vocabulaire ;
  5. Communiquer un vocabulaire.

A ces fonctionnalités liées aux vocabulaires, certains produits offrent des modules de gestion du travail en équipes (workflow, collaboratif).

En France traditionnellement (depuis 30 ans), la gestion informatisée des thésaurus s’effectue au moyen d’un module particulier des logiciels documentaires. Ces modules ne sont pas utilisables de façon autonome, et leur coût d’acquisition ne se comprend que dans le cadre du développement d’une application documentaire (base documentaire, catalogue, portail). Ces « modules de gestion de thésaurus » couvrent des fonctions de gestion d’un vocabulaire déjà construit (étape 3) et d’exploitation (étape 4) dans le cadre d’une application documentaire particulière.

Les fonctions d’assistance aux étapes de conception (étape 1) et celles propres à la communication de ces ressources terminologiques (étape 5) sont respectivement très faibles ; et pour les fonctions d’édition/communication limitées; celles d’alignement (étape 2), plus récentes sont inexistantes ou font l’objet d’une offre de services dédiée.

Le monde anglo-saxon (UK, USA, mais aussi AUS) a toujours eu un marché de progiciels de gestion de thésaurus spécialisés utilisables de façon autonome. Les termes employés en anglais sont : « Thesaurus management software » ou « Software for building and editing thesaurus ». Ces applications sont centrées sur des fonctions d’aide à la conception ou au réengineering de vocabulaires (étape 1), leur gestion dans le temps indépendamment de leurs usages (étape 2), leur communication sous de multiples formes ce qui supposent des fonctions d’import/export et d’éditions variées. La souplesse fonctionnelle (typage des relations, personnalisation) permettent d’initier des activités d’alignement « simples » entre vocabulaires. Ce type d’outils spécialisés existaient également dans le monde germanique. Aujourd’hui, ce type d’outil est également exploité en France.

=> Sur Descripteurs – Logiciels de création et maintenance de thésaurus (2014)

L’appellation « Taxonomy Management Software » rend compte de l’évolution fonctionnelle vers un élargissement des types de vocabulaires pris en compte et vers une extension pour certaines offres à des automates pour des fonctions de catégorisation ou d’extraction automatiques d’entités par exemple.

Des standards ou normes existent pour concevoir les thésaurus (Norme ISO 25964-1) et les exploiter sur le Web (SKOS).

Les évolutions les plus récentes conduisent à une articulation ou une transformation de ces vocabulaires de nature essentiellement terminologique à des vocabulaires partagés et structurés de façon formelle (ontologies informatiques), des transformations adaptées d’une part au web (web de donnée et web sémantique) et aux applications ouvertes et interopérables (sortir des silos). Nous pouvons citer comme exemple public le travail réalisé au Ministère de la Culture et de la Communicationhttp://data.culture.fr/thesaurus/.

ISIDORE, le portail en SHS

Une brève, avant un papier à venir pendant les "vacances" de Noël…

ISIDORE (rien à voir apparemment avec ISIDORA, le réseau des documentalistes…) est le tout nouveau portail en SHS qui émane des travaux TGE/Adonis, mis en oeuvre par le CCSD/CNRS qui produit HAL.

Brièvement :

  • A l'ouverture (le 7 décembre 2010) : 745 sources totalisant 905 168 ressources
  • une ergonomie optimisée pour le chercheur d'information avec l'auto-complétion pour la requête, une recherche fédérée efficace, et des référentiels pour orienter certains types de recherches (Rameau, Frantiq …. pour le moment), des facettes riches et variées,….
  • des protocoles normalisés – OAI, DC, SRU,… pour fluidifier ce dispositif ;
  • Mondeca, Antidot, Sword en backoffice (entre autres?)

Passer de HAL à ISIDORE, époustoufflant 😉

Voir aussi :Isidore, plateforme de recherche d'information en SHS (mars 2011)