Résumé automatique (2)

Ce billet "Résumé automatique (2)" correspond à une "note de lecture" publiée récemment dans Documentaliste – Sciences de l’information (2012, vol. 49, n°3, p. 14-15) et légèrement modifiée. Cette note s'appuie sur l'ouvrage récent de Juan-Manuel Torres-Moreno sur  le résumé automatique de documents.

La partie 1 présente un test fait avec le service en ligne d'Essential Summarizer de la société française Essentiel Mining, et donne quelques éléments sur les résumeurs autoatiques.

*****

Résumer automatiquement, un rêve pour certains devenu réalité. Un ouvrage récent de Juan-Manuel Torres-Moreno(1) dresse un panorama historique des différentes approches en mettant l’accent sur la dimension statistique des traitements.

« Réduire le contenu des documents » : activité phare des professionnels de l'info-doc, un des moyens pour valoriser les ressources et en faciliter l'accès. Les modalités pratiques de cette « réduction » ont évolué en fonction des périodes, besoins, contraintes et technologie : sommaire et table de fin de livre pour une publication, puis tables/index des titres, sujets, auteurs pour des collections, indexation par descripteurs, synthèse et résumé documentaires. Le résumé documentaire – analytique ou informatif, obligatoirement rédigé (pour le moment), met en évidence les informations quantitatives et qualitatives apportées par un auteur, et peut dans certains cas, remplacer le document analysé.

Progressivement, la machine a assisté l'homme. Mais ce qui n’était qu’un service accessoire dans les années 1980 devient aujourd'hui un élément décisif des dispositifs d'accès à l'information.

Alors, que peut faire la machine ? Pas tout, mais beaucoup…

Lire la suite

Résumé automatique (1)

(mis à jour août 2017)

Les volumes et les flux d’information sous forme textuelle impose une révision drastique de notre perception des modalités d’accès à l’information et des outils à déployer. C’est dans ce contexte que la production automatique de résumé mono- ou multi-documents devient, me semble-t-il une fonctionnalité décisive dans les dispositifs documentaires.

Ce billet sur la production automatique de résumés, en deux parties, est le fruit d’une « note de lecture » publiée récemment dans Documentaliste – Sciences de l’information (2012, vol. 49, n°3, p. 14-15). Les contraintes éditoriales papier ne m’ont pas permis d’y intégrer des informations sur les logiciels et un test. C’est l’objet de ce premier billet, le second billet intégrera la note éditée dans Documentaliste, légèrement modifié.

Logiciels / applications

Les résumeurs automatiques sont proposés à la fois en ligne (SAAS) ou en local, en monoposte ou en serveur. On trouve à côté d’un certain nombre de produits commerciaux, des applications relevant de projet de recherche et développement.

Lire la suite

Outils sémantiques – linguistiques

Répertoire d’outils – Mise à jour : 30 Avril 2012 ; 12 nov.2012; En cours de mise à jour (fin 2018)

  1. Plateformes linguistiques (TALN)
  2. Résumeurs  automatiques
    1. Produits commerciaux ou applications en ligne 
    2. Systèmes « R&D »
    3. Produits non accessibles
  3. Ressources bibliographiques
    1. Généralités
    2. Résumé automatique

Des solutions embarquant de la linguistique comme celles proposées par Erli(1) dès 1977, ou des produits comme SPIRIT (1979-80) ou Cora (1983)  ont été utilisés assez tôt en recherche documentaire (y compris sur « mainframe »). Des tests à l’époque portait aussi sur l’indexation (semi)automatique en vue de diminuer les coûts et délais de cette activité (article, 1989, pdf).  Puis dès la fin des années 1990 sont apparues des solutions pour résumer automatiquement un document puis plusieurs documents (voir les billets (1) et (2) sur ce site).

Aujourd’hui les offres, intégrant ces technologies sémantiques (statistiques, linguistiques) devenues matures, se multiplient et les applications pourraient et devraient se déployer plus fortement. se sont développées dans toutes les directions…

Cette liste proposée ici regroupe quelques outils disponibles sur le marché français, sans aucune prétention à l’exhaustivité, ainsi que quelques ressources bibliographiques. En particulier reste à revoir certains usages précis : la textométrie, la recherche d’information (moteur),…

Lire la suite

Editeur / visualiseur graphique de thésaurus

OpenVocabs est un éditeur-visualiseur de thésaurus…qui va bientôt disparaître. Quel dommage.

Visualisation-Th-RisquesTechno-

http://openvocabs.org/vocabularies/th-risques-technos-test/

L'éditeur Web permet de construire un vocabulaire contrôlé comme une structure hiérarchique arborescente mais graphiquement sous la forme d'une roue – ce qui permet de mieux repérer des concepts/termes éloignés les uns des autres…. Des limites toutefois au volume de données manipulées. 

Il propose également un service pour la gestion et le stockage de vocabulaires, et intègre la capacité d'importer des vocabulaires existants à partir d'excel ou SKOS, et d'exporter des fichiers SKOS.  Un deuxième module sous la forme d'une appliquette (!) pour google chrome permet d'indexer taguer  annoter des ressources avec ce vocabulaire.

J'ai mis 2 minutes pour charger le thésaurus Risques (désolée je n'ai pas demandé l'autorisation d'utiliser ce (petit) vocabulaire "Risques" très spécialisé que je trouve très bien). Mais je n'ai pas réussi par contre à utiliser l'outil d'annotation.

Quant à la navigation et la visualisation dans le thésaurus … je vous laisse découvrir….

Lire la suite

Logiciel de création et maintenance de thésaurus et taxonomies


Création : le 5 janvier 2006 – Dernière mise à jour : Juill.2018 et janv.2019 (liens contrôlés)
Mise à jour : 03/03/2008, 11/2009,
15/09/2010 ; Janv.2011; Avril 2011; Déc 2011, Août 2011, Juillet 2013, Août 2014; mars 2016 ; mai 2018

N’hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb


La construction et la maintenance d’un thésaurus, ou plus globalement d’un vocabulaire organisé et contrôlé à des fins d’organisation et d’accès à l’information, nécessitent l’adoption de règles et de fonctions applicatives spécialisées.

Ce secteur de l’édition de progiciel peut être scindé en France en trois catégories principales selon le degré d’autonomie ou l’orientation (gestion, utilisation) du module applicatif :

  • Les « modules Thésaurus » de logiciels de gestion et recherche documentaires, ou aujourd’hui, les modules dits « Taxonomie » de CMS (avec pour ces derniers des fonctions certes plus ergonomiques mais souvent moins riches) ;
  • Des outils d’exploitation de thésaurus en ligne
    (la première famille citée intègre bien souvent ce type de module fonctionnel) ;
  • Des logiciels autonomes (« standalone » en anglais) qui assurent la conception, la gestion et la diffusion de vocabulaires.

Voici une liste de logiciels appartenant à cette dernière famille.

Ces logiciels offrent l’ensemble des fonctionnalités utiles à la création et à la maintenance de vocabulaires contrôlés et suivent les normes de thésaurus (avant 2011). Ces outils sont vendus indépendamment de tout logiciel documentaire ou plateforme (moteur) de recherche – ce qui ne veut pas dire qu’ils ne nécessitent pas un SGBD pour tourner.

[Nom du produit, nom de la société, pays d’origine, plateforme du serveur ou pour l’offre autonome, adresse Web, export [SKOS]
(*)
offre d’outils automatiques

Visualiseur de vocabulaire

Quelques produits en mutation ou supprimés

Quelques mots sur ces produits

  • Une famille de quelques logiciels, immuables pendant 30 ans, qui se sont transformés au fur et à mesure des évolutions techniques. Et qui continuent à se transformer …
  • A cette famille historique s’ajoutent depuis 10 ans de nouveaux entrants dans la mouvance des techniques du Web (skos, ontologie, indexation automatique, extraction automatique)
  • Le marché peut être appréhendé en fonction de l’étendu des fonctionnalités proposées. Entre :
    • des produits offrant des fonctionnalités strictement de production, d’exploitation et de diffusion de vocabulaires.
    • des produits offrants d’autres modules complémentaires : classification automatique, alignement, … (marqués dans la liste par le signe (*).
  • Deux axes d’évolution :
    • l’utilisation des technologies informatiques les plus récentes : éditeur SKOS (un modèle de données simple), XML, intégration et/ou articulation avec des fonctions d’édition d’ontologies,…
    • une meilleure prise en compte des besoins dans la phase de création et de maintenance de vocabulaires : import, multilingue, champs spécifiques de gestion, gestion du travail, gestion de travail collaboratif/workflow ; outils de mise en correspondance….
  • Certains produits nécessitent un système de gestion de base de données en sus ….Attention donc à certains tarifs dans le cas de bases de données propriétaires.
  • L’offre en services en ligne arrive (depuis 2011).
  • Les prix varient beaucoup. Pour des versions monopostes, le produit de base (donc « nu ») : gratuit (The32W, un produit open source comme Tematres), 300€  (MultiTes, Amicus Thesaurus Tool), 500 (Multites) à 1300€ (Lexaurus) ou plus pour une version monoposte ; au-dessus de 3000€ pour des  versions en réseau. Au-delà de 25000€ pour des distributions sur des intranets d’entreprise. Les tarifs varient également suivant les fonctionnalités couvertes (création, consultation publique, exploitation à l’indexation ou à la recherche,…). Compter aussi la maintenance en sus.
  • Concernant les fonctionnalités, on repère un noyau dur, commun à tous ces produits : les normes de construction de thésaurus constituent un cadre formalisé pour le modèle des données métiers avec des variations possibles (plus ou moins grandes possibilités de personnalisation et prises en compte des caractéristiques des divers types de langage dont la nouvelle norme ISO de 2011). Mais certains offrent des fonctions de gestion de la structure de description de thésaurus, voire uniquement des fonctions d’exploitation d’un thésaurus, mais sans fonction d’aide à la conception ou à la maintenance dans le temps (trace des versions,…). Les outils les plus récents intègrent des possibilités de modélisation plus poussées (base de connaissance, référentiels pour des usages multiples, ontologies).
  • Certaines fonctionnalités feront la différence comme : la diversité de formats d’import/export (dont txt ou tableur…) ou une réelle gestion de versions multilingues de thésaurus (et non uniquement une équivalence entre termes), ainsi que la dénomination ou la présence de champs spécifiques ou paramétrables, la variété du typage des relations ou encore l’ergonomie fonctionnelle – en particulier les capacités d’import de données et d’aide à la création. Certains outils proposent aujourd’hui des modules de gestion du travail de maintenance en réseau (workflow plus ou moins paramétrables).
  • L’ergonomie visuelle de ces produits est variable, et pour les outils les plus anciens, datée.
  • La deuxième catégorie citée – de visualisation et/ou de manipulation à la recherche d’un thésaurus – se développe suivant en cela le déploiement de l’utilisation de ces systèmes d’organisation des concepts (SKO=SOC) sur le Web. Ces développements se font bien souvent indépendamment du logiciel de conception. Nous pouvons citer SKOS Play, un service Web qui permet de visualiser un vocabulaire sur le Web – http://labs.sparna.fr/skos-play/about?lang=fr

Publications concernant les outils de gestion de vocabulaires (rubrique à réviser  – prochainement)

N’hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb

 

> Logiciels pour vocabulaires orientés « organisation et recherche »


Regroupements de différents billets sur le thème des logiciels pour vocabulaires dédiés à la recherche d’information
Création : 27 Janvier 2010. Mis-à-jour: août 2014
Voir aussi sur Descripteurs – Logiciels de création et maintenance de thésaurus (2016) 


Par vocabulaires, nous nous limitons ici aux thésaurus et autres répertoires de concepts/termes utilisés dans des dispositifs informationnels et documentaires. Ce sont :

  • des listes de concepts
  • organisés entre eux par différents types de relations (hiérarchiques, associatives, équivalence, ou plus spécialisées : cause/conséquence, historique,…)
  • caractérisés par différents attributs spécifiques à la catégorie de concepts (date de création pour des noms d’organismes, lieu pour la localisation d’un monument, appartenance à un ou plusieurs domaines d’activité …),
  • représentés en général par des termes ou des notations

Un autre terme rencontré est celui de référentiel ou référentiel terminologique (https://www.diigo.com/user/dalbin/Dalbin%28nom%29%20r%C3%A9f%C3%A9rentiel-termino%28sujet%29).

Des logiciels ou applications en ligne couvrent cinq grandes familles de fonctions dédiées à ces vocabulaires :

  1. Concevoir un vocabulaire ;
  2. Aligner des vocabulaires entre eux ;
  3. Gérer un ou plusieurs vocabulaires ;
  4. Exploiter (en recherche) un vocabulaire ;
  5. Communiquer un vocabulaire.

A ces fonctionnalités liées aux vocabulaires, certains produits offrent des modules de gestion du travail en équipes (workflow, collaboratif).

En France traditionnellement (depuis 30 ans), la gestion informatisée des thésaurus s’effectue au moyen d’un module particulier des logiciels documentaires. Ces modules ne sont pas utilisables de façon autonome, et leur coût d’acquisition ne se comprend que dans le cadre du développement d’une application documentaire (base documentaire, catalogue, portail). Ces « modules de gestion de thésaurus » couvrent des fonctions de gestion d’un vocabulaire déjà construit (étape 3) et d’exploitation (étape 4) dans le cadre d’une application documentaire particulière.

Les fonctions d’assistance aux étapes de conception (étape 1) et celles propres à la communication de ces ressources terminologiques (étape 5) sont respectivement très faibles ; et pour les fonctions d’édition/communication limitées; celles d’alignement (étape 2), plus récentes sont inexistantes ou font l’objet d’une offre de services dédiée.

Le monde anglo-saxon (UK, USA, mais aussi AUS) a toujours eu un marché de progiciels de gestion de thésaurus spécialisés utilisables de façon autonome. Les termes employés en anglais sont : « Thesaurus management software » ou « Software for building and editing thesaurus ». Ces applications sont centrées sur des fonctions d’aide à la conception ou au réengineering de vocabulaires (étape 1), leur gestion dans le temps indépendamment de leurs usages (étape 2), leur communication sous de multiples formes ce qui supposent des fonctions d’import/export et d’éditions variées. La souplesse fonctionnelle (typage des relations, personnalisation) permettent d’initier des activités d’alignement « simples » entre vocabulaires. Ce type d’outils spécialisés existaient également dans le monde germanique. Aujourd’hui, ce type d’outil est également exploité en France.

=> Sur Descripteurs – Logiciels de création et maintenance de thésaurus (2014)

L’appellation « Taxonomy Management Software » rend compte de l’évolution fonctionnelle vers un élargissement des types de vocabulaires pris en compte et vers une extension pour certaines offres à des automates pour des fonctions de catégorisation ou d’extraction automatiques d’entités par exemple.

Des standards ou normes existent pour concevoir les thésaurus (Norme ISO 25964-1) et les exploiter sur le Web (SKOS).

Les évolutions les plus récentes conduisent à une articulation ou une transformation de ces vocabulaires de nature essentiellement terminologique à des vocabulaires partagés et structurés de façon formelle (ontologies informatiques), des transformations adaptées d’une part au web (web de donnée et web sémantique) et aux applications ouvertes et interopérables (sortir des silos). Nous pouvons citer comme exemple public le travail réalisé au Ministère de la Culture et de la Communicationhttp://data.culture.fr/thesaurus/.

ISIDORE, le portail en SHS

Une brève, avant un papier à venir pendant les "vacances" de Noël…

ISIDORE (rien à voir apparemment avec ISIDORA, le réseau des documentalistes…) est le tout nouveau portail en SHS qui émane des travaux TGE/Adonis, mis en oeuvre par le CCSD/CNRS qui produit HAL.

Brièvement :

  • A l'ouverture (le 7 décembre 2010) : 745 sources totalisant 905 168 ressources
  • une ergonomie optimisée pour le chercheur d'information avec l'auto-complétion pour la requête, une recherche fédérée efficace, et des référentiels pour orienter certains types de recherches (Rameau, Frantiq …. pour le moment), des facettes riches et variées,….
  • des protocoles normalisés – OAI, DC, SRU,… pour fluidifier ce dispositif ;
  • Mondeca, Antidot, Sword en backoffice (entre autres?)

Passer de HAL à ISIDORE, époustoufflant 😉

Voir aussi :Isidore, plateforme de recherche d'information en SHS (mars 2011) 

Une semaine sur un PC …

… pour cause de café renversé sur mon portable Mac!

Bascule rapide des données utiles. 

Rapide ! … "tous les cordonniers ne sont pas mal chaussés"

  • format ouvert de la messagerie (Thunderbird) et protocole IMAP pour mon fournisseur (données accessibles en ligne)
  • Cloud compuding/SAAS, bref en éloignant une grande part de mes outils de production personnelle mais aussi des productions elles-mêmes, de ma tasse à café 😉
  • une clef usb (je ne retrouve pas le câble éthernet…)  des archives courantes et intermédiaires à la date J-1 !!

Mais aie, aie, aie, l'ergonomie !

Ma "productivité personnelle" chute tout d'un coup. Je ne vais pas vous embêtez avec mes post-its (numériques), ma colorisation des dossiers,…. Je ne citerais que l'insupportable fonction de recherche sous Windows. Des délais insupportables, des réponses non organisées… Impossible d'envisager même une semaine avec çà …

N'hésitez pas, vous qui êtes sur PC (et sans Intranet digne de ce nom … il y en a encore beaucoup …) : prenez un outil dédié.
Beaucoup de solutions sont accessibles, et pour cause étant donnée la fonction de base proposée sur l'OS.
Citons :  Copernic, Google Desktop, même Windows s'est senti obligé de faire quelque chose, … Vous pouvez aller sur Outils Froids pour plus d'information sur les moteurs locaux.

J'ai jeté mon dévolu sur Exalead Desktop, le clone du moteur Web pour PC (et uniquement pour PC Windows) qui existe aussi en version professionnelle pour les intranets. Ici la version poste de travail individuel (gratuite).
Il faut bien sûr laisser du temps à la machine pour indexer, avant de pouvoir faire quelques tests.

Je ne dirais rien sur la diversité des types de fichiers ou de sources manipulables. Je montrerais plutôt l''organisation des résultats qui libère les métadonnées, … ! Puisque vous pouvez naviguer à partir de ceux-ci… Enfin de ceux que l'on peut proposer comme dénominateur commun à tout document/fichier sur son poste de travail.

Exalead-standalone

Et ainsi proposer ce même type d'ergonomie (pas nécessairement cet outil bien sûr).
Pour prendre un exemple de catalogue de bibliothèque (avec des données très homogènes et pas d'exploitation de données non structurées), voici Ariane 2.0. de l'Université de Laval.

  • Des fonctions en plus – trier les résultats au sein d'une catégorie de métadonnées,
  • et des fonctions en moins – personnaliser le choix des catégories de métadonnées et leur ordre.

 Ariane2-UnivLaval

Une semaine plus tard, retour sur ma machine sans encombre…

L'envie de tester autre chose que l'outil Spotlight du Mac, pour voir. Test ce coup-ci de Google Desktop… Ecran classique. Efficace, très rapide (avec une longue indexation du disque). Personnellement, je préfère l'organisation et le tableau de bord d''Exalead.

Googledesktop

On a parfois des difficultés à savoir où l'on se trouve. Ici, ailleurs… Si vous ne prêtez pas attention, vous basculer sur une recherche Web….L'écran ici montre l'URL de Google Fr, et les données de ma machine comme premiers résultats.

Google2

Tout documentaliste devrait à un moment ou à un autre, tester cet outil ne serait ce que
pour comprendre pourquoi les utilisateurs … ne veulent plus venir sur d'autres types d'interfaces.

En tous les cas, de bons outils pédagogiques à mettre entre toutes les
mains de vos stagiaires.

Guide des fournisseurs de solutions de traitement avancé de l’information présents en France du GFII

Long titre pour un répertoire bien délicat à maintenir. Maintenir, car il s'agit ici de la mise à jour d'un répertoire réalisé en 2005 et publié par le Cigref en Janvier 2006. On apprend aussi que tous les éditeurs n'ont pas (encore répondu), donc pas de jugements hâtifs.

Mais si j'en reste au sujet de ce blogue… alors là, c'est autre chose !
Car si les catégories qui définissent le "traitement avancé de l'information" sont intéressantes et même si le périmètre est balisé (dans le cadre de "processus de veille informationnelle"), une catégorie me semble bien absente : celle des outils d'administration de référentiels, type ITM de Mondeca et MyThesaurus, pour n'en citer que deux. 

Car pourquoi "alerte" ou "traduction", et pas "management des référentiels sémantiques ? 

Ou alors il est strictement question de traitements automatiques ?? Je ne suis pas sûre de comprendre cette absence. et vous ?

* Info diffusée par l'ADBS

De retour de Londres : Online 2008

Un bref retour de cette journée et demie passée à Londres. Une ballade centrée sur la partie IMS (information management system) de l’exposition, et plus particulièrement sur les outils et technologies de recherche.

1. L’Utilisateur au centre des préoccupations …  enfin !

Petit retour en arrière : depuis le début de l’informatique, les technologies de recherche se sont focalisées :
  • sur la requête proprement dite et ses performances algorithmiques  ;
  • puis plus récemment sur les aides à la sélection au sein des résultats d'unités documentaires, grâce à une organisation contextuelle des résultats, « pertinente » par rapport à la requête posée, et par l’affichage d’information de contexte (métadonnées associées, clusters ou thèmes d’Exalead par exemple …).

Ces technologies poursuivent leur route avec aujourd’hui un enrichissement fonctionnel pour et par ….  l’Utilisateur.

Que lui offre-t-on ? que peut-il faire une fois que la machine lui offre des résultats si volumineux ? 
Trois exemples tirés des ateliers du salon IMS.

Vivisimo
– tags en texte libre ou …  contrôlé ( !)
– annotation des résultats (sous-entendu du rédactionnel, plus qu’un mot clé)
– vote
– création de dossiers virtuels privé ou public

Sachant qui a étiqueté quoi, on se retrouve de fait dans la logique des réseaux sociaux où l’accès à l’information se fait en suivant ce que fait quelqu’un (ses ressources étiquetées ou ses favoris).
SI l’on a bien vu des copies d’écrans, peu de réponses précises aux questions (perverses!) de quelques auditeurs !  : quid de l’outil du vocabulaire contrôlé ? et comment faites-vous pour gérer les annotations ? …

Je vous renvoie vers les copies d’écran sur la documentation maison.

Pour en savoir plus,  Vivisimo a maintenant un partenariat pour sa diffusion en France avec Social Computing.

Zapette-exalead

 

Exalead

Face
à l’hégémonie de Google, Exalead (idem pour vivisimo) est toujours
obligé d’expliquer le pourquoi du comment "organiser un lot résultat".
Avec sa « zapette thématique« , sa boîte à malices : termes associés à
la requête, rubriques associées (issues de Dmoz), mais aussi
localisation des sites, langue … Bref présentation du contexte pour
orienter la sélection.

Exalead poursuit ses expériences avec Wikipédia : après le portail d’accès organisant l’information suivant les Catégories, Termes associés, Personnes, Lieux ou Organisations, des possibilités d’enrichissement de vos pages en surlignant des termes pour lesquels une information contextuelle en provenance de Wikipedia est proposée au lecteur. « Wikifier » appliqué à une page de la BBC (cela marche mieux en anglais vu la taille de Wikipedia-En)

Ne pas hésiter à se promener dans le laboratoire d’Exalead     (labs.exalead.com)

Antidot

Antidot propose une couche supplémentaire à la couche technique AFS (Antidoc Finder Suite) de sa technologie, qui permet :
  • de sauvegarder la requête
  • de sauvegarder des url (favoris)
  • d’enrichir les résultats avec des mots clés (tags)
  • d’organiser ses résultats
  • de diffuser les résultats (flux)

Et alors ?
Certaines des fonctionnalités proposées dans les "espaces utilisateurs" des portails documentaires s'intègrent donc aux outils génériques (le moteur de recherche) de l'intranet). Les utilisateurs vont s'y habituer…

Et après ?

Je n’ai pas vu d’outils ou de solutions proposant une représentation visuelle des résultats (Mapstan ou Kartoo). Mais attendons encore un peu pour inverser la vision encore centrée sur les "fonds" et proposer d’orienter les résultats – leur sélection et leur organisation – par une représentation personnalisée des besoins de l’utilisateur : sa propre « ontologie » en lieu et place des quelques mots clés embarqués pour la requête (cf l'ancien outil Topic de Verity des années 1990), et des résultats organisés automatiquement par rapport à cette représentation !

20 ans après les débuts de la GED, il ne restera plus qu’à se concentrer sur une question toujours ignorée : « comment lire et exploiter ces résultats numériques ».

2.  CMS Watch – « A critical look at enterprise search technology : 2009 and beyond ».

Retour sur l’intervention de Theresa Regli de CMS Watch. CMS Watch est une société américaine d’analyse technologique, indépendante des éditeurs. La société poursuit ses investigations du marché des Vendeurs de solutions technologiques et a repris en l’adaptation, le « découpage » proposé en 2006 (voir Outils froids en 2006)

  • offreur d’infrastructure : IBM, Oracle, SAP…
  • offreur de plateforme de recherche : Autonomy, FAST, Endeca
  • offreur d’outil spécialisé : Sinequa, Exalead, Vivisimo,…
  • offreur d’outil de base : Coveo, ISYS, Mondosoft, …
  • offreur de solution clé en main (turnkey appliances) : Google, Thunderstone, …

Dans ce panel présenté dans les rapports de CMS Watch, tout de même très centré « US » ou plutôt « English », on remarque des produits inconnus ou très peu connus sur le marché français, mais aussi 2 produits d’origine française: Exalead et Sinequa (technologie linguistique et sémantique), tous deux ayant des bases sur le territoire état-unien. Theresa Regli a plusieurs fois insisté d’ailleurs en annonçant des produits français, certainement pour prouver que sa société regardait vraiment les fonctions et la qualité et non le territoire d’origine !

Le « beyond » n’a pas été réellement abordé, Theresa nous renvoyant vers les rapports de CMS Watch. Par contre, partant du constat que chacun des logiciels offre toujours des aspects très positifs et des zones d’ombres, Theresa s’est focalisée sur la démarche d’aide à la décision ainsi que sur l’énoncé de quelques recommandations à l’attention de ceux qui seraient dans une démarche de recherche d’une solution. J’ai simplement noté :

  • des limites considérées par CMS Watch comme encore d’actualité :
  • le niveau de sécurité
  • l’incapacité à intégrer des contenus spécialisés
  • la difficulté à concilier information structurée et non-structurée
  • les coûts, durées et difficultés requises pour incorporer différents référentiels

Les trois derniers nous concernent en plein.
Curieusement personne n’aborde ou même ne cite la question de la production de l’information pour améliorer la situation ….

  • une approche basée sur la méthode des scénarios pour étayer une démarche de choix
    Un exemple intéressant portait sur la comparaison de quelques critères entre FAST et Sharepoint (je rappelle que : Sharepoint est la plateforme intranet/travail collaborative de Microsoft, Microsoft qui a racheté FAST l’an passé)
FAST      Champ couvert     Sharepoint
[-]          desktop                   [-]
[-]          départemental          *
 *           site web                    *
 *           internet hybrid         [-]
 *           multi-entrepôt         [-]

Cela montre que ces deux produits sont complémentaires 😉

3. Sharepoint

On ne peut pas se défiler et comme le dit Montague Institute  obligé de se justifier sur son importante production sur Sharepoint : « more than 100 million SharePoint licenses since launching the product in 2001 ».

Aparté …..
Comme toujours avec Microsoft, le produit de (très) médiocre qualité est lancé en grande pompe avec une visée de casser le marché, celui de Lotus à l’époque ou d'autres applications de même nature. Petit à petit (j’ai vu le produit en 2001, donc 8 ans après son arrivée), le produit finit par intégrer ce que la concurrence faisait déjà avant qu’il n’arrive ;-), avec heureusement les technos du jour.
Et bien sûr, de l’avis de tous, c’est extraordinaire. Effectivement vu d’où il est parti, cela peut l’êtr 😉

Un autre motif explicatif de cette démarche tient aussi à l’emprise exlusive des informaticiens sur "ce qui est mieux pour les utilisateurs". Car les fonctionnalités proposées par Sharepoint en 2001, c’était à peu près ce qu’un informaticien de l’époque pouvait comprendre des besoins du travail collaboratif et de la gestion documentaire. Ceux qui travaillaient depuis 1990 (et avant) savaient déjà que ce n'étaient pas suffisant.  Vu la main-mise des informaticiens, leur approche techniciste (encore plus en France paraît-il) de la mise en oeuvre d'un groupware (vision exlusivement techno sans remise en cause de la production de l'information), on ne pouvait rien faire d’autre. Mais pendant tout ce temps, beaucoup d’info et de documents sont perdus, de systèmes d’information qui tournaient pourtant bien ont été mis à mal ; bref beaucoup de gachis documentaires et humains et de dépenses importantes.
Je poursuis mon coup de geule par un troisième motif. C’est sûr, il faut absolument une sur-couche à Windows pour ranger ses documents ! bon truc d’éditeur. Et comme nous allons le voir, il faut une troième couche parce que de toute façon, Sharepoint ne fait pas de la gestion d’information…

Fin de l'aparté.
(je sais : j’ai dû perdre beaucoup de clients et de partenaires SSII, c’est clair 😉

J’en reviens à Online/IMS avec la présentation par Sourtron Global, vendeur d’une solution de logiciel de gestion de thésaurus bien connu depuis 30 ans sur le territoire UK, de la mise en place chez des clients de leur produit autour de Sharepoint. Utilisation de l’extension appelée Taxonomy Extension Sharepoint XXL, ainsi que les propriétés « content type » pour indexer tout contenu avec ces taxonomies. (Idem d’ailleurs pour Synaptica depuis septembre 2008).
Idem pour la société ANS, diffuseur du produit AMLIB, logiciel de gestion bibliothéconomique installé sur le territoire anglais.
Il ne s’agit pas ici de passer à ces applications à partir de Sharepoint (sauf peut être pour AMLib?), fonction bien sur possible depuis longtemps, mais bien d’exploiter pour les informations gérées avec Sharepoint, des fonctionnalités comme la gestion de vocabulaires contrôlés, de taxonomies ou des fonctions de contrôle, qui ne se trouvent pas ou de façon trop simplifiées dans Sharepoint.

4. Indexation automatique couplée à du vocabulaire contrôlé

Depuis 20 ans, c’est mon leit motif : utiliser le meilleur des deux mondes … Après le tout automatique, le tout linguistique ou le tout humain, le mélange raisonné et harmonieux semble être une direction pragmatique et efficace.

  • Mr Le Meur de l’AFP a présenté leur solution en cours de développement qui devrait être proposée aux clients en 2010.
    La presse a un schéma de métadonnées développé au niveau international par l’organisme professionnel l’IPTC. L’AFP est une des rares entreprises françaises à être fortement impliquée dans ces travaux. Elle exploite donc ce schéma standardisé. Elle ne met en oeuvre pour la classification automatique 300 catégories parmis les 1500 catégories proposées dans le standard. Pour le vocabulaire d’indexation plus général, l’AFP va utiliser un vocabulaire existant, en l’occurrence Eurovoc. Des traitements semi-automatiques pour les entités nommées (Temis) s’appuyant sur des vocabulaires de références chargés dans Mondeca, et une classification automatique pour enrichir les métadonnées…
  • Des bruits de couloir (c’est entre autres pour cela que je vais à Online) : farouche anti-vocabulaire contrôlé depuis plus de 10ans que je connais ce produit et son ancêtre (Livetopic), Exalead serait associé à Mondeca chez un client (j’ai oublié de demander si je pouvais citer le nom de l’entreprise, dans le doûte je m’abstiens)… Une solution que je trouve a priori idéale. J’attends avec impatience de « voir de visu » …

Prochains salons :
Documation – 25 et 26 mars 2009 (Cnit Paris)
solutions intranet & travail collaboratif – 12 et 13 mai 2009 (Cnit Paris)
i-Expo et Online2009 – 17 et 18 juin 2009 (Porte de Versailles, Paris)