De retour de Londres : Online 2008

Un bref retour de cette journée et demie passée à Londres. Une ballade centrée sur la partie IMS (information management system) de l’exposition, et plus particulièrement sur les outils et technologies de recherche.

1. L’Utilisateur au centre des préoccupations … enfin !

Petit retour en arrière : depuis le début de l’informatique, les technologies de recherche se sont focalisées :

sur la requête proprement dite et ses performances algorithmiques ;
puis plus récemment sur les aides à la sélection au sein des résultats d'unités documentaires, grâce à une organisation contextuelle des résultats, « pertinente » par rapport à la requête posée, et par l’affichage d’information de contexte (métadonnées associées, clusters ou thèmes d’Exalead par exemple …).

Ces technologies poursuivent leur route avec aujourd’hui un enrichissement fonctionnel pour et par …. l’Utilisateur.

Que lui offre-t-on ? que peut-il faire une fois que la machine lui offre des résultats si volumineux ?
Trois exemples tirés des ateliers du salon IMS.

Vivisimo
– tags en texte libre ou … contrôlé ( !)
– annotation des résultats (sous-entendu du rédactionnel, plus qu’un mot clé)
– vote
– création de dossiers virtuels privé ou public

Sachant qui a étiqueté quoi, on se retrouve de fait dans la logique des réseaux sociaux où l’accès à l’information se fait en suivant ce que fait quelqu’un (ses ressources étiquetées ou ses favoris).

SI l’on a bien vu des copies d’écrans, peu de réponses précises aux questions (perverses!) de quelques auditeurs ! : quid de l’outil du vocabulaire contrôlé ? et comment faites-vous pour gérer les annotations ? …

Je vous renvoie vers les copies d’écran sur la documentation maison.

Pour en savoir plus, Vivisimo a maintenant un partenariat pour sa diffusion en France avec Social Computing.

Exalead

Face
à l’hégémonie de Google, Exalead (idem pour vivisimo) est toujours
obligé d’expliquer le pourquoi du comment "organiser un lot résultat".
Avec sa « zapette thématique« , sa boîte à malices : termes associés à
la requête, rubriques associées (issues de Dmoz), mais aussi
localisation des sites, langue … Bref présentation du contexte pour
orienter la sélection.

Exalead poursuit ses expériences avec Wikipédia : après le portail d’accès organisant l’information suivant les Catégories, Termes associés, Personnes, Lieux ou Organisations, des possibilités d’enrichissement de vos pages en surlignant des termes pour lesquels une information contextuelle en provenance de Wikipedia est proposée au lecteur. « Wikifier » appliqué à une page de la BBC (cela marche mieux en anglais vu la taille de Wikipedia-En)

Ne pas hésiter à se promener dans le laboratoire d’Exalead (labs.exalead.com)

Antidot

Antidot propose une couche supplémentaire à la couche technique AFS (Antidoc Finder Suite) de sa technologie, qui permet :

de sauvegarder la requête
de sauvegarder des url (favoris)
d’enrichir les résultats avec des mots clés (tags)
d’organiser ses résultats
de diffuser les résultats (flux)

Et alors ?
Certaines des fonctionnalités proposées dans les "espaces utilisateurs" des portails documentaires s'intègrent donc aux outils génériques (le moteur de recherche) de l'intranet). Les utilisateurs vont s'y habituer…

Et après ?

Je n’ai pas vu d’outils ou de solutions proposant une représentation visuelle des résultats (Mapstan ou Kartoo). Mais attendons encore un peu pour inverser la vision encore centrée sur les "fonds" et proposer d’orienter les résultats – leur sélection et leur organisation – par une représentation personnalisée des besoins de l’utilisateur : sa propre « ontologie » en lieu et place des quelques mots clés embarqués pour la requête (cf l'ancien outil Topic de Verity des années 1990), et des résultats organisés automatiquement par rapport à cette représentation !

20 ans après les débuts de la GED, il ne restera plus qu’à se concentrer sur une question toujours ignorée : « comment lire et exploiter ces résultats numériques ».

2. CMS Watch – « A critical look at enterprise search technology : 2009 and beyond ».

Retour sur l’intervention de Theresa Regli de CMS Watch. CMS Watch est une société américaine d’analyse technologique, indépendante des éditeurs. La société poursuit ses investigations du marché des Vendeurs de solutions technologiques et a repris en l’adaptation, le « découpage » proposé en 2006 (voir Outils froids en 2006)

offreur d’infrastructure : IBM, Oracle, SAP…
offreur de plateforme de recherche : Autonomy, FAST, Endeca
offreur d’outil spécialisé : Sinequa, Exalead, Vivisimo,…
offreur d’outil de base : Coveo, ISYS, Mondosoft, …
offreur de solution clé en main (turnkey appliances) : Google, Thunderstone, …

Dans ce panel présenté dans les rapports de CMS Watch, tout de même très centré « US » ou plutôt « English », on remarque des produits inconnus ou très peu connus sur le marché français, mais aussi 2 produits d’origine française: Exalead et Sinequa (technologie linguistique et sémantique), tous deux ayant des bases sur le territoire état-unien. Theresa Regli a plusieurs fois insisté d’ailleurs en annonçant des produits français, certainement pour prouver que sa société regardait vraiment les fonctions et la qualité et non le territoire d’origine !

Le « beyond » n’a pas été réellement abordé, Theresa nous renvoyant vers les rapports de CMS Watch. Par contre, partant du constat que chacun des logiciels offre toujours des aspects très positifs et des zones d’ombres, Theresa s’est focalisée sur la démarche d’aide à la décision ainsi que sur l’énoncé de quelques recommandations à l’attention de ceux qui seraient dans une démarche de recherche d’une solution. J’ai simplement noté :

des limites considérées par CMS Watch comme encore d’actualité :

le niveau de sécurité
l’incapacité à intégrer des contenus spécialisés
la difficulté à concilier information structurée et non-structurée
les coûts, durées et difficultés requises pour incorporer différents référentiels

Les trois derniers nous concernent en plein.
Curieusement personne n’aborde ou même ne cite la question de la production de l’information pour améliorer la situation ….

une approche basée sur la méthode des scénarios pour étayer une démarche de choix
Un exemple intéressant portait sur la comparaison de quelques critères entre FAST et Sharepoint (je rappelle que : Sharepoint est la plateforme intranet/travail collaborative de Microsoft, Microsoft qui a racheté FAST l’an passé)

FAST     Champ couvert     Sharepoint
[-]          desktop                 [-]
[-]          départemental        *
*           site web                    *
*           internet hybrid       [-]
*           multi-entrepôt       [-]

Cela montre que ces deux produits sont complémentaires 😉

3. Sharepoint

On ne peut pas se défiler et comme le dit Montague Institute obligé de se justifier sur son importante production sur Sharepoint : « more than 100 million SharePoint licenses since launching the product in 2001 ».

Aparté …..
Comme toujours avec Microsoft, le produit de (très) médiocre qualité est lancé en grande pompe avec une visée de casser le marché, celui de Lotus à l’époque ou d'autres applications de même nature. Petit à petit (j’ai vu le produit en 2001, donc 8 ans après son arrivée), le produit finit par intégrer ce que la concurrence faisait déjà avant qu’il n’arrive ;-), avec heureusement les technos du jour.
Et bien sûr, de l’avis de tous, c’est extraordinaire. Effectivement vu d’où il est parti, cela peut l’êtr 😉

Un autre motif explicatif de cette démarche tient aussi à l’emprise exlusive des informaticiens sur "ce qui est mieux pour les utilisateurs". Car les fonctionnalités proposées par Sharepoint en 2001, c’était à peu près ce qu’un informaticien de l’époque pouvait comprendre des besoins du travail collaboratif et de la gestion documentaire. Ceux qui travaillaient depuis 1990 (et avant) savaient déjà que ce n'étaient pas suffisant. Vu la main-mise des informaticiens, leur approche techniciste (encore plus en France paraît-il) de la mise en oeuvre d'un groupware (vision exlusivement techno sans remise en cause de la production de l'information), on ne pouvait rien faire d’autre. Mais pendant tout ce temps, beaucoup d’info et de documents sont perdus, de systèmes d’information qui tournaient pourtant bien ont été mis à mal ; bref beaucoup de gachis documentaires et humains et de dépenses importantes.
Je poursuis mon coup de geule par un troisième motif. C’est sûr, il faut absolument une sur-couche à Windows pour ranger ses documents ! bon truc d’éditeur. Et comme nous allons le voir, il faut une troième couche parce que de toute façon, Sharepoint ne fait pas de la gestion d’information…

Fin de l'aparté.
(je sais : j’ai dû perdre beaucoup de clients et de partenaires SSII, c’est clair 😉

J’en reviens à Online/IMS avec la présentation par Sourtron Global, vendeur d’une solution de logiciel de gestion de thésaurus bien connu depuis 30 ans sur le territoire UK, de la mise en place chez des clients de leur produit autour de Sharepoint. Utilisation de l’extension appelée Taxonomy Extension Sharepoint XXL, ainsi que les propriétés « content type » pour indexer tout contenu avec ces taxonomies. (Idem d’ailleurs pour Synaptica depuis septembre 2008).
Idem pour la société ANS, diffuseur du produit AMLIB, logiciel de gestion bibliothéconomique installé sur le territoire anglais.
Il ne s’agit pas ici de passer à ces applications à partir de Sharepoint (sauf peut être pour AMLib?), fonction bien sur possible depuis longtemps, mais bien d’exploiter pour les informations gérées avec Sharepoint, des fonctionnalités comme la gestion de vocabulaires contrôlés, de taxonomies ou des fonctions de contrôle, qui ne se trouvent pas ou de façon trop simplifiées dans Sharepoint.

4. Indexation automatique couplée à du vocabulaire contrôlé

Depuis 20 ans, c’est mon leit motif : utiliser le meilleur des deux mondes … Après le tout automatique, le tout linguistique ou le tout humain, le mélange raisonné et harmonieux semble être une direction pragmatique et efficace.

Mr Le Meur de l’AFP a présenté leur solution en cours de développement qui devrait être proposée aux clients en 2010.
La presse a un schéma de métadonnées développé au niveau international par l’organisme professionnel l’IPTC. L’AFP est une des rares entreprises françaises à être fortement impliquée dans ces travaux. Elle exploite donc ce schéma standardisé. Elle ne met en oeuvre pour la classification automatique 300 catégories parmis les 1500 catégories proposées dans le standard. Pour le vocabulaire d’indexation plus général, l’AFP va utiliser un vocabulaire existant, en l’occurrence Eurovoc. Des traitements semi-automatiques pour les entités nommées (Temis) s’appuyant sur des vocabulaires de références chargés dans Mondeca, et une classification automatique pour enrichir les métadonnées…

Des bruits de couloir (c’est entre autres pour cela que je vais à Online) : farouche anti-vocabulaire contrôlé depuis plus de 10ans que je connais ce produit et son ancêtre (Livetopic), Exalead serait associé à Mondeca chez un client (j’ai oublié de demander si je pouvais citer le nom de l’entreprise, dans le doûte je m’abstiens)… Une solution que je trouve a priori idéale. J’attends avec impatience de « voir de visu » …

Prochains salons :
Documation – 25 et 26 mars 2009 (Cnit Paris)
solutions intranet & travail collaboratif – 12 et 13 mai 2009 (Cnit Paris)
i-Expo et Online2009 – 17 et 18 juin 2009 (Porte de Versailles, Paris)

Got 6 décembre 2008 / 20 h 05 min

Merci pour ces infos.
Exalead n’est pas le premier moteur à travailler en direct avec Mondeca. Antidot le fait (avec succès) depuis plusieurs années (cf. par exemple : http://www.nievre-tourisme.com/) et permet, entre autres, d’intégrer des thésaurus en SKOS ; ils sont d’ailleurs impliqués (si mes souvenirs sont bons) dans le projet de l’AFP au côté de Temis et Mondeca.
Mais, c’est une très bonne nouvelle pour Exalead, un acteur de plus qui comprend l’apport des vocabulaires contrôlés pour l’approche sémantique (et du coup avec qui on peut travailler 😉 ).

J’aimeJ’aime

Réponse
Dalb 6 décembre 2008 / 21 h 09 min

Merci du commantaire, Got.
En fait je connais bien *tous* les moteurs qui travaillent avec Mondeca … je suis sur ces solutions depuis plus de 3 ans chez des clients. J’ai même des clients qui se lance avec le moteur d’oracle (!). Et c’est bien parce qu’Exalead a toujours soutenu que l’on n’avait pas besoin de vocabulaires contrôlés du tout que j’en parle ici ! Les Anciens savent de quoi je parle… entre 1985 (quatre vingt cinq) et 2005, c’était la logique du binaire : on était pour l’un ou pour l’autre (chez certains documentalistes aussi d’ailleurs). Depuis 1988 que je travaille dans le domaine de l’accès à l’info, j’ai toujours penser qu’il fallait mixer toutes les approches (automatisme statistique-linguistique-sémantique, et humains). Je pense d’ailleurs que ce sont les clients (et les résultats concrets !) qui pousse Exalead. J’aimerais entendre aujourd’hui l’avis de F.Bourdoncle. Dalb

J’aimeJ’aime

Réponse

Descripteurs

Quand les données seront interopérables ….