Catégorisation : organiser les résultats de recherche

Organiser le lot-résultat d’une recherche documentaire en le classant à la volée, voilà une fonctionnalité très intéressante pour l’utilisateur final.
Il ne s’agit pas ici de détailler les techniques de catégorisation ou classification automatique, mais de montrer l’intérêt de cette fonction pour l’utilisateur à travers quelques exemples.

Le modèle de la "recherche documentaire" mis en oeuvre dans de nombreux systèmes documentaires et de bibliothèques, se limite bien souvent à la recherche bibliographique : poser une question précise et obtenir des références de documents.
Mais comment l’utilisateur trouve-t-il l’information utile au sein de cette liste de documents ? Comment sélectionner au sein de ce corpus ?
C’est dans ce contexte de recherche d’information et non uniquement de recherche bibliographique, que la catégorisation du lot-résultat devient alors une fonction essentielle dans les systèmes d’information documentaire.


Petit détour historique …

Au début de l’informatique documentaire – et malheureusement parfois encore ! -, le mode de présentation des résultats d’une recherche bibliographique était … l’ordre d’entrée dans la base !
Une liste à lire séquentiellement sous une forme peu pratique pour s’y repérer. Ce qui conduisait à un travail de dépouillement de ces résultats, (parfois) réalisé par les documentalistes, avant l’envoi du "listing" à l’utilisateur : stabilotage (?) des dates, de la langue du document, de l’orientation thématique, de la nature du texte, ….Bref, tout ce qui pouvait apporter une information susceptible d’aider l’utilisateur à privilégier tel ou tel document, telle ou telle information.

Puis, le développement des systèmes de gestion de base de données (SGBD) a permis d’exploiter chacune des rubriques en amont ou en aval de la requête pour trier les résultats : date, nom d’auteur, type de support, …. Des imbrications de tris peuvent être proposées : date, puis par nom d’auteur par exemple.

Enfin, depuis une dizaine d’année de façon perceptible, avec l’idée sous-jacente de traiter les contenus numériques et non des références, de nouvelles techniques ont vu le jour. Elles traitent le lot résultat pour fournir à l’utilisateur une vision organisée, classifiée, structurée et des outils d’orientation supplémentaires pour se repérer dans ce corpus de documents.

clusterisation (ou « typologie », ou « regroupement »,
ou « classification automatique »), c’est partitionner
une base de données en un petit nombre de sous-bases, appelées
« classes », et  telle que :
= Deux individus appartenant à une même classe soient aussi semblables que possible.
= Deux individus appartenant à deux classes différentes soient aussi dissemblables que
    possible. (tiré de AI Access).


Sur le Web
, nous avons accès à des solutions proposées par :
MatchPoint de TripleHop, qui fonctionne sur le site Find.com
Exalead, par le concepteur à l’époque de LiveTopic, pour les routards de la documentation (LE Altavista des années 1997)
Vivisimo qui fonctionne sur le site Clusty où l’organisation des résultats s’opère sur tous les types de ressources : Web, mais aussi blogues, actualités,….

Ces trois sociétés – entre autres – proposent des produits et services pour les intranets, mais leur offre sur le web – en bêta ou en démonstration – va nous permettre de pointer quelques unes de leurs caractéristiques.

Vous pouvez aussi visiter, dans des environnements professionnels diversifiés :
– le site de l’Inria, avec des règles de catégorisation adaptées au contexte (sous Exalead)
– le site de la mairie de Pittsburg : http://cityofpittsburgh.net/
– le site Proceedings of the National Academy of Sciences (USA). Après avoir fait une recherche, sélectionnez un terme de l’index sujet ("subject indexes" à droite de l’écran), pour atteindre Instant Index.
AOL US a opté pour Vivisimo, AOL France – le premier à avoir en 2002 proposé cette solution – a opté quant à lui pour Exalead.
– Ou encore les solutions : Factbites et de nombreux autres outils adaptables à des moteurs d’indexation et de recherche, par exemple WSM de MSN ou tous les produits de recherche sur le contenu, d’Albert Inc à New-phenix en passant par Verity.

Voici les questions sur les trois moteurs : Exalead ou Vivisimo.
– dopage dans le sport
– elargissement de l’union europeenne
– ou encore : personnalisation de nom de domaines (mon problème actuel !)

Ces résultats ont été obtenus le 12 septembre 2005.


Exemple 1: Dopage dans le sport sur Exalead 
(Cliquer sur l’image pour l’agrandir)

Exa1_5Exalead propose une interface structurée en plusieurs espaces.
A GAUCHE :
– des "TERMES ASSOCIES", extraits des documents ; cette fonction permet d’isoler des sous-groupes de documents ;
– des "RUBRIQUES ASSOCIEES" : cette catégorisation thématique correspond à celles de l’annuaire Dmoz.org ;
– un autre critère plus rarement présenté : la LOCALISATION du document (ou du serveur sur lequel est stocké la ressource).
– Enfin, le type de FICHIER INFORMATIQUE.
A DROITE  : une imagette du site (=la couverture du livre)
AU CENTRE : une présentation (très réduite) de la ressource numérique : titre, adresse, et la(les) rubriques associées selon la terminologie d’Exalead. Avec des possibilités d’étendre la question à partir du site et/ou de la rubrique (le rebond, diraient les collègues bibliothécaires)

Exemple 2 : Elargissement de l’union européenne sur Exalead (Cliquer sur l’image pour l’agrandir)

Exa3_3


Exemple 3 : Dopage dans le sport sur Exalead (suite)
(Cliquer sur l’image pour l’agrandir)

Exa2_2En sélectionnant un des "TERMES ASSOCIES", le lot de documents concerné est présenté dans la page centrale. L’ensemble des outils de navigation sont "regénérés" et associés à ce groupe précis de documents (nouveaux termes associés, différences dans les rubriques et  éventuellement pour la localisation).
Ce changement parce que non tracé à l’écran, peut être perturbant pour l’utilisateur qui n’a pas repérer la transaction effectuée par la machine.



Exemple 4 : Dopage dans le sport sur Vivisimo
(Cliquer sur l’image pour l’agrandir)

Vivi1_1

Vivisimo propose dans sa fenêtre résultat de recherche en bas de l’écran à gauche, une recherche complémentaire dans ce lot résultat.
Le système met alors en surbrillance, dans la liste des regroupements (clusters) et dans la description des ressources, le terme recherché.

La technologie utilisée ici permet de visualiser les niveaux d’arborescence des regroupements et de conserver cette arborescence en permanence à l’écran. Ce qui constitue une aide pour l’orientation de l’utilisateur.

 

La catégorisation : une fonctionnalité spécifique, puissante basée sur des techniques différentes entre les produits. Une ergonomie et des fonctions complémentaires diverses (type de fichier, recherche dans le lot…) que l’on peut trouver avec des outils plus classiques.
Fonctions d’exploration du lot-résultat et ergonomie : le duo gagnant pour faciliter la vie de certains utilisateurs.

Quelques ressources qui pistent ces outils : les blogues Outils froids ou de l’Urfist et le site Intelligence-center.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s