Catégorisation : organiser les résultats de recherche

Organiser le lot-résultat d’une recherche documentaire en le classant à la volée, voilà une fonctionnalité très intéressante pour l’utilisateur final.
Il ne s’agit pas ici de détailler les techniques de catégorisation ou classification automatique, mais de montrer l’intérêt de cette fonction pour l’utilisateur à travers quelques exemples.

Le modèle de la "recherche documentaire" mis en oeuvre dans de nombreux systèmes documentaires et de bibliothèques, se limite bien souvent à la recherche bibliographique : poser une question précise et obtenir des références de documents.
Mais comment l’utilisateur trouve-t-il l’information utile au sein de cette liste de documents ? Comment sélectionner au sein de ce corpus ?
C’est dans ce contexte de recherche d’information et non uniquement de recherche bibliographique, que la catégorisation du lot-résultat devient alors une fonction essentielle dans les systèmes d’information documentaire.


Petit détour historique …

Au début de l’informatique documentaire – et malheureusement parfois encore ! -, le mode de présentation des résultats d’une recherche bibliographique était … l’ordre d’entrée dans la base !
Une liste à lire séquentiellement sous une forme peu pratique pour s’y repérer. Ce qui conduisait à un travail de dépouillement de ces résultats, (parfois) réalisé par les documentalistes, avant l’envoi du "listing" à l’utilisateur : stabilotage (?) des dates, de la langue du document, de l’orientation thématique, de la nature du texte, ….Bref, tout ce qui pouvait apporter une information susceptible d’aider l’utilisateur à privilégier tel ou tel document, telle ou telle information.

Puis, le développement des systèmes de gestion de base de données (SGBD) a permis d’exploiter chacune des rubriques en amont ou en aval de la requête pour trier les résultats : date, nom d’auteur, type de support, …. Des imbrications de tris peuvent être proposées : date, puis par nom d’auteur par exemple.

Enfin, depuis une dizaine d’année de façon perceptible, avec l’idée sous-jacente de traiter les contenus numériques et non des références, de nouvelles techniques ont vu le jour. Elles traitent le lot résultat pour fournir à l’utilisateur une vision organisée, classifiée, structurée et des outils d’orientation supplémentaires pour se repérer dans ce corpus de documents.

clusterisation (ou « typologie », ou « regroupement »,
ou « classification automatique »), c’est partitionner
une base de données en un petit nombre de sous-bases, appelées
« classes », et  telle que :
= Deux individus appartenant à une même classe soient aussi semblables que possible.
= Deux individus appartenant à deux classes différentes soient aussi dissemblables que
    possible. (tiré de AI Access).


Sur le Web
, nous avons accès à des solutions proposées par :
MatchPoint de TripleHop, qui fonctionne sur le site Find.com
Exalead, par le concepteur à l’époque de LiveTopic, pour les routards de la documentation (LE Altavista des années 1997)
Vivisimo qui fonctionne sur le site Clusty où l’organisation des résultats s’opère sur tous les types de ressources : Web, mais aussi blogues, actualités,….

Ces trois sociétés – entre autres – proposent des produits et services pour les intranets, mais leur offre sur le web – en bêta ou en démonstration – va nous permettre de pointer quelques unes de leurs caractéristiques.

Vous pouvez aussi visiter, dans des environnements professionnels diversifiés :
– le site de l’Inria, avec des règles de catégorisation adaptées au contexte (sous Exalead)
– le site de la mairie de Pittsburg : http://cityofpittsburgh.net/
– le site Proceedings of the National Academy of Sciences (USA). Après avoir fait une recherche, sélectionnez un terme de l’index sujet ("subject indexes" à droite de l’écran), pour atteindre Instant Index.
AOL US a opté pour Vivisimo, AOL France – le premier à avoir en 2002 proposé cette solution – a opté quant à lui pour Exalead.
– Ou encore les solutions : Factbites et de nombreux autres outils adaptables à des moteurs d’indexation et de recherche, par exemple WSM de MSN ou tous les produits de recherche sur le contenu, d’Albert Inc à New-phenix en passant par Verity.

Lire la suite

Publicités