Traiter (des photos) pour trouver

L'indexation (humaine) des photos – vaste question que Patrick peccatte attaque à partir
d'exemples concrets … « Du bruit au signal (et inversement ») » (titre
de son blogue) : on ne peut mieux dire.

Un premier constat : des pratiques très variées pour ne pas dire
disparates.

Un deuxième constat : les limites du format IPTC/IIM qui n'offre pas dans
son modèle de quoi hiérarchiser ou structurer ces « mots clés ». Ce qui laisse le champs libre, semble-t-il, les pratiques actuelles.

De ces exemples, j'en tire pour ma part d'autres enseignements en
particulier sur les difficultés à articuler méthodes et outillages
techno-documentaires "manuels" et automatiques, pour ces derniers, exploités de longue date mais pas assez
diffusés, me semble-t-il même si les applications intranets ou de catalogue électronique ont "bousté" ces technologies depuis l'an 2000.

Je pense en particulier :

  • aux technologies linguistiques ou plus largement sémantique pour (a minima) la reformulation des
    questions
    (1).  L'idée de vouloir intégrer « à la main », pour simplifier la vie des
    utilisateurs, la multiplicité des formes fléchies, désinences, … me
    semble quelque peu utopique. Certains dispositifs utilisent des outils
    de lemmatisation "simple", comme celui de Porter
    , mais cette technique bien
    souvent, n'est pas suffisante, et il serait nécessaire d'intégrer d'autres catégories
    d'algorithmes ou de solutions plus élaboré(e)s. D'autant qu'aujourd'hui, ces technologies se démocratisent et sont utilisables sur le web (ce qui semblait difficile il y a 10 ans). On a même des moteurs spécialisés comme Ask ou Hakia (une recherche sur le recyclage des emballages de fruits).
  • après avoir embarqué et traité la requête, il s'agit de l'enrichir grâce aux techniques d'expansion sémantique en recherche
    ce qui évite ainsi
    d'indexer à outrance les ressources, par intégration de tous les termes (génériques mais aussi équivalents) le
    long d'une branche d'un thésaurus ou de tout autre type de ressource sémantique, comme le
    montre certains exemples évoqués par P.Peccatte. Il s'agit alors d'utiliser un programme dédié exploitant à la recherche un graphe de concepts. Cette extension peut intégrer également (mais avec prudence) les branches reliées par des relations moins fortes
    comme des relations associées. Ce principe est intégrés aux solutions sémantiques évoluées (Autonomy, Exalead, Sinequa…). Les logiciels de gestion documentaires proposent quant à eux ces fonctions mais uniquement d'autopostage, c'est-à-dire justement à l'indexation pour enrichir la description de la ressource ; en général elles ne sont pas intégrées aux portails.
    Mais il reste encore des choses à faire pour tenir compte à la fois des métadonnées lorsqu'elles existent et des traitements automatiques d'expansion sémantique.
  • de la gestion des  métadonnées si l'on veut employer les
    notions plus actuelles : le marqueur de langue apparaît dans ces exemples, mais le principe de marqueurs sémantiques des contenus,
    utilisables bien sûr en recherche, peut se déployer sur d'autres catégories d'information : géographique, composition ou position dans
    l'image, catégorie de personnage,….Cette catégorisation sémantique est difficile à identifier tant cette zone d'analyse des contenus est brouillée par l'apport de termes tout azimut.
  • et bien sûr, une présentation catégorisée des résultats de la
    recherche
    , sur la base de ces marqueurs (métadonnées) et/ou de
    traitements totalement automatiques sur les contenus

Quant aux pratiques de représentation structurée : elles existent déjà ! Par
exemple : Getty Image ou Jupiter pour n'en citer que deux. Une course stratégique pour répondre aux besoins des clients.

Cette rapide étude conduite par P Peccatte montre aussi que les secteurs ou les organismes ne sont pas tous au même
degré de maturité face aux méthodes ou techniques automatiques (linguistique,
statistique ou de modélisation), et que certains se sont laissés … dépassés par les volumes à la fois des ressources et des utilisateurs.

Répondre au fil de l'eau aux
demandes -parfois contradictoires- des Utilisateurs
aboutit aujourd'hui à des « châteaux de cartes » 😉

Compliqué !

Pour aborder la partie linguistique

Les applications d'accès à l'information textuelle, C. Fabre, 2008, SL0541 –
linguistique et TAL. Support de cours en ppt – Linguistique et Traitement
Automatique des Langues II- S1
(ppt)
ou S2
(ppt)

Indexation automatique et langage naturel (pdf), Sylvie Dalbin, JE du Jeudi 5 Décembre
2002 à Rouen, ADBS Normandie, AIVP et GIDE (Revu en 2009, ce document reste d'actualité – sauf pour les produits et leurs tarifs). (version 2002 en ligne)

Et un livre pour ceux qui voudraient approfondir : Recherche
d'information et traitement de la langue
: fondements linguistiques et
applications, G. Lallich-Boidin, Dominique Maret ; Presses de l'ENSSIB, 2005.-
288 p.

Note (1) – Fluhr C. “ Le traitement du langage naturel dans la
recherche d'information documentaire ” in « Séminaire Inria – Les interfaces
intelligentes dans l'IST
», INRIA, 1992

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s