Traiter (des photos) pour trouver

L'indexation (humaine) des photos – vaste question que Patrick peccatte attaque à partir
d'exemples concrets … « Du bruit au signal (et inversement ») » (titre
de son blogue) : on ne peut mieux dire.

Un premier constat : des pratiques très variées pour ne pas dire
disparates.

Un deuxième constat : les limites du format IPTC/IIM qui n'offre pas dans
son modèle de quoi hiérarchiser ou structurer ces « mots clés ». Ce qui laisse le champs libre, semble-t-il, les pratiques actuelles.

De ces exemples, j'en tire pour ma part d'autres enseignements en
particulier sur les difficultés à articuler méthodes et outillages
techno-documentaires "manuels" et automatiques, pour ces derniers, exploités de longue date mais pas assez
diffusés, me semble-t-il même si les applications intranets ou de catalogue électronique ont "bousté" ces technologies depuis l'an 2000.

Je pense en particulier :

  • aux technologies linguistiques ou plus largement sémantique pour (a minima) la reformulation des
    questions
    (1).  L'idée de vouloir intégrer « à la main », pour simplifier la vie des
    utilisateurs, la multiplicité des formes fléchies, désinences, … me
    semble quelque peu utopique. Certains dispositifs utilisent des outils
    de lemmatisation "simple", comme celui de Porter
    , mais cette technique bien
    souvent, n'est pas suffisante, et il serait nécessaire d'intégrer d'autres catégories
    d'algorithmes ou de solutions plus élaboré(e)s. D'autant qu'aujourd'hui, ces technologies se démocratisent et sont utilisables sur le web (ce qui semblait difficile il y a 10 ans). On a même des moteurs spécialisés comme Ask ou Hakia (une recherche sur le recyclage des emballages de fruits).
  • après avoir embarqué et traité la requête, il s'agit de l'enrichir grâce aux techniques d'expansion sémantique en recherche
    ce qui évite ainsi
    d'indexer à outrance les ressources, par intégration de tous les termes (génériques mais aussi équivalents) le
    long d'une branche d'un thésaurus ou de tout autre type de ressource sémantique, comme le
    montre certains exemples évoqués par P.Peccatte. Il s'agit alors d'utiliser un programme dédié exploitant à la recherche un graphe de concepts. Cette extension peut intégrer également (mais avec prudence) les branches reliées par des relations moins fortes
    comme des relations associées. Ce principe est intégrés aux solutions sémantiques évoluées (Autonomy, Exalead, Sinequa…). Les logiciels de gestion documentaires proposent quant à eux ces fonctions mais uniquement d'autopostage, c'est-à-dire justement à l'indexation pour enrichir la description de la ressource ; en général elles ne sont pas intégrées aux portails.
    Mais il reste encore des choses à faire pour tenir compte à la fois des métadonnées lorsqu'elles existent et des traitements automatiques d'expansion sémantique.
  • de la gestion des  métadonnées si l'on veut employer les
    notions plus actuelles : le marqueur de langue apparaît dans ces exemples, mais le principe de marqueurs sémantiques des contenus,
    utilisables bien sûr en recherche, peut se déployer sur d'autres catégories d'information : géographique, composition ou position dans
    l'image, catégorie de personnage,….Cette catégorisation sémantique est difficile à identifier tant cette zone d'analyse des contenus est brouillée par l'apport de termes tout azimut.
  • et bien sûr, une présentation catégorisée des résultats de la
    recherche
    , sur la base de ces marqueurs (métadonnées) et/ou de
    traitements totalement automatiques sur les contenus

Quant aux pratiques de représentation structurée : elles existent déjà ! Par
exemple : Getty Image ou Jupiter pour n'en citer que deux. Une course stratégique pour répondre aux besoins des clients.

Cette rapide étude conduite par P Peccatte montre aussi que les secteurs ou les organismes ne sont pas tous au même
degré de maturité face aux méthodes ou techniques automatiques (linguistique,
statistique ou de modélisation), et que certains se sont laissés … dépassés par les volumes à la fois des ressources et des utilisateurs.

Répondre au fil de l'eau aux
demandes -parfois contradictoires- des Utilisateurs
aboutit aujourd'hui à des « châteaux de cartes » 😉

Compliqué !

Pour aborder la partie linguistique

Les applications d'accès à l'information textuelle, C. Fabre, 2008, SL0541 –
linguistique et TAL. Support de cours en ppt – Linguistique et Traitement
Automatique des Langues II- S1
(ppt)
ou S2
(ppt)

Indexation automatique et langage naturel (pdf), Sylvie Dalbin, JE du Jeudi 5 Décembre
2002 à Rouen, ADBS Normandie, AIVP et GIDE (Revu en 2009, ce document reste d'actualité – sauf pour les produits et leurs tarifs). (version 2002 en ligne)

Et un livre pour ceux qui voudraient approfondir : Recherche
d'information et traitement de la langue
: fondements linguistiques et
applications, G. Lallich-Boidin, Dominique Maret ; Presses de l'ENSSIB, 2005.-
288 p.

Note (1) – Fluhr C. “ Le traitement du langage naturel dans la
recherche d'information documentaire ” in « Séminaire Inria – Les interfaces
intelligentes dans l'IST
», INRIA, 1992

Publicités

Conférence Internationale sur les Métadonnées pour la Photographie

Voici un compte-rendu de la 1ère Conférence Internationale sur les Métadonnées pour la Photographie qui s’est tenue en Italie à Florence le 7 juin 2007 (http://www.phmdc.org/). Cette conférence, organisée par l’IPTC et l’IFRA comme « invitée » pendant la conférence du Cepic 2007 (Coordination of European Picture Agencies Press Stock Heritage).

Ce compte-rendu a été établi par David Riecks, photographe (http://www.riecks.com/), créateur du site ControlledVocabulary.com, un lieu-ressource sur les vocabulaires contrôlés – listes, thésaurus et mots clés hiérarchisés pour la description de photos dans des bases de données. David est également l’animateur attentif et même pourrait-on dire, le coach du forum spécialisé du même nom (http://groups.yahoo.com/group/controlledvocabulary/).  Un site et un forum incontournables.

New au 6 juillet 2007 > Le compte-rendu en trois parties est en ligne sur le site de david http://www.controlledvocabulary.com/imagedatabases/phmdc_2007a.html

Merci à David de m’avoir autorisée à diffuser son compte-rendu.

La synthèse du compte-rendu !
Les photographes aiment qu’il y ait des métadonnées avec leurs photos, mais ils ont tendance à ne pas les intégrer spontanément….
Ils devraient pourtant insérer des métadonnées le plus tôt possible dans le processus, si possible pendant l’étape de capture de l’image, et il semble nécessaire de les former (D.Riecks)
Histoire (M. Steidl) et utilisation de différents jeux de métadonnées (Exif, IMM, IPTC Core, XMP…) depuis 1994 où le 1er jeu de métadonnées a été proposé (S.Span; J.Leidicke; R.Bacon). Présentation du schéma XML (G.Penikis) – Interopérabilité entre schémas : IPTC et XMP (P Krogh) et problèmes de récupération des données (P.Krog). Les métadonnées pour la gestion des droits des photos (J. Sedlik)
L’appareillage proposé pour l’alimentation des métadonnées (H.Schorr, C.Molinari, P.Stig, J.Weisberg).

La question de la poursuite d’un tel évènement a été posée pendant les échanges, sans qu’une décision soit prise. A surveiller.

Le compte-rendu de David Riecks …..

Lire la suite

Mariage entre ancien et nouveau, Web2 et mémoire

Voici un projet digne d’intérêt qui allie travail de mémoire, travail documentaire, partage et collaboration (Web2) et enfin n’oublions pas, correspondance entre jeux de métadonnées ! Tout un programme !

PhotosNormandie sur Flickr  et   Présentation du groupe

[petites corrections apportées à la première version, grâce à un lecteur du dimanche matin!]
374560382_c404c9e098
Présentation du projet  – Un habitant de La Haye du Puits, mais qui ? 

Pour le travail de mémoire : proposer des photographies libres de droit sur la Bataille de Normandie, dans un format « professionnel » tant sur le plan photographique (haute définition) que sur le plan documentaire (légende corrigée et enrichie). Ce fonds est constitué à partir de 2330 photos extraites du site ArchivesNormandie. La majorité de ces photos sont issues des archives américaines et canadiennes.

Pour le travail documentaire : améliorer la qualité de la légende sur les plans du contrôle des données (des erreurs ont été relevées par des connaisseurs) et de la précision des lieux, des matériels, des évènements ou des personnes (beaucoup de photos ne sont que peu renseignées).

Pour le collaboratif Web2 : qualifier et enrichir les légendes par un travail collaboratif de toutes les personnes intéressées via Flickr. Un groupe de discussion adossé au dossier Flickr est ouvert à tous (l’inscription est très facile). Comme le montre la copie d’écran ci-après, des échanges fructueux ont lieu entre les participants, preuves à l’appui ! Ce travail collaboratif est validé par un administrateur éditorial, Michel Le Querrec (fortement impliqué dans la vie du site « Débarquement.com), qui a le dernier mot. Une fois la nouvelle légende acceptée, celle-ci est modifiée sur la photo originale par l’administrateur technique, Patrick Peccatte, puis la photo avec sa nouvelle légende est rechargée dans le dossier en remplacement de la première photo, Flickr ne permettant pas le rechargement des seules métadonnées. Les échanges entre contributeurs sont mémorisés dans l’espace « groupe de discussion » jusqu’au remplacement d’une photo avec sa légende complétée à la suite de la discussion. D’après les administrateurs, le sujet circonscrit et spécialisé, et la validation par un petit groupe de spécialistes constituent une barrière aux risques de dérives.

Test

Pour la mise en correspondance (mapping) des métadonnées : des photos enrichies initialement avec des métadonnées IPTC (schéma de métadonnées « presse » évoluant vers IPTCCore le NewsML) et XMP d’Adobe, basculées dans le format simplifié Flickr au moment du chargement de la photo, avec un résultat plus conforme avec le jeu IPTC qu’avec XMP.
Pour tout savoir sur les métadonnées, en particulier celles embarquées dans les fichiers informatiques, un seul site : Patrick Peccatte de Soft Experience, par ailleurs  co-initiateur et administrateur technique de ce projet.
Muet sur son site sur le sujet de l’import de métadonnées, Flickr semble être le seul à proposer cette fonction, avec le tableau de correspondance suivant :

  • Object Name (IPTC 5 = référence originale de la photo) > Title Flickr
  • Caption (IPTC 120=description de la photo) > Description Flickr
  • Les champs Keywords (IPTC 25), City (IPTC 90=nom de la ville où la photo a été prise), Province/State (IPTC 95=nom du département où la photo a été prise), Country Name (IPTC 101) sont récupérés en tags dans Flickr
  • Copyright (IPTC 116) >> Copyright Flickr (en fait, Flickr semble plutôt faire l’impasse sur ces données).

Pour poursuivre dans le registre technique, l’abonnement au service Pro de Flickr d’un prix très modeste (25$=19€), permet entre autre le stockage en haute résolution des photographies et la conseration des métadonnées IPTC et XMP. Pour participer au projet, il n’est cependant nécessaire que d’ouvrir un compte gratuit sur Flickr.

Vous mettez un fonds de photos à « nettoyer » à la disposition d’une équipe petite (pour le moment) mais enthousiaste, regroupant des connaisseurs en histoire, des amoureux de la Normandie et des spécialistes de l’informatique photographique, le tout immergé dans un terreau d’ardeur, de militantisme et de professionnalisme, et le tour est joué. Certes, d’après un des administrateurs, le temps et les manipulations ont été sous-évaluées. Un cas classique.

Je verrais très bien un prolongement à caractère plus social à un tel projet.
Car s’il faut ici se tourner vers les « anciens », les seuls à même d’apporter leurs connaissances des lieux, personnes et évènements, et tout leur cœur à l’étude de ces photos d’époque, je les vois mal se ruer tous ensemble sur Flickr. Les Ateliers d’informatique qui s’adressent à ces publics, en général tournés sur les courriels et discussions en ligne avec les petits-enfants ou les recherches généalogiques, trouvent-là un nouveau sujet motivant, en tous les cas sûrement pour les habitants de cette région de France. Et sans aller jusqu’à pousser les seniors à manipuler eux-même ces engins électroniques, les intervenants auprès de ces publics pourraient efficacement utiliser ces matériaux au cours de leurs animations : regarder des photos plein écran, c’est appréciable !

Un projet pour la Normandie …  qui reste bien sûr à monter de toute pièce.

Merci à Patrick Peccatte pour sa disponibilité.