Traiter (des photos) pour trouver

L’indexation (humaine) des photos – vaste question que Patrick peccatte attaque à partir
d’exemples concrets … « Du bruit au signal (et inversement ») » (titre
de son blogue) : on ne peut mieux dire.

Un premier constat : des pratiques très variées pour ne pas dire
disparates.

Un deuxième constat : les limites du format IPTC/IIM qui n’offre pas dans
son modèle de quoi hiérarchiser ou structurer ces « mots clés ». Ce qui laisse le champs libre, semble-t-il, les pratiques actuelles.

De ces exemples, j’en tire pour ma part d’autres enseignements en
particulier sur les difficultés à articuler méthodes et outillages
techno-documentaires « manuels » et automatiques, pour ces derniers, exploités de longue date mais pas assez
diffusés, me semble-t-il même si les applications intranets ou de catalogue électronique ont « bousté » ces technologies depuis l’an 2000.

Je pense en particulier :

  • aux technologies linguistiques ou plus largement sémantique pour (a minima) la reformulation des
    questions
    (1).  L’idée de vouloir intégrer « à la main », pour simplifier la vie des
    utilisateurs, la multiplicité des formes fléchies, désinences, … me
    semble quelque peu utopique. Certains dispositifs utilisent des outils
    de lemmatisation « simple », comme celui de Porter
    , mais cette technique bien
    souvent, n’est pas suffisante, et il serait nécessaire d’intégrer d’autres catégories
    d’algorithmes ou de solutions plus élaboré(e)s. D’autant qu’aujourd’hui, ces technologies se démocratisent et sont utilisables sur le web (ce qui semblait difficile il y a 10 ans). On a même des moteurs spécialisés comme Ask ou Hakia (une recherche sur le recyclage des emballages de fruits).
  • après avoir embarqué et traité la requête, il s’agit de l’enrichir grâce aux techniques d’expansion sémantique en recherche
    ce qui évite ainsi
    d’indexer à outrance les ressources, par intégration de tous les termes (génériques mais aussi équivalents) le
    long d’une branche d’un thésaurus ou de tout autre type de ressource sémantique, comme le
    montre certains exemples évoqués par P.Peccatte. Il s’agit alors d’utiliser un programme dédié exploitant à la recherche un graphe de concepts. Cette extension peut intégrer également (mais avec prudence) les branches reliées par des relations moins fortes
    comme des relations associées. Ce principe est intégrés aux solutions sémantiques évoluées (Autonomy, Exalead, Sinequa…). Les logiciels de gestion documentaires proposent quant à eux ces fonctions mais uniquement d’autopostage, c’est-à-dire justement à l’indexation pour enrichir la description de la ressource ; en général elles ne sont pas intégrées aux portails.
    Mais il reste encore des choses à faire pour tenir compte à la fois des métadonnées lorsqu’elles existent et des traitements automatiques d’expansion sémantique.
  • de la gestion des  métadonnées si l’on veut employer les
    notions plus actuelles : le marqueur de langue apparaît dans ces exemples, mais le principe de marqueurs sémantiques des contenus,
    utilisables bien sûr en recherche, peut se déployer sur d’autres catégories d’information : géographique, composition ou position dans
    l’image, catégorie de personnage,….Cette catégorisation sémantique est difficile à identifier tant cette zone d’analyse des contenus est brouillée par l’apport de termes tout azimut.
  • et bien sûr, une présentation catégorisée des résultats de la
    recherche
    , sur la base de ces marqueurs (métadonnées) et/ou de
    traitements totalement automatiques sur les contenus

Quant aux pratiques de représentation structurée : elles existent déjà ! Par
exemple : Getty Image ou Jupiter pour n’en citer que deux. Une course stratégique pour répondre aux besoins des clients.

Cette rapide étude conduite par P Peccatte montre aussi que les secteurs ou les organismes ne sont pas tous au même
degré de maturité face aux méthodes ou techniques automatiques (linguistique,
statistique ou de modélisation), et que certains se sont laissés … dépassés par les volumes à la fois des ressources et des utilisateurs.

Répondre au fil de l’eau aux
demandes -parfois contradictoires- des Utilisateurs
aboutit aujourd’hui à des « châteaux de cartes » 😉

Compliqué !

Pour aborder la partie linguistique

Les applications d’accès à l’information textuelle, C. Fabre, 2008, SL0541 –
linguistique et TAL. Support de cours en ppt – Linguistique et Traitement
Automatique des Langues II-( S1 – (ppt) ou S2 – (ppt) ) Liens casséshttps://www.cairn.info/publications-de-C%C3%A9cile-Fabre–28691.htm

Indexation automatique et langage naturel (pdf), Sylvie Dalbin, JE du Jeudi 5 Décembre 2002 à Rouen, ADBS Normandie, AIVP et GIDE (Revu en 2009, ce document reste d’actualité – sauf pour les produits et leurs tarifs).

Et un livre pour ceux qui voudraient approfondir : Recherche
d’information et traitement de la langue
: fondements linguistiques et
applications, G. Lallich-Boidin, Dominique Maret ; Presses de l’ENSSIB, 2005.-
288 p.

Note (1) – Fluhr C. “ Le traitement du langage naturel dans la
recherche d’information documentaire ” , Séminaire Inria, 1992 (http://www.sudoc.fr/003686973). Voir sommaire ici (pdf).

Publicités

Outils de recherche et de navigation : Montague Institute

Montague Institute est depuis 1992 une référence pour tout ce qui touche aux services d’information dans les Entreprises.

A la fois organisme de formation (pour les directions et les professionnels de l’infodoc), service d’information et de recherche sur les domaines des métadonnées et des taxonomies, Montague Institute propose depuis 1998, une « Knowledge base publishing » qui mélait (à l’époque) des données du web, des productions plus traditionnelles et des données issues de base de données.  Cette base éditoriale a évolué en 2003 vers un système éditorial plus complet intégré à leur dispositif de formation : naissait alors le Knowledge Base Editor’s Digest, incorporant également des commentaires d’articles par des spécialistes,  toujours accompagné d’un index A-Z.

En 2005, Montague Institute décide d’outiller cette ressource, et de la partager avec une société que l’institut a initié et soutient : Society of
Knowledge Base Publishers, créé en 1998 par l’institut dont les membres sont des entreprises ou organismes à but non lucratifs, des agences gouvernementales…. Cette nouvelle plateforme, Montague Information Technology (MontagueInfoTech),  est personnalisable pour les clients de l’institut et les membres de l’association (je n’ai pas pu le tester : je ne suis pas (encore) membre).

Sont ainsi accessibles : des textes issus de la foire-aux-questions (et réponses), les articles de leur revue ainsi qu’une sélection de pages du site web, des commentaires, des messages (sélectionnés) de la liste de diffusion, les programmes de formation… : il s’agit certes d’une base d’information et de documents. Mais l’outillage (index, thesaurus, références croisées) proposé optimise considérablement l’exploitation des informations au delà des documents.

Les cordonniers ne sont donc pas toujours les plus mal chaussés !

J’apprécie le fait que pour toutes les ressources, un minimum d’information reste accessible à tous publics, la plupart des articles de fond n’étant accessible dans leur totalité qu’aux abonnés, of course. Par exemple, cet article sur les 10 mythes des taxonomies (Ten Taxonomies Myths) de 2002.

Intéressant aussi de pouvoir étudier  un écran de leur système de gestion des référentiels.
Chaque « terme » a un identifiant avec des dates de création et de mise à jour clairement indiquée, ainsi que les documents qui lui sont assignés dans le système. il y a également des liens crées entre chaque terme et des termes voire des requêtes (External queries) externes. La norme étendue ….

Quelques précisions sur cette rubrique Index.

<Cliquez sur l’image pour l’agrandir>

Montagueinstituteterms

La rubrique Index propose :
– un index Société, un index Personne, une liste des
Questions-Réponses,
– un index thématique sur 2 niveaux (Subjects)

<Cliquez sur l’image pour l’agrandir>

Montagueindexsujet

– associé à un thésaurus (définition, terme générique, spécifique,
associés)

<Cliquez sur l’image pour l’agrandir>

Montaguethesaurus

et une recherche sur un index A-Z intégrant le tout.

<Cliquez sur l’image pour l’agrandir>

Montagueindexaz

 

 

Optimiser l’accès à l’information, une opportunité pour les langages documentaires ?

Après un numéro spécial de la revue Documentaliste SI au début de l’année, l’ADBS poursuit sa réflexion sur la place des vocabulaires contrôlés dans l’accès à l’information et organise une Journée d’étude le 20 septembre 2007
(Paris) sur ce sujet.

Edito : « Si l’accès à l’information est aujourd’hui dominé par les moteurs de
recherche statistiques aux algorithmes toujours plus sophistiqués, la
navigation au travers d’interface guidée n’a-t-elle pas également une
place de choix.

Comment les utilisateurs de systèmes documentaires cherchent-ils
l’information ? Peut-on dresser une typologie selon les publics ?
Trouvent-ils facilement ? La pratique quotidienne d’Internet de ces
dernières années nous permet aujourd’hui d’effectuer un panorama des
usages, des pratiques et des outils mis en œuvre dans la recherche
d’information.

Faut-il continuer à indexer des ressources documentaires et à
produire des thésaurus ? Quelle est la place de l’utilisation du
langage naturel ? Quelle est celle des accès classificatoires ?

Quel rôle doivent ou peuvent tenir les vocabulaires contrôlés dans ce
contexte où chaque élément d’information (métadonnées, texte
intégral, et bientôt l’image elle-même) devient un point d’entrée pertinent ?

Cette journée apour objectif de repérer les modalitésde recherche
mises en œuvre par les différents types d’utilisateurs et de délivrer
quelques éléments clés aux professionnels afin de les aider à
positionner et à enrichir leurs offres d’accès à l’information. »

Infos sur la journée

Programme : http://www.adbs.fr/uploads/journees/5554_fr.php

Bulletin d’inscription :

Accès multisources avec SRU/W

Le projet de La Bibliothèque Européenne a démarré en 2001. Entre 2001
et 2003, les bases techniques sont alors posées, donnant une part importante au protocole SRU  (Search/Retrieve via URL). C’est de ce SRU dont il sera question ici 
(et non de la loi du même sigle mais pas du même nom — Solidarité et au Renouvellement Urbains-– qui nous occupe beaucoup dans les soirées de Conseil de Quartiers…..).

1. Un protocole de recherche tout Web, riche, simple et libre !
2. Un peu de technique

3. Accès multi-sources simplifiés

4. La Bibliothèque Européenne, une application SRU

5. Mais quel vocabulaire utiliser dans un portail multisources ?

6. Et les portails documentaires ?

1. Un protocole de recherche tout Web, riche, simple et libre !

Tout Web….. Le protocole SRU permet de transmettre une requête dans une URL (d’où son nom), à l’instar des moteurs de recherche, direz-vous. Requête et réponses véhiculées dans une
URL, nécessairement en XML, peuvent être envoyées sur le réseau sous différents protocoles de
transfert : HTTP bien sûr, le plus simple, mais
d’autres protocoles sont autorisés comme SOAP (ou POST) utilisés dans
le contexte des Services Web, ces derniers
ayant moins de restrictions, en particulier sur la longueur ou sur
les jeux de caractères dans les messages transmis.

Riche…. Mais ici, grâce au langage de requête utilisé, CQL, SRU permet de formuler aussi bien des requêtes simples avec un ou plusieurs mots que des requêtes structurées plus complexes, pouvant utiliser des valeurs d’index
récupérées par ce mécanisme. Bref, la qualité de z3950 et la simplicité de HTTP/URL. SRU et son compagnon pour les Services Web, SRW
suivent donc le modèle fonctionnel z3950, tout en prenant appui pleinement
sur
l’infrastructure de l’Internet et du Web (les questions et les réponses sont en XML).

Simple… L’élément-clé de ce protocole est le langage de requête utilisé, CQL (Contextual Query Language ou langage de
requête contextuel),  considéré comme plus lisible
et plus intuitif que le langage de requête utilisé avec z3950 (pas très difficile de faire plus simple, diront certains…). Dans le projet TEL, c’est cette simplicité de mise en
oeuvre d’un portail SRU comparé au montage à réaliser à partir d’un
portail traditionnel, qui a orienté ce choix.

Libre… Une autre qualité mise en avant par bons nombres de promoteurs : SRU est un protocole libre et l’OCLC propose un logiciel libre pour implémenter SRU/W pour s’interfacer avec des bases bibliographiques.

Alors SRU et CQL, XML, HTTP ou SOAP, associés bien sûr à OpenURL pour atteindre le document…voilà la quincaillerie pour les années à venir…

2. Un peu de technique

Le protocole ne se contente pas de spécifier l’opération « Search / Retrieve » (chercher puis récupérer), mais distingue précisément : Explain (le
client demande
préalablement au serveur de décrire les possibiliteś offertes) et  Scan
(pour parcourir des entrées d’index)

Un petit bémol pour l’instant. Le procotole
effectue côté client une transformation des données XML en (X)HTML via
une feuille de style XSL(T) dynamiquement. Or les navigateurs n’offrent
pas
encore tous cette fonctionnalité. Des solutions alternatives, comme
celle visible sur le schéma ci-dessous proposé pour la TEL intègre une passerelle
intermédiaire dans l’architecture du système, pour prendre en charge cette transformation.

La version actuellement en usage (et en test) est la version 1.1.
proposée le 13 Février 2004. La Version 1.2. est attendue. SRU
s’accompagne de
SRU pour les Services Web, SRW pour Search/Retrieve Web Service. D’où
l’acronyme SRU/W (ou SRW/U).

3. Accès multi-sources simplifiés

Toutes ces qualités font de SRU/W un outil phare pour proposer des portails d’accès multisources.
Car même si les premières applications de part l’origine de leurs contributeurs, offraient un accès à des
catalogues de bibliothèques via des serveurs z3950 à partir d’un client HTTP classique
(navigateur), ce protocole a été envisagé immédiatement comme passerelle pour des archives OAI ou tout autre type de réservoirs.

4. La Bibliothèque Européenne, une application SRU

L’architecture
proposée dans le projet TEL (The European Library),
pour l’accès simultané aux catalogues des bibliothèques nationales,
incluait une passerelle à des archives OAI-PHM dès 2004. Quant
au prototype actuellement étudié toujours pour la TEL, il propose un accès simultané à
Google Scholar ou Nature.

Schemasrutel2_2

Image_3_2

Portail SRU expérimental (pour TEL) : http://krait.kb.nl/coop/tel/SRUportal/

5. Mais quel vocabulaire utiliser dans un portail multisources ?

Interopérabilité entre réseaux, puis interopérabilité entre ressources (dépôts OAI,
catalogues z3950, catalogues moins normalisés mais documentés comme
GoogleScholar) : la recherche multisources (ou métasources) est alors « techniquement » possible.
Il reste tout de même à travailler sur l’interopérabilité entre les vocabulaires de ces sources.

Un exemple pour aider les Utilisateurs : Les auteurs du portail MyLibrary@Ockham ont conçu un prototype Client SRU qui exploite les ressources de l’archive de la  NDSL (National Science Digital Library ). Mais ils ont rajouté deux dictionnaires, de variantes orthographiques et de synonymes. Voilà ce que cela donne pour une recherche sur « chemical ».  La réponse dans l’URL : http://mylibrary.ockham.org/sru-server.cgi?operation=searchRetrieve&version=1.1&x-database=master&query=chemical&maximumRecords=3&x-spell=1&x-thesarus=1&stylesheet=%2Fsimple%2Fstyle.xsl

C’est un début…

6. Et les portails documentaires ?

Comme toujours dans ces « paramétrages » informatiques, les choses peuvent être plus complexes qu’il n’y paraît, mais toutes les offres de portail centrées sur le principe des connecteurs
pour des recherches fédérées devraient (à terme?) supporter le protocole SRU. 
Les produits d’origine ou fortement impliqués aux USA, s’en font l’écho comme Geac (V-Space) ou Primo d’ExLibris, mais les offres d’Archimed (Incipio) ou de GB Concept (Alexandrie v6) sont déjà là.

SRU/W : un protocole de recherche XML à suivre de près.

 

 

 

 

=====Portails et articles techniques, cités ou utilisés ====

Portail ressource

* Portail SRU expérimental (pour TEL) : http://krait.kb.nl/coop/tel/SRUportal/
* Portail de La Bibliothèque Européenne, http://www.theeuropeanlibrary.org/
* Portail officiel du SRU (Search and Retrieval via URL), http://www.loc.gov/standards/sru/
* British Library SRU Gateway Software (en) : http://herbie.bl.uk:9080/
* Le projet SRW/U open source de l’OCLC (en) : http://www.oclc.org/research/software/srw/
(proposition d’un logiciel en test pour implémenter SRW et SRU pour s’interfacer à des bases de données)

Articles techniques (ante-chrono)

* Un point sur les nouveaux protocoles de recherche d’information : SRU, OpenSearch/A9, CQL et Xquery , Sally H. McCallum (LC), IFLA 2006, Séoul (fr) (http://www.ifla.org/IV/ifla72/papers/102-McCallum_trans-fr.pdf)

* Serving Services in Web 2.0, Theo van Veen (NL), Ariadne Issue
47, 30-April-2006 (en),
(http://www.ariadne.ac.uk/issue47/vanveen/intro.html)

* Fourniture de notices du catalogue de la Bibliothèque du Congrès
en format MARC/XML via les protocoles SRW/SRU et Z39.50, Mike Taylor
(UK), Adam Dickmeiss (DK), IFLA, Septembre 2005 (fr), (http://www.ifla.org/IV/ifla71/papers/065f-Taylor_Dickmeiss.pdf)
[exposé des possibilités et difficultés de la passerelle SRW/U – z3950]

* Web services et bibliothèques, Figoblog, 9 novembre 2005 (fr). (http://www.figoblog.org/document1057.php)

* An Introduction to the Search/Retrieve URL Service (SRU), Eric Lease Morgan, Ariadne, issue 40, July 2004. (en), (http://www.ariadne.ac.uk/issue40/morgan/) + Site d’Eric Lease Morgan : www.infomotions.com/musings/sru/

* Metadata, Protocol, and Identifier Activities: Library of Congress IFLA/CDNL Alliance for Bibliographic Standards Report, IFLA 2004, Buenos Aires (en) (http://www.ifla.org/IV/ifla70/papers/024e-McCallum.pdf)

* Search and Retrieval in The European Library, A new approach, Theo
van Veen (NL), Bill Oldroyd (UK), D-Lib Magazine, February 2004, Volume
10 Number 2. (en), (http://www.dlib.org/dlib/february04/vanveen/02vanveen.html)

* The European Library: Integrated access to the national libraries of
Europe, Britta Woldering (DE), Ariadne, issue 38, January 2004 (en).
http://www.ariadne.ac.uk/issue38/woldering/

* Les Bibliothèques nationales et l’accès à l’information (pdf) : le rôle de TEL et de MACS, Genevieve Clavel-Merrin (CH), IFLA, 1-9 August 2003, http://www.ifla.org/IV/ifla69/papers/028f_trans-Clavel-Merrin.pdf

Ajout (fin 2007)

* SRW/U with OAI. Expected and Unexpected Synergies, Robert Sanderson (UK), Jeffrey Young (OCLC), Ralph LeVan (OCLC), D-Lib Magazine, Volume 11 Number 2, february 2006, http://www.dlib.org/dlib/february05/sanderson/02sanderson.html

* Parallel Text Searching on a Beowulf Cluster using SRW, Ralph R. LeVan, Thomas B. Hickey, Jenny Toves (OCLC), D-Lib Magazine, Vol.11, n°9, September 2005, http://www.dlib.org/dlib/september05/levan/09levan.html
(utilisation du logiciel open source proposé par l’OCLC)

* Exploiting « Light-weight » Protocols and Open Source Tools to Implement Digital Library Collections and Services, Xiaorong Xiang, Eric Lease Morgan, D-Lib Magazine, October 2005, Volume 11 Number 10, http://www.dlib.org/dlib/october05/morgan/10morgan.html

* Search Web Services Document, nov. 2007 – Annonce d’une utilisation par OASIS de SRU (Organization for the Advancement of Structured Information Standards – http://www.oasis-open.org) http://www.crossref.org/CrossTech/2007/11/search_web_services_document.html