Actualité des moteurs et schema.org – i-Expo 2012

Je vous avais fait une présentation sur ce blogue de Schema.org, le profil d'application de Google, Bing et Yahoo! en décembre 2011. Je  viens de faire une autre présentation de Schema.org à i-Expo à l'atelier sur l'actualité des moteurs de recherche, atelier rondement mené par Serge Courrier, et merci aux organisateurs.

 

J'en profite pour vous faire un rapide retour des trois autres interventions de cet atelier : Les défis de la recherche sémantique à l'heure du big data par François Bourdoncle (Exalead), les moteurs de recommandation par Damien Poirier (Université d'orléans) et les "outils de découverte" (Discovery Tools) de André Danzy (Couperin). 

1. Les défis de la recherche sémantique à l'heure du big data, par François Bourdoncle d'Exalead

Quelques éléments de cette excellente intervention prospective de François Bourdoncle sur les défis de la recherche liés aux données massives (big data), … des éléments épars que j'ai réussi à retrouver dans ma mémoire – nous avons appris en fin de séance que nous n'aurions pas le support de cette présentation. Vous non plus !.

Situation :

  • toujours plus de données en masse/flux, en particulier les données transactionnelles (et j'ai envie de dire "d'interactions" dans le monde du web). F.Bourdoncle a donnée quelques exemples (actes d'achat, gps des voitures, surveillance de serveurs d'impression,…), mais chaque domaine d’activités a ses propres données transactionnelles.
  • plus de ressources machine – qui permettent d'envisager certains types de traitements 
  • impossibilité d'utiliser les SGBD pour un certain nombre d'applications, en particulier les applications décisionnelles ("business intelligence"), c'est-à-dire des applications informatiques qui fouillent des corpus massifs de données, interreliées, pour en faire émerger des connaissances. Dans ce contexte, les méthodes plus classiques appliquées aux transactions (propriété ACID) sont à réévaluer (article technique).

Ce type d'applications devraient se multiplier, et les moteurs de recherche (i.e. exalead) se prêtent bien à ces environnements.  

Selon F.Bourdoncle, il existe deux approches principales pour envisager ces applications :

  • une approche normative – proposée par le W3C avec le web sémantique et Schema.org… – qui fournit ainsi aux moteurs des ressources structurées, difficiles à produire mais plus faciles de fait à exploiter. Exalead qui – il faut bien l'avouer – a toujours si ce n'est dédaigné, fortement limités l'usage des parties structurées des ressources, les acceptent dans le cadre des données transactionnelles massives. 
  • une approche émergente – qui suppose des techniques d'extraction et de catégorisation. Cette dernière approche rappelle bien sûr la catégorisation d'Exalead basée sur des techniques linguistiques statistiques ("termes associés") et qui s'appliquent à des données "non structurées".  Ici la structure émerge…

Le crédeau d'Exalead : reconcilier le structuré et le non structuré ! Enchantée par cette évolution.

 

2. Les moteurs de recommandation par Damien Poirier

Les moteurs de recherche peuvent être optimisés en exploitant des "recommandations", c'est-à-dire les actions/avis/interactions des internautes. On retrouve quelque part l'idée de "données transactionnelles" (d'interaction) et de masse. 

Damien Poirier, chercheur de fraîche date et qui a réalisé une thèse en 2011 sur ce type de moteur, nous dresse un panorama de ces techniques. 

Trois catégories de recommandation sont proposées : 

  1. les recommandations éditoriales
  2. les recommandations contextuelles
  3. les recommandations personnalisées. 

La connaissance qu'à le système de l'utilisateur et le degré d'implication de l'internaute est progressive entre ces trois catégories de : de rien dans le cas des recommandations éditoriales, à une identification et un suivi de ses interactions dans le cas des recommandations personnalisées. 

Comme en toute chose, il est recommander d'articuler ces trois types de recommandation (en fonction des utilisateurs).

Le processus et les outils mis en oeuvre avec ce type de moteur resposent sur :

  • une "matrice d'usage" contenant des triplets représentants l'association "utilisateur-ressource-notation", utilisés pour établir une matrice de similarité ressources×ressources (contenant des mesures de distance entre chaque ressource).
  • dans un second temps, des recommandations sont faites à l’aide d’une méthode de filtrage collaboratif s’appuyant sur les distances entre ressources.
  • enfin des notes peuvent ensuite être prédites pour chaque couple (utilisateur, ressource) pour lequel une note n’a pas encore été renseignée.

Il semble que l'on arrive à une certaine stabilité des innovations – ces techniques s'étant considérablement enrichies par les recherches de ces dernières années, leur amélioration intrinsèques …

Comme avec tous les traitements basés sur l'informatique (et les statisitques), le volume et la qualité des données restent les points déterminants de l'efficacité de ces moteurs., et bien sûr l'aspect ergonomique (fonctionnelle). Par exemple ce que j'apprécie sur certains dispositifs, c'est de pouvoir rapidement "Corriger cette recommandation" (sur Amazon).

L'outillage est prêt, il reste aux administrateurs des systèmes d'information documentaire à intégrer ces techniques dans leur boîte à outil et à  les adapter à leurs publics. Mais comme tous ces outillages 2., c'est-à-dire en interaction directe avec les individus comme le travail collaboratif ou les réseaux sociaux, on est plus ici sur un registre émotionnel que technique…. 

 

3. Les "outils de découverte" (Discovery Tools) des bibliothèques par André Dazy de Couperin

Couperin qui, de négociateur pour des périodiques numériques pour les BU, est devenu au cours de la décennie, le Consortium Universitaire de Publications Numériques, assure des fonctions de veille dans ce secteur particulier (historique de Couperin). 

Plusieurs actions ont été menées sur le thème des outils de découverte depuis plus d'un an. Je vous laisse découvrir la présentation iexpo 2012 d'André Dazy (André Dazy sur l'organigramme de couperin en pdf).

En passant, je suis toujours perplexe quand le monde académique utilise une terminologie anglo-saxonne, alors que ce secteur est le premier à critiquer les marketeurs (et autres) lorsque ceux-ci utilisent des anglicismes… Je suppose que personne n'ose utiliser le terme d'outils de découverte pour ce type d'outils ?

Une question posée dans la salle – "Pourquoi plus simplement vous n'utiliseriez pas des moteurs comme exalead qui ferait tout cela très bien ?" – montre que ce type de dispositif n'est pas bien appréhendé par ceux qui ne sont pas dans cet environnement. Mon avis sur la question : sur le plan "recherche" ou "moteur" il n'y a absolument aucune innovation quand on connait les possibilités techniques et fonctionnelles des moteurs de recherche. Au départ le coeur de ces dispositifs proposés par le secteur de l'édition numérique reposait :

  • d'une part sur le corpus de documents (revues mais aussi livres numériques) ou plutôt l'entrepôt de métadonnées proposé par des éditeurs ou des intermédiaires comme OCLC ou EBSCO. 
  • d'autre part sur l'entrepôt unique fusionnant les métadonnées des différentes sources et qui pour les acteurs de ces dispositifs, constitue la solution la plus efficace pour répondre aux questions posées.

Ce type de système s'est mis en place début 2000 en réponse aux limites (et aux coûts ?) des systèmes de recherche fédérée (temps d'attente des réponse des différentes sources ou problème technique, unification ou fusion des réponses délicate,…).

Ces outils ne sont pas des moteurs à proprement parlé, mais un "package" (contenu/moteur/IHM) pour valoriser un fonds éditorial dans un secteur où les moyens financiers et/ou les compétences sur les moteurs de recherche ne sont pas toujours au rendez-vous ;

J'en ai profité pour aller sur le stand EBSCO pour voir cette offre : 

  1. Une offre de base composée d'un corpus (important) de ressources (références bibliographies et documents sources) ;
  2. … Extensible (ou au contraire avec des possibilités de réduire la voilure des sources??) en fonction des abonnements des BU ;
  3. … Extensible aussi sur des sources ouvertes sur le Web ;
  4. Le système peut également utiliser des sources externes selon un "protocole de recherche fédérée" (donc pas exclusivement par insertion dans son entrepôt)
  5. L'interface est paramétrable, et il est possible d'envisager des accès (portails) différents – par thématiques par exemple. 
  6. La recherche est dite "à la Google", et l'interface de résultats proposent des filtres correspondant aux différentes métadonnées bibliographiques ou éditoriales.

Bien sûr les trois premiers critères liés à l'offre – à la base du concept de "discovery tool" (le contenu) – est battu en brèche avec les premiers outils libres qui ne s'appuient a priori sur aucun corpus de publications numériques. Ceux-ci offrent des fonctions de récupération de ressources et constitution d'entrepôts. D'après l'orateur ceux-ci sont complexes à mettre en oeuvre. Pour ceux qui ont l'habitude dans le secteur de la veille de manipuler des sources, vous voyez ce que je veux dire.

Autre point concernant les jeux de métadonnées – C'était déjà le cas pour la recherche fédérée, mais avec ces dispositifs, on vise plutôt à applanir les différences entre sources et à travailler sur les métadonnées communes. Une démarche classique dans cet environnement professionnel, mais qui me semble avoir ses limites. Pour ne parler que des ressources pédagogiques, avec cette approche il n'est pas possible d'offrir comme filtres, des métadonnées spécifiques (public visé, nature pédagogique de la ressource,…). Les propositions technologiques avec schema.org offre des solutions plus souple pour mettre en relief les spécificités des ressources. 

Quelques produits 

Offres commerciales

Outils libres

 Si vous aviez noter d'autres points intéressants, n'hésitez pas à commenter…

http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=
http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=
http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=
http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=
http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=
http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=
http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=
http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=
http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=
http://b.scorecardresearch.com/beacon.js?c1=7&c2=7400849&c3=1&c4=&c5=&c6=

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s