Ingénierie sémantique et sociale – séminaire IRI-MuseoWeb du 11 mars 2012

Comment les musées peuvent articuler leurs collections avec des plateformes contributives ? 

Telle était la question posée aux intervenants pour cette 5ème séance 2011/2012 de MuséoWeb. Une suite plus technique que la séance du 12 Février 2012 (sur ce blogue), qui rebondit sur l'apport de Wikipédia/DBpédia.

N'hésitez pas à vous ballader dans la vidéo twittée. J'utilise cette vidéo annotée pour compléter ma prise de note, parfois déficiente…. Comme dans la vraie vie, des infos "sérieuses" (dont certaines n'avaient pas été tracées par ma plume) et des tranches de rigolades. Je suis admirative de ceux qui arrivent, sur le vif et en quelques mots, à rebondir sur des propos ou des situations.  

On aura le temps d'aborder Polemic Tweet à la prochaine séance, mais pendant que j'y suis — sur PolemicTweet en situation de lecture des tweets : il me manque un "sommaire" pour passer d'un intervenant/sujet à un autre sans être obligé de faire diffuser la vidéo. (d'ailleurs la vidéo, je n'ai pas réussi à la faire fonctionner) - http://polemictweet.com/2011-2012-museo-ingenierie/client.php. 

Dans le désordre par rapport à l'ordre de passage.

1. Une annonce officielle : le développement d'un DBpedia francophone ! 

L'annonce est faite par Alexandre Monnin (sur Academia.edu) et Adrienne Alix, directrice des programmes à Wikimédia.

DBpedia s'appuie sur une extraction des informations structurées à partir de Wikipédia. Le jeu de données actuel est constitué d’environ un milliard d’éléments (des triplets RDF) dont environ 385 millions extraits de la version anglophone de Wikipédia et 665 millions de versions dans d’autres langues. Il s'agit de mieux prendre en compte les informations contenues dans les pages du site francophone grâce certes à des traitements automatiques adaptés, mais surtout au travail des wikipédiens ! Car ce n'est pas la machine qui met en forme les infoboîtes (infobox) qui manquent cruellement.

Par exemple on ne peut trouver le Mouvement Emmaüs en cherchant avec "association ou ONG" et "Abbé Pierre"; que grâce à l'infoboîte espagnole ! ni la version française, ni même la version anglaise (!) ne permettent aujourd'hui ce type de recherche.

Ce travail sur une version francophone de DBpedia est financée par le Ministère de la Culture (la DGLF – un projet pour  "faire vivre la langue française et le multilinguisme") et l'INRIA, avec le concours de Wikimédia. But visé : mieux prendre en compte la culture francophone en particulier celle qui ne dépasse pas les territoires francophones, par exemple pour la France, Yvette Horner ou les Frère Jacques. J'ai ainsi appris que l'on perdait 15% (seulement j'ai envie de dire?), si on passe comme cela est le cas aujourd'hui par la version anglaise comme point d'accès principal. Un cercle vertueux pourrait alors se développer : la qualité de l'utilisation de l'écosystème Wikipédia étant directement fonction de l'enrichissement de WikipediaFR. On a du boulot 😉

Un bémol soulevé par certains  : DBpedia ne récupère pas les pages de discussion, très riches, et une proposition d'Alexandre Monnin consisterait à les "sémantiser" avec les entités / pages auxquelles elles font références. La question du traitement des échanges/discussion est soulevée depuis longtemps et dépasse le cadre de Wikipédia/DBpedia. Ainsi beaucoup de discussions sur LinkedIn ou autres sont très intéressantes et mériteraient d'être conservées mais surtout traitées/exploitées via des cartes synthétiques des débats. 

Pour revenir à DBpédia – voir aussi  le billet très récent de Chris Bizer – Le grand chantier de DBpedia : lier les données du web sur le blog du Ministère de la Culture.

Remarque – Au lieu de s'appeler naturellement DBpédia francophone ou fra.DBpedia, les protagonistes ont voulu lui donner un nom propre (mince j'ai oublié de le noter…). Franchement quelle manie de ne pas dénommer simplement les choses ….comme pour les langues: allemandes, espagnole (español DBpedia) , grecque,…. Pourquoi faire simple quand on peut faire compliquer. (les versions linguistiques de DBPédia – http://wiki.dbpedia.org/Internationalization/Chapters

 

2. DBPédia par Orri Erling d'OpenLink

accompagné de Yrjänä Rankka 

Voici ceux qui ont permis le développement de DBpedia. J'en profite pour faire connaissance un peu mieux avec la société OpenLink, une entreprise phare dans le web sémantique, et son fondateur (1992 et toujours à sa tête) : Kingsley Uyi Idehen (en.wikipedia)  (son blogue) , un spécialiste reconnu des bases de données.

Virtuoso d’OpenLink, utilisé pour BDpedia, est un serveur implémentant des fonctionnalités Web et de base de données. Il supporte de nombreux standards du web et les principales normes d’accès aux données comme: XML, XPATH, XSLT, JDBC, WSDL, UDDI, WebDAV, smtp, ….et permet un accès transparent (simultané) à l’ensemble des données –  typiquement des bases de données (même de différents fournisseurs), à travers une seule connexion. Ajout : une offre en source libre, VIrtuoso OpenSource et gratuite, en plus de la version commerciale.

Le principe d'un Accès Universel aux Données (UDA – Universal Data Access) - 

Autres sources concernant l'entreprise et son offre  :

L'actualité 2012 pour DBpédia et Virtuoso

  • DBPedia Live - le fil de mise à jour de Wikipédia, proche du temps réel. Les stats de wikipedia
  • Personal DBpedia – Wikipédia est la "base de cristallisation", mais avec ce service il sera possible d'utiliser pour ses propres besoins, cette base et de l'étendre avec ses propres données dans les nuages. Wikipédia est ainsi totalement réutilisable.
  • Virtuoso, nouvelle version 7 en cours de développement : stockage colonnaire (le français utilisé par Orri m'a enchanté !), exécution vectorielle, beaucoup plus compact; taille ajustable aux clusters (elasctic scale-out). Bref un outil à la mesure des défis que pose entre autres DBpédia.

OpenLink est partenaire dans le projet européen LOD2 (Linked Open Data) en compagnie entre autres d'Exalead et TenForce, visant à rendre à terme l'ensemble des données publiées sur l'internet accessibles au format RDF (Resource Description Framework) permettant leur exploitation par les entreprises et particuliers.

Bruit de fond : Parait que la BnF utilise Virtuoso d'OpenLink pour stocker ses données en RDF dans son archive numérique?


3.  Les nouveaux standards pour le Web social du W3C, par Harry Halpin 

Le 28 février 2011 nous avions eu un Meetup organisé à l'IRI sur ce même sujet. D'où peu de notes prises ce mardi, désolée !

Très bien que le W3C s'occupe de ce sujet  !  - même si la place (importante) de Facebook et de Google dans le W3C m'interpelle un peu – les contrepoids font-ils le poids !. 

Federated Social Web incubator Group entre 2010 et début 2012, dirigé par H.Halpin a produit son rapport final.

Points (nombreux) évoqués : problèmes de la réutilisation des mots de passe sur le web,  85% des terminaux (devices = dont les téléphones mobiles mais pas qu'eux) vendus en 2011 contenaient un navigateur web,… Orientations : le groupe de travail du W3C sur la cryptographie proposera une authentification uniforme par clés, plus sûre que par mots de passe. 

N'hésitez pas à vous rendre sur Polemic tweet, pour l'ambiance genre : " H. Halpin qui, contrairement à M. Schindler, n'a pas évoqué le risque de "cancer des oreilles" pour parler en anglais…' J'avoue que l'accent de H. Halpin m'a obligée à tendre l'oreille. Ou encore "Le type qui ouvre sa présentation à la ligne de commande !! \o" (Nous étions scotchés à l'écran)…


4. Partenariat entre Wikimedia Allemagne (Mathias Schindler) et les Archives Fédérales Allemandes

 Mathias Schlindler de Wikimédia Allemagne est venu d'Allemagne nous présenter le partenariat conclu entre les Archives nationales allemandes et Wikimedia Deutschland.

Il s'agit de donner libre accès sur Wikimedia Commons à plus de 100 000 images de la Seconde Guerre mondiale, avec un travail particulier de type curation sur les noms de personnes en lien avec VIAF  (Victor Hugo sur VIAF) et les identifiants PND de la Bibliothèque nationale allemande et LCCN de la Bibliothèque du Congrès.  Cette politique facilitera les réutilisations dans de nombreuses communautés. 

Un modèle pour représenter les personnes a été imposé (pour mémoire Wikipédia n'impose rien !)  : name / profession (fonction plutôt) / country, et un outil simple proposé aux volontaires Wikipédia pour mettre en correspondance les notices sources proposées par les Archives et le stockage dans Wikipédia. La question des licences toujours complexe a été en partie traitée, mais devra encore être clarifiée avant d'étendre le projet. 

5. Projets HDA-BO/HDA-Lab du Ministère de la Culture présenté par Bertrand Sajus & Co.

Autres intervenants (MAJ) : Bertrand Sajus (MCC) et pour l'IRI, l'IRI – Yves-Marie Haussonne, Thibaut Cavalié, Raphaël Velt (ici et ), et Alexandre Monnin.

HdA Lab est une application développée par le MCC permettant d'indexer des ressources avec un vocabulaire extrait de DBpedia (tagging sémantique). Ce projet vise à montrer l'intérêt de cette pratique d'indexation et la faisabilité de ces technologies (une preuve de concept).

Le projet s'est centré sur le portail Histoire des Arts. Plusieurs raisons à ce choix :  corpus de faible volume touchant toutes les disciplines artistiques et toutes les périodes, environ 300 contributeurs dans différentes institutions sont impliqués.

Un travail de reprise semi-automatique (appariement entre les mots-clés présents dans les notices et la terminologie prise dans wikipédia) a été conduit en 2011 – pour une fois clairement évoqué. Quelques chiffres de la situation de départ : 14 mots-clés par ressources , soit environ 16000 termes différents. 

L'utilisation de Wikipedia (DBPedia) se fait pour les entités de type noms de personnes (créateur), localisation, discipline et période (datation).

Peu de contraintes pour l'indexation – en particulier pas de contrainte sur le nombre de concepts/termes  - il est possible d'intégrer une 20aine de mots-clés par ressources. Cette surindexation doit permettre d'anticiper la diversité de formulation des questions. Mais pour palier les effets négatifs de ce type de pratique (bruit), l'indexeur doit pondérer les mots-clés proposés, d'une position de 1 à n – le moteur étant en capacité d'exploiter cette pondération pour ordonnancer correctement les résultats (indice de pertinence). Cette pondération est en quelque sorte la seule contrainte imposée.

Le développement est réalisé par l'IRI (en php) qui mettra l'outil  en "sources libres" au cours de l'année 2012. 

De nombreux développements complémentaires en cours visent à proposer  une expérience utilisateur riche et variée  : frise chronologique, carte, expansion sémantique automatique (par exemple ville-pays comme avec les logiciels documentaires autorisant l'expansion ascendant/descendant avec un thésaurus), recherche cross-langue. D'autres fonctionnalités qui ne s'appuient pas strictement sur DBpedia sont prévues : partager des listes de résultats ou des vues annotées,…

Pour aller plus loin, un article très récent :  HDA-Lab : expérimenter le tagging sémantique, Bertrand Sajus et Alexandre Monnin, sur le blogue de Min Culture – "C/blog" .

Le nom des participants au projet pour l'IRI - Yves-Marie Haussonne, Thibaut Cavalié, Raphaël Velt (ici et ), et Alexandre Monnin. 

6. Le projet  Centre Pompidou Virtuel présenté par Emmanuelle Bermès

Le projet visé ne correspond pas à un "musée sur le Web", mais plutôt à valoriser (l'identité de) Centre Pompidou. Le projet se centre donc sur le Centre, ses collections et activités, ce qu'il a envie de montrer.

C'est donc un centre virtuel de ressources numériques qui reflètent les activités du centre dans toute sa diversité. Le problème des droits est évoqué. Le Centre Pompidou modifie ses processus de travail pour que les contenus soient accesssibles sur le plan juridique.

Sur le plan technico-fonctionnel : une infrastructure rassemblant et reliant les données issues des différents systèmes internes – une diversité de ressources dans un site homogène (un graphe rdf). Un projet à venir vise à porter vers l'extérieur cet écosystème de liens/ressources. D'autres vues que celle proposée par le Centre Pompidou seront alors possibles. 

 

7. Un Wikipédien au Château de Versailles par Laurent Gaveau

Un Wikipédien, Benoït, a résidé 6 mois au Château de versailles.

Expérience wikipédienne enrichissante pour tous – wikipédiens et collaborateurs du Château de Versailles. 310 articles ont été créés – certains au stade d'ébauche, et surtout un accroissement de la qualité pour quelques articles. Un article est même considéré comme "de qualité" (les étoiles Wikipédia). Des "safari photos" ont permis de récolter 2100 photos pour Wikimédia Commons.

Fin août 2011, Benoit est parti…

A l'intérieur du Château, le objectifs et fonctionnement de Wikipédia sont maintenant compris . (Bien sûr) le niveau d'activité a baissé. Mais côté Wikipédiens,  3 ou 4 contributeurs sont devenus très présents – ils reviennent au Château pour approfondir des sujets.  

De mon point de vue, cela peut amener également des institutions à accepter plus facilement ces démarches d'amateurs éclairés. Une bonne chose.

Ajout – Historique des Résidences de Wikipédiens – British Museum en 2010 (avec 40 wikipédiens !) - http://www.nytimes.com/2010/06/05/arts/design/05wiki.html?pagewanted=1&_r=1. 

 Cette action a conduit au montage d'un projet dédié à ce type de partenariat avec Wikimédia –  GLAM.

 

Prochain séminaire :  mardi  10 Avrril 2012 : Le Web devient audiovisuel

Enjeux et initiatives dans l’indexation fine et contributive des contenus audiovisuels. La TV connectée comme passerelle entre la diffusion de programme et la contribution dans un contexte amateur ou éducatif avec Raphaël Troncy (Eurecom), Yves Raimond (BBC), Eric Scherer (France Télévisions) et (coup de projecteur) Vincent Puig, Samuel Huron, Alexandre Monnin(IRI) : De Polemic tweet à NiceTag.

 

Publicités

4 réflexions sur “Ingénierie sémantique et sociale – séminaire IRI-MuseoWeb du 11 mars 2012

  1. anxest 17 mars 2012 / 7 h 58 min

    Si je pouvais avoir deux vies, je pourrais peut être enfin participer à tous ces projets qui m’intéressent… Merci pour ces informations

    J'aime

  2. Got 17 mars 2012 / 17 h 28 min

    Effectivement, le produit Virtuoso d’OpenLink software dans sa version Open Source est au cœur du module Gestion des métadonnées du système de pérennisation de l’information numérique conforme à l’OAIS de la BnF, SPAR. Pour en savoir plus, je te conseille ces trois articles : http://www.ifs.tuwien.ac.at/dp/ipres2010/papers/fauduet-13.pdf
    http://www.ifla.org/files/hq/papers/ifla76/157-bermes-en.pdf
    http://ceur-ws.org/Vol-401/iswc2008pd_submission_14.pdf

    J'aime

  3. Alexandre Monnin 17 mars 2012 / 23 h 28 min

    Merci pour ce compte-rendu !
    Je réagis juste à ça :
    « Remarque – Au lieu de s’appeler naturellement DBpédia francophone ou fra.DBpedia, les protagonistes ont voulu lui donner un nom propre (mince j’ai oublié de le noter…). Franchement quelle manie de ne pas dénommer simplement les choses ….comme pour les langues: allemandes, espagnole (español DBpedia) , grecque,…. Pourquoi faire simple quand on peut faire compliquer.  »
    Attention ! Que cela soit clair : il s’appelle *aussi* « fr.dbpedia.org », le projet est reversé sur le site et Julien Cojan est le représentant francophone de DBpedia.
    Il est par contre également disponible sur le Lab de Wikimédia, lab.wikimedia.fr, car il inaugure plusieurs actions qui ne se limitent pas à Wikipédia. Il bénéficie en outre de l’expertise des wikimédiens. Après tout, pas de DBpedia sans Wikipédia. C’est une spécificité valable, à mon sens, que de travailler en bonne intelligence avec la communauté.
    La mise en cause (gentille ! ) ne me semble donc pas complètement fondée 😉

    J'aime

  4. Alexandre Monnin 20 mars 2012 / 20 h 24 min

    J’ai oublié d’écrire le nom de mes collègues de l’IRI qui travaillent sur HDA : nous aurions dû montrer leurs noms orthographiés à l’écran ! Yves-Marie Haussonne, Thibaut Cavalié, Raphaël Velt (et moi-même !) 🙂

    J'aime

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s