De retour du Semantic Camp Paris n°4 (vendredi 7 octobre 2011)

Les apports du web de données liées et du sémantique…Voici quelques mots du Semantic Camp Paris de ce vendredi 7 octobre.
Un petit comité (mais Il faut dire que le Semantic camp 3 avait eu lieu le 16 avril de cette même année. Un peu trop près peut être ?), des échanges directs et riches entre participants d'horizon bien différents.  Merci encore aux organisateurs et à notre hôte cfdétéiste, Yvan.

Mes comptes-rendus de journées comme celles-ci se font toujours en rapport avec mes thèmes de prédilection – donc orientés bien sûr.

Sch-expression-collecte-traite-editer-lire

Quelques démonstrations ou présentations de services et produits, mélés à des questions plus générales.

Démonstrations ou présentations de services/produits

@ Outil personnel de prise de note présenté par Jean Rohmer (JR)

Ideliance ou "comment se faire aider par l'ordinateur pour réfléchir" (Volle, 1999), développé au début des années 2000 était un outil de prise de note structurée – orienté "sujet" (tout peut être sujet). L'utilisateur pouvait créer des sujets, des relations. Le tout était stocké sous forme d'un graphe réutilisable pour l'accès à ces notes.
Aujourd'hui JR utilise un autre outil personnel reposant sur le langage naturel (on écrit des phrases – sujet/verbe/complément) au lieu de structurer ses traces comme avec Idéliance en s'appuyant sur une interface certes qui vous guide mais qui semblait aux utilisateurs contraignantes. Cet outil suppose toutefois d'appliquer quelques consignes pour améliorer la structure du graphe créé "derrière" et ainsi optimiser l'accès à ce corpus d'énoncés (comme celle de ne pas fusionner des énoncés).
Vous êtes intéressé, ne manquez pas JR, le vendredi 14 octobre sur Paris – aux Rencontres du Web de données.

J'avoue avoir réagi sur ce présupposé – c'est plus simple et nettement moins contraignant d'écrire des phrases en langage dit naturel, plutôt que d'avoir une procédure et des outils d'aide à la formulation d'énoncés. Avec l'argument associé de la nécessité d'avoir tous le même langage pour pouvoir communiquer (l'anglais écrit ?). Personnellement, je préfère et de loin, utiliser un outillage structuré  – qui pour moi n'a rien de contraignant – plutôt que de formuler des phrases textuelles ! j'utilise systématiquement des modèles de documents ou feuilles de styles pour soutenir ma réflexion – quitte à revenir plus tard sur la structure … et très souvent des outils d'expression graphique types Cmap ou xMind, comme outil de prise de note et de travail collaboratif -  dommage d'ailleurs que ce type d'outillage ne produisent pas encore très bien les données structurées au sens RDFa and co !

Globalement, je préfère opter pour un apprentissage et un développement de différents outils d'expression plutôt que d'en imposer un. Et je pense que la technique aujourd'hui devrait nous permettre d'être plus souple pour proposer aux utilisateurs des outils adaptés à leurs préférences.

Je suis très attentive aux systèmes de "captation des données" (selon la logique des SI). A côté de traitements qui peuvent être réalisés en aval de la production d'une matière première qui ne serait alors pas ou peu sémantisée, on peut également développer des systèmes où la matière première est déjà porteuse d'une sémantique exploitable …

[Usage 1 – un outil personnel qui permet de s'exprimer, capitaliser et structurer, pour exploiter les traces produites]

@ TVod(me) – équipe de Fabien MABON (alias @Evangenieur sur Twitter).

Ce service en bêta permet de "créer" des fils (ou chaînes?) TV personnels en agrégeant des contenus vidéos diffusés par vos "amis" sur Twitter et Facebook. Un point d'accès (endpoint) Sparql permettra d'accéder aux informations du service et de réutiliser ainsi ces données (agrégées) pour créer de nouveaux services vidéos. Tout çà en RDFa / html5.
Après une démonstration de ce service faite par Karima, le premier (et le seul !) prix du concours du Semantic Cam a été decerné au service TVOD

[Usage 2 – un outil personnel qui permet de collecter et agréger des contenus, puis de les remettre dans un circuit de réutilisation (service web).

 @ LinkedWiki par Karima (KR)

Une extension à MediaWiki, l'outil wiki utilisé pour Wikipédia, exploite la structure de votre wiki (titre, structure infra, info-boîte (infobox), catégories, …). Elle n'impose aucune modification du wiki pour optimiser la mise à disposition des données du wiki hors du wiki via un point d'accès Sparql (recherche). Des explications sur le site de Mediawiki et des tutoriels en vidéo (en FR) conçus par Karima Rafes de BorderCloud.  Un exemple de point d'accès sparql pour cette extension.

[Usage 3 – un dispositif qui permet de sélectionner et agréger des contenus, puis de les remettre dans un circuit de réutilisation (service web).]

@ Interopérabilité pour des données de supervision

Développement d'outils d'aide à la décision dans des environnements complexes, la complexité étant pour partie due aux volumes / flux (transactionnel) des données à traiter et pour partie à la complexité du modèle du domaine. Ici la présentation s'appuyait sur la supervision de réseaux de télécommunication, mais on peut envisager beaucoup d'autres contextes (transport, nucléaires, …). Le but est de générer de la connaissance à partir d'une matière première numérique produite et stockée dans différents silos. De nombreux silos (nombre de ventes, log de session, …) qui chacun peuvent avoir du sens pour l'unité qui le produit et l'exploite, mais qui génère aussi de la redondance. D'où des chaînes de collecte et traitements complexes (synchronisation des données, nettoyage, …) avant de pouvoir agréger, traiter (corrélation) puis présenter l'information aux opérateurs. Le projet consiste à construire une structure au-dessus des données sources ces dernières étant elles-mêmes structurées – mais en ne suivant pas nécessairement les mêmes modèles (la sémantique intervient au niveau de cette matrice).

Nous avons échangé sur différents aspects du projet : les données sources et leur qualité relativement au projet d'agrégation, la notion de redondance et le phénomène de "ricochet" (un signal est-il le ricochet d'un signal préexistant ou bien le signe d'un évènement singulier ?), la nécessité de structure normalisée pour optimiser ces processus, de la normalisation des données de chacun des silos et de leur alignement/mise en correspondance; périodicité de recueil ; de l'articulation entre la modélisation mathématique et informatique et les traitements de la machine, enfin la question des modalités de restitution aux opérateurs (des graphiques ?) a été posée.

[Usage 3 – Exploitation de silos dans des environnements contraints (transactionnel)…]

@ Réutilisation des "noms propres" de Wikipédia par Gil (GF)

Il s'agit de constituer une ressource de noms propres en de nombreuses langues à partir de Wikipédia. GF récupère titres/info-boîtes/catégories dans plusieurs langues. L'extraction est réalisée toutes les semaines (contrairement à DBpédia qui met à jour tous les 6 mois) – Il peut y avoir 100 entrées nouvelles ou modifiées toutes les semaines. La problématique consiste à rafraîchir et accumuler les données nouvelles.
Des échanges ont eu lieu sur la question de la périodicité de mise à jour ; il est difficile d'envisager une fréquence plus élevée car il semble nécessaire d'atteindre une relative stabilité de la matière afin de pouvoir  la ré-exploiter.

Sont utilisés les liens de traduction ; puis ajoutés (à la main) les termes pouvant manquer dans certaines langues (les wikipédias sont diversement riches + certaines personnes ne sont pas connues dans tous les environnements culturels et linguistiques).
Une ontologie a été construite à plusieurs mains – reprenant pour partie certaines spécifications de l'IPTC. Cette ontologie contient aujourd'hui 900 noeuds. 

[Usage 3 – Exploitation de silos multilingues – ici DBpedia, dont la qualité est variable]

Autres sujets en débat

@ Internet des objets : Qu'est-ce-que c'est ?

"des objets qui ne sont pas source d'information, le deviennent"
Deux axes, deux communautés pourrait-on dire semblent exister. Pour faire bref : les Electroniciens, les Designers
Un cas possible d'Internet des objets : des aménagements communicants dans une maison pour accompagner des personnes dépendantes afin de favoriser leur maintien chez elles.
Autre cas possible (la question est posée) : le fait d'intégrer aux objets exposés dans une galerie/musée, par exemple des informations avec un code QR, récupérables via un mobile, peut-il être considéré comme relevant de l'internet des objets ?
Question : "l'internet des objets" peut-il exister sans "web de données" ?
Question : Qui va payer ?

@ Ontologie dynamique versus ontologie figée

Grande question ! Nous n'avons pas vraiment débattu sur la question et je ne suis pas sûre en définitive que nous ayons la même représentation de ce qu'est une ontologie !  Peut être aussi que plutôt que d'adopter une approche binaire (vous savez automatique/humain ; gauche/droite …), il faudrait adopter une approche fonction du contexte et des usages ….

@ Aspects politiques et économiques du web sémantique

  • La grande question : comment promouvoir le web sémantique (et le web de données liées)
  • Le Grand Emprunt : ahhh !
  • La mise en application des "données ouvertes" (open data)  en France : ahhh !  (je m'autocensure).
    Un point toutefois. Je pense sincèrement que des données exposées dans un format non réexploitable ou difficilement (pdf par ex) et/ou non documentées (comme diraient les statisticiens), générant ainsi un coût élevé de réutilisation, biaise la logique de l'open data. Sur ce plan, l'open data a la française est assez désolant (regarder les infos sur les données proposées dans data.gov – un ex; un 2ème ex )*.   
    Ne serait-il pas utile de proposer un livre blanc sur ce sujet ?

@ Quelle place faire aux entrepreneurs/créateurs ?

Echanges sur des expériences et des constats sur ce thème – et sur la difficulté en France d'envisager le financement des idées.

2 modèles nous ont été proposés pour l'organisation et le processus du développement des idées : 2 suggestions par K et JD, l'un sur un processus de développement de projets intégrant l'étude des besoins plus en amont, l'autre sur un espace (physique) et un accompagnement de créateurs.

Nous nous retrouverons l'an prochain à la même période. Venez avec pleins d'idées et projets à partager…

Vous pouvez vous inscrire (déjà!) pour 2012 😉 http://www.meetup.com/SemanticCampParis/events/36545432/

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s