Schema.org et bib.schema.org

Schema.org propose d'intégrer des microdonnées dans le code source HTML, celles-ci étant pleinement exploitées par les moteurs de recherche pour améliorer leur "compréhension" de la requête, puis pondérer et filtrer les résultats d'une recherche. Nous en avions parlé ici même en 2011, puis en 2012.

Ecran-bib.schema.orgOCLC en travaillant sur l'intégration des éléments de données de schema.org dans ses entrepôts en a étonné plus d'un ! Mais cela fait plus de 184 millions de données ouvertes sur le web et exploitable par les moteurs.

Ce travail a conduit d'abord à bibliograph.net, puis aujourd'hui (mai 2015) au déploiement de bib.schema.org, comme extension de schema.org dans le cadre du du Schema Bib Extend Community Group du W3C (le wiki du groupe).

 

Le principe des extensions à schema.org, adopté en mai 2015, ajoute des propriétés et/ou des sous-classes au corps du schéma. Cette extension (version 1.1. sortie en sept. 2015) propose pour l'instant un travail pour :  Audiobook, Thesis, ComicStory, and workTranslation.

OCLC/bibliograph.net. Un exemple 'Carnets de notes sur le Mexique, Cartier-Bresson Henri) – http://experiment.worldcat.org/oclc/12097471.nt

DCMI propose une conférence web sur ce thème le 18 novembre 2015 – http://dublincore.org/resources/training/#2015wallis.

Débat à Londres : le thésaurus a-t-il encore sa place dans les systèmes modernes de recherche d’information ?

(note diffusée en février 2015)

Nos amis britanniques (ISKO UK) concoctent des évènements sur les thésaurus, à la fois dans la bonne humeur et le sérieuxISKO UK 2015. Que ferait-on sans eux et eux sans nous dans l'Union européenne 🙂
(sur ce sujet politique, écoutons plutôt Pauline Schnapper -  http://bit.ly/1KPSVKp)

Ce 19 février 2015, ISKO UK avait organisé une conférence-débat autour d'une motion et d'un vote.

  • La motion : "Les thésaurus traditionnels n'ont plus leur place dans les systèmes modernes de recherche d'information ».
  • Le Vote : La motion a été rejetée par des tonnerres d'applaudissements 😉

Pour plus de détails, vous pouvez écouter l’enregistrement  (enregistrement mp3)

humour britannique à 10:58 rires ;
12:10 Pour la motion et contre les thésaurus (il y en a quand même !)
12:17 Contre la motion et pour les thésaurus.

Judi Vernau (consultante) a réalisé une synthèse de ces débat. Vous pouvez lire la version en anglais ou une traduction rapide qui pourrait être améliorée

 

 

ISO 25964-1 : Le Livre blanc est sorti

Le mois de janvier tire à sa fin, mais il est encore temps de vous souhaiter une bonne et heureuse année 2013.


Avec un cadeau très professionnel pour ce millésime 2013


Le Livre blanc sur la norme ISO 25964-1 Thésaurus

qui, après moults péripéties, sort ce jour même sur le site de l’Afnor.
Disparu du radar de l’Afnor. Le voici (pdf).
http://www.bivi.fonctions-documentaires.afnor.org/livres-blancs/livre-blanc-sur-la-norme-iso-25964-1-thesaurus-pour-la-recherche-documentaire-parue-en-version-anglaise-en-aout-2011

« L’objectif de ce livre blanc est de fournir une vue synthétique de la norme à l’attention de professionnels ayant déjà une connaissance des outils d’organisation [de l’information]. Il identifie les points saillants de la norme et précise, quand c’est important pour la communauté francophone, leur caractère obligatoire. »

Un cadeau de la part de :
Hélène Zysman, Sylvie Dalbin, Nathalie Yakovleff, a
vec l’intense et précieuse collaboration de François Feyler, Roselyne Bloch, Michèle Lénard et Katell Briatte.

Un travail de sélection et d’explicitation aboutissant à un ouvrage certes technique mais qui, nous l’espérons, sera utile à la collectivité et utilisé par le plus grand nombre. Et vous donnera envie d’aller voir la norme elle-même, un travail de longue haleine porté par un collectif à la fois au sein de l’ISO (TC46/SC9/WG8) et de l’Afnor (CG46/CN357/GE10 – voir annexe 5 du Livre blanc).

L’Afnor annonçant qu’il ne peut mettre sur sa plateforme qu’un seul format – ce sera donc le pdf en ligne. Nous vous offrons ici le fichier au format odt (ISO25964-1-Livre-blanc-Janvier-2013-vFinale en odt) pour pouvoir récupérer plus aisément les données dont vous auriez besoin.

N’hésitez pas à nous faire des retours de son utilisation, des difficultés mais aussi des avantages de ce document !

Et dans peu de temps, je vous parlerai de la partie 2 de la norme ISO 25964 sur l’interopérabilité entre vocabulaires, qui sort très bientôt.

PS :je me rends compte avec stupeur que l’Afnor affuble ces livres blancs et celui-ci en particulier, d’un droit de reproduction interdit. C’est déjà bien ennuyeux que les normes ne soient pas ouvertes, mais ce livre blanc !?. J’espère que ce n’est qu’une routine. En tous les cas, cette version de janvier 2013 au format odt est réexploitable. 

Dispositif d’accès à l’information et évolution des thésaurus – le cas de Popline

POPLINE est une banque de données bibliographiques sur la population, la santé de la reproduction et la planification familiale créée en 1970 (infos sur le site de l'Ined). C'est aussi le nom du thésaurus utilisé pour l'indexation du contenu des ressources documentaires spécialisées qui y sont référencées – aujourd'hui au nombre de 370 000.

Depuis 2001, POPLINE est maintenue dans le cadre du projet "Knowledge for Health" (K4Health) Project à l'Ecole de Santé publique Johns Hopkins Bloomberg (wikipedia), soutenu financièrement par l'USAID (Agence des États-Unis pour le développement international).

Ce dispositif vient de vivre une transformation importante : le thésaurus toujours consultable de façon autonome, est surtout valorisé à travers un nouveau mode d'accès dits par "sujets". Ces «sujets » correspondent à des requêtes préprogrammées, les fameux "profil de recherche" et services de DSI (diffusion sélective de l'information) auxquels peut s'abonner un utilisateur connecté. 

Popline. Taxonomie de sujets

Popline – une branche de la taxonomie de sujets

Lire la suite

Actualité des moteurs et schema.org – i-Expo 2012

Je vous avais fait une présentation sur ce blogue de Schema.org, le profil d'application de Google, Bing et Yahoo! en décembre 2011. Je  viens de faire une autre présentation de Schema.org à i-Expo à l'atelier sur l'actualité des moteurs de recherche, atelier rondement mené par Serge Courrier, et merci aux organisateurs.

 

J'en profite pour vous faire un rapide retour des trois autres interventions de cet atelier : Les défis de la recherche sémantique à l'heure du big data par François Bourdoncle (Exalead), les moteurs de recommandation par Damien Poirier (Université d'orléans) et les "outils de découverte" (Discovery Tools) de André Danzy (Couperin). 

Lire la suite

De retour de WebSem Pro 2012

Les présentations de SemWebPro 2012 sont en ligne – séminaire et ateliers.

Merci aux organisateurs et aux participants pour cette excellente journée.

Mes prises de note sur la première journée de conférence du 2 mai.

Lire la suite

SemWeb Pro 2012

SemWeb Pro 2012, c'est une journée de conférence (02 mai 2012) et une journée de tutoriels (03 Mai 2012) sur Paris (FIAP), pour faire se rencontrer les professionnels du Web Sémantique, à savoir :

  • les praticiens des systèmes d'info-doc/connaissances souhaitant faire évoluer leurs environnements techniques et/ou chef de projet (et pas que des informaticiens) – un public totalement oublié dans la présentation de ces journées !!  Alors que la 1ère journée, en particulier, leur est totalement ouverte selon moi…
  • les membres de la communauté scientifique
  • les industriels ayant mis ou désireux de mettre en œuvre ces nouvelles techniques.

Je suis enchantée de voir un programme riche en retours d'expérience (première journée) avec bien sûr les inconditionnels (DBPedia, BPI et 2 papiers rien que pour la Bnf !), mais surtout des présentations qui montrent que les applications se déploient dans tous les environnements de travail :

  • Linked Enterprise Data : les données au cœur de l’entreprise ! (F.Lacroix), ce qui va dans le sens du papier rédigé fin 2011 sur le web sémantique/de données dans l'entreprise (numéro spécial de Documentaliste), 
  • L'entrepôt RDF développé à Supelec (UNT) - http://semunt.supelec.fr/portal/
  • La description des gammes d'automobiles de Renault

2 présentations plus techniques mais qui concernent tout le monde : 

  • en amont des processus  d'accès : un projet Apache, Stanbol, d'automatisation de la création de liens entre les données (basé sur OpenNLP)
  • en aval des processus d'accès ;  un outil de visualisation des graphes, Protovis (http://mbostock.github.com/protovis/

La table ronde qui se déroule la première journée sera consacrée à "L'open data peut-il se passer du web sémantique ?".

Les tutoriels me semblent également très bien couvrir les besoins. Ce sera l'année schema.org apparemment (on en reparlera à i-expo2012).

Le programme: http://www.semweb.pro/conference/semwebpro2012

Merci aux organisateurs !

Partie 2 de la norme ISO 25964 sur l’interopérabilité – consultable en ligne

Comme pour la partie 1, le BSI (UK) vous propose de consulter et surtout de commenter, sur sa plateforme de documents en projets, la Partie 2 de la norme des thésaurus pour la recherche concernant l'interopérabilité entre vocabulaires contrôlés.

Une fois sur le site :

  • Faire une recherche rapide "25964"; vous tombez sur le projet…
  • Cliquez alors sur Draft Details, puis Read Draft.
  • Le système vous demande alors de vous vous connecter.
    Si vous n'avez pas pris encore un compte, n'héistez pas : le BSI ne vous demande qu'une adresse électronique (pour laisser des commentaires, c'est préférable).

Plus encore que pour la partie 1, cette partie 2 (présentation rapide sur Descripteurs) peut être lue sélectivement. Si vous êtes intéressé par : les classifications (dont celles utilisées en RM), les vedettes matières ou plutôt les ontologies ou les terminologies, il y en a pour tous les goûts !

N'hésitez pas !

Site du BSI –  http://drafts.bsigroup.com/    Draft review

ISO 25964-2 – Thésaurus et interopérabilité avec d’autres vocabulaires – DIS – Enquête publique

Information et documentation — Thésaurus et interopérabilité avec d'autres vocabulaires — Partie 2: Interopérabilité avec d'autres vocabulaires

Un document totalement nouveau.

—————————————————————————————————
Actu du 05/03/2013 – La norme est publiée   http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=53658

—————————————————————————————————
Actu du 27/01/2012 – Le BSI (UK) nous met le projet de norme en ligne. Une simple inscription (gratuite) suffit.
—————————————————————————————————— 

2 années pour aboutir à un projet de norme mis à l'enquête (DIS)  depuis le 15 décembre sur le site de l'ISO pour cette Partie 2 de la norme ISO 25964 (environ 80 euros – pour un document jettable, çà fait cher !) - l'enquête publique a démarré mi décembre 2011 et courre jusqu'à avril 2012. 

Nous attendons avec impatience sa parution sur la plateforme du BSI sur les normes en projet  dans un format simple à commenter.

Petit rappel : La partie 1 sur le thésaurus pour la recherche documentaire  est parue en août 2011. Quelques éléments techniques dont le schéma XML se trouvent dans une rubrique dédiée sur le site du NISO.

Rédaction de ce projet de norme

  • Groupe ISO -Stella Dextre Clarke (UK, Chair), Johan De Smedt (BE),  Michèle Hudon (CA), Marianne Lykke Nielsen (DK), Jutta Lindenthal (DE), Daniel Kless (DE), Esther Scheven (DE), Traugott Koch (DE), Marcia Zeng (DE), Sylvie Dalbin (FR), Bernard Vatant (FR, ontologie), Leonard Will (UK), Douglas Tudhope (UK), Daniel Kless (ontologie), Marcia Zeng (US). 
  • Groupe français – travail sur cette partie 2 en petit comité au sein du Groupe français de l'Afnor (aujourd'hui ce groupe Afnor GE10 est clôt) : Hélène Zysman, Hélène Rabaud, François Feyler, Nathalie Yakovleff, Thierry Guillotin.

Lire la suite

Logiciel de création et maintenance de thésaurus et taxonomies


Création : le 5 janvier 2006 – Dernière mise à jour : Juill.2018 et janv.2019 (liens contrôlés)
Mise à jour : 03/03/2008, 11/2009,
15/09/2010 ; Janv.2011; Avril 2011; Déc 2011, Août 2011, Juillet 2013, Août 2014; mars 2016 ; mai 2018

N’hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb


La construction et la maintenance d’un thésaurus, ou plus globalement d’un vocabulaire organisé et contrôlé à des fins d’organisation et d’accès à l’information, nécessitent l’adoption de règles et de fonctions applicatives spécialisées.

Ce secteur de l’édition de progiciel peut être scindé en France en trois catégories principales selon le degré d’autonomie ou l’orientation (gestion, utilisation) du module applicatif :

  • Les « modules Thésaurus » de logiciels de gestion et recherche documentaires, ou aujourd’hui, les modules dits « Taxonomie » de CMS (avec pour ces derniers des fonctions certes plus ergonomiques mais souvent moins riches) ;
  • Des outils d’exploitation de thésaurus en ligne
    (la première famille citée intègre bien souvent ce type de module fonctionnel) ;
  • Des logiciels autonomes (« standalone » en anglais) qui assurent la conception, la gestion et la diffusion de vocabulaires.

Voici une liste de logiciels appartenant à cette dernière famille.

Ces logiciels offrent l’ensemble des fonctionnalités utiles à la création et à la maintenance de vocabulaires contrôlés et suivent les normes de thésaurus (avant 2011). Ces outils sont vendus indépendamment de tout logiciel documentaire ou plateforme (moteur) de recherche – ce qui ne veut pas dire qu’ils ne nécessitent pas un SGBD pour tourner.

[Nom du produit, nom de la société, pays d’origine, plateforme du serveur ou pour l’offre autonome, adresse Web, export [SKOS]
(*)
offre d’outils automatiques

Visualiseur de vocabulaire

Quelques produits en mutation ou supprimés

Quelques mots sur ces produits

  • Une famille de quelques logiciels, immuables pendant 30 ans, qui se sont transformés au fur et à mesure des évolutions techniques. Et qui continuent à se transformer …
  • A cette famille historique s’ajoutent depuis 10 ans de nouveaux entrants dans la mouvance des techniques du Web (skos, ontologie, indexation automatique, extraction automatique)
  • Le marché peut être appréhendé en fonction de l’étendu des fonctionnalités proposées. Entre :
    • des produits offrant des fonctionnalités strictement de production, d’exploitation et de diffusion de vocabulaires.
    • des produits offrants d’autres modules complémentaires : classification automatique, alignement, … (marqués dans la liste par le signe (*).
  • Deux axes d’évolution :
    • l’utilisation des technologies informatiques les plus récentes : éditeur SKOS (un modèle de données simple), XML, intégration et/ou articulation avec des fonctions d’édition d’ontologies,…
    • une meilleure prise en compte des besoins dans la phase de création et de maintenance de vocabulaires : import, multilingue, champs spécifiques de gestion, gestion du travail, gestion de travail collaboratif/workflow ; outils de mise en correspondance….
  • Certains produits nécessitent un système de gestion de base de données en sus ….Attention donc à certains tarifs dans le cas de bases de données propriétaires.
  • L’offre en services en ligne arrive (depuis 2011).
  • Les prix varient beaucoup. Pour des versions monopostes, le produit de base (donc « nu ») : gratuit (The32W, un produit open source comme Tematres), 300€  (MultiTes, Amicus Thesaurus Tool), 500 (Multites) à 1300€ (Lexaurus) ou plus pour une version monoposte ; au-dessus de 3000€ pour des  versions en réseau. Au-delà de 25000€ pour des distributions sur des intranets d’entreprise. Les tarifs varient également suivant les fonctionnalités couvertes (création, consultation publique, exploitation à l’indexation ou à la recherche,…). Compter aussi la maintenance en sus.
  • Concernant les fonctionnalités, on repère un noyau dur, commun à tous ces produits : les normes de construction de thésaurus constituent un cadre formalisé pour le modèle des données métiers avec des variations possibles (plus ou moins grandes possibilités de personnalisation et prises en compte des caractéristiques des divers types de langage dont la nouvelle norme ISO de 2011). Mais certains offrent des fonctions de gestion de la structure de description de thésaurus, voire uniquement des fonctions d’exploitation d’un thésaurus, mais sans fonction d’aide à la conception ou à la maintenance dans le temps (trace des versions,…). Les outils les plus récents intègrent des possibilités de modélisation plus poussées (base de connaissance, référentiels pour des usages multiples, ontologies).
  • Certaines fonctionnalités feront la différence comme : la diversité de formats d’import/export (dont txt ou tableur…) ou une réelle gestion de versions multilingues de thésaurus (et non uniquement une équivalence entre termes), ainsi que la dénomination ou la présence de champs spécifiques ou paramétrables, la variété du typage des relations ou encore l’ergonomie fonctionnelle – en particulier les capacités d’import de données et d’aide à la création. Certains outils proposent aujourd’hui des modules de gestion du travail de maintenance en réseau (workflow plus ou moins paramétrables).
  • L’ergonomie visuelle de ces produits est variable, et pour les outils les plus anciens, datée.
  • La deuxième catégorie citée – de visualisation et/ou de manipulation à la recherche d’un thésaurus – se développe suivant en cela le déploiement de l’utilisation de ces systèmes d’organisation des concepts (SKO=SOC) sur le Web. Ces développements se font bien souvent indépendamment du logiciel de conception. Nous pouvons citer SKOS Play, un service Web qui permet de visualiser un vocabulaire sur le Web – http://labs.sparna.fr/skos-play/about?lang=fr

Publications concernant les outils de gestion de vocabulaires (rubrique à réviser  – prochainement)

N’hésitez pas à nous faire part de vos remarques : erreurs, oublis, précisions…Dalb