JATS (Journal Article Tag Suite) pour les articles de revues

Mise à jour Janvier 2016 – ANSI/NISO Z39.96:2015 – nouvelle version 1.1. de Novembre 2015. En cours de dépôt sur le site http://jats.niso.org/


 

La norme américaine JATS (Journal Article Tag Suite) ANSI/NISO Z39.96:2012 est un vocabulaire XML composé d'un ensemble de métadonnées XML. Ce vocabulaire permet de représenter la structure et pour partie le contenu d'un article de revue, ainsi que d'autres types de matériaux que l'on trouve traditionnellement dans les revues comme les lettres, les éditoriaux ou les revues d'ouvrages.

Son histoire débute en 2002 au NCBI (National Center for Biotechnology Information, Wikipedia) de la NLM (National Library of Medicine). Cet organisme met alors en oeuvre une "suite de tags" (Tag Suite) pour représenter des articles de revues. La norme américaine JATS publiée en 2012 correspond à la version 3 (2008) du Tag Suite du NCBI, à quelques changements mineurs près.

Il faut noter que cette version 3.0 constitue une évolution majeure par rapport à la version précédente, non compatible par ailleurs avec les versions précédentes. La v4 est en projet (2014).
 
Le site officiel de la norme sur le site du NISO http://jats.niso.org/
 

1. Structure et contenu

Tout en garantissant l'interopérabilité entre les systèmes, l'idée privilégiée dès le départ au sein de cet écosystème NCBI/PubMed, était de tenir compte des différents contextes professionnels, des besoins et contraintes des éditeurs, en particulier des "petits éditeurs" de ce vaste répertoire qu'est PubMed Central. La "Tag Suite" (suite de tags) est ainsi composée de l'ensemble des métadonnées et de règles associées utilisées pour spécifier des ensembles de métadonnées dédiés à des contextes particuliers, en l'occurrence 4 groupes d'éléments correspondant à trois contextes particuliers. La norme NISO intègre 3 d'entre eux.

  • Archiving and Interchange Tag Set (Vert) est le vocabulaire le plus approprié pour des utilisateurs cherchant à convertir des articles de revues de différents formats tout en  préservant leurs formats d'origine (reprise de fonds anciens et mise en cohérence de ces ensembles)
  • Publishing Tag Set (Bleu) pour la création de nouvelles revues ou pour des éditeurs souhaitant mettre en cohérence les articles de revues convertis à partir de différents formats source.
  • Authoring Tag Set (Orange) – pour la creation de nouveaux articles de revue en XML cherchant un vocabulaire moins ample et qui permette surtout de contrôler la production et l'éditorialisation de contenu, exploitable avec des éditeurs XML.
  • Book Tag Set (Violet) – non intégré à la norme NISO – constitue un bon point de départ pour le développement de modèles de livres pour des collections éditoriales. NCBI l'utilise pour ses conférences.
La norme NISO (sans la suite Book Tag) présente sous la forme d'un tableau, l'ensemble des éléments et attributs et la couverture respective de ces trois jeux.
De larges parties sont identiques entre ces vocabulaires : structure du corps et des sections de l'article, structure des parties dites annexes. Ce qu'il est possible de voir (plus simplement sur le site de la NLM que sur le site du NISO) concerne la structure du document XML. Publishing propose (en option) une structuration plus fine des sections liminaires, une gestion des dates de publication et de l'historique du document formelles, des spécifications pour les conférences par exemple ; quant à Authoring, il constitue une version simplifiée par un centrage fort sur l'article.
 
L'enjeu de ce vocabulaire au départ construit pour la communauté PMC était de proposer un vocabulaire commun à l'ensemble de ses publics (éditeurs, archivistes), quelle que soit leur force de frappe. Démarrant avec le vocabulaire Authoring, un éditeur peut basculer aisément à terme vers le vocabulaire Publishing et exploiter Archiving. 
 
Book Interchange Tag Suite (BITS) non intégré à la norme, permet d'échanger des contenus (tout ou partie, tels des chapitres d'un livre). Il peut être implémenté aisément sur la base du vocabulaire JATS.
 

2. Passons aux choses sérieuses : la sémantique

Bien sûr il n'est pas question de passer en revue les éléments et attributs de ce référentiel ni de chacun de ces vocabulaires. Nous pointerons quelques éléments seulement en rapport avec les thèmes privilégiés de ce blogue.

L'article est le nom donné à l'entité fondamentale dans la modélisation

Ce peut être un article au sens où nous l'entendons d'ordinaire, académique ou non, mais aussi une lettre, une réponse, une analyse d'article ou toute autre brève (édito, …) pouvant être intégrés à une revue. 

L'attribut sec-type (type de section)

Cet attribut permet de qualifier une section particulière de l'article selon la structure assez traditionnelle d'un texte rendant compte du résultat d'un travail scientifique ou technique.

  • cases > Cases/Case Reports
  • conclusions > Conclusions/Comment
  • discussion > Discussion/Interpretation
  • intro > Introduction/Synopsis
  • materials >Materials
  • methods > Methods/Methodology/Procedures
  • results > Results/Statement of Findings
  • subjects > Subjects/Participants/Patients
  • supplementary-material > Supplementary materials

Voici pour un article pris en exemple que vous trouverez en ligne ici http://www.bmj.com/content/324/7342/880)  : la section 3 [sec (3)] au sens JATS précise le thème (<subject>) de l'article.

 
JATS-attribut sec(type)-exemple
 
Cet attribut reste en option et la norme ne propose pas de vocabulaire particulier. J'imaginais un formalisme plus poussé et plus contraignant pour optimiser les usages en aval.
A contrario, ce mécanisme permet de baliser avec des sémantiques particulières, non pas uniquement en rapport avec la structure d'un texte scientifique mais par exemple avec des ontologies propres à des domaines (droit, chimie,…).

Les mots clés (keyword)

La norme JATS propose une structure élaborée concernant les mots-clés.
Un groupe de mots-clés peut contenir des mots-clés d'une source particulière (créée par l'auteur – “author-created”, ou d'un vocabulaire contrôlé tel le MeSH), spécifié par l'attribut Keyword Authority. Un ensemble de mots-clés peut être simple (à plat), composé (<compound-kwd>) ou hiérarchique (<nested-kwd>).
 
<kwd-group kwd-group-type="author-created"> ou <kwd-group kwd-group-type="MESH"> ou <kwd-group kwd-group-type="ICD9-codes">
<kwd>acid precipitation</kwd>
<kwd>acid rainfall</kwd>
<kwd>smelting region</kwd>
<kwd>Aluminum residues</kwd>
<kwd>Sulphur dioxide</kwd>
<kwd>Copper-nickel smelters</kwd>
</kwd-group>
 
Les mots-clés peuvent être rattachés à un "article" mais contrairement à l'élément "structure chimique" (<chem-struct>), ils ne peuvent être associés à une section de l'article.
 
Note janvier 2015 – je n'avais pas remarqué que les mots-clés faisant partie des métadonnées, sont donc bien attachés à chaque article dans les parties liminaires ("front matter") de l'article. Et qu'il existe deux balises qui rendent possible (a priori, si j'ai bien compris) la production d'index (même hiérarchisé).
  • <subj-group> Subject GroupContainer element for the subject matter designations describing a document’s content or a component document’s content. Subjects are used to organize documents into groupings (potentially hierarchical groupings) for display or print.
  • <subject> Subject Grouping NameName of one subject or topic used to describe an article. Such topics and groupings of topics are typically used to provide headings for groups of documents or document components in a printed, or online, generated Table of Contents.  (version 2012 – http://jats.niso.org/Blue1_0/Blue1_0-elem-subject.html)

Référence (ou citation)

Pour encoder les références citées, deux formats (appelé style) sont proposés, l'un (mixed style) mélangeant des balises et du texte; l'autre (element) ne portant que le contenu textuel de l'élément. Ce dernier format permet d'offrir une plus grande régularité dans la présentation des références.

Exemple d'un style element :
 
JATS-element citation
 

Type de publication citée et caractéristiques du format de la publication

Sans obligation et sans liste prescrite, la norme propose deux attributs pour qualifier la publication:
  • le type (@publication-type) : revue, livre, rapport, communication de conférence, session de posters, thèse, brevet, wiki…
  • le format (@publication-format) : imprimé, dvd, videocassette, slide, online, …
Pour le vocabulaire Authoring, une simplification a été opérée; elle concerne l'appel de citation dans le corps du texte (numérotation) et la non gestion formelle de la langue de la référence.
 

Identifiants

Le web de donnée (voir plus loin) fait son apparition dans cette norme par le biais de l'intégration de liens typés et d'identifiants :
  • Identifiant des publications (article ou références citées) : DOI, PubMed Central identifier, Coden,…
  • Identifiant des auteurs avec ORCID (un article)
  • Des URI :  des rôles (citation, conférence, collaboration, …) et des types (<self-uri>, <ext-URI> un typage pour les liens externes (DOI,…)…

 

Gestion du cycle de validation – <history> History: Document History

JATS propose un vocabulaire simple pour encoder la date et le type de date au sein du processus de validation : reception, révision, … On pourrait d'ailleurs rajouter "date de rétraction/retrait" (et peut être les motifs) pour tenir compte de la vrai vie des articles.

Je note de plus que ce mécanisme n'est pas applicable aux documents cités.

 

3. Usages et outils

Développé au départ au sein du NBCI, ce vocabulaire est préconisé/utilisé pour les revues déposées dans l'archives ouvertes PubMed Central® (PMC), soit 1500 titres de périodiques versés dans leur intégralité (d'autres revues sont versées mais de façon sélective). Plus de 3 millions d'articles à ce jour. Sans que l'on ne sache combien exactement ont franchi le pas, différents articles montrent que des éditeurs ont suivi ces préconisations ou directement la norme JATS.
D'autres développent des extensions comme TaxPub, une extension pour la DTD Journal Publishing  (la Version 3.0 qui compose la norme NISO) pour encoder les descripteurs taxonomiques au sein même d'un document.

Le nerf de la guerre : des outils de production

Un certain nombre d'outils sont répertoriés sur cette page, preuve que des besoins se sont exprimés pour passer à l'acte : des outils légers de conversion (à partir de word) ou des outils éditoriaux plus sophistiqués (un framework sous Oxygen par exemple).
 
Toujours avec cette approche de simplicité et de robustesse, un outil Annotum a été développé par les promoteurs de ce vocabulaire pour créer et éditer des articles de recherche en utilisant JATS – en fait Kipling, un sous-ensemble de la DTD d'édition des revues de la NLM. La v2.0 est sortie en août 2014. Cet outil s'appuie sur WordPress pour la gestion de contenu et permet d'exploiter les nombreuses fonctionnalités de ce CMS. Il intègre des fonctions auteur tels que la production de tables, equations, citations, schémas ; un circuit de révision simple (commentaires publics ou non publics en pre- et post-review) et des options de présentation robustes : web, pdf, JATS XML.
 

5. Trois remarques générales

1. Modélisation "bibliographique", "éditoriale" et "scientifique"

La modélisation intègre fortement l'axe "bibliographique" et "éditorial"; elle est fortement orientée par l'"objet matériel Revue" et porte plus légèrement sur la modélisation du contenu (scientifique). En étudiant ce vocabulaire, je pensais que la partie <sec-type> (type de section de l'article) par exemple serait plus formalisée, permettant par exemple des recherches (ponctuelles ou transversales) sur les "méthodes". Mais les mécanismes proposés permettent toutefois de faire un travail plus poussé sur ce plan.

2. Modélisation "technique"

Disons le : ce vocabulaire s'autodocumente et ne prend pas appui sur un formalisme standardisé. Même si cet alphabet et cette grammaire sont simples, utiliser des vocabulaires dont la description est standardisée facilite grandement la prise en main des vocabulaires.

De plus quand les vocabulaires réutilisent eux-mêmes des vocabulaires standardisés (et connus), on assure au vocabulaire à la fois une plus grande qualité (des parties de vocabulaires sont validés….), une prise en main et un déploiement plus rapide, et donc une diffusion plus large. Malgré le caractère simple et robuste de ce vocabulaire, ce manque d'interopérabilité et d'ouverture pourrait aujourd'hui freiner son usage, sauf si des outils et méthodes d'alignement voyaient le jour (section suivante).

3. Et le web de données ?

La philosophie de JATS était au départ la production et l'archivage – pas nécessairement la diffusion. Un vocabulaire un brin fermé sur lui-même, optimisant la production en back-office tout en offrant des fonctionnalités éditoriales de premier niveau : formats de publication et structuration éditoriale "classique".
JATS est bien proposé sous plusieurs encodages : DTD, RELAX NG, et W3C Schema. Mais et le web de données ? et RDF ?
 
Pour permettre cette ouverture sur le web, des alignements entre JATS et RDF ont été réalisés en partant de SPAR (Semantic Publishing and Referencing Ontologies) (SPAR sur LOV), une suite de 8 modules (ontologies) pour créer des métadonnées RDF pour tous les aspects de publications et de référencement de contenus.
 
L'alignement effectué en JATS et RDF ne porte que sur les aspects bibliographiques et certaines parties dites annexes d'un article de revue, mais il montre tout de même et de façon précise les possibilités et les difficultés pour sortir JATS de son isolement et valoriser grâce à une sémantique à la fois ouverte (réutilisation de vocabulaires standardisés) et précise (distinction plus fine entre la sémantique de la structure et de la rhétorique des articles) ces traitements.
 
Toutefois je m'inquiète lorsque, sur un vocabulaire qui porte avant tout sur des contenus (des articles), on ne regarde que la partie bibliographique ! J'espère que ce travaille ne s'arrêtera pas en si bon chemin. D'autant que la modélisation fait par JATS de l'objet "article" est pertinente, et qu'un alignement avec DoCO (DoCO sur LOV), le vocabulaire de SPAR portant sur les contenus, semble réalisable et intéressante pour renforcer la modélisation du contenu scientifique, modélisation structurée assez finement dans DoCO comme le montre la figure suivante.
 
DOCO-SPAR

DoCO, the Document Components Ontology
 
Bien sûr, la centrale de PubMed (PMC) est très convoitée. Et la vision "production/archives/diffusion", indispensable, n'est plus suffisante pour répondre aux usages en ne se limitant pas aux usages éditoriaux traditionnels (i.e. diffusion en epub ou pour mobile), mais en offrant des possibilités de ré-exploitation plus fine à partir des traitements opérés à la source. D'autres applications (prototypes) voient le jour, en lien avec des ontologies spécialisées du secteur (ici biomédecine) qui montrent la puissance des technologies du Web sur ces fonds spécialisés. 
 
Mais comment réutiliser le balisage JATS ?

 
_______________________________________________________
 

JATS – Tag Suite NLM

Alignement JATS et RDF
Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s