Le Web sémantique : quelques notions de base

Evoquant les thésaurus, on arrive immanquablement au Web sémantique.

Prenons un peu de temps pour dégrossir ce sujet avant de plonger dans les développement du Web qui concerne directement les vocabulaires contrôlés, tels les thésaurus, classifications et autres : le projet SKOS.

Mais qu’est-ce-que le Web sémantique ?
Une nouvelle méthode de management ? une technologie ?
Je dirais plus volontiers : un projet d’avenir, dont les propositions peuvent être exploitées comme cadre de développement de projets conduits aujourd’hui. Lorsque le projet porte sur des vocabulaires contrôlés d’accès à l’information, le Web sémantique oblige à plus de rigueur en particulier dans la sélection des concepts, des termes et des relations. Ce qui ne fait jamais de mal.

Si l’intérêt du Web sémantique dans le monde des langages est intéressant, cela nous oblige à faire un détour par le vocabulaire de ce domaine. Nous allons donc aborder URI, RDF, XML, PURL…

Le projet de Web sémantique naît de critiques adressées au Web
actuel, et plus particulièrement des frustrations dans les résultats de
recherche avec les moteurs. Ces problèmes sont dues pour beaucoup à
l’impossibilité de lever les ambiguïtés liées aux langues ou aux
cultures, et contextes. Il en résulte pour l’utilisateur un important
travail de filtrage des résultats proposés. Le Web d’aujourd’hui est
essentiellement destiné à être lu par des humains : il ne peut être
manipulé de façon intelligente par des programmes informatiques. Voilà
le projet : rendre possible des traitements automatiques.

Le Web sémantique, considéré comme un projet à long terme, doit
s’analyser en prenant en compte notre environnement de travail actuel,
et en particulier : une informatisation accrue dans toutes les
activités humaines ; une utilisation aujourd’hui exclusive des
technologies Internet et une extension de l’utilisation du Web comme
moyen de partage et de communication d’information ; une prise en
compte de tout objet informationnel, quels que soient leurs formats ou
natures ; enfin les difficultés d’interopérabilité rencontrées entre
applications rendent coûteuses, complexes voire impossibles les
échanges entre ces systèmes.

C’est dans ce contexte que le projet Web sémantique est né à partir
d’une idée lancée en 1998 par Tim Berners-Lee, l’inventeur du Web.

Le Web sémantique est ici envisagé comme une extension du Web
courant : il utilise toute l’infrastructure technique du Web et rien a
priori dans l’interface utilisateur n’est modifié. Par contre, des
agents logiciels en parcourant ce Web pourront réaliser des tâches sans
intervention humaine grâce à la mise à disposition d’informations
enrichies (métadonnées, vocabulaires RDF, URI, ontologies) et à des
mécanismes permettant d’effectuer des traitements automatisés au sein
et surtout entre applications (interopérabilité).

Composants du Web : métadonnée, RDF et URI

Les composants majeurs du Web sémantique sont :

  • les métadonnées : leur rôle est largement amplifié par
    rapport à leur usage actuel, et leurs caractéristiques se complexifient
    en particulier leurs descriptions doivent suivre des règles de
    descriptions (DTD, schéma ou annotation RDF).
  • RDF (Resource Definition Framework) est un langage qui sert
    de cadre formel pour décrire des « ressources ». Dans le contexte RDF,
    tout ce qui est manipulé s’appelle ressource. A chaque élément décrit
    correspond un triplet RDF qui définit précisément cet élément. Cet
    ensemble d’information produite peut alors être traitée automatiquement
    par un programme informatique.
  • Pour aller plus loin, le triplet recouvre :
    – le sujet :
    la ressource décrite. Exemple : Article « Ontologie, thésaurus,
    taxonomie et Web sémantique » de Karl Dubost
    (http://www.la-grange.net/2004/03/19.html)
    – le prédicat : propriété ou attribut. Exemple – rdf :creator
    l’objet : valeur pour telle propriété. Exemple – Karl Dubost
    Une
    ressource spécifique au sens RDF associée à une propriété définie,
    ainsi que la valeur de cette propriété pour cette ressource, est
    appelée une déclaration RDF.
  • Les URI (Uniform Resource Identifier = identifiant uniforme de ressource). Talon d’Achille du web,
    l’URI représente les « points » de l’espace d’information qu’est le
    Web. Une nouvelle version de ce protocole a été émise en 2005 (RFC 3986 de janvier 2005).
    L’URI est le protocole qui normalise la syntaxe de la chaîne de
    caractères qui identifie une ressource physique (image, document sur le
    web) ou abstraite (concepts). Cet identificateur permet ainsi de
    distinguer des ressources entre elles. Parmi les URI, on peut
    distinguer : l’URL (Uniform resource locator – Localisation de ressource uniforme) qui localise la ressource ; l’URN
    (Universal Resource Name = Nom de ressource uniforme) qui l’identifie
    indépendamment de sa localisation ; moins connu mais déjà présents , on
    peut également citer l’URC (Uniform Resource Characteristic =
    Caractéristiques de ressource uniforme), sous-ensemble des URN non
    spécifiée à ce jour, qui fournit la liste des attributs de la
    ressources (un des attributs pouvant être son URL) et fournit des clés
    d’accès (attributs) pour rechercher une ressource.

Un exemple d’une description bibliographique (extrait) d’un article,
suivant les règles Dublin Core et exprimé selon un schéma (simplifié)
RDF.
================================================================
<?xml version= »1.0″?>
<!DOCTYPE rdf:RDF PUBLIC « -//DUBLIN CORE//DCMES DTD 2002/07/31//EN »
« http://dublincore.org/documents/2002/07/31/dcmes-xml/dcmes-xml-dtd.dtd »&gt;
<rdf:RDF xmlns:rdf= »http://www.w3.org/1999/02/22-rdf-syntax-ns# &raquo;
xmlns:dc= »http://purl.org/dc/elements/1.1/ »&gt;
<rdf:Description rdf:about= » http://www.la-grange.net/2004/03/19.html / »>
<dc:title> Ontologie, thésaurus, taxonomie et Web sémantique</dc:title>
<dc:creator>Karl Dubost</dc:creator>
<dc:publisher>La Grange.net</dc:publisher>
<dc:date>2004-03-19</dc:date>
</rdf:Description>
</rdf:RDF>
——————————————————————–
Que reconnaît-on ?

  • dc:title, dc:creator, dc:publisher, dc:date
  • on peut noter la localisation de la ressource : Description rdf:about=…

Ce qui est en plus ?

En bref, chaque métadonnée, chaque élément utilisé dans un schéma
RDF doit être décrit, documenté et localisé sur le web. Dans notre
exemple, tous les éléments présents dans la norme de métadonnée Dublin
Core (ISO 15836:2003) sont individuellement précisés selon le
formalisme RDF/XML.
===============================================================

SchémaRDF ou Vocabulaire RDF

Parmi les composants RDF,  SchémaRDF constitue un élément clé.
Ce
formalisme permet de décrire des vocabulaires (au sens RDF) contrôlés,
exploités pour étiqueter, annoter, décrire les métadonnées et leur
organisation, et ceci quelles que soient ces données (un document, une
page d’accueil, mais aussi un objet précis comme un thésaurus, une
biographie, …).

Pour définir et décrire ces vocabulaires contrôlés utiles au Web
sémantique, on exploite donc le modèle de schéma RDF d’où le terme de
« vocabulaire RDF » que nous nous proposons d’utiliser pour le distinguer
des vocabulaires contrôlés en documentation (thésaurus, liste de
vedettes-matière…), faisant l’objet de normes.

Plusieurs vocabulaires RDF ont déjà été développés ou sont en projet. On peut citer :


Pour résumer

Le Web Sémantique cherche à rendre exploitable et interprétable par
les machines, le contenu du Web, en fournissant des informations
supplémentaires. Ces informations ne sont pas générées spontanément, et
supposent une structuration et un formalisme des objets numériques ou
ressources, beaucoup plus approfondis et explicites que dans le Web
actuel.
C’est dans ce contexte que se développent le rôle et la spécialisation :

  • des métadonnées : description de documents, mais
    aussi de personnes, de relations entre personnes, de droits sur des
    oeuvres, de données géospatiales, d’enquêtes, .de chacun des termes
    d’un thésaurus, … (un exemple de répertoire de schémas RDF>
    http://www.schemas-forum.org/registry/registry.html)
  • des identificateurs au sens de repère précis pour la machine avec les URN et leurs développements
  • des vocabulaires RDF (Schéma RDF)

Pour en savoir un peu plus

Introduction à RDF, Philippe Lahaye, 15 octobre 2004, http://xmlfr.org/documentations/tutoriels/041015-0001
Qui suis-je ? une URI, Karl Dubost, mars 2004, http://www.la-grange.net/2004/03/04.html
Hypertexte et documents numériques, Hervé Le Crosnier, 2004, http://users.info.unicaen.fr/~herve/ens0405/diaposURI/diapo1.html

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s