La Télévision dans le Web – LinkedTV

Raphaël Troncy nous exposait en 2005 dans la revue Documentation de l’ADBS, les applications des technologies du web sémantique aux documents audiovisuels.  10 ans plus tard, poursuivant ses travaux sur ces thématiques au sein d’Eurecom, voici venu le temps des réalisations et des démonstrations concrètes : d’une présentation générale en 2005 de ces technologies et des scénarios envisageables, nous voici donc avec une plateforme basée sur une ontologie informatique et appuyée par des traitements automatiques d’extraction d’entités nommées, permettant d’exploiter des ressources audiovisuelles sur le web.

Le vocabulaire vise à pointer sur le web, non pas la vidéo d’1h (l’ouvrage, l’émission, le numéro de revue,…), mais des fragments d’éléments multimédia : un ou plusieurs passages sur un sujet précis, l’intervention d’une personne….avec toujours la même problématique documentaire : à l’intérieur d’une seule ressource (un fichier) ou parmi plusieurs ressources sur le web.

Projet LinkedTV

Une platetforme, développée dans le cadre d’un projet européen LinkedTV, « Television linked to the Web », offre des accès enrichis à des fragments de vidéo.

Modèle de données LinkedTV  Hyperted0(20140929)La description (Annotation) porte bien sur le fragment.

Démonstration avec HyperTED autour des vidéos TED 

N’oublions pas qu’il s’agit d’une plateforme visant à démontrer la pertinence d’une solution technologiques…

La première étape permet de trouver un ou plusieurs fragments de vidéos sur un sujet (ici « learning ») avec le time-code du (des?) fragment(s).

Hyperted1(20140929)

La vidéo sélectionnée de Daphne Koller est exposée avec un chapitrage et propose de mettre en avant des zones sensibles (hotspots) qui sont le produit de traitements automatiques (annotation).

Hyperted2(20140929)L’identifiant précis de ce fragment traité par l’API Alchemy
http://linkedtv.eurecom.fr/video/f18921d8-3500-4e0a-acbf-01eb820779bb?enriched=alchemyapi&hotspotted=true#t=253.36700439453125,308.0660095214844

Cette même page de présentation de la vidéo liste la transcription de la vidéo, par chapitre, mettant en surbrillance des termes obtenus par les traitements sur les entités nommées ; sur la droite de l’écran, des renvois vers des fragments d’autres vidéos.

Hyperted3(20140929)

Concernant les traitement (nerdification), l’intérêt du système vient de la possibilité d’utiliser différentes API pour identifier les entités nommées ici : la localisation, les organismes, les personnes, les produits et les « choses ».

Les API proposées sur cette plateforme sont au nombre de 11  : AlchemyAPI, DataTXT, DBPedia Spotlight, Lupedia, OpenCalais, Sapio, TextRazor, THD, Wikimeta (faite un test en ligne), Yahoo!, Zemanta, NERD.

Connaître (les analyser et les sélectionner) ces outils de traitement et d’extraction d’entités nommées  devient un élément clé des (futurs) services des systèmes documentaires, dans le web ou dans les intranets.

AlchemyAPI

Hyperted4-AlchemyAPI(20140929)

OpenCalais

Hyperted5-OpenCalais(20140929)

Une évolution probable (dans le cadre d’un projet européen) est l’accès plurilangue, des transcriptions en français étant disponibles sur TED par exemple.

Peu de choses sur les sujets abordés, ceux liés à la pédagogie et à la formation, objet de la vidéo. Mais je suppose qu’une API au bon format vers un vocabulaire spécialisé serait exploitable ?

Vocabulaires exploités

Une grande part de ce vocabulaire LinkedTV repose sur des vocabulaires existants (principe de la réutilisation des vocabulaires) pour :

  • Représenter des ressources audiovisuelles, leur structure interne
  • Représenter un « programme »
  • Annoter les fragments repérés 
  • Reconnaître et désambiguiser des entités nommées sur le web  Reconnaître
    • Ontologie NERD (Named Entity Recognition and Disambiguation), un jeu d’alignements entre plusieurs schema de type d’entités nommées (DBpédia, ….)  – http://nerd.eurecom.fr/ontology#

Ce dispositif est tout à la fois un outil de repérage dans un fonds, un sommaire (chapitrage) et un « index de fin de livre », multipliant ainsi les accès aux (contenu des) ressources.  Adossé à des vocabulaires utilisés dans l’édition numérique comme JATS, ce serait très pertinent pour des ressources non spécifiquement audiovisuelles !

Sources sur le web

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s