Annonce octobre 2014 : Mai 2012 – Je vous avais parlé du TAG (Thésaurus de l’activité gouvernementale) du Québec. Octobre 2014 : diffusion au format skos de ce thésaurus : http://www.thesaurus.gouv.qc.ca/tag/consultation/oa.do.
Adresse de déchargement direct – http://www.thesaurus.gouv.qc.ca/tag/tag_skos.xml
4. Index(ation)
La Télévision dans le Web – LinkedTV
Raphaël Troncy nous exposait en 2005 dans la revue Documentation de l’ADBS, les applications des technologies du web sémantique aux documents audiovisuels. 10 ans plus tard, poursuivant ses travaux sur ces thématiques au sein d’Eurecom, voici venu le temps des réalisations et des démonstrations concrètes : d’une présentation générale en 2005 de ces technologies et des scénarios envisageables, nous voici donc avec une plateforme basée sur une ontologie informatique et appuyée par des traitements automatiques d’extraction d’entités nommées, permettant d’exploiter des ressources audiovisuelles sur le web.
De retour de WebSem Pro 2012
Les présentations de SemWebPro 2012 sont en ligne – séminaire et ateliers.
Merci aux organisateurs et aux participants pour cette excellente journée.
Mes prises de note sur la première journée de conférence du 2 mai.
- Introduction sur le sujet et la journée par Nicolas Chauvat (Logilab)
- Linked Enterprise Data, Fabrice Lacroix d'Antidot
- Description des produits automobiles, F-P Servant et Edouard Chevalier, Renault.co
- Data.bnf.fr, Romain Wenz de la Bn
- Après la Bnf, la BPI avec Emmanuelle Bermès
- Table Ronde : L'open data peut-il se passe du web sémantique ?
- Interactive exploration of complex relational data sets in a web – Vincent Michel (Logilab)
- SemUNIT par Yolaine Bourda
- Mesagraph
Outils sémantiques – linguistiques
Répertoire d’outils – Mise à jour : 30 Avril 2012 ; 12 nov.2012; En cours de mise à jour (fin 2018)
Des solutions embarquant de la linguistique comme celles proposées par Erli(1) dès 1977, ou des produits comme SPIRIT (1979-80) ou Cora (1983) ont été utilisés assez tôt en recherche documentaire (y compris sur « mainframe »). Des tests à l’époque portait aussi sur l’indexation (semi)automatique en vue de diminuer les coûts et délais de cette activité (article, 1989, pdf). Puis dès la fin des années 1990 sont apparues des solutions pour résumer automatiquement un document puis plusieurs documents (voir les billets (1) et (2) sur ce site).
Aujourd’hui les offres, intégrant ces technologies sémantiques (statistiques, linguistiques) devenues matures, se multiplient et les applications pourraient et devraient se déployer plus fortement. se sont développées dans toutes les directions…
Cette liste proposée ici regroupe quelques outils disponibles sur le marché français, sans aucune prétention à l’exhaustivité, ainsi que quelques ressources bibliographiques. En particulier reste à revoir certains usages précis : la textométrie, la recherche d’information (moteur),…
Le TAG, le thésaurus de l’activité gouvernementale du Québec
Note : Billet complémentaire (Témoignage et SKOS)
Les actions du gouvernement du Québec en vue de se doter de politiques et d’outils communs pour administrer et valoriser l’information produite dans le cadre de ses activités est déjà ancienne. Un premier « Chantier en ingénierie documentaire » avait été initié en 1997.
Plusieurs actions (projets) se sont succédées, prenant appui sur les résultats des travaux précédents (je suis admirative…). Le dispositif prend en charge les multiples facettes de cette problématique documentaire. Tout est exposé sur le site des Services gouvernementaux, à la rubrique Administration électronique et plus particulièrement Gestion intégrée des documents, formulation prisée par les québecois.
Dans le document de référence CRGGID de 2004 en ligne (pdf), se trouve une annexe assez précise concernant l’une des 12 recommandations et qui porte sur le Thésaurus de l’activité gouvernementale : le TAG.
Thésaurus de l’activité gouvernementale (p.143)
Recommandation 3: Le thésaurus de l’activité gouvernementale (TAG) semble être un concept rassembleur et fédérateur d’efforts au sein de l’appareil gouvernemental. Il faut poursuivre le développement, le déploiement et l’intégration de cet outil qui sensibilise de façon très concrète et éloquente aux problématiques de gestion de l’information et de contrôle du vocabulaire.
SemWeb Pro 2012
SemWeb Pro 2012, c'est une journée de conférence (02 mai 2012) et une journée de tutoriels (03 Mai 2012) sur Paris (FIAP), pour faire se rencontrer les professionnels du Web Sémantique, à savoir :
- les praticiens des systèmes d'info-doc/connaissances souhaitant faire évoluer leurs environnements techniques et/ou chef de projet (et pas que des informaticiens) – un public totalement oublié dans la présentation de ces journées !! Alors que la 1ère journée, en particulier, leur est totalement ouverte selon moi…
- les membres de la communauté scientifique
- les industriels ayant mis ou désireux de mettre en œuvre ces nouvelles techniques.
Je suis enchantée de voir un programme riche en retours d'expérience (première journée) avec bien sûr les inconditionnels (DBPedia, BPI et 2 papiers rien que pour la Bnf !), mais surtout des présentations qui montrent que les applications se déploient dans tous les environnements de travail :
- Linked Enterprise Data : les données au cœur de l’entreprise ! (F.Lacroix), ce qui va dans le sens du papier rédigé fin 2011 sur le web sémantique/de données dans l'entreprise (numéro spécial de Documentaliste),
- L'entrepôt RDF développé à Supelec (UNT) - http://semunt.supelec.fr/portal/
- La description des gammes d'automobiles de Renault
2 présentations plus techniques mais qui concernent tout le monde :
- en amont des processus d'accès : un projet Apache, Stanbol, d'automatisation de la création de liens entre les données (basé sur OpenNLP)
- en aval des processus d'accès ; un outil de visualisation des graphes, Protovis (http://mbostock.github.com/protovis/)
La table ronde qui se déroule la première journée sera consacrée à "L'open data peut-il se passer du web sémantique ?".
Les tutoriels me semblent également très bien couvrir les besoins. Ce sera l'année schema.org apparemment (on en reparlera à i-expo2012).
Le programme: http://www.semweb.pro/conference/semwebpro2012
Merci aux organisateurs !
Ingénierie sémantique et sociale – séminaire IRI-MuseoWeb du 11 mars 2012
Comment les musées peuvent articuler leurs collections avec des plateformes contributives ?
Telle était la question posée aux intervenants pour cette 5ème séance 2011/2012 de MuséoWeb. Une suite plus technique que la séance du 12 Février 2012 (sur ce blogue), qui rebondit sur l'apport de Wikipédia/DBpédia.
N'hésitez pas à vous ballader dans la vidéo twittée. J'utilise cette vidéo annotée pour compléter ma prise de note, parfois déficiente…. Comme dans la vraie vie, des infos "sérieuses" (dont certaines n'avaient pas été tracées par ma plume) et des tranches de rigolades. Je suis admirative de ceux qui arrivent, sur le vif et en quelques mots, à rebondir sur des propos ou des situations.
On aura le temps d'aborder Polemic Tweet à la prochaine séance, mais pendant que j'y suis — sur PolemicTweet en situation de lecture des tweets : il me manque un "sommaire" pour passer d'un intervenant/sujet à un autre sans être obligé de faire diffuser la vidéo. (d'ailleurs la vidéo, je n'ai pas réussi à la faire fonctionner) - http://polemictweet.com/2011-2012-museo-ingenierie/client.php.
Dans le désordre par rapport à l'ordre de passage.
Dynamique de contribution avec les publics – retour d’un séminaire IRI du 14 fév. 2012
Cette 4ème séance du séminaire Muséologie 2.0 était intitulée "Comment la dynamique de contribution peut-elle converger avec l'indexation et la mise en place par les musées".
Rapide tour de piste des 5 interventions :
1. Stratégie de notoriété de photographes via Flickr, par Maxime Crépel
2. Flickr Commons par Patrick Peccatte (SoftExperience)
3. Fonds Trutat sur Commons / Flickr et Wikimédia, Bibliothèque de Toulouse, par Pascal Krajewski
4. Wikimédia Commons, par Jean-Frédéric Berthelot (Wikimédia France)
5. La (future) plateforme collaborative de la Cité de l’immigration, par François Queré et Renaud Sagot
6. La notion d’autorité et d’identifiant dans l’écosystème du Web par Romain Wenz (BNF)
> Logiciels pour vocabulaires orientés « organisation et recherche »
Regroupements de différents billets sur le thème des logiciels pour vocabulaires dédiés à la recherche d’information
Création : 27 Janvier 2010. Mis-à-jour: août 2014
Voir aussi sur Descripteurs – Logiciels de création et maintenance de thésaurus (2016)
Par vocabulaires, nous nous limitons ici aux thésaurus et autres répertoires de concepts/termes utilisés dans des dispositifs informationnels et documentaires. Ce sont :
- des listes de concepts
- organisés entre eux par différents types de relations (hiérarchiques, associatives, équivalence, ou plus spécialisées : cause/conséquence, historique,…)
- caractérisés par différents attributs spécifiques à la catégorie de concepts (date de création pour des noms d’organismes, lieu pour la localisation d’un monument, appartenance à un ou plusieurs domaines d’activité …),
- représentés en général par des termes ou des notations
Un autre terme rencontré est celui de référentiel ou référentiel terminologique (https://www.diigo.com/user/dalbin/Dalbin%28nom%29%20r%C3%A9f%C3%A9rentiel-termino%28sujet%29).
Des logiciels ou applications en ligne couvrent cinq grandes familles de fonctions dédiées à ces vocabulaires :
- Concevoir un vocabulaire ;
- Aligner des vocabulaires entre eux ;
- Gérer un ou plusieurs vocabulaires ;
- Exploiter (en recherche) un vocabulaire ;
- Communiquer un vocabulaire.
A ces fonctionnalités liées aux vocabulaires, certains produits offrent des modules de gestion du travail en équipes (workflow, collaboratif).
En France traditionnellement (depuis 30 ans), la gestion informatisée des thésaurus s’effectue au moyen d’un module particulier des logiciels documentaires. Ces modules ne sont pas utilisables de façon autonome, et leur coût d’acquisition ne se comprend que dans le cadre du développement d’une application documentaire (base documentaire, catalogue, portail). Ces « modules de gestion de thésaurus » couvrent des fonctions de gestion d’un vocabulaire déjà construit (étape 3) et d’exploitation (étape 4) dans le cadre d’une application documentaire particulière.
Les fonctions d’assistance aux étapes de conception (étape 1) et celles propres à la communication de ces ressources terminologiques (étape 5) sont respectivement très faibles ; et pour les fonctions d’édition/communication limitées; celles d’alignement (étape 2), plus récentes sont inexistantes ou font l’objet d’une offre de services dédiée.
Le monde anglo-saxon (UK, USA, mais aussi AUS) a toujours eu un marché de progiciels de gestion de thésaurus spécialisés utilisables de façon autonome. Les termes employés en anglais sont : « Thesaurus management software » ou « Software for building and editing thesaurus ». Ces applications sont centrées sur des fonctions d’aide à la conception ou au réengineering de vocabulaires (étape 1), leur gestion dans le temps indépendamment de leurs usages (étape 2), leur communication sous de multiples formes ce qui supposent des fonctions d’import/export et d’éditions variées. La souplesse fonctionnelle (typage des relations, personnalisation) permettent d’initier des activités d’alignement « simples » entre vocabulaires. Ce type d’outils spécialisés existaient également dans le monde germanique. Aujourd’hui, ce type d’outil est également exploité en France.
=> Sur Descripteurs – Logiciels de création et maintenance de thésaurus (2014)
L’appellation « Taxonomy Management Software » rend compte de l’évolution fonctionnelle vers un élargissement des types de vocabulaires pris en compte et vers une extension pour certaines offres à des automates pour des fonctions de catégorisation ou d’extraction automatiques d’entités par exemple.
Des standards ou normes existent pour concevoir les thésaurus (Norme ISO 25964-1) et les exploiter sur le Web (SKOS).
Les évolutions les plus récentes conduisent à une articulation ou une transformation de ces vocabulaires de nature essentiellement terminologique à des vocabulaires partagés et structurés de façon formelle (ontologies informatiques), des transformations adaptées d’une part au web (web de donnée et web sémantique) et aux applications ouvertes et interopérables (sortir des silos). Nous pouvons citer comme exemple public le travail réalisé au Ministère de la Culture et de la Communication – http://data.culture.fr/thesaurus/.
ScoLOMFR – Profil d’application pour la communauté scolaire.
Le Ministère de l'Education nationale en France vient de publier en septembre 2010, un schéma de représentation des ressources pédagogiques, ScoLOMFR, à destination de la communauté éducative scolaire.
Ce schéma est un profil d'application du LOMFR, lui même profil du LOM. Le LOM et le LOMFR sont donc les soubassements du ScoLOMFR, comme pour le profil SupLOMFR pour le supérieur. Des éléments ont été spécifiés pour répondre aux besoins et contraintes de la communauté scolaire.
Ce travail s'inscrit dans un projet plus large initié en 2008, DACORE piloté par le MEN-DGESCO et qui vise à « Définir la stratégie d’évolution des dispositifs académiques et nationaux permettant la description, la mutualisation et l’accès aux ressources pédagogiques numériques pour le ministère de l’éducation nationale ».
Dès que l'on travaille au sein d'une communauté particulière, ici la communauté scolaire en France (et même si celle-ci est large et diversifiée !), il est envisageable d'aller plus loin que la définition d'un schéma de métadonnées, et de poursuivre le travail de mutualisation sur le vocabulaire utilisé pour décrire les ressources. Le profil ScoLOMFR est ainsi composé d'un schéma de métadonnées et de plusieurs vocabulaires, définis à partir des vocabulaires déjà utilisés dans différentes bases et ressources éducatives et adaptés au schéma défini.
La rubrique du site Educnet consacré au profil contient plusieurs documents d'accompagnement de ce profil : un guide de bonnes pratiques, un manuel technique et un rapport sur les fonctionnalités et outils logiciels ai
Le Manuel Technique définit chacun des élément de données du schéma, leur articulation avec les différents autres schémas (LOMFR, LOM mais aussi Dublin Core), les règles d'encodage et les vocabulaires associés.