Résumé automatique (1)

Les volumes et les flux d'information sous forme textuelle impose une révision drastique de notre perception des modalités d'accès à l'information et des outils à déployer. C'est dans ce contexte que la production automatique de résumé mono- ou multi-documents devient, me semble-t-il une fonctionnalité décisive dans les dispositifs documentaires. 

Ce billet sur la production automatique de résumés, en deux parties, est le fruit d'une "note de lecture" publiée récemment dans Documentaliste – Sciences de l’information (2012, vol. 49, n°3, p. 14-15). Les contraintes éditoriales papier ne m'ont pas permis d'y intégrer des informations sur les logiciels et un test. C'est l'objet de ce premier billet, le second billet intégrera la note éditée dans Documentaliste, légèrement modifié.

Logiciels / applications

Les résumeurs automatiques sont proposés à la fois en ligne (SAAS) ou en local, en monoposte ou en serveur. On trouve à côté d'un certain nombre de produits commerciaux, des applications relevant de projet de recherche et développement. 

A côté de ces logiciels ou applications spécifiques, certains dispositifs offrent des textes courts, synthétiques qui proviennent – sans que l'internaute ne le sache bien souvent – d'une exploitation automatique de textes. Les technologies sémantiques / linguistiques sont assez matures aujourd'hui pour offrir de très nombreuses possibilités d'assistance aux lecteurs sous la forme de "réduction" de mono- ou multi-documents et de génération automatique de textes.

Une liste de quelques uns de ces outils vous est proposé sur cette page.

Exemples – test

Le test proposé ici a été réalisé avec le service en ligne d'Essential Summarizer de la société française Essentiel Mining

Cet outil est multilingue et multiformats (pour les données en entrée) et effectue des traitement mono- ou multi-documents. Le résumé de texte est ici constitué d'un ensemble de phrases sélectionnées automatiquement en fonction de leur importance. Des paramétrages utilisateurs sont proposés : traitement standard ou avec contexte, choix de la "réduction" (de 1 à 98%), possibilité d'intégrer des mots clés ou "d'orienter" la sélection par le choix d'un domaine (https://essential-mining.com/produits.jsp?ui.lang=fr).

Le produit est proposé sous plusieurs formats : en ligne, version station (Personnelle) et version serveur (Entreprise), mais aussi depuis 2011, en services web et API Java.

Test réalisé sur un article de 8 pages (5457 mots) 

Texte source  : De l'usage dans l'échange. Quelques propositions issues de la perspective de l'économie des qualités, Alexandre Mallard, (2010) - http://halshs.archives-ouvertes.fr/hal-00556781

> Test1 – réduction à 5%, sans aucun paramétrage

Test03-5%-liste des %- 2012-11-16 à 15.55.19--

> Test2 – réducation à 5% avec contexte et choix d'un domaine (Entreprise).

L'outil surligne des termes (sélection du domaine) ; le résumé est très légèrement différent du Test1 montrant ainsi qu'il est possible d'orienter les traitements.

Test03-5% domaine Entreprise- 2012-11-16 à 16.03.26

Essential Mining – Résumé automatique – 5% avec contexte et domaine (Entreprise)


En utilisant la boîte "% du résumé", il est possible "à la volée" de faire varier la taille du résumé. 

> Etude des résultats avec le document source.

Le "résumé d'auteur" disponible sur HAL contextualise l'article mais ne le condense pas, ce qui est fréquent dans ce type de résumés. Ce "résumé d'auteur" constitue d'ailleurs l'introduction de l'article. Avec Essential Summarize, le résumé automatique fournit une information d'une autre nature et oriente le lecture sur le contenu.

Démarche de recherche/lecture

J'étais "tombée" sur cet article au cours d'une recherche thématique sur le "rôle des intermédiaires" avec une orientation "sociologie".

Le contexte présenté dans le résumé établi par l'auteure et le lien à M.Callon m'ont donné envie de le lire mais le dilemne "temps" m'aurait fait baisser les bras si je n'avais pas eu ce résumé à la volée. La lecture de 5% du texte (cela va en faire bondir plus d'un ….) m'a démontré l'intérêt de ce travail de recherche pour mes besoins propres. Dans le cas de cet article, j'ai opté personnellement pour 10% (545 mots au lieu de plus de 5000) pour avoir une vision plus riche du contenu de cet article. J'ai conservé ce résumé et je l'ai "diigoletisé" pour le lire ultérieurement. Si l'article avait été en html et non en pdf, j'aurai démarré la lecture et annoté en partie cet article…  Mais on ne peut pas tout avoir…

En tant que lectrice (intense), j'aimerais avoir plus fréquemment ce type d'outillage associé aux résultats des recherches dans un fonds (et sur le web). De préférence par une action que je contrôle. Et je pose ici les questions d'ergonomie d'une part et de transparence d'autre part de ces fonctionnalités.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s