ISKO UK 2015 – Le thésaurus traditionnel n’a plus de place dans les systèmes moderne de recherche d’information ?

image from http://s3.amazonaws.com/hires.aviary.com/k/mr6i2hifk4wxt1dp/15061207/e23357aa-74ee-49c0-ad51-bae194d8f5df.png

Londres (UK) – 19 Février 2015

Traduction de la synthèse (eng/fra)

http://www.iskouk.org/content/great-debate

This house believes that the traditional thesaurus has no place in modern information retrieval.

« Cette maison croit que le thésaurus traditionnel n’a plus sa place dans les systèmes modernes de recherche d’information ». Motion rejetée.

Once upon a time, the thesaurus was venerated. It marked a breakthrough in the retrieval of very specific needles of information hidden in large haystacks. Some of the veneration rubbed off on to the trained information professionals, who alone mastered the occult art of using it to concoct effective search strategies. All this was in the time before we had a computer on every desk, when a collection of 10,000 articles was considered large, and long before the Google era.

But now, who has the patience to consult a complicated thesaurus? Only a dedicated few. Has the thesaurus passed its sell-by date? And even its use-by date? These questions, and more, were tossed around at the Great Debate by a community of enthusiasts. While some limitations of the old-fashioned (?) thesaurus were noted, it still received a happy vote of confidence at the end.

Slides and audio recordings are provided below (follow the links), and a synopsis of the proceedings will be added when available. Add your own comments to Stella Dextre Clarke’s note in the ISKO UK blog.

A une certaine époque, le thésaurus était vénéré. Il a marqué une percée dans la recherche d’aiguilles très spécifiques d’information cachées dans de grandes meules de foin. Certaines manifestation de cette vénération ont déteint sur les professionnels de l’information entraînés qui seuls maîtrisent l’art occulte de l’utiliser pour concocter des stratégies de recherche efficaces. Tout cela se passait avant que nous ayons tous un ordinateur sur chaque burea et, où une collection de 10 000 articles était considérée comme très grande, et bien avant l’ère Google.

Mais maintenant, qui a la patience de consulter un thésaurus compliqué? Seul quelques professionnels dévoués. Le thésaurus a-t-il passé sa date de vente ? Et même sa date de péremption? Ces questions, et bien plus encore, vont être examinées pendant le Grand Débat par une communauté de passionnés. Alors que certaines limites des anciens (?) thésaurus sont pointés, en fin de compte ceux-ci reçoivent encore un vote de confiance positif.

 

Les diapositives et les enregistrements audio de ces échanges sont fournis ci-dessous (suivez les liens), et un résumé du communications sera ajouté lorsque il sera disponible.

Ajoutez vos propres commentaires à la suite de la note de Stella Dextre Clarke sur le blog ISKO-UK.

SYNOPSIS

I should immediately say that I was the lead proposer of the motion, so you could be forgiven for supposing that any write-up of the key points from both sides would be totally biased. And you may be right, but in fact all the speakers seemed to be in broad agreement about the need for robust models, controlled vocabularies and relevant semantic relationships – it seemed to me that the bigger question was ‘what do we mean by a traditional thesaurus’.

A word first about the format: the debate was chaired (very ably) by Martin White of Intranetfocus; we had two speakers for the motion, and two against, plus two expert witnesses. After contributions from all of these contributors, the debate was thrown open to the floor, and we had a higher than usual number of contributions, all of which were thought-provoking. In the feedback after the event, most people were very positive about the format as a change from the standard presentation of papers, but some would have liked the speakers (particularly the proposers) to have been more provocative. In the event, I think we were all trying to be too true to our real beliefs, which is understandable but makes for a less exciting debate! I hope we’ll use the format again in due course, and if so, we’ll encourage the speakers to take a more ‘extreme’ stance.

As the lead proposer, I started off by defining my view of the ‘traditional thesaurus’, by which I meant the thesaurus as defined in ISO 25964. It was my aim to show that the rules and relationships defined in the standard are on the one hand too narrow for today’s requirements and on the other hand too rigid, since following standard thesaural relationships means that one inevitably ends up with a very large number of terms, many of which become too broad to be useful (eg Risk management BT Management). In the modern organization it is usually the case that tags are applied to corporate content (for example) either by members of staff (who are not trained or even necessarily interested in classification) or by automatic categorization systems. If the former, creating huge vocabularies will make it very difficult for individuals to apply tags; if the latter, you may find that looser structures work as well or even better in applying tags automatically. So the ‘pure’ BT/NT relationships required by the standard are not always appropriate in creating a tagging structure.

Vanda Broughton, the lead speaker for the opposition, began by insisting that the concept of the thesaurus is alive and well and essential to information management. She presented some humorous slides involving dinosaurs and Captain Hook (not on the same slide!), and emphasized that a thesaurus is a ‘central processing unit’ and ‘one manifestation of an underlying conceptual model’ which allows you to identify, control and relate concepts together.  Making the case for a thesaurus is making a case for other manifestations of knowledge systems. Shirky and others argue that there is no hierarchy of knowledge, only links, but if you want to manage terminology and if you want to use it to find stuff, you need to impose some ordered structure.  So if you argue that a thesaurus, or other knowledge organization structure is artificial, that’s OK, because it’s just a means to an end. The point of a thesaurus is that it teaches us to take a critical approach: it makes us think about the nature of concepts, about relationships, and about useful labels. But you could use any other information tool that you can mention, such as a domain model, a taxonomy or an ontology – these are all steps on the journey. The basic theory underpins all of these things. The careful critical examination of concepts and relationships is fundamental to all technical solutions: the principles provide an underlying rationale as a discipline.

Helen Lippell, the seconder for the motion, emphasized that thesaurus projects can be expensive, structures can be unwieldy, and if done properly, thesaurus maintenance will add considerably to the cost. There may be organizations that where such investment is appropriate, but there’s a big risk that it will be disproportionate to end-user value (which can be hard to define in any case).

Helen’s first job was to help construct a large thesaurus and after she left the project it mushroomed out of control, which is another risk. That building and maintenance of such large, unwieldy structures harks back to the age of the intermediary when information professionals were responsible for finding information, and for creating and managing the semantics to support it. Now these things are used by end users they need to be more system and user aligned. It is clearly good to capture terminology and relationships, but they need to be focused on how people use them, and there could be a risk of getting too divorced from user requirements.

 

In many digital products, search is the predominant functionality for finding information, and Helen naturally does not believe that search alone is sufficient, but she wondered if the thesaurus is too much of a heavy implement. Human intelligence and knowledge can compensate for the relative ‘dumbness’ of a search algorithm, but other semantic tools are also useful: the addition of synonyms, autosuggest, related queries, seeing the applied tags. These approaches may not by completely ideal, but extra development time needed can be minimal, and the ongoing maintenance time will be less. It is also easier to define return on investment against the application of these smaller components. Saving on resources needed to create and apply these semantic tools is very important (Helen cited her own experience in the media sector).

You could say that there are cheap and basic solutions at one end of the spectrum, and full-on semantic triple stores with millions of RDF statements at the other. If we use a UK supermarket analogy, the basic solution might be Aldi, and the deluxe version might be Waitrose, both of which squeeze out the middle range – thesauri (Tescos etc)

So we need to be confident in our abilities to use semantic structures to solve user needs, and not be tied down to one approach.

 

Leonard Will drew on biblical references to give examples of (very!) early examples of thesauri, citing the naming of light as day and of dark as night, and Adam naming the beasts and fowls (thus making him the first taxonomist).

Leonard believes that the word taxonomy should be restricted to its biological use, and not used generically, as it frequently is. A thesaurus defines concepts, labels them and links them. Links in the form of broader/narrower relations (as well as scope notes) help to define context. Associative relationships are also useful, but they don’t define. Concepts are units of thought, and this underlies KO schemes. Labels are needed to support discourse but definitions of concepts are also needed. Leonard also mentioned the importance of the librarian acting as intermediary; computer systems can do this, but they need aids – semantic structures – to support this. For example, Wikipedia uses these kinds of disambiguation tools and allows you to search broader and narrower terms. This serves two roles, that of map and gazetteer – you can see what the term is but you also have a navigation aid to take you to a more specific term, if required. You can see the subject distribution, and it allows you to see more than you thought you wanted, supporting a wider view of the subject.  Leonard showed a slide with the data model for a thesaurus from the standard, which inter alia shows that the thesaurus can be migrated into an ontology. He also touched on metadata schemas and linked data: the argument that it’s too much work to develop a thesaurus ignores the fact that we can use existing thesauri. Co-operative efforts should reduce the effort needed.

 

He said that controlled vocabularies and other semantic tools are really synonyms for thesauri, all of which have a core principle which is the centre of modern information retrieval.

We then had two expert witnesses, Alan Flett and Phil Carlisle.

Alan made the point that over 5 years of working for SmartLogic he has never been asked to build an ISO standard compliant thesaurus, and in doing a discovery piece for a new project, he does not tend to discover existing thesauri. SmartLogic do use Agrovoc for testing purposes, but otherwise they don’t work with ISO-compliant thesauri. They do naturally work with concepts, relationships and labels, but Alan thinks the standard advocates a rather precious and overly restrictive use of terminology. What do clients mean when they ask for software that conforms to the standard? They probably just mean the use of BT/NT etc, so more about how you label relationships rather than the nature of those relationships. Alan is usually involved in modelling, and developing facets and bespoke relationships, and has worked on some big vocabularies, but applying the standard would be impractical: the scale of model would be too big.

For Alan the methodology is usually responsive to the situation, reacting to what’s there, and what the users want, and his work is usually focused on autocategorization. He commented that as regards interoperability, you wouldn’t use a thesaurus: you would be looking at other mechanisms, and in any case in his experience findability is the big driver rather than interoperability.

Phil Carlisle said that the Data Standards Unit at English Heritage is keen on interoperability, and has therefore developed a common vocabulary to support this, which has also been made available to local government. They have built a piece of software to help support it. Phil does not think that any thesaurus is completely ISO compliant, because flexibility and pragmatism is always needed.

 

There was originally one national preferred term in the thesaurus, but you need the richness of user-generated terms and lots of synonyms. They are trying to move towards indexing with the concept, so that different communities will see / or have available different terms. Judi commented that if there is no preferred term and they’re all equal, this is contrary to the standard. Phil said that you could say the ID becomes the preferred term, with language and dialect variants.

Helen commented that not everyone has the luxury of such formal structures, since there is a constant need to be pragmatic.

Phil agreed that thesaurus development is extremely resource intensive, but thought that there’s a benefit to others via linked data.

Alan was concerned about the imprecise use of language: are we talking about thesauri or other things? An ontology is not a thesaurus.

Phil agreed whole-heartedly with this, and thought that the debate was much too friendly and in agreement!

Discussion from the floor

[Apologies for not naming all the people who spoke: it wasn’t always possible to identify them.]

 

Sarah Saunders (Electric Lane) took issue with the idea that the commercial world doesn’t benefit from a thesaurus. With images the thesaurus is key for supporting findability. The accurate and unambiguous results are important. The big problem is that software often doesn’t handle it well.

Widad Mustafa El Hadi (Univ of Lille) commented that software is not up to it: we need more sophisticated tools.

There was discussion around the amount of time it takes to develop a thesaurus: organizations know they need vocabularies, but you have to take baby steps sometimes. And a thesaurus has to be maintained in order to be useful.

Linked data: are we getting to a point where you end up with half a dozen knowledge stores globally? There are large thesauri in some fields such as the AAT, and these are growing in number. Linked data will make this easier. But they must grow according to people’s needs, and local needs can be very specific. Maybe one way forward is linked data which allow you to share vocabularies.

 

If people can’t find what they want, you might as well not have the information. Projects are underway to link thesauri together. It’s an enormous task with no automatic way to do it: it has to be a manual task, which obviously does need a lot of effort.

The traditional thesaurus has hierarchies which can be huge, but it produces silos. You can relate them of course, but a thesaurus does not say how it can be related. We need more semantic relationships such as you get in an ontology – you could try to build it all into a thesaurus, but it’s much more efficient in an ontology. The thesaurus concepts are the underpinning, but not enough on their own.

 

There was discussion on the limitations of the debate question. The question is really what is the place of the thesaurus, or places. What other things do you need as well? Maybe we could look at the contexts in which you might use other tools. So the question is how best to use a thesaurus.

The multi-lingual area is another place where the thesaurus comes into its own, where you need to look at the nuances of difference between a concept in one language and in another, because they. may not be exactly equivalent.

Instability: who curates the thesaurusBut this could be an unstable relationship if there’s only one person who understands and someone takes over who interprets things differently. ? Need to have clear rules and be consistent and stick to the standard. But on the other hand terminology changes and it’s hard to deal with that: you need human experts who can understand that this is that.

ISKO UK has recently established a repository called ‘ISKO Media’, holding the multimedia files associated with each ISKO UK event, and needs to find a way to tag the different artefacts: how should we do that? It’s only a small collection of content, so the effort of preparing a controlled vocabulary may be out of proportion. Or should we just use free indexing and see how that looks after a while?

One of the huge weaknesses is that people just often don’t understand a thesaurus because it’s too huge and complex. You have to be in a situation where you have the tools to use it, but the end users won’t understand it.

We need software that really knows how to handle terminology. Is open source the answer to this? There can be a problem with interfaces not explaining what you’re getting, and the kinds of relationships in thesauri can be limited, and not made explicit. How can non-professionals choose the correct term: why is this term suitable or not suitable? You should be able to understand the term according to the context or by following the links. The traditional thesaurus doesn’t make these relationships explicit in the way an ontology would do. Where you don’t know the right word, you may not find what you want by browsing a traditional thesaurus, and the words you need to guide you might need to be more descriptive. What you might need is a classification scheme. Again, the point is made that organizations frequently don’t have the skills or the time.

A thesaurus generally provides a viewpoint so sharing is not necessarily workable: an example was given of thesauri for three organizations in the same area where overlap was only 15%!

 

At this point, Martin asked each of the main participants to give a summary of their view in the light of the foregoing discussion.

Leonard: There is general agreement that the principles of a thesaurus are accepted, but less agreement on whether this must be done rigorously or sloppily. User friendly shouldn’t mean sloppy. We haven’t really talked about retrieval software, but if we do proper facet analysis, combining these things in retrieval to deal with complex queries, the software should be able to cope.

 

Vanda: It’s all about semantics – we’ve been a little loose in our response to the question, but we have all interpreted it, and perhaps understand the thesaurus in different ways, but we are reaching the same conclusions.

 

Judi: We seem to be using all kinds of words to refer to a thesaurus, like ontology or information architecture or controlled vocabulary, and these are clearly not synonyms. Are we saying that we stand by the ISO standard? Clearly not because we’re defining it in different way. For example, the URI advocated by English Heritage can’t follow thesaurus standards. But we are talking about rigour and models, whether we’re building a thesaurus or whatever the KOS is, and we do all agree with that. So it depends how you interpret the motion.

Helen: There is broad agreement, but the problem is back to front – we haven’t really discussed whether these systems meet user needs. Different users need different things at different times.

Martin then asked what we really mean by the motion. He commented that search is the only solitary activity that we do, and when you try to do it as a group, you find how differently people approach the task. He asked people to vote by clapping harder for the side they support, and the motion was duly lost.

RESUME

Je dois dire tout de suite que je suis l’auteur principal de la motion, de sorte qu’on pourrait penser que toute sélection d’éléments clés des propositions alternatives serait totalement biaisée. Et vous avec peut-être raison, mais en fait, un large consensus sembe se dégager de l’ensemble des orateurs sur la nécessité de disposer de modèles robustes, de vocabulaires contrôlés et de relations sémantiques pertinentes – il me semble alors que la grande question est: «qu’est-ce qu’on entend par un thésaurus traditionnel ».

Un mot d’abord sur le format : le débat a été présidé (très habilement) par Martin White de Intranetfocus; nous avions deux orateurs pour la motion, et deux contre, ainsi que deux témoins experts. Après les contributions de tous ces contributeurs, le débat a été lancé avec la salle, et nous avons eu un nombre de contributions un plus élevé que d’habitude, toutes ayant fait l’objet de longs débats. Dans les évaluations après la séance, la plupart des personnes ont été très positif sur ce format, très différent d’une présentation type de documents, mais certains auraient aimé que les orateurs (en particulier les soumissionnaires des propositions) avoir été plus provocateurs. En revanche, je pense que nous sommes tous resté enaccord avec nos convictionsprofondes, ce qui est compréhensible, mais conduit à un débat moins excitant ! J’espère que nous utiliserons à nouveau ce format de réunion dans l’avenir, et si oui, nous encourageons les intervenants à adopter une attitude plus «extrême».

Comme auteur principal de la motion, j’ai commencé par définir ma vision du «thésaurus traditionnel», à savoir le thésaurus tel qu’il est définit dans la norme ISO 25964. C’était mon but de montrer que les règles et les relations définies dans la norme sont d’un côté trop étroites pour les besoins actuels et d’autre part trop rigide, car suivant les relations standards des thésaurus signifie que l’on aboutit inévitablement à un très grand nombre de règles, dont beaucoup deviennent trop générique pour être utile (par exemple la gestion des risques BT Management). Dans les organisations modernes, c’est souvent le cas que les mots-clés appliqués aux contenus (par exemple) soit assignés par les membres du personnel (qui ne sont pas formés ni même nécessairement intéressés par le classement des contenus) ou par des systèmes de catégorisation automatique. Si le premier, en créant d’énormes vocabulaires, rend cette tâche très difficile pour les personnes; avec le second, vous constatez que les structures plus souples fonctionnent aussi bien ou mieux encore dans l’application de classification automatiquement. Ainsi, les relations BT / NT «pures» requises par la norme ne sont pas toujours appropriées à la création d’une structure d’indexation (=enrichissement).

Vanda Broughton, l’oratrice principale de l’opposition, a commencé en insistant sur le fait que le concept (=idée) de thésaurus est bel et bien vivant et essentiel à la gestion de l’information. Elle a présenté des diapositives humoristiques impliquant des dinosaures et le Capitaine Crochet (pas sur la même planche !), Et a souligné qu’un thésaurus est une «unité centrale de traitement» et «une manifestation d’un modèle conceptuel sous-jacent», qui vous permet d’identifier, de contrôler et de relier des concepts ensemble. Faire un plaidoyer pour un thésaurus, c’est faire le plaidoyer pour d’autres expressions de systèmes de connaissances. Shirky et d’autres soutiennent qu’il n’y a pas de hiérarchie de la connaissance, mais seulement des relations, mais si vous voulez gérer la terminologie et si vous voulez l’utiliser pour trouver des trucs, vous avez besoin d’imposer une structure ordonnée. Donc, si vous soutenez qu’un thésaurus, ou toute autre structure d’organisation des connaissances, est artificielle, vous êtes dans le vrai, car c’est juste un moyen pour une fin. La finalité d’un thésaurus est qu’il nous apprend à prendre une approche critique: il nous fait réfléchir sur la nature des concepts, les relations, et les mots-clés utiles. Mais vous pouvez utiliser tout autre outil d’information que vous pouvez citer, comme un modèle d’un domaine, une taxonomie ou une ontologie – toutes les prochaines étapes de notre voyage. La théorie de base sous-tend toutes ces choses. L’examen critique minutieux des concepts et des relations est fondamental pour toutes solutions techniques:ces principes fournissent un fondement/une base en tant que discipline..

Helen Lippell, qui a appuyé la motion, a souligné que les projets de thésaurus peuvent être coûteux, les structures peuvent être compliquées, et si c’est fait correctement, la maintenance du thésaurus va augmenter considérablement le coût. Pour certains organismes de tels investissements paraîtront appropriés, mais il existe un réel risque qu’il soit disproportionné par rapport à la valeur de cet outil pour l’utilisateur final (valeur qui peut être difficile à définir, dans tous les cas).

Le premier travail d’Helen fut d’aider à construire un grand thésaurus puis elle a quitté le projet,celui-ci s’est alors développé sans aucun contrôle, ce qui constitue un autre risque. La construction et l’entretien de ces grandes structures terminologiques lourdes, remonte à l’âge de l’intermédiation lorsque les professionnels de l’information étaient responsables de la recherche d’informations et de la création et la gestion de la sémantique de ces dispositifs. Or, ces choses sont utilisés par les utilisateurs finaux ; ils doivent être plus fortement alignés au système et aux utilisateurs. Evidemment c’est une bonne chose de capter la terminologie et les relations, mais ces vocabulaires ont besoin de se concentrer sur la façon dont les gens les utilisent, et il pourrait y avoir un risque à être trop déconnectés des exigences de l’utilisateur.

Dans de nombreux produits numériques, la recherche est la fonctionnalité prédominante pour trouver des informations, et Helen ne croit naturellement pas que la recherche seule est suffisante, mais elle se demandait si les thésaurus n’était pas trop lourd à mettre en oeuvre. L’intelligence humaine et la connaissance peuvent compenser le «mutisme» relatif d’un algorithme de recherche, et il est également possible d’exploiter d’autres outils sémantiques : l’ajout de synonymes, l’autosuggestion, des requêtes connexes, visualisation des mots clés associés.. Ces approches ne sont pas totalement idéales, mais le temps de développement supplémentaire nécessaire peut être minime, et la maintenance au fil de l’eau sera moins importante. Il est également plus facile de définir le retour sur investissement de l’application de ces plus petits composants. Economiser sur les ressources nécessaires pour créer et appliquer ces outils sémantiques est très important (Helen a cité sa propre expérience dans le secteur des médias).

Vous pourriez dire qu’il existe des solutions de base, bon marché à une extrémité du spectre, et des entrepôts sémantiques de triplets de millions de déclarations RDF de l’autre. Si nous utilisons l’analogie avec un supermarché du Royaume-Uni, la solution de base pourrait être Aldi, et la version de luxe pourrait être Waitrose, tous deux faisant ressortir le milieu de gamme – le thésaurus (Tescos etc).

Nous devons être confiants dans nos capacités à utiliser les structures sémantiques pour résoudre les besoins des utilisateurs, et ne pas être liée à une seule approche.

Leonard Will s’est inspiré de références bibliques pour donner des exemples de (tout!) premiers exemples de thésaurus, citant la désignation de la lumière pour le jour, et l’obscurité pour la nuit , et Adam nommant les bêtes et les volailles (faisant de lui le premier taxonomiste).

Leonard pense que le mot taxonomie devrait être limité à son utilisation biologique, et non de manière générique, comme c’est fréquemment le cas. Un thésaurus définit les concepts, les termes et les relie. Les relations selon le format des relations génériques/spécifiques (ainsi que les notes explicatives) aident à définir le contexte. Les relations associatives sont également utiles, mais ils ne définissent pas les concepts. Les concepts sont des unités de la pensée, et c’est cela qui est à la base des schémas d’organisation des connaissances. Les termes sont nécessaires pour appuyer le discours mais les définitions de concepts sont également nécessaires. Leonard a également mentionné l’importance de l’action des professionnels de l’information en tant qu’intermédiaire; les systèmes informatiques peuvent le faire, mais ils ont besoin d’aides – structures sémantiques – pour les soutenir. Par exemple, Wikipedia utilise des outils de désambiguisation et vous permet de rechercher des termes plus larges et plusl étroites. Cela sert deux fonctions, celle de la carte et celle d’une nomenclature – vous pouvez voir ce que le terme est, mais vous avez également une aide dans la navigation pour vous emmener à un terme plus précis, si nécessaire. Vous pouvez voir la distribution des sujets ; il vous permet de voir plus que ce que vous pensiez vouloir, en offrant une vision plus large du sujet. Leonard a montré une diapositive du modèle de données de la norme de thésaurus, qui, notamment, montre que le thésaurus peut être migré dans une ontologie. Il a également évoqué les schémas de métadonnées et les données liées: l’argument selon lequel le développement d’un thésaurus est trop lourd, ne tient pas compte du fait que nous pouvons utiliser les thésaurus existants. Les efforts de coopération devraient réduire l’effort nécessaire.
Il a également dit que les vocabulaires contrôlés et d’autres outils sémantiques sont vraiment des synonymes des thésaurus ; tous ont le même principe de base qui est le centre de la recherche d’information la plus moderne.

Nous avons ensuite eu deux témoins experts, Alan Flett et Phil Carlisle.

Alan a fait remarquer que plus de 5 ans de travail pour SmartLogic, on ne lui a jamais demandé de construire un thésaurus conforme à la norme ISO, et en découvrant les nouveaux projets, on ne découvre pas de thésaurus existant. SmartLogic utilise Agrovoc à des fins de test, mais sinon, ils ne fonctionnent pas avec des thésaurus conformes à la norme. Ils fonctionnent naturellement avec les concepts, les relations et les termes, mais Alan pense que la norme préconise une utilisation plutôt sophistiqué et trop restrictive des terminologies. Qu’est-ce que les clients veulent dire quand ils demandent un logiciel qui est conforme à la norme? Ils signifient probablement juste de pouvoir utiliser des relations génériques/spécifiques etc, donc des demandes plus axées sur la façon dont plus sur les relations termiologique que sur la nature de ces relations. Alan est habituellement impliqué dans la modélisation et le développement de facettes et sur les relations sur mesure, et a travaillé sur quelques grands vocabulaires, mais l’application de la norme ne serait pas pratique: l’échelle du modèle serait trop grand.

Pour Alan la méthodologie est généralement sensible à la situation, en réaction à l’existant et là ce que les utilisateurs veulent, et son travail se concentre généralement sur la catégorisation automatique. Il a ajouté qu’en ce qui concerne l’interopérabilité, vous n’utiliseriez pas un thésaurus: vous seriez à la recherche d’autres mécanismes, et en tout cas dans son expérience, la trouvabilité est le moteur dans la réflexion plutôt que l’interopérabilité.

Phil Carlisle a déclaré que l’« Data Standards Unit » (le principe des Unités de standards de données ») à l’English Heritage est très favorable à l’interopérabilité, et a donc développé un vocabulaire commun dans ce sens, ce vocabulaire a également été mis à la disposition du gouvernement local. Ils ont construit une application à cette fin. Phil ne pense pas que tous les thésaurus sont complètement conformes aux normes ISO, parce que la flexibilité et le pragmatisme sont toujours nécessaires.

Il y a en général un terme préférentiel « national » dans les thésaurus, mais on a besoin de la richesse des termes générés par les utilisateurs et de beaucoup de synonymes. Ils essaient d’évoluer vers une indexation avec les concepts, de sorte que les différentes communautés verront /ou auront des termes différents disponibles. Judi a fait un commentaire sur la possibilité de ne pas avoir de terme préférentiels et de rendre les termes tous égaux, ce qui est contraire à la norme. Phil dit que l’on pourrait dire que les identifiants deviennent le terme préféré, avec des variantes de langues et de dialectes.

Helen fait remarquer que tout le monde n’a pas le luxe de ces structures formelles, car il y a un besoin constant de pragmatisme.

Phil convient que le développement de thésaurus est extrêmement gourmand en ressources, mais il pense que l’on peut tirer partie d’autres vocabulaire via les données liées.

Alan est préoccupé par l’utilisation imprécise de la langue: parlons-nous de thésaurus ou d’autres choses? Une ontologie n’est pas un thésaurus.
Phil acquiesce sans réserve à cela, et pense que le débat ets beaucoup trop amical et en phase !

Discussion avec la salle

[Toutes mes excuses pour ne pas nommer toutes les personnes qui ont pris la parole: il n’a pas toujours été possible de les identifier.]

Sarah Saunders (Lane Electric) a contesté l’idée que le monde commercial ne bénéficie pas des thésaurus. Avec des images, le thésaurus devient un outil-clé pour soutenir la trouvabilité. Des résultats précis et sans ambiguïté restent importants à fournir. Le gros problème vient de ce que le logiciel souvent ne gère pas bien ces fonctions.

Widad Mustafa El Hadi (Univ de Lille) a fait un commentaire sur le fait que les logiciels ne sont pas à la hauteur: nous avons besoin d’outils plus sophistiqués.

Des échanges ont porté sur la durée de développement d’un thésaurus : les organismes savent qu’ils ont besoin de vocabulaires, mais vous devez parfois avancer à tout petit pas. Un thésaurus doit être maintenu pour pouvoir être utile.

Les données liées: Sommes-nous à un point où nous nous retrouvons avec une demi-douzaine d’entrepôts de connaissances à l’échelle mondiale? Il existe de grandes thésaurus dans certains domaines tels que l’AAT, et ceux-ci sont en nombre croissant. Les données liées rendront cela plus facile. Mais ils doivent se développer selon les besoins de la population, et les besoins locaux peuvent être très spécifiques. Peut-être une solution d’avenir repose sur les données liées qui permettent de partager des vocabulaires.

Si les gens ne peuvent pas trouver ce qu’ils veulent, vous pourriez aussi bien ne pas avoir l’information. Des projets en cours visent à relier les thésaurus entre eux. C’est une tâche énorme sans aucun moyen automatique : il repose sur des tâches manuelles, ce qui suppose évidemment beaucoup d’efforts.

Le thésaurus traditionnel a des hiérarchies qui peuvent être très importantes, mais on produit ainsi des silos. Vous pouvez relier bien sûr ces thésaurus, mais un thésaurus ne définit pas comment il peut être lié à d’autres thésaurus. Nous avons besoin de relations plus sémantiques tels que celles que vous avez dans une ontologie – on pourrait essayer de les construire dans un thésaurus, mais elles sont beaucoup plus efficaces dans une ontologie. Les concepts sont le fondement d’un thésaurus, mais pas assez par eux-mêmes.

Nous avons discuté sur les limites même de la question en débat. La question posée porte-t-elle sur la position ou sur les positions des thésaurus, ? De quoi d’autres avez-vous besoin ? Peut-être pourrions nous examiner les contextes dans lesquels on pourrait utiliser d’autres outils. Donc la question est quelle est la meilleure façon d’utiliser un thésaurus.

Le multilinguisme est un autre domaine où le thésaurus prend son véritable sens, où vous avez besoin de regarder les nuances des variations entre un concept dans une langue et dans un autre, car ils peuvent ne pas être exactement équivalents.

Instabilité: qui maintient le thésaurus? S’il n’y a qu’une seule personne qui comprend le système et qu’une autre prenant le relais interprète les choses différemment, cela pourrait conduire à une situation instable. Avoir des règles claires, être cohérent et s’en tenir à la norme. Mais d’un autre côté, les terminologies changent et il est difficile de faire face à çà : on a besoin d’experts humains qui comprennent cela.

ISKO UK a récemment mis en place un référentiel appelé «Médias ISKO», contenant des fichiers multimédias associés à chaque événement ISKO UK, et doit trouver un moyen d’indexer les différents objets: comment devrions-nous faire? C’est seulement une petite collection de ressources, de sorte que l’effort de préparation d’un vocabulaire contrôlé peut être disproportionné. Ou devrions-nous utiliser simplement une indexation libre et voir à quoi cela ressemble après un certain temps?
Une des énormes faiblesses vient simplement de ce que les gens ne comprennent pas ce qu’est un thésaurus car c’est trop volumineux et trop complexe. On devrait se trouver dans une situation où les outils à utiliser existent, mais les utilisateurs finaux veulent les comprendre.

Nous avons besoin d’un logiciel qui sache vraiment gérer ces terminologies. Est-ce que des outils open source sont la réponse à cette question? on peut avoir un problème avec les interfaces [de ces outils libres ?] qui n’explique pas ce que vous obtenez, ou les types de relations peuvent être limitées, et non explicites. Comment les non-professionnels peuvent choisir le terme correct: pourquoi ce terme est-il approprié ou au contraire ne l’est pas ? On devrait être capable de comprendre le terme selon le contexte ou en suivant les relations. Le thésaurus traditionnel ne rend pas ces relations explicites comme le ferait une ontologie. Ou bien vous ne connaissez pas le mot juste, et vous ne pouvez pas trouver ce que vous voulez en parcourant un thésaurus traditionnel ; les termes dont vous avez besoin pour vous guider pourrait être plus plus descriptifs. Vous pourriez avoir besoin d’un système de classification. Encore une fois, on observe que les organismes n’ont souvent pas les compétences ou le temps nécessaires.

Un thésaurus fournit généralement un point de vue particulier et le partager n’est pas forcément réalisable: un exemple a été donné d’un thésaurus pour trois organismes dans un même domaine où le recouvrement était seulement de 15%!

A ce stade des échanges, Martin a demandé chacun des principaux participants de faire un résumé de leur point de vue à la lumière de la discussion qui a précèdé.

Leonard: On admet généralement que les principes des thésaurus sont acceptés, mais nous sommes moins d’accord sur la question de savoir si cela doit être fait avec rigueur ou sans soin. Faciliter l’utilisation par les utilisateurs ne doit pas signifier bâcler le thésaurus. Nous n’avons pas vraiment parlé des logiciels de recherche, mais si nous faisons des analyses appropriées par facettes, en combinant ces résultats en recherche pour traiter des requêtes complexes, le logiciel devrait être en mesure de faire face.

Vanda: Tout est une question de sémantique – nous avons été un peu lâche dans notre réponse à la question – nous l’avons tous interprété à notre façon et peut-être compris le thésaurus de différentes façons, mais nous arrivons aux mêmes conclusions.

Judi: Il semble que nous utilisons toutes sortes de mots pour désigner les thésaurus, comme ontologie ou architecture de l’information ou encore vocabulaire contrôlé, et ceux-ci ne sont manifestement pas des synonymes. Sommes-nous en train de dire que nous respectons la norme ISO? De toute évidence non pas parce que nous la définition de manière différente. Par exemple, l’URI préconisée par l’English Heritage ne peut pas suivre les normes de thésaurus. Mais nous parlons de rigueur et de modèles, si nous construisons un thésaurus ou tout autre KOS, et nous sommes tous d’accord avec cela. Donc, cela dépend comment vous interprétez la motion (=question)..

Helen: Il y a un large consensus, mais le problème est inversé – nous avons pas vraiment discuté de savoir si ces systèmes répondent aux besoins des utilisateurs. Différents utilisateurs ont besoin de différentes choses à différents moments.

Martin a alors demandé ce que nous entendions vraiment concernant la motion. Il a ajouté que la recherche est la seule activité solitaire que nous faisons, et quand on essaye de la faire en groupe, vous verrez que les gens abordent différemment cette tâche. Il a été demandé aux personnes présentes de voter en applaudissant plus fort pour le camp qu’ils soutiennent, et la motion a été résolument rejetée.

 

 

Publicités