Gouvernements et Google – demandes d’information sur les internautes

Toujours interressant de creuser les données brutes qui envahissent notre monde.

Ici celles que Google divulge chaque semestre depuis 2009 et concernant les demandes d’information sur des internautes, en particulier en provenance des gouvernements.

Ne nous leurrons pas : il n’y a pas que les gouvernements qui nous surveillent … Mon propos vise ici le traitement des données, avec un objectif d’information / connaissances.  Mais d’une pierre deux coups : autant diffuser aussi des informations utiles à notre culture numérique.

Lire la suite

Publicités

Actualité des moteurs et schema.org – i-Expo 2012

Je vous avais fait une présentation sur ce blogue de Schema.org, le profil d'application de Google, Bing et Yahoo! en décembre 2011. Je  viens de faire une autre présentation de Schema.org à i-Expo à l'atelier sur l'actualité des moteurs de recherche, atelier rondement mené par Serge Courrier, et merci aux organisateurs.

 

J'en profite pour vous faire un rapide retour des trois autres interventions de cet atelier : Les défis de la recherche sémantique à l'heure du big data par François Bourdoncle (Exalead), les moteurs de recommandation par Damien Poirier (Université d'orléans) et les "outils de découverte" (Discovery Tools) de André Danzy (Couperin). 

Lire la suite

Une semaine sur un PC …

… pour cause de café renversé sur mon portable Mac!

Bascule rapide des données utiles. 

Rapide ! … "tous les cordonniers ne sont pas mal chaussés"

  • format ouvert de la messagerie (Thunderbird) et protocole IMAP pour mon fournisseur (données accessibles en ligne)
  • Cloud compuding/SAAS, bref en éloignant une grande part de mes outils de production personnelle mais aussi des productions elles-mêmes, de ma tasse à café 😉
  • une clef usb (je ne retrouve pas le câble éthernet…)  des archives courantes et intermédiaires à la date J-1 !!

Mais aie, aie, aie, l'ergonomie !

Ma "productivité personnelle" chute tout d'un coup. Je ne vais pas vous embêtez avec mes post-its (numériques), ma colorisation des dossiers,…. Je ne citerais que l'insupportable fonction de recherche sous Windows. Des délais insupportables, des réponses non organisées… Impossible d'envisager même une semaine avec çà …

N'hésitez pas, vous qui êtes sur PC (et sans Intranet digne de ce nom … il y en a encore beaucoup …) : prenez un outil dédié.
Beaucoup de solutions sont accessibles, et pour cause étant donnée la fonction de base proposée sur l'OS.
Citons :  Copernic, Google Desktop, même Windows s'est senti obligé de faire quelque chose, … Vous pouvez aller sur Outils Froids pour plus d'information sur les moteurs locaux.

J'ai jeté mon dévolu sur Exalead Desktop, le clone du moteur Web pour PC (et uniquement pour PC Windows) qui existe aussi en version professionnelle pour les intranets. Ici la version poste de travail individuel (gratuite).
Il faut bien sûr laisser du temps à la machine pour indexer, avant de pouvoir faire quelques tests.

Je ne dirais rien sur la diversité des types de fichiers ou de sources manipulables. Je montrerais plutôt l''organisation des résultats qui libère les métadonnées, … ! Puisque vous pouvez naviguer à partir de ceux-ci… Enfin de ceux que l'on peut proposer comme dénominateur commun à tout document/fichier sur son poste de travail.

Exalead-standalone

Et ainsi proposer ce même type d'ergonomie (pas nécessairement cet outil bien sûr).
Pour prendre un exemple de catalogue de bibliothèque (avec des données très homogènes et pas d'exploitation de données non structurées), voici Ariane 2.0. de l'Université de Laval.

  • Des fonctions en plus – trier les résultats au sein d'une catégorie de métadonnées,
  • et des fonctions en moins – personnaliser le choix des catégories de métadonnées et leur ordre.

 Ariane2-UnivLaval

Une semaine plus tard, retour sur ma machine sans encombre…

L'envie de tester autre chose que l'outil Spotlight du Mac, pour voir. Test ce coup-ci de Google Desktop… Ecran classique. Efficace, très rapide (avec une longue indexation du disque). Personnellement, je préfère l'organisation et le tableau de bord d''Exalead.

Googledesktop

On a parfois des difficultés à savoir où l'on se trouve. Ici, ailleurs… Si vous ne prêtez pas attention, vous basculer sur une recherche Web….L'écran ici montre l'URL de Google Fr, et les données de ma machine comme premiers résultats.

Google2

Tout documentaliste devrait à un moment ou à un autre, tester cet outil ne serait ce que
pour comprendre pourquoi les utilisateurs … ne veulent plus venir sur d'autres types d'interfaces.

En tous les cas, de bons outils pédagogiques à mettre entre toutes les
mains de vos stagiaires.

Mots clés saisis par les internautes

OneStat, société de mesure d’audience, annonce les résultats de son baromètre concernant le nombre de « mots » saisis pour une requête sur les moteurs de recherche.

Sur ce premier tableau, l’étude des chiffres depuis 2003 (*1) montre une baisse constante des requêtes constituées d’un seul « mot », passant de 24,76% à 11,43% pour 2006.

Keyword_annee

Un aspect intéressant de ce dernier baromètre est la présence de statistiques par langue.

Keywordlangue

Nous avons seulement extrait les chiffres pour l’anglais, le français et l’allemand. Ceux-ci sont très sensiblement différents pour ces trois langues avec 28,89 % pour un mot et 40,04% pour deux mots pour l’Allemand.
Cela montre simplement que les langues fonctionnent de façon différente, ce que beaucoup oublient …
avec des langues synthétiques comme l’allemand (*2) grâce à des opérations morphologiques et des langues analytiques par constructions syntaxiques comme le français.

Et cela change les statistiques et surtout modifie la lecture de ces baromètres.

Quelques exemples :

– le mot le plus long :

  • en français : Anticonstitutionnellement (25 lettres)
  • en allemand : Rindfleischetikettierungsüberwachungsaufgabenübertragungsgeset
    (« loi sur le transfert des obligations de surveillance de l’étiquetage de la viande bovine et de la désignation des bovins » (mot officiel – dans un texte de loi, de 63 lettres)

– technique de conversion des déchets (3) = Abfallumwandlungsmethode (1)
– réduction du temps de travail (3) = Arbeitszeitverkürzung (1) = reduction of working time (3)
– première phase du championnat (3) = Hinrunde (1)
– location de voiture (2) = Wagenvermietung (1)
– partenaires sociaux (2) = Sozialpartner (1)
– conditions de travail (2)= Arbeitsbedingungen (1)
– centrale de chauffage alimentée par des déchets ( !) = waste-fed heating plant = Müllheizwerk (1)
– accord de libre-échange (2) = Freihandelsabkommen (1) = free-trade agreement
– usine de traitement des déchets (3) = Abfallbehandlungsanlage (1)
– position (de) hors-jeu (2) = Abseitsstellung (1)

Des chiffres donc différents pour ce qui concerne le nombre de mots d’une requête.
Mais bien sûr des contraintes et des résultats également différents dans la recherche sur les moteurs ….

  • condition travail canicule (508 000 / Google.fr) ou « conditions de travail » canicule (93000)
  • Arbeitsbedingungen Hitze (96000 / Google.de)

Une étude comparée franco-germanique des mots de la Constitution – qui reste à venir 🙂 – serait vraiment intéressante : un autre regard sur la constitution ?

Note
*1 Impossible de re)trouver des données équivalentes pour les années précédent 2003.
*2 Les coûts de traduction en allemand s’évalue à la ligne et non au mot.

Sources
L’article du 25/07/2006 sur JDN
Les données sur le site de OneStat.com
Constitution européenne (http://europa.eu/constitution/fr/lstoc3_fr.htm )
Les thésaurus Gemet ou Eurovoc, ainsi que le glossaire bilingue du football de l’Office franco-allemand pour la jeunesse (http://www.ofaj.org/).

Le mot-clé


Note sur la notion de mot-clé pour la recherche d’information.

Création : le 17 septembre 2005
Mise à jour : le 19 septembre 2005


A la question posée  « quelle(s) compétence(s) doit posséder un utilisateur ayant un besoin d’information et souhaitant formuler une question à un système documentaire », un collègue terrain annonçait durant un stage de formation de formateur auprès de bibliothécaires et documentalistes : «les utilisateurs du Centre en fait ne savent pas ce que veut dire mot-clé ».

Voilà une compétence rarement formulée et pourtant si essentielle !

Le sens attribué par les documentalistes se rapporte souvent à l’indexation des documents :

« Terme choisi généralement dans le titre ou le texte d’un document
pour en caractériser le contenu et en permettre la recherche. Il
constitue un point d’accès. Il est à distinguer d’un descripteur, qui
est un terme normalisé dans un thésaurus. (Vocabulaire de la
Documentation, ADBS Editions, 2004)

« Keyword : significant term found in a document, in its title or in an
abstract, which identifies subject content » (in Concice dictionary of
Library and Information Science, Stella Keenan, Bowker Saur, 1996)

Mais, formulée selon le point de vue de l’utilisateur dans une phase de recherche :
« C’est à partir des termes porteurs du sens requis (les mots clés) que la question est posée » (*, p.152)

Ce n’est donc pas seulement « taper quelques mots » !!

Mais comment faire pour choisir ce ou ces mots qui serviront de clé(s) ?
Comment éliminer les intrus ? (*)
Et comment faire pour acquérir cette compétence ?

Le Web et les moteurs de recherche ont modifié le contexte et les exigences de la recherche d’information, et si les méthodes à employer sont différentes de celles édictées dans les règles professionnelles (champs contrôlés d’une base de références bibliographiques), elles ne le sont qu’en partie seulement.

En effet, l’étape initiale qui consiste à réfléchir et identifier les mots-clés distinctifs par rapport à son besoin d’information, reste identique et normalement indépendante de la 2ème étape manipulatoire qui porte sur le choix définitif du ou des termes utilisés pour le système informatique.
Les précisions apportées dans un article de la Commission Français et Informatique** sur les difficultés liées à la 1ère étape en pédagogie et sur la notion de mot-clés, sont éloquentes et très intéressantes.

Quant à l’étape suivante de sélection des « bons » termes vis-à-vis du système, favoriser l’apprentissage des compétences nécessaires à un usage intelligent de chacun de ces dispositifs me semble plus efficace, plutôt que d’imposer à tout prix un modèle unique de recherche d’information : celui de la base bibliographique, comme semble le suggérer Marc Duval dans son article sur les mots clés***.

Entre autres, la compétence de fouille dans un lot résultat s’appuyant sur les outils de catégorisation proposés me semble tout aussi intéressante à acquérir, que la compétence de sélection d’un « bon » mot clé, ou (pire?) celles liées aux syntaxes et ergonomie variées pour formuler la question, mis en œuvre dans les systèmes documentaires informatisés.
Des compétences techniques, manipulatoires comme le suggère Mr Fondin dans son dernier article sur le sujet****, plutôt que des compétences liées à la signification (« le mot-clé concentre le sens »**)

Les pratiques liées aux outils du Web vont se développer ; l’Internet/Intranet mobilise d’importantes « masses et flux » d’usagers et d’usages. Aussi me semblerait-il plus judicieux que les professionnels de l’infodoc intègrent positivement dans les projets de formation mais aussi de conception des dispositifs documentaires, ces modèles ou des modèles dérivés, en faisant la promotion du mot-clé, indispensable dans les 2 modèles de recherche.

SD
—–
* L’analyse documentaire, Suzanne Waller, ADBS Editions, 1999
**  La notion de « mot-clé » et sa difficile application pédagogique, Commission Français et Informatique, [2000], http://users.skynet.be/ameurant/francinfo/motcle/motcle.html
*** Le mot-clé, Marc Duval, Dernière mise à jour 2002-01-08, http://www.dsi-info.ca/mot-cle.html
**** La formation à la recherche d’information : préoccupation citoyenne ou vision obsolète?, Hubert Fondin, Revue Esquisse, p.16-25, http://www.aquitaine.iufm.fr/recherche/esquisse/pdf/esquisse43.pdf