- ajout perpétuel et rapide d'infos
- pluralité des "types" de documents dans Internet: en plus de tous les genres de textes connus associés à l'imprimé (articles, livres, lettres, chroniques...) et leur version numérique, il y a tout un ensemble de nouveaux genres: les blogues et leurs commentaires, les "profils de membres", les clips audio, vidéos, tous les types de photos, etc. S'ajoutent à ces variétés non-standardisées le fait que ce soit souvent des genres très courts, bien moins qu'une page, parfois quelques dizaines de mots comme dans les "chats" les séances de clavardage, les textes hyper brefs de la nouvelle patente "Twitter" (140 mots au maximum, je pense). Autre difficulté, une seule page peut contenir toutes sortes de types de documents, comme une page de journal, mais en pire! Dans l'indexation des journaux anciens, on indique parfois la colonne où apparaît le document ou la citation. Dans les périodiques contemporains, avec leur graphisme éclaté, le concept même de colonne est problématique. Dans Internet, en plus, la "publication" du document est elle-même problématique, elle est souvent aléatoire, contextualisée par une requête de l'usager. L'étude de la publicité pourrait être encore plus difficile. On peut localiser une pub dans un imprimé, mais comment localiser un bandeau publicitaire qui apparaît de temps en temps en puisant dans une liste de bandeaux virtuels?
Autres difficultés:
- Aussi, localiser correctement un document et lui donner une adresse précise est aussi problématique: le document peut changer souvent de place dans un même site, et être reproduit des dizaines de fois, des centaines de fois. Internet, c'est le règne des doublons. Mais tous les catalogues de bibliothèques mis en ensemble demeurent sans doute le plus énorme univers de doublons jamais créé. Les catalogues collectifs sont confrontés à cela: pour un titre, on trouve des centaines de localisation, de doublons. C'est pratique quand on est rendu à l'étape d'aller le consulter à la bibliothèque près de chez soi, mais dans les résultats préliminaires de recherche, cette montagne de doublons doit être surmontée par une sélection des documents-titres "uniques", ce qui oblige à avoir des descriptions les plus standardisées possibles. Trouver les doublons à partir de descriptions dissemblables est chose presque impossible. Les grandes bibliothèques, grâce à leur tradition, arriveront assez bien à résoudre ce problème de doublons, mais comment Google pourrait-il y arriver? Comme Ebay oy Abebooks où se sont des millions d'usagers-clients-abonnés qui créent leurs descriptions personnelles des documents. Les pages complètes, entièrement identiques sont probablement, toute proportion gardée, peu nombreuses, mais les fragments d'informations, eux, doivent atteindre une quantité astronomique. Avec toutes les applications qui se développent, ce sera encore mille fois pire bientôt.
L'autre chose est la nature des résultats de recherche que donne Google, par exemple. Malgré la possibilité de développer un moteur de recherche personnalisé, on recommence toujours à zéro avec Google et les autres moteurs de recherche. Peut-être y a-t-il un moyen "d'écumer", "d'élaguer" peu à peu un premier résultat et d'éliminer tous les résultats non-pertinents pour ne conserver que ceux qu'on choisit pour annoter, mais cela n'est pas facile à réaliser. Le métachercheur Copernic, version pro, paraît offrir la possibilité de gérer les résultats, de les filtrer, etc. Il semble cependant que l'évolution de ce logiciel soit arrêté. Plus personne en parle, et les dernières infos sur leur site date d'un année ou deux
Aussi, on ne peut chercher que quelques mots à la fois (avec les opérateurs booléens, par exemple... Google fixe le maximum à 25, je crois). Pour une recherche le moindrement complexe qui couvrent un domaine de recherche substantiel, un mot à la fois ne mène à rien. Il faudrait pouvoir chercher des listes d'expressions, fusionner les résultats, et les conserver! Puis, travailler à les identifier, les choisir, les annoter avec des mots-clés standards, et surtout rejeter de ce résultat, les pages-références qui ne sont pas pertinentes.
Aucun commentaire:
Enregistrer un commentaire