Sur les chemins, de l'inconnu: Exploration bibliographique dans le projet Érudit

Comment chercher? Quoi chercher? Que savoir?
Sur le modèle des base de données météorologiques, astronomiques ou génomiques...

D'abord, il faudrait avoir un support informatique pour développer des modules d'interrogations complexes.
Il faudrait pouvoir construire des méta-requêtes composées de plusieurs sous-requêtes pour regrouper, trier, relier des ensembles de résultats divers, pour créer des index spécialisés, des sous-bibliothèques, des graphiques, des chronologies, des parcours bibliométriques, etc.

Premier principe de la critique: les moteurs de recherche sont insuffisants et ne peuvent faire avancer réellement la connaissance, car ils n'offrent la possibilité que de faire les mêmes recherches qu'avant, mais plus rapidement et plus exhaustivement.

Au centre de cela est la question: que voulons nous savoir?

Si c'est la liste des articles qui ont parlé de tel ou tel mot-clé ou auteur, on n'a pas besoin de plus. Déjà, si ce qu'on veut connaître est la liste des articles dans lesquels on parle de toutes les oeuvres d'un romancier, disons une vingtaine, c'est déjà plus compliqué si on veut regrouper les résultats, et ne pas se retrouver devant 20 listes non fusionnées. Ensuite, faudra une autre requête pour connaître les oeuvres dont parle un seul article. On ne le fait pas, parce qu'on n'a pas les bons outils de recherche.

Autre principe: ces types de requêtes exigent la collaboration d'un informaticien, capable de concevoir et d'écrire ces requêtes complexes.

Qu'est-ce qu'une modélisation, comme en météo? Une sorte de méta-requête qui effectue des dizaines, sinon des milliers d'opérations et d'analyses dans une base de données et qui crée des résultats sous forme de graphes ou de cartes, des cartes animées qui représentent le résultat affiché d'une méta-question composée de multiples petites questions et de résultats, regroupés, puis mis en relation les uns avec les autres.

Pour continuer ce sujet de refléxion: poser une question très complexe et la décomposer en multiples requêtes pour montrer un chemin possible à suivre, puis montrer le mode de représentations qu'on pourrait lui donner. Par exemple, l'idée d'établir comment le Nouveau Monde a conquis l'imprimé européen.

Montrer aussi: que ces méta-requêtes peuvent servir à créer de véritables catalogues spécialisés ou même des bibliothèques. Par exemple, dans Érudit il pourrait y avoir la "salle" Révolution tranquille (RT), subdivisée, organisée comme une vraie bibliothèque virtuelle. Ce pourrait être un projet à proposer: regrouper toutes les ressources de l'imprimé autour de la RT.

Aussi, ces réflexions mènent à reconsidérer le "traitement" que l'on fait à un document quand il est acquis et qu'on indique parfois justement "en traitement". Cela signifie les étapes suivantes: indexation, description, reliure, sécurité, code barre, intégration dans le système informatique puis sur les rayons et dans le logiciel de prêt. Essayer de penser à un traitement automatisé du contenu pour l'intégrer dans les différentes bibliothèques/catalogues spécialisés. Par exemple, on analyse le contenu en texte intégral, identifie les mots-clés associés à la RT, on le "tague" automatiquement, l'ajoute aux index des auteurs, des sujets, aux réseaux bibliométriques. Une façon donc de programmer le traitement sémantique des contenus. Le soumettre à des requêtes pré-établies, le traiter pour lui donner des mots-clés supplémentaires. Ce serait une sorte d'outil d'indexation supplémentaire...

Voir aussi les "FOAF" (Friend of a Friend) qui permettent de représenter les liens entre les personnes.
Trouver aussi des manières de représenter les liens entre les textes critiques, entre les oeuvres elles-mêmes, entre les textes critiques eux-mêmes. On pourrait imaginer des TsuT, un "Texte sur un Texte".

Créer différentes modalités de représentation des résultats, par exemple sous la forme d'arbres schématiques:
- de la critique, positive, négative...
- de la création littéraire: des branches qui unissent des contenus thématiques, des branches qui unissent des matières textuelles (dans le cas de Ferron très nombreux); ces modules peuvent être transposés dans le domaine de la critique: il y a des liens thématiques ou méthodologiques (psy, sémio, historique...), ou argumentatifs (l'évolution de la réception du thème du pays ou du "Ferron intime"); la matière textuelle de l'oeuvre, cela peut être des citations, des éléments textuels-sémantiques de la critique, que l'on retrace pour tracer des liens, les argumentations de la critique....

- peut-on trouver des manières automatisées de créer soit des résumés et/ou les structures argumentatives en identifiant les opérateurs logiques du texte argumentatif...

- distinguer les formules introductives des citations ou des commentaires (généralement placées après, mais souvent avant aussi: la citation illustre alors un fragment d'analyse)
- liens entres les auteurs de la critique / liens entre les textes de la critique
- identifier aussi les marques de la citation indirecte: "comme disait X...", "Y a écrit que blablabla"...
- tout le défi aussi d'identifier les notes en bas de pages, les bibliographies, etc.: trouver quelques exemples de logiciels qui tentent d'extraire les références bibliographiques des textes imprimés...
- tracer des réseaux sémantiques et argumentatifs entre les textes critiques

Donc proposer des sujets de recherche et aussi des manières de présenter les résultats. En ce moment, le résultat est aussi éphémère que la durée de la session. Les résultats de la recherche ne s'accumulent pas. Imaginons une application qui conservent les recherches effectuées pendant un mois: mots-clés, sujets, titres, auteurs, etc. Au bout d'un mois, une application en fait la synthèse et crée une bibliographie de ce que les usagers ont cherché et trouvé. On pourrait ainsi au moins savoir ce que les usagers cherchent pour inclure les résultats dans
1) une histoire de la recherche
2) une analyse des performances du moteur de recherche
3) une programme de suggestions de recherche
4) pour créer des bibliographies spécialisées en analysant le contenu des recherches.

Enfin, il est impossible que les recherches effectuées ne contiennent aucune information sur les intérêts des chercheurs, les limites du système de requête, sur les stratégies de recherche, etc.
Comment mesurer la performance du chercheur pour trouver ce qu'il cherche: emploie-t-il une mauvaise stratégie ou est-ce l'interface et les possibilités du moteur de recherche qui sont déficientes.

Pour ce sujet, partir d'une vraie question et tracer toute la démarche à suivre pour trouver des "réponses"

Sur les chemins, de l'inconnu

samedi 19 décembre 2009

Exploration bibliographique dans le projet Érudit

Aucun commentaire:

Enregistrer un commentaire