Sur les chemins, de l'inconnu: octobre 2009

Le système de classement des livres de Dewey et celui de la Library of Congress jouent deux rôles: classer les livres et les documents par leur contenu dans le cadre d'une description standardisée des savoirs, ET à classer les livres sur les rayons des bibliothèques.

Pourtant, en théorie, les cotes pour décrire les contenus des livres et leur localisation dans les bibliothèques pourraient être distincts. Par exemple, touts les documents ont un «call number», un numéro de système unique qui sert à les identifier dans la base de données, souvent selon leur date d'acquisition. Ce numéro ne décrit aucun contenu et est attribué arbitrairement, automatiquement. On pourrait classer les livres sur les rayons par ce numéro d'identification... mais ce serait un vrai bordel que de chercher dans une telle bibliothèque: les livres seraient sur le plan des contenus dans un désordre absolu.
Le double usage des cotes Dewey et/ou Congress vient du choix, apparemment logique et pratique, qu'on a fait de mettre côte à côte les livres qui ont le même sujet, des contenus similaires. Avoir un seul système pour eux décrire les contenus et localiser les documents, c'est économique pour la gestion des documents et facile à utiliser par les usagers et le personnel.

Curieusement, dans les moteurs de recherche, les usagers cherchent peu avec la cote ou par sujet. Ils cherchent par titre, par auteur, surtout. Les résultats sont surtout classés par ordre alphabétique ou par date, quand il y a la possibilité de trier les documents trouvés selon différents champs. La chronologie et l'ordre alphabétique sont déjà deux autres systèmes de classement différents de Dewey et Congress. Même s'ils en ont la possibilité, les usagers parcourent «rarement» (ce serait à vérifier) les résultats des moteurs de recherche par la cote, alors que c'est la pratique la plus courante dans la bibliothèque elle-même.

Un système de classement unique a de multiples avantages, entre d'autres de permettent la standardisation de la description, l'échange des notices, le pré-catalogage, etc. Cela ne fait pas de doute et qui va proposer d'abandonner ces systèmes? Y aurait-il seulement deux manières de classer les livres, les imprimés et tous les documents produits par l'humanité? Évidemment non. Et la tâche d'inventer un système qui se propose de permettre de tout classer est immensément difficile. Y en a-t-il des meilleurs que d'autres? Certainement. Mais c'est Dewey et Congress qui se sont imposés, comme les thésaurus de mots-clés et des vedettes-matières internationaux qui les complètent.

Parce que la cote officielle classe le contenu intellectuel et sert aussi à ordonner les documents physiques sur les rayons de la bibliothèque, il est obligatoire qu'il y en est une seule. Cette double fonction («immatérielle» et «matérielle») est donc un compromis. Dans répondre à cette double contrainte, il ne peut alors y avoir plus qu'une classification en usage. Intellectuellement, on fait abstraction des multiples contenus dont peut parler un document pour en retenir que quelques-uns, celui jugé le plus important par Dewey ou Congress, du moins tel que définis à l'intérieur de ces deux systèmes. Les mots-clés complètent ce système et permettent d'ajouter à ce contenu principal d'autres sujets, d'autres contenus. C'est possible de le faire, parce que les livres ne sont pas classés sur les rayons en se basant sur les mots-clés. Pour le faire, il faudrait plusieurs exemplaires d'un même document lié à autant de localisation où il serait placé à côté des autres documents avec le même mot-clé. En fait, dans un tel système, il faudrait avoir autant d'exemplaires d'un document que de mots-clés ayant servi à en décrire le contenu. Peu économique pour la bibliothèque! Mais cela pourrait être utile pour l'usager. C'est d'ailleurs ce que les résultats de recherche en ligne permettent. On peut y afficher une liste de documents par mot-clé.

Quand on veut trouver ces ouvrages, au lieu de les trouver côte à côte, on doit se déplacer sur plusieurs rayonnages pour les regrouper tous. Tout ça pour dire que les classements Dewey et Congress sont des systèmes de description des contenus mais qui remplissent un autre rôle beaucoup plus pragmatique, celui de localiser les documents. C'est la contrainte matérielle d'avoir une seule et unique localisation qui empêche fondamentalement qu'il puisse exister plusieurs systèmes pour décrire les documents des collections.

La question demeure pourtant: pourquoi sont-ils les seuls à être utilisés pour classer la bibliothèque? Pour en intégrer un autre dans une bibliothèque réelle avec de vrais livres sur les rayons, il faudrait que ce soit un système qui ne sert qu'à décrire le contenu. On ne peut pas avoir deux cotes différentes pour localiser un document unique! Pour ouvrir la possibilité d'autres systèmes, il faut donc d'abord distinguer le classement des contenus du classement physique du document. C'est ce que montre la prolifération des modules qui permettent d'ajouter des mots-clés personnels (tag) aux documents consultés.

Ce qu'on appelle la "folksonomie" (classement par le "peuple-folk") est en voie de se généraliser. Leur caractère spontané et le peu de document que ces taxonomies décrivent n'en font pas des systèmes de classement proprement dits: ces mots-clés s'ajoutent à ceux attribués par les responsables de l'indexation. En fait, ils identifient le contenu plus qu'ils le classent dans une hiérarchie, dans un thésaurus.
D'ailleurs, c'est une des limites des folksonomies actuelles que de ne pas permettre, semble-t-il, la création de véritable thésaurus pour représenter un réseau de relations sémantiques entre les termes utilisés pour décrire les contenus. Sans hiérarchie et relations sémantiques pas de système, que des «nuages» de mots-clés. Du moins, c'est ainsi qu'on représente parfois ces nouveaux mots-clés.

En prenant Ferron comme échantillon-étalon, quelles sont les questions que l'on peut poser à une oeuvre et à son auteur aujourd'hui? Que peut-on savoir, penser, écrire, publier aujourd'hui, avec l'avancée des NTIC, sur une oeuvre littéraire ou, tout simplement (!), sur la littérature?

D'abord, essentiellement, les connaissances et les informations ne sont pas différentes de celles qui permettaient de les étudier précédemment: exhaustivité du corpus, manuscrits, textes critiques, documentations connexes, etc. On retrouve tout cela autour de certaines grandes oeuvres canoniques: la Bible, Shakespeare, Rabelais, Cervantes, Carroll. Ce travail est l'accumulation de siècles de recherche parfois. Le passage au numérique accélère d'une façon inimaginable la cueillette des informations et permet de les regrouper rapidement dans des applications ou des bases de données que l'on peut interroger immédiatement et sans arrêt. On peut donc étendre ces recherches exhaustives à tout un ensemble d'autres oeuvres.

Une partie de ces informations, surtout celles sous forme imprimée, était accessible mais seulement théoriquement. Dépouiller tous les journaux du XIXe siècle pour y trouver des références à une oeuvre ou à des auteurs était possible, mais dans la réalité, cela ne l'était pas vraiment: trop long, trop fastidieux, c'était une tâche infinie compte tenu des ressources humaines disponibles.

Les changements sont alors:
- la précision et l'exhausitivité des inventaires textuels imprimés... Les grands corpus numérisés vont permettre d'étendre la réception critique à de grands corpus jamais ou rarement indexés précédemment. Souvent des références secondaires, bien sûr. Mais dans un projet d'une étude de réception critique pointue ou de la diffusion d'une idée ou d'un style sur une longue période dans un immense corpus, cela peut devenir un champ de recherche et de découverte très riche.

- la pluralité des sources documentaires qui recouvrent la totalité de l'activité littéraire de l'écrivain (de ses lectures à la dernière réception critique dans un blogue, en passant par ses manuscrits, les rééditions, adaptations, etc.)

- une abondance d'informations qui dépassent la capacité de lecture et d'analyse d'un seul lecteur et même d'une équipe (mais cela est assez fréquent dans le cas d'un auteur important, comme Proust), ce qui fait qu'il n'y a plus de véritable synthèse. Les études deviennent de plus en pointues, spécialisées, pas tant à cause d'une évolution intellectuelle qui aurait permis de faire apparaître un nouvel objet d'étude, mais tout simplement parce qu'une étude à l'horizon large, ambitieuse, synthétique, est maintenant impossible.

Par exemple, l'analyse de Bakhtine sur l'évolution du roman occidental, des pastorales grecs à Dostoïevski, peut paraître aujourd'hui extrêmement partielle. On pouvait le penser et le savoir aussi quand cela a été publié, mais la critique était malaisée: il était impossible de faire autrement, et on ne pouvait qu'admirer sa culture et son érudition. Ce qui ne signifie pas que ces hypothèses soient fausses, mais la prise en compte de tout le corpus maintenant numérisé, donc accessible à l'analyse, modifierait certainement ses conclusions.

En ce sens, des travaux de recherche pourraient consister à refaire des études anciennes, à partir des mêmes hypothèses, et de les étendre aux grands corpus maintenant accessibles. Faudrait, bien sûr, réussir à automatiser la méthodologie et le répérage des indices textuels à l'aide de logiciels en intelligence artificielle. Que resterait-il de ces études anciennes une fois qu'on les aurait soumises à cette épreuve? Cela se fait souvent en science, en médecine, dans toutes les sciences expérimentales où les protocoles d'observation sont repris sur des échantillons plus vastes. Les conclusions confirment ou infirment souvent les premières. L'autre chose, bien sûr, est de modifier le protocole de recherche en les adaptant aux ressources des NTC pour les ré-appliquer au corpus premier.

D'autre part, c'est un point capital: la valeur du travail de Bakhtine, et de bien d'autres comme lui, est justement sa méthode, sa culture, ses connaissances encyclopédiques et "polygottes". Les NTIC étendent à des dimensions infinies le corpus, et montrent la valeur irremplaçable de l'esprit et de l'intelligence du critique.
Paradoxalement, cette explosion du corpus interrogeable montre une déficience de la pensée. On pourrait dire que plus s'accroît l'accès aux sources documentaires, plus diminue la capacité intellectuelle de les étudier pour en faire jaillir le sens, autrement que par des données quantitatives. L'intelligence ne diminue pas en "quantité" absolue: ses limites, son incapacité (relative) à penser est inversement proportionnelle au corpus accessible.

Nous sommes donc en déficit d'intelligence.

Faudrait voir comment dans le domaine scientifique, la théorie a été obligée d'évoluer à cause de nouveaux outils de connaissances ou d'observation. Par exemple, le microscope électronique, en faisant reculer les limites du "visible", a forcé la physique, la chimie et la biologie à revoir leurs théories. En climatologie, où il y a maintenant des milliards de données presque quotidiennes, cela doit être la même chose: penser autrement la météo parce que les données sont différentes, et surtout extrêmement plus nombreuses.

La quantité et la variété du corpus demande l'assistance d'assistants artificiels et intelligents. Ils vont apparaître et doivent se développer sous la pression de ceux qui veulent connaître. Justement, que voulons-nous savoir d'une oeuvre littéraire et d'un auteur aujourd'hui que nous ne pouvions pas connaître auparavant? Ou encore mieux, que voulons nous connaître que nous n'avions même pas l'idée de connaître parce que l'éventuelle réponse, la "réponse virtuelle", était en dehors du connaissable, ou de ce que nous pouvions connaître avec les outils dont nous disposions? Il y a donc aussi un déficit de questions, ou une difficulté à poser d'autres questions, de nouvelles questions, pour forcer, encourager le développement des applications des NTIC.

Qu'est-ce qui est alors vraiment nouveau?

1) le format numérique permet de réunir toute la documentation qui, dispersée dans des centaines et des milliers de documents-papier, ne pouvait pas être vraiment regroupée, liée, reliée et associée pour créer un seul immense document, comme un ouvrage gigantesque de dizaines de chapitres, de tableaux, d'index, de définitions, etc. Ce réseau documentaire est inédit. L'oeuvre de Rabelais n'est pas reliée à sa critique, sauf parfois en notes en bas de page. Pour ce texte où chaque mot a fait l'objet de plusieurs gloses souvent importantes, aucun ouvrage imprimé ne rend compte de la totalité de la documentation ni des liens qui existent entre les différentes gloses.

2) la question centrale est sans doute à chercher de ce côté, de la manière d'organiser les réseaux documentaires dans des perspectives diachronique et synchronique. D'abord, en réalisant ces deux réseaux pour chaque élément de l'étude:
- biographie
- oeuvres - manuscrits
- correspondances
- critiques
- documentation diverses (bibliothèques, lectures, influences, contexte intellectuel...)
- chronologies multiples.

Pour la critique, cela prendrait la forme d'une bibliométrie exhaustive où on pourrait suivre chaque élément et point de vue de la critique tout au long de l'histoire de l'oeuvre. Par exemple, pour Ferron, on pourrait suivre la réception du "pays incertain" depuis 1962 à travers la critique, ou l'idée de Jean Marcel à savoir que "toute l'oeuvre de Ferron peut être placée sous le signe du conte". Idée souvent reprise depuis plus de trente ans.
De la même manière, on pourrait faire une sorte d'étude de bibliométrie pour l'oeuvre de Ferron elle-même pour identifier la multitude des reprises textuelles ou thématiques que l'on trouve tout au long de ses écrits: d'un manuscrit, à une historiette, à un récit, à une lettre, à un autre manuscrit.

Une fois qu'on aura trouvé une manière d'exploiter la documentation numérique, il faudra inventer aussi comment représenter, publier les résultats trouvés. Une partie prendra toujours la forme de textes et d'études, peut-être la partie essentielle, mais il faudra aussi inventer des manières de publier-afficher-diffuser les résultats d'un type nouveau que permettent les NTIC. Il y a un spécialiste italien qui crée des graphiques assez originaux à partir de grands corpus sur la littérature du XIXe siècle. Par exemple, il a trouvé une façon de représenter l'évolution des techniques narratives de l'intrigue policière sous la forme d'une sorte d'arbre généalogique. Il a fait la même chose avec l'apparition du discours indirect et du discours indirect libre.

Pour Ferron, une étude linguistique intéressante serait d'étudier comment le jeune brébeuvois qui écrit des petits vers libertins "niaiseux" a-t-il pu s'émanciper de ce style appris pour, à la toute fin de sa carrière, près de cinquante ans plus tard, écrire avec le souffle de Gaspé Mattempa. Vadeboncoeur a écrit que la langue de Ferron marchait sur trois siècles: le Grand Siècle, le XIXe et le XXe. Peut-on le démontrer, l'illustrer ou l'infirmer? Sur le plan du lexique, de la grammaire, de la syntaxe? À quel corpus le comparer? Comme écart stylistique, mais dans quelle mesure le fait-il, lui qui a toujours souligné comment l'écrivain écrit avec la langue de tous?

Sur les chemins, de l'inconnu

jeudi 22 octobre 2009

Après les systèmes Dewey et Congress I

jeudi 1 octobre 2009

Que peut-on savoir de l'oeuvre de l'écrivain aujourd'hui?