Entretien avec Dominique Labbé
Peu connus du grand public, les travaux lexicométriques de Cyril et Dominique Labbé (Université de Grenoble-Alpes) explorent des territoires reculés de la Recherche, qui expliquent pourtant bien des choses sur la difficulté de cette lecture ou le style idiosyncrasique de Marcel Proust. Cela valait bien un entretien avec Dominique Labbé, qui est aussi un spécialiste de l’histoire et de la sociologie des syndicats.
Pour mon livre Le Proustographe (Denoël), et plus précisément la partie consacrée à la Recherche, j’ai plongé avec délices dans les travaux de Dominique et Cyril Labbé, et j’ai utilisé leurs données dans de nombreuses pages du livre. Par la statistique appliquée et des outils toujours plus puissants, les deux chercheurs étudient le lexique et la phrase de Proust dans la Recherche (édition princeps, de 1913 à 1927, dans le domaine public) comme personne ne l’avait fait avant eux. En comparant le roman proustien avec un corpus de 116 romans publiés entre 1800 et 1922, ils permettent une documentation très fine de ses spécificités, en montrant comment il se rattachait à la tradition du XIXe tout en s’en éloignant.
Quelle a été votre première expérience de lecteur de la Recherche ?
J’ai lu la Recherche quand j’étais en première et en terminale (1963−64) dans la première édition qui se trouvait dans la bibliothèque de mes parents. Je l’ai toujours. Parfois, je la consulte car je trouve le livre papier plus agréable que l’écran. Mais pour mes travaux, je consulte la Pléiade à la bibliothèque universitaire.
Marcel Proust occupe une place à part dans votre travail.
En 1980, nous avons lancé le projet d’une bibliothèque électronique du français moderne qui soit consultable comme un dictionnaire. Cette bibliothèque devait comprendre, entre autres, les principales œuvres littéraires. La Recherche figurait naturellement dans cette sélection.
Il y a eu aussi l’étude d’Etienne Brunet sur le vocabulaire de Proust (1983). À l’époque, nous espérions collaborer avec l’auteur et avec son institut, ce qui n’a finalement pas été possible.
Enfin et surtout, la Recherche est l’un des livres que nous voulions « radiographier » – à l’aide de la lexicométrie – pour comprendre sa singularité et la fascination qu’il exerce depuis un siècle.
Comment définir la lexicométrie, et en quoi peut-elle être utile pour étudier la littérature ?
La lexicométrie – comme son nom l’indique – est l’étude quantitative du lexique, lexique d’une langue mais aussi d’une époque, d’un genre littéraire, d’un auteur, d’une œuvre. Cette science s’appuie essentiellement sur la statistique appliquée qui est notre spécialité.
La lexicométrie française est encore dans l’enfance car elle reste bloquée par des choix stratégiques erronés à la fois pour le traitement des textes et concernant les outils statistiques utilisés.
Si la lexicométrie parvenait à sortir de l’ornière, elle fournirait des outils utiles pour l’étude de la littérature, depuis la recherche des attestations d’un vocable jusqu’au calcul des sens de ce vocable chez un auteur comme dans la langue.
Pourquoi dites-vous « vocable » et non pas « mots » ?
Le mot c’est ce qui est imprimé dans le texte. Par exemple, le premier mot de la Recherche est ‘Longtemps’, avec une majuscule initiale. Naturellement, dans le dictionnaire, vous n’irez pas chercher Longtemps dans les noms propres ! En effet, tout locuteur francophone sait qu’il s’agit de : « longtemps, adverbe ». Le vocable, c’est cette entrée du dictionnaire correspondant au mot. Par l’exemple, l’infinitif des verbes ou le masculin singulier des adjectifs.
Outre ‘Longtemps’, la première phrase de la Recherche comporte plusieurs exemples de la différence entre mot et vocable. « Suis » : être ou suivre ? ; « couché » : adjectif ou verbe (coucher) ; bonne : adjectif ou nom féminin ? Arrêtons-nous sur ce dernier cas : les ‘bonnes’ (domestiques) jouent un rôle non négligeable dans la Recherche : celle de la tante Léonie, Françoise ou les bonnes d’enfants… Dans la Recherche, il y a 22 bonne(s), nom féminin, et 432 adjectifs ‘bon’ employé au féminin singulier ou pluriel.
Naturellement, le sens de ces deux vocables est complètement différent. Le chercheur demande à ce que l’on lui donne les 22 contextes où l’auteur parle des domestiques, en employant le mot ‘bonne(s)’ sans avoir à les rechercher dans la forêt des 432 adjectifs ‘bon’ au féminin singulier ou pluriel.
Et ce n’est que la première phrase du livre. Ne croyez pas qu’il s’agit d’un cas particulier. Dans tout texte en français, plus du tiers des mots peuvent être rattachés à plusieurs entrées de dictionnaire et ce sont les vocables les plus fréquents : être, avoir, dire, pouvoir, devoir, savoir… sont les verbes les plus usuels de la langue française mais aussi des noms très employés. Il est donc indispensable de séparer ces deux vocables, à leur place dans le texte même.
Est-ce pour cela que vous affirmez que le livre de Brunet sur le vocabulaire de Proust est inutilisable ?
L’homme n’est pas en cause. Il n’a fait que suivre la convention dominante selon laquelle il suffit de compter les mots sans s’occuper des vocables.
Du fait de ce choix malheureux, son livre ne nous apprend pas, par exemple, que les bonnes sont des personnages secondaires importants chez Proust. Surtout, on n’y trouve rien sur les verbes, les noms ou les adjectifs de Proust, rien sur les temps, rien sur les phrases ou sur le style de Proust…
C’est cette divergence de fond qui explique que nous n’avons pas pu travailler avec lui ni avec la plupart de ses collègues. Ce n’était pas une question de personne, simplement ils n’acceptaient pas qu’il puisse y avoir d’autres méthodes valables que les leurs.
Cependant, ne croyez pas que nous avons travaillé seuls. Nous avons eu le soutien de chercheurs de premier plan. Depuis près d’un demi-siècle, la plupart de nos publications scientifiques sur le sujet – plus de 200 – ont été écrites en collaboration avec une bonne douzaine de chercheurs différents qui nous ont tous gardé leur confiance. Malheureusement, faute de soutiens institutionnels, nous avons toujours manqué de moyens…
Quels outils utilisez-vous ?
L’outil essentiel est notre étiqueteur. Après correction orthographique et standardisation des graphies du texte étudié, un automate attache à chacun des mots une étiquette indiquant son entrée de dictionnaire. Par exemple, le premier mot de la recherche reçoit comme étiquette : « longtemps, adverbe » ; le quatrième (suis), « verbe être au présent de l’indicatif » ; « bon, adjectif », etc. Naturellement, cet automate est supervisé afin d’éviter toute erreur. Cette « lemmatisation » est donc un processus long mais la qualité du résultat est décisive pour la suite.
Une fois le texte étiqueté, il est intégré dans la bibliothèque électronique avec une fiche bibliographique.
Une partie de cette bibliothèque électronique du français moderne (BEFM) est en ligne sur le site de l’Université de Grenoble (il s’agit des textes dans le domaine public). Cette partie compte près de 60 millions de mots. La bibliothèque offre pour l’instant un nombre limité de fonctionnalités – comme la recherche des attestations d’un vocable ou d’un groupe de vocables, la fabrication d’index et de lexiques – qui peuvent apprendre déjà beaucoup sur le vocabulaire d’un auteur, d’une époque, d’un genre…
Nous avons développé parallèlement des modèles et des calculs qui ont fait l’objet de nombreuses publications. Mentionnons : la répartition des vocables sur la surface d’un texte, le vocabulaire caractéristique d’un auteur ou d’une œuvre, la richesse du vocabulaire et sa diversité ; les principaux thèmes d’un auteur, la localisation des coupures thématiques et stylistiques dans un texte ou une collection de textes ; le calcul du sens d’un mot chez un auteur, une époque, un milieu particulier et naturellement, dans la langue entière. N’oublions pas enfin, la classification automatique des textes qui a permis de réattribuer certains d’entre eux à leurs véritables auteurs mais aussi d’établir dans l’histoire littéraire des proximités et des « filiations ».
Vous avez consacré de nombreux articles et publications au lexique des hommes politiques, et notamment à de Gaulle, mais aussi à Mitterrand, Bayrou, Sarkozy… Qu’est-ce que les discours, les prises de parole et les verbatim révèlent de ces personnalités ?
Dans les années 1970–80, le discours politique a été notre principal champ de recherche. Avec les outils très limités de l’époque – mais en suivant les principes ci-dessus – nous avons analysé les discours du parti communiste puis des présidents de Gaulle et Mitterrand. Cette première période s’est conclue avec la parution, en 1990, de notre livre sur le vocabulaire de Mitterrand. Depuis lors, nous avons analysé tous les présidents depuis 1958, soit près de 9000 textes et 20,5 millions de mots. Ce corpus est en ligne.
Cela nous a permis de comparer le style et le vocabulaire de chaque président avec parfois des conclusions paradoxales. Par exemple, entre de Gaulle et Mitterrand, qui donne le plus d’importance aux questions militaires et spécialement à la force nucléaire ? L’intuition suggère que ce devrait être de Gaulle puisque, outre le fait qu’il était général, il y a eu la guerre d’Algérie de 1958 à 1962, puis la force nucléaire à imposer. Pourtant, c’est Mitterrand qui en parle le plus et à tout propos. Chez lui le poids du thème est presque double par rapport à de Gaulle. Autre exemple, de Gaulle laisse l’image d’un nationaliste anti-européen. Pourtant, dans ses discours, l’Europe est un thème important et généralement traité avec un vocabulaire plutôt positif (en dehors de la supranationalité et de l’adhésion anglaise qui n’occupent qu’une place limitée).
Ces corpus sont à la disposition des chercheurs qui parviendront certainement à bien d’autres découvertes intéressantes.
Venons-en à la Recherche. Qu’est-ce qui, selon vous, distingue davantage Marcel Proust des romanciers qui l’ont précédé ?
Remarquez d’abord que, pour répondre à cette question, il faut disposer des textes étiquetés de beaucoup d’autres romanciers, ce qui est un travail considérable. En trente ans, nous en avons accumulé assez pour pouvoir affirmer que Proust est vraiment original.
Trois caractéristiques principales expliquent cette singularité.
D’abord, Proust a choisi la première personne, alors que la plupart des romans sont écrits à la troisième personne, contrairement aux autobiographies. Ce premier choix place le narrateur au cœur du récit au lieu d’être un simple témoin extérieur aux événements rapportés comme c’est le cas dans la plupart des romans.
Ensuite, le temps usuel du récit est le passé simple. Proust choisit le passé composé ou le plus-que-parfait, ce qui lui permet de donner une durée et une présence particulière aux faits narrés jusqu’au moment où, dans le dernier volume, ce passé si proche rejoint le présent.
Troisièmement, la plupart des romans privilégient les substantifs et les adjectifs comme principaux vecteurs des valeurs et des émotions alors que Proust privilégie le verbe.
Au total, la Recherche se rapproche du français oral. Certes c’est une langue très soutenue, voire un peu précieuse, mais c’est proche de l’oral. Autrement dit, le lecteur, s’il accepte d’entrer dans le jeu, peut ressentir la présence du narrateur qui lui raconte sa vie et lui confie ses pensées. Il me semble d’ailleurs que beaucoup de pages de la Recherche se prêteraient bien à la lecture à haute voix sur une scène et que, avec un bon acteur, le spectacle serait plaisant.
Enfin, bien sûr, les phrases de Proust sont très singulières.
En quoi les phrases proustiennes sont-elles si particulières ?
D’abord nos travaux vérifient un élément déjà connu : il y a chez Proust un nombre élevé de phrases très longues. Pour le mesurer, le bon indice n’est pas la moyenne mais la seconde médiane (ou « médiale »). Les phrases sont rangées par longueurs croissantes et, en partant de la plus petite, on cumule la surface du texte qu’elles occupent jusqu’à parvenir à la moitié du nombre total de mots. On constate ainsi que la moitié de la Recherche est occupée par des phrases de 50 mots et plus. Cela veut dire que plus de la moitié de la lecture est consacrée à déchiffrer des phrases vraiment complexes.
Certes quelques ouvrages du XIXe présentent des caractéristiques assez proches, comme le Chevalier des Touches (Barbey d’Aurevilly), Madame Gervaisais (les frères Goncourt) ou À rebours (Huysmans) mais ce sont des romans assez brefs et des exceptions dans l’œuvre de ces auteurs alors que la proportion importante de phrases longues est une caractéristique constante chez Proust.
Cette densité de phrases longues chez Proust serait l’une des caractéristiques qui rendrait sa lecture ardue, bien davantage que son lexique ?
Vous avez raison. Pour donner une idée, dans les romans du début du XXIe siècle, cette seconde médiane est inférieure à 25 mots et la plupart des phrases sont de construction très simple. C’est dire combien le lecteur contemporain peut être parfois dérouté par les phrases de la Recherche !
Cependant, les phrases longues de Proust sont le plus souvent construites par emboîtement – plutôt que par empilement – et elles sont solidement charpentées à l’aide d’éléments connecteurs (notamment anaphores et subordinations), ce qui aide le lecteur – du moins le lecteur exercé – et lui permet de circuler relativement aisément dans ces tunnels, tout comme, dans la conversation, l’orateur habile est capable de multiplier les incidentes, ou les digressions, sans perdre le fil du propos ni lasser son auditoire.
Il n’en reste pas moins que, si la tendance à la simplification de la syntaxe devait se poursuivre, Proust sera nécessairement de plus en plus étranger aux jeunes lecteurs.
À cette première étrangeté s’en ajoute une autre plus lourde encore : l’éloignement dans les brumes du temps de la société française d’avant 1914.
En creusant du côté des autrices, est-ce qu’on voit une opposition, ou tout du moins quelque chose qui, sur le plan lexical et stylistique, trahirait une écriture au féminin ?
Excellente question. L’intuition semble judicieuse mais il est difficile de la vérifier, du moins pour la littérature française. En effet, jusqu’à une époque récente, il y a eu très peu de romancières. De plus certaines se dissimulaient derrière des noms d’hommes (George Sand, Marie de Heredia, Colette…) et cela n’était sans doute pas sans répercussion sur leur écriture. Il faudra donc encore quelques années et l’entrée dans nos corpus d’un plus grand nombre d’autrices contemporaines pour pouvoir vérifier cette intuition.
Encadré : composition et thématiques de la Recherche
Références
Brunet Étienne. Le vocabulaire de Proust : avec l’Index complet et synoptique de « A la recherche du temps perdu », d’après les données de L’Institut National de la langue française (CNRS). Genève Paris : Slatkine-Champion, 1983.
La bibliothèque électronique se trouve à : http://lexicometrie.univ-grenoble-alpes.fr/
En utilisant l’accès TXM, on peut interroger le corpus Proust dans la section « Littérature ».
Deux publications en ligne sur Proust :
Cyril Labbé et Dominique Labbé. Les phrases de Marcel Proust (2018).
Cyril Labbé et Dominique Labbé. Humanités numériques, données et méthodes : Marcel Proust A la recherche du temps perdu. (2019)
Enfin, tous articles sont en ligne dans les archives ouvertes du CNRS (HAL), et sur Researchgate.
3 Comments
Richard LEJEUNE · 22 septembre 2021 at 9 h 36 min
Entretien extrêmement intéressant. Merci de le partager avec nous, Monsieur Ragonneau.
anne lacombe · 22 septembre 2021 at 12 h 21 min
Très bien. Et alors ?
Lisons Proust toujours davantage et les universitaires, toujours un peu moins.
Jean-Christophe · 24 septembre 2021 at 6 h 41 min
Merci pour les références sur la lexicométrie, qui permettent de mieux en appréhender les possibilitéset les limites. C’est devenu un exercice convenu de compter des occurrences proustiennes quand on commente tel ou tel aspect de la Recherche, mais sans toujours méthode adéquate ni mise en perspective. Voir la récente anthologie d’extraits publiée par la SAMP.
J’aime bien la question sur les possibilités de débusquer l’éternel féminin par la lexicométrie. Mais j’ai bien peur qu’il faille plutôt toujours Les (ou La) approcher en chair et en os, toujours différentes selon les contexte, les époques et tout simplement les personnalités. Ne pas faire comme René Laruelle qui après des déceptions concrètes a passé sa vie à constituer un Mémorial de dames découpées dans les revues. Je m’égare, retournons donc lire Proust dans le texte, mots comptés ou pas.