Behind the Scenes

Le projet

Cette installation numérique se compose de dix visualisations interactives qui explorent À la recherche du temps perdu de Marcel Proust à travers les données, le design et l'intelligence artificielle. L'ambition artistique : rendre visible l'architecture invisible du plus long roman moderne de la littérature française — ses réseaux thématiques, ses arcs émotionnels, la géographie sociale de ses personnages.

Six visualisations reposent sur l'analyse statistique du texte (fréquences, poids des thèmes, ponts lexicaux, phrases, couleurs, portraits de volumes). Quatre font appel à l'intelligence artificielle : arc émotionnel (CamemBERT), réseau de personnages (NER), échos entre passages (sentence-transformers), et immersion sonore 3D.

Ce travail s'appuie sur les recherches de Cyril Labbé (Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG) et Dominique Labbé (Univ. Grenoble Alpes, PACTE, Sciences Po Grenoble), qui ont conduit une analyse lexicométrique approfondie de la Recherche comparée à un corpus de 116 romans du XIX^e siècle (Labbé & Labbé, 2018, 2019). Leur travail prolonge les recherches pionnières d'Etienne Brunet sur le vocabulaire de Proust (1983).

L'approche visuelle et infographique de cette installation doit également beaucoup au Proustographe de Nicolas Ragonneau (Denoël, 2021), première encyclopédie visuelle de Proust, ainsi qu'à son travail de veille critique sur Proustonomics (Le Temps qu'il fait, 2021).

Les données

Texte intégral (8.3 MB HTML)

↓ BeautifulSoup + Python

7 fichiers texte (1 par volume)

↓

1 247 516 mots

Le texte source

À la recherche du temps perdu, édition intégrale en 7 volumes, source unepagedeproust.org. Le texte HTML brut (8,3 Mo) a été nettoyé avec BeautifulSoup : suppression des balises, normalisation de la ponctuation, découpage en volumes. Résultat : 1 247 516 mots extraits (comptage par séparation sur les espaces). Ce chiffre diffère des 1 327 850 mots recensés par Labbé & Labbé (2019) sur les éditions Gallimard originales. L'écart (~6%) s'explique par plusieurs facteurs : (1) des éditions sources différentes (unepagedeproust.org vs. édition originale Gallimard) ; (2) la norme de dépouillement de Labbé (Muller, 1963) qui regroupe en un seul mot les locutions comme « parce que », « grand-mère » ou « Saint-Loup », alors que notre comptage les sépare en deux formes graphiques ; (3) le traitement des contractions (« du » = « de » + « le » chez Labbé). Nos fréquences de mots portent sur les formes graphiques exactes, non sur les vocables lemmatisés.

Les 466 mots analysés

Sélection des substantifs, noms propres, adjectifs et verbes les plus significatifs, classés en 7 champs sémantiques :

Temps & Mémoire Sensations & Corps Espace & Lieux Émotions & Âme Art & Esthétique Nature & Fleurs Société & Mondanité

Ces 466 mots constituent le vocabulaire analysé dans les quatre premières visualisations. Leur fréquence, leur distribution et leurs corrélations révèlent la structure profonde de l'œuvre.

Les 7 volumes

Volume	Titre	Mots
I	Du côté de chez Swann	186 335
II	À l'ombre des jeunes filles en fleurs	183 648
III	Le Côté de Guermantes	201 725
IV	Sodome et Gomorrhe	170 832
V	La Prisonnière	141 278
VI	Albertine disparue	107 463
VII	Le Temps retrouvé	256 235

L'analyse statistique

Les quatre premières visualisations reposent sur le comptage, la classification et la mise en relation des 466 mots sélectionnés. Aucun modèle d'IA n'est utilisé ici : ce sont des méthodes statistiques classiques, rendues sensibles par le design.

VISUALISATION 01

Cathédrale Sonore

Rendu en Three.js r128 avec WebGL et des shaders GLSL personnalisés (vertex + fragment). Trois couches de particules par champ sémantique, animées en temps réel. L'audio utilise la Web Audio API pour une synthèse spectrale avancée : synthèse granulaire, réverbération cathédrale de 6 secondes, 7 drones spectraux (un par champ sémantique). Chaque mot devient son et lumière.

VISUALISATION 02

Les mots de Proust

Scatter plot en D3.js v7.8.5 : 466 mots classés par fréquence d'apparition. L'idée centrale du « aussi fréquent que » permet de révéler les échos entre thèmes : découvrir que « jalousie » apparaît aussi souvent que « cathédrale » dit quelque chose de l'œuvre que la lecture seule ne révèle pas.

VISUALISATION 03

Le poids des thèmes

Treemap et barres horizontales en D3.js. Comment quelques mots portent la moitié du poids d'un thème entier : dans chaque champ sémantique, une poignée de termes concentre l'essentiel des occurrences, révélant les obsessions de Proust.

VISUALISATION 04

Tissage des thèmes

Graphe de forces en D3.js. Les « ponts lexicaux » sont les mots de fréquence similaire entre thèmes différents (tolérance ±15%). Ces connexions révèlent comment les champs sémantiques s'entrelacent dans la prose de Proust — le tissage invisible de la Recherche.

L'intelligence artificielle

Les deux dernières visualisations utilisent des modèles de langue de type Transformer pour analyser le texte à une échelle qu'aucune lecture humaine ne pourrait atteindre : 4 989 fenêtres de sentiment, 5 012 paragraphes scannés pour la reconnaissance de personnages.

CamemBERT — Le modèle de langue

CamemBERT est un modèle de type Transformer (architecture à mécanisme d'attention), entraîné par l'INRIA et Meta sur 138 Go de texte français — archives web, Wikipédia, livres. Il « comprend » le français en ayant lu des milliards de phrases et appris les relations statistiques entre les mots.

Le modèle utilisé pour l'analyse de sentiment est distilcamembert-base-sentiment (270 Mo, 68 millions de paramètres), affiné sur ~440 000 critiques (AlloCiné et Amazon) pour détecter la tonalité positive ou négative d'un texte.

La limite : un modèle entraîné sur des critiques de films ne lit pas la littérature comme un être humain. Il détecte des tonalités générales, pas les subtilités de l'ironie proustienne. C'est un instrument de mesure imparfait mais révélateur.

L'arc émotionnel — Comment il est calculé

Le texte intégral est découpé en fenêtres glissantes de 500 mots avec un pas de 250 mots, produisant 4 989 mesures. Chaque fenêtre est soumise au modèle qui produit un score de tonalité entre -1 (sombre) et +1 (lumineux).

En complément, le lexique NRC d'émotions (développé par le National Research Council Canada) identifie 8 émotions fondamentales par correspondance lexicale : joie, tristesse, colère, peur, confiance, dégoût, surprise, anticipation.

Les scènes clés (la madeleine, les pavés inégaux, la mort d'Albertine...) sont repérées par recherche textuelle et annotées sur la courbe. Temps de calcul : environ 5 minutes sur GPU Apple Silicon (MPS).

La reconnaissance de personnages

Le modèle camembert-ner (Jean-Baptiste/camembert-ner, 440 Mo) identifie automatiquement les noms de personnes dans le texte — c'est la tâche de Named Entity Recognition (NER).

Problème spécifique à Proust : un même personnage peut être désigné de 4 ou 5 manières différentes. « M. de Charlus », « le baron », « Charlus », « Palamède » désignent le même personnage. Une table d'alias de 34 personnages résout ces ambiguïtés.

Le réseau de co-occurrence : deux personnages sont « liés » s'ils apparaissent dans le même paragraphe. Plus ils partagent de paragraphes, plus leur lien est fort. Résultat : 445 liens identifiés entre 34 personnages.

Texte intégral

↓ distilcamembert-base-sentiment (270 Mo)

4 989 mesures de tonalité → arc-emotionnel.json (1.6 MB)

↓ camembert-ner (440 Mo) + table d'alias (34 personnages)

5 012 paragraphes analysés → 34 personnages, 445 liens

↓

reseau-personnages.json (82 KB)

Les technologies

L'ensemble de l'installation repose sur des technologies web standards, sans serveur backend. Les données sont pré-calculées en Python et servies sous forme de fichiers JSON statiques.

Couche	Technologie	Usage
Rendu 3D	Three.js r128, WebGL, GLSL shaders	Cathédrale Sonore
Audio	Web Audio API, synthèse granulaire	Sonification spectrale
Graphiques 2D	D3.js v7.8.5	Toutes les visualisations analytiques
IA — Sentiment	distilcamembert-base-sentiment	Arc émotionnel
IA — NER	Jean-Baptiste/camembert-ner	Réseau de personnages
Calcul	Python 3.12, PyTorch, HuggingFace Transformers	Pipeline de pré-calcul
Émotions	NRC Emotion Lexicon (français)	8 émotions fondamentales

Références

Labbé C. & Labbé D., « Les phrases de Marcel Proust », JADT 2018, Roma. — « Marcel Proust — À la recherche du temps perdu », Semaine Data-SHS, Université Grenoble-Alpes, décembre 2019.
Univ. Grenoble Alpes, LIG · PACTE
Brunet E., Le vocabulaire de Proust, Slatkine-Champion, 1983 (3 vol.).
Travaux de linguistique quantitative
Martin L. et al., « CamemBERT: a Tasty French Language Model », ACL 2020.
INRIA · Meta AI
Reagan A. et al., « The emotional arcs of stories are dominated by six basic shapes », EPJ Data Science, 2016.
University of Vermont
Texte intégral : unepagedeproust.org
NRC Emotion Lexicon : Saif Mohammad, National Research Council Canada.
NRC Canada

Limites et perspectives

Les limites

Le modèle de sentiment est entraîné sur des critiques de cinéma, pas sur de la littérature. Sa lecture est parfois littérale là où Proust est ironique, et il ne saisit pas toujours la tonalité d'un passage où la beauté et la mélancolie se mêlent.

La reconnaissance de personnages est limitée aux 34 personnages de la table d'alias. Les personnages secondaires — les domestiques, les passants, les visages entrevus — échappent à l'analyse. Le réseau montre l'ossature sociale de la Recherche, pas sa chair.

Les perspectives

Analyse par modèle de langue plus fin (Claude, GPT-4) pour une compréhension littéraire plus profonde. Topic modeling neuronal avec BERTopic pour identifier des thèmes émergents sans classification préalable. Mesure de similarité entre passages pour détecter les échos et les reprises. Cartographie spatiale des lieux de la Recherche — Combray, Balbec, Paris, Venise — superposée à la chronologie narrative.