Behind the Scenes
Le projet
Cette installation numérique se compose de six visualisations interactives qui explorent À la recherche du temps perdu de Marcel Proust à travers les données, le design et l'intelligence artificielle. L'ambition artistique : rendre visible l'architecture invisible du plus long roman moderne de la littérature française — ses réseaux thématiques, ses arcs émotionnels, la géographie sociale de ses personnages.
Quatre visualisations reposent sur l'analyse statistique du texte (fréquences, distributions, corrélations). Deux autres font appel à l'intelligence artificielle pour détecter le sentiment et identifier les personnages. Ensemble, elles offrent six points de vue complémentaires sur une œuvre de 1 247 516 mots.
La fondation scientifique de ce travail est l'étude de Cyril Labbé et Dominique Labbé (CNRS, Université Grenoble-Alpes, 2019), qui a posé les bases de l'analyse lexicale de la Recherche.
Les données
Le texte source
À la recherche du temps perdu, édition intégrale en 7 volumes, source unepagedeproust.org. Le texte HTML brut (8,3 Mo) a été nettoyé avec BeautifulSoup : suppression des balises, normalisation de la ponctuation, découpage en volumes. Résultat : 1 247 516 mots extraits. Ce chiffre diffère légèrement des 1 327 850 mots recensés par Labbé & Labbé (2019) sur les éditions Gallimard originales — l'écart s'explique par des différences d'édition et de méthode de comptage (nos comptages portent sur les formes exactes, Labbé lemmatise les vocables).
Les 466 mots analysés
Sélection des substantifs, noms propres, adjectifs et verbes les plus significatifs, classés en 7 champs sémantiques :
Ces 466 mots constituent le vocabulaire analysé dans les quatre premières visualisations. Leur fréquence, leur distribution et leurs corrélations révèlent la structure profonde de l'œuvre.
Les 7 volumes
| Volume | Titre | Mots |
|---|---|---|
| I | Du côté de chez Swann | 186 335 |
| II | À l'ombre des jeunes filles en fleurs | 183 648 |
| III | Le Côté de Guermantes | 201 725 |
| IV | Sodome et Gomorrhe | 170 832 |
| V | La Prisonnière | 141 278 |
| VI | Albertine disparue | 107 463 |
| VII | Le Temps retrouvé | 256 235 |
L'analyse statistique
Les quatre premières visualisations reposent sur le comptage, la classification et la mise en relation des 466 mots sélectionnés. Aucun modèle d'IA n'est utilisé ici : ce sont des méthodes statistiques classiques, rendues sensibles par le design.
Rendu en Three.js r128 avec WebGL et des shaders GLSL personnalisés (vertex + fragment). Trois couches de particules par champ sémantique, animées en temps réel. L'audio utilise la Web Audio API pour une synthèse spectrale avancée : synthèse granulaire, réverbération cathédrale de 6 secondes, 7 drones spectraux (un par champ sémantique). Chaque mot devient son et lumière.
Scatter plot en D3.js v7.8.5 : 466 mots classés par fréquence d'apparition. L'idée centrale du « aussi fréquent que » permet de révéler les échos entre thèmes : découvrir que « jalousie » apparaît aussi souvent que « cathédrale » dit quelque chose de l'œuvre que la lecture seule ne révèle pas.
Treemap et barres horizontales en D3.js. Comment quelques mots portent la moitié du poids d'un thème entier : dans chaque champ sémantique, une poignée de termes concentre l'essentiel des occurrences, révélant les obsessions de Proust.
Graphe de forces en D3.js. Les « ponts lexicaux » sont les mots de fréquence similaire entre thèmes différents (tolérance ±15%). Ces connexions révèlent comment les champs sémantiques s'entrelacent dans la prose de Proust — le tissage invisible de la Recherche.
L'intelligence artificielle
Les deux dernières visualisations utilisent des modèles de langue de type Transformer pour analyser le texte à une échelle qu'aucune lecture humaine ne pourrait atteindre : 4 989 fenêtres de sentiment, 5 012 paragraphes scannés pour la reconnaissance de personnages.
CamemBERT — Le modèle de langue
CamemBERT est un modèle de type Transformer (architecture à mécanisme d'attention), entraîné par l'INRIA et Meta sur 138 Go de texte français — archives web, Wikipédia, livres. Il « comprend » le français en ayant lu des milliards de phrases et appris les relations statistiques entre les mots.
Le modèle utilisé pour l'analyse de sentiment est distilcamembert-base-sentiment (270 Mo, 66 millions de paramètres), affiné sur 200 000 critiques de cinéma AlloCiné pour détecter la tonalité positive ou négative d'un texte.
La limite : un modèle entraîné sur des critiques de films ne lit pas la littérature comme un être humain. Il détecte des tonalités générales, pas les subtilités de l'ironie proustienne. C'est un instrument de mesure imparfait mais révélateur.
L'arc émotionnel — Comment il est calculé
Le texte intégral est découpé en fenêtres glissantes de 500 mots avec un pas de 250 mots, produisant 4 989 mesures. Chaque fenêtre est soumise au modèle qui produit un score de tonalité entre -1 (sombre) et +1 (lumineux).
En complément, le lexique NRC d'émotions (développé par le National Research Council Canada) identifie 8 émotions fondamentales par correspondance lexicale : joie, tristesse, colère, peur, confiance, dégoût, surprise, anticipation.
Les scènes clés (la madeleine, les pavés inégaux, la mort d'Albertine...) sont repérées par recherche textuelle et annotées sur la courbe. Temps de calcul : environ 5 minutes sur GPU Apple Silicon (MPS).
La reconnaissance de personnages
Le modèle camembert-ner (Jean-Baptiste/camembert-ner, 440 Mo) identifie automatiquement les noms de personnes dans le texte — c'est la tâche de Named Entity Recognition (NER).
Problème spécifique à Proust : un même personnage peut être désigné de 4 ou 5 manières différentes. « M. de Charlus », « le baron », « Charlus », « Palamède » désignent le même personnage. Une table d'alias de 34 personnages résout ces ambiguïtés.
Le réseau de co-occurrence : deux personnages sont « liés » s'ils apparaissent dans le même paragraphe. Plus ils partagent de paragraphes, plus leur lien est fort. Résultat : 445 liens identifiés entre 34 personnages.
Les technologies
L'ensemble de l'installation repose sur des technologies web standards, sans serveur backend. Les données sont pré-calculées en Python et servies sous forme de fichiers JSON statiques.
| Couche | Technologie | Usage |
|---|---|---|
| Rendu 3D | Three.js r128, WebGL, GLSL shaders | Cathédrale Sonore |
| Audio | Web Audio API, synthèse granulaire | Sonification spectrale |
| Graphiques 2D | D3.js v7.8.5 | Toutes les visualisations analytiques |
| IA — Sentiment | distilcamembert-base-sentiment | Arc émotionnel |
| IA — NER | Jean-Baptiste/camembert-ner | Réseau de personnages |
| Calcul | Python 3.12, PyTorch, HuggingFace Transformers | Pipeline de pré-calcul |
| Émotions | NRC Emotion Lexicon (français) | 8 émotions fondamentales |
Références
-
, « Marcel Proust — À la recherche du temps perdu », Semaine Data-SHS, Université Grenoble-Alpes, décembre 2019.
CNRS · Grenoble -
, « CamemBERT: a Tasty French Language Model », ACL 2020.
INRIA · Meta AI -
, « The emotional arcs of stories are dominated by six basic shapes », EPJ Data Science, 2016.
University of Vermont - : unepagedeproust.org
-
: Saif Mohammad, National Research Council Canada.
NRC Canada
Limites et perspectives
Les limites
Le modèle de sentiment est entraîné sur des critiques de cinéma, pas sur de la littérature. Sa lecture est parfois littérale là où Proust est ironique, et il ne saisit pas toujours la tonalité d'un passage où la beauté et la mélancolie se mêlent.
La reconnaissance de personnages est limitée aux 34 personnages de la table d'alias. Les personnages secondaires — les domestiques, les passants, les visages entrevus — échappent à l'analyse. Le réseau montre l'ossature sociale de la Recherche, pas sa chair.
Les perspectives
Analyse par modèle de langue plus fin (Claude, GPT-4) pour une compréhension littéraire plus profonde. Topic modeling neuronal avec BERTopic pour identifier des thèmes émergents sans classification préalable. Mesure de similarité entre passages pour détecter les échos et les reprises. Cartographie spatiale des lieux de la Recherche — Combray, Balbec, Paris, Venise — superposée à la chronologie narrative.