Conférence de Chenye (Peter) Shi : "Infrastructure numérique pour les papyrus d'Aphroditô : migration, pérennisation et recherche intelligente"

Conférence
UNIVERSITÉ DE LILLE, SALLE SÉMINAIRE E1.51 (BÂTIMENT E), CAMPUS DU PONT-DE-BOIS, VILLENEUVE D’ASCQ

Conférence de Chenye (Peter) Shi, postdoctorant à l'UMR 8164-HALMA, programme PROVENANCES.

Résumé :

La base de données des papyrus d'Aphroditô rassemble plus de 1000 textes documentaires de ce village égyptien des VIe-VIIe siècles. Créée dans les années 2010 avec WordPress et Advanced Custom Fields, elle fait face aujourd'hui aux défis communs des projets d'humanités numériques de cette génération : données dispersées dans de multiples tables, relations complexes entre entités (personnes, lieux, textes) difficiles à interroger, et maintenance technique de plus en plus problématique. Ce projet vise à transformer cette ressource précieuse en une infrastructure moderne et durable.

La méthodologie s'appuie sur l'extraction systématique du HTML structuré du site existant, préservant ainsi l'intégrité des données et leurs relations complexes. Cette approche nous a permis de récupérer l'ensemble des informations tout en maintenant les conventions papyrologiques (restitutions éditoriales, lectures incertaines, variantes prosopographiques). Nous avons ensuite utilisé des modèles de langage (LLM) pour générer des traductions interlinéaires automatiques de l'ensemble du corpus grec et copte, rendant ces textes plus accessibles aux chercheurs. Les données nettoyées sont désormais hébergées sur Heurist, plateforme spécialisée pour les sciences humaines maintenue par Huma-Num, garantissant une pérennité institutionnelle.

L'innovation principale réside dans l'implémentation d'un système de recherche augmenté (RAG) adapté aux spécificités papyrologiques. Grâce aux embeddings vectoriels multilingues, les chercheurs peuvent effectuer des recherches conceptuelles à travers les langues anciennes : une requête sur les "contrats d'irrigation" trouvera automatiquement les documents mentionnant "ἄρδευσις" ou "πότισμα" en grec, ainsi que les termes coptes et arabes équivalents. Le système permet également d'identifier des documents similaires par proximité thématique, révélant des connexions inédites entre textes : formules rares suggérant un même scribe, disputes s'étendant sur plusieurs années, ou évolution du vocabulaire administratif entre le VIe et le VIIe siècle.

Ce projet propose un modèle reproductible pour la modernisation des bases de données en humanités numériques. En documentant l'ensemble du processus de transformation et en s'appuyant sur des infrastructures institutionnelles pérennes, nous démontrons qu'il est possible de sauvegarder le travail académique des générations précédentes tout en l'adaptant aux méthodes de recherche contemporaines. La base Aphroditô devient ainsi une ressource de référence pour les études byzantines et un exemple concret de transition réussie vers les humanités numériques intelligentes.