Identifying hidden intertextuality in 16th century

What is corsaire?

Corsaire stands for « Corpus similarities analytics research ». This tool aims to allow historians to automatically detect and highlight intertextuality in texts from French historians of the 16th century. At that time, the concept of plagiarism did not exist, so it was common for authors to borrow or rephrase passages from other authors. Hence, we can find texts that really look similar in writings of the 16 century. For instance:

Histoire de France, La Popelinière

Pour satisfaire au devoir chrestien, subvention de l’Eglise romaine, service du roy, soulagement et conservation de son peuple et pour résister aux rebelles et ennemis de Sa Majesté qui se sont eslevez, et autres qui par cy après se voudroient eslever et mettre en armes pour opprimer les bons et fidelles sujets du roy, envahir et surprendre les chasteaux et villes appartenans audit seigneur et ses voisins, et les églises, monasteres et autres lieux sacrez, comme ils ont fait par cy devant en plusieurs et divers lieux ;

Histoire ecclésiastique, Théodore de Bèze

Pour satisfaire au devoir chrestien, subvention de l’eglise catholique Romaine, service du Roy, soulagement et conservation de son peuple, et pour résister aux rebelles et ennemis de sa Majesté qui se sont eslevés, et autres qui par ci apres se voudroient eslever et mettre en armes, pour opprimer les bons et fidèles sujets du Roy, envahir et surprendre les chasteaux et villes appartenans tant audit Seigneur que à ses voisins, et les églises, monasteres et autres lieux sacrés, comme ils ont fait par ci devant en plusieurs et divers lieux :

This example is self-explanatory, but is hidden within thousands of pages. With the recent progress in printing, more writings are published than ever before in History, making it increasingly hard to find such occurrences. Moreover, intertextuality can be more subtle than this example. Traditional tools rely on recurrent words to detect link between texts, but fail to work at semantic level, which considerably limit their capacity.

With Corsaire, we propose a tool that can automatically detect intertextuality within a given at a semantic level by leveraging recent the breakthrough of Large Language Models

This project is a collaboration between the Institut d’histoire de la Réformation, University of Geneva and Humantech Institute.