Relations définies sur le corpus

L’une des finalités du projet Histoires Universelles 15 est de rendre aisée la lecture comparée des différentes familles de textes. Dans cette optique, nous ajoutons à nos transcriptions des métadonnées conçues expressément pour la mise en relation de ressources d’information sur le Web, en accord avec la recommandation Resource Description Framework (RDF). Cela facilite à la fois l’utilisation des ressources par les lecteurs du site et des traitements automatiques éventuels.
Les entités et relations définies ci-dessous s’appliquent au corpus du projet selon des critères interprétatifs, c’est-à-dire que leur application initiale nécessite le travail d’un lecteur ayant l’intelligence du texte. Certaines des relations peuvent être appliquées par un système déductif. Dans la présente mise en oeuvre, les entités et relations correspondent aux principes du modèle de données abstrait RDF (sans être liés à une sérialisation concrète unique) et possèdent des URL non persistants mais déréférençables.
Il est possible, pour un utilisateur tiers, d’effectuer à partir de ces définitions un alignement (au sens où l’entend le projet data.BnF.fr) sur un modèle de données contrôlé à l’externe et possédant des identifiants persistants. Les ressources textuelles externes (celles des bibliothèques institutionnelles) employées dans les énoncés possèdent, pour leur part, des URI persistants, et servent de pierres de touche aux énoncés présents sur ce site.
Le modèle de données RDF est une norme flexible faisant abstraction de la représentation concrète des données. Contrairement à une conception encore largement répandue, il n’est pas nécessaire de le représenter en XML: plusieurs formats de sérialisation conviennent et c’est l’usage pratique qui guide le choix d’un format particulier. Ce que la recommandation RDF définit essentiellement est l’application d’une ontologie ou d’une taxonomie donnée sous la forme d’énoncés ternaires: ⟨sujet⟩ ⟨prédicat⟩ ⟨objet⟩. Ces énoncés sont appelés «triplets». L’essentiel est que ces énoncés puissent être interprétés par un analyseur automatique et que les termes des énoncés possèdent des identifiants stables. Pour cela, plusieurs mécanismes d’annotation conviennent, y compris des balises HTML enrichies. On peut donc écrire, par exemple: Arthur possède le rôle personnage, afin d’exprimer formellement que les occurrences de la chaîne de caractères «Arthur» dans le texte doivent être interprétées comme désignant le personnage du roi Arthur. Dans cet exemple, le triplet apparaît au fil du texte et se lit en langage naturel, mais dans le balisage HTML sous-jacent il y a aussi une version de l’énoncé interprétable par programme: <./def/relations.xhtml#occ-ex-Arthur> <./def/relations.xhtml#possédant-rôle> <./def/relations.xhtml#personnage>.. Cette version est écrite dans un format de sérialisation RDF appelé Notation3. Afin d’établir des bases solides pour l’analyse, on peut ajouter d’autres énoncés dont le texte en langue naturelle sera presque identique à cet exemple, mais dont la version Notation3 aura un sujet différent, par exemple afin d’exprimer formellement que différentes graphies occurrentes du nom «Arthur» dans différents segments du texte réfèrent au même personnage et sont donc équivalentes en rôle. Ainsi, en utilisant ensemble du HTML lisible par un lecteur humain et un format de sérialisation traitable par machine, on allie l’ergonomie et l’efficience.
Dans les fiches relationnelles et dans les énoncés RDF, comme celui du paragraphe précédent, les hyperliens sont démarqués différemment parce qu’ils sont utilisés comme référants au sens du modèle de données RDF. Les délimiteurs utilisés se nomment communément «coins de Quine» et servent à la quasi-citation, ce qui convient bien aux URI qui peuvent être déréférençables ou non selon le cas. En général, RDF et les techniques de mise en forme des métadonnées font beaucoup appel à la distinction entre usage et mention courante en logique et en linguistique. C’est pour cette raison que les items sont délimités et que certains énoncés semblent redondants: c’est que l’entité apparaît dans le sujet et l’objet. Dans le sujet, l’entité est mentionnée, dans l’objet elle est employée. Cela permet d’établir certains faits de façon non ambigüe et de construire une analyse plus solide dans les mises en relation subséquentes.
Dans les présentes définitions, plusieurs prédicats employent ce terme: rôle. Ce terme possède ici un sens compatible avec celui que lui donne le W3C dans ses recommandations RDF et WAI-ARIA: c’est un aspect prédicatif désignant les entités sous le rapport de l’interprétation ou de l’usage qu’en font les lecteurs. Ainsi, si le lecteur considère une entité comme possédant le rôle personnage, cela équivaut à dire « ⟨personnage⟩ se dit de ⟨telle entité occurrente⟩ ». C’est l’un des cas de mise en relation les plus fréquents sur notre site et plusieurs items de comparaison donnent simplement une liste de cooccurences pour les segments de texte ayant le même rôle. La relation implicite dans ces cas est donc équivalent en rôle.
L’un des intérêts principaux de l’ajout d’énoncés RDF sur les ressources est la possibilité de construire automatiquement des graphes représentant visuellement (et logiquement) les liens entre les ressources, en appliquant par exemple des outils destinés à ce qu’on appelle social network analysis. En effet, les triplets RDF créent implicitement des structures de données en graphe, de par la nature même de la relation sujet-prédicat-objet.
personnage
Un personnage est ici défini largement comme une entité narrative agissante, capable de discours ou considérée comme une personne. Cela inclut donc les personnages historiques, les divinités, les figures allégoriques etc.
L’application de cet objet à une ressource sujet peut être faite par un prédicat possédant le rôle; cette application doit être déterminée selon des critères sémantiques, c’est-à-dire par un lecteur interprétant le segment de texte employé comme sujet dans l’énoncé. Dans le cadre du présent projet, l’application de ce rôle est considérée comme axiomatique et il n’est pas prévu qu’elle puisse résulter d’une déduction automatisée, bien que le prédicat puisse éventuellement être étendu en ce sens par un utilisateur tiers, par exemple dans le cadre d’un traitement par apprentissage automatique.
lieu
Un lieu est ici défini largement comme une étendue géographique, une entité politique à laquelle correspond un espace géographique, ou encore un endroit dont la localisation est indéterminée, par exemple les Cieux au sens biblique.
L’application de cet objet à une ressource sujet peut être faite par un prédicat possédant le rôle; cette application doit être déterminée selon des critères sémantiques, c’est-à-dire par un lecteur interprétant le segment de texte employé comme sujet dans l’énoncé. Dans le cadre du présent projet, l’application de ce rôle est considérée comme axiomatique et il n’est pas prévu qu’elle puisse résulter d’une déduction automatisée, bien que le prédicat puisse éventuellement être étendu en ce sens par un utilisateur tiers, par exemple dans le cadre d’un traitement par apprentissage automatique.
incipit
Un incipit est ici défini comme une entité diégétique (narrative) pouvant être attribuée comme rôle à un segment de texte. Un segment de texte agit comme incipit si ce segment est situé au tout début d’une unité narrative et contient une référence explicite aux éléments narratifs subséquents.
L’application de ce prédicat doit être déterminée selon des critères sémantiques, c’est-à-dire par un lecteur interprétant le segment de texte employé comme sujet dans l’énoncé. Dans le cadre du présent projet, l’application de ce rôle est considérée comme axiomatique et il n’est pas prévu qu’elle puisse résulter d’une déduction automatisée, bien que le prédicat puisse éventuellement être étendu en ce sens par un utilisateur tiers, par exemple dans le cadre d’un traitement par apprentissage automatique.
possédant le rôle
On peut appliquer à deux ressources le prédicat possédant le rôle si, dans l’énoncé, l’objet peut être attribué comme rôle au sujet. «Rôle» est ici entendu au sens diégétique large.
L’application de ce prédicat doit être déterminée selon des critères sémantiques, c’est-à-dire par un lecteur interprétant le segment de texte employé comme sujet dans l’énoncé. Dans le cadre du présent projet, l’application de ce prédicat est considérée comme axiomatique et il n’est pas prévu qu’elle puisse résulter d’une déduction automatisée, bien que le prédicat puisse éventuellement être étendu en ce sens par un utilisateur tiers, par exemple dans le cadre d’un traitement par apprentissage automatique.
mentionnant
On peut appliquer à deux ressources le prédicat mentionnant si, dans l’énoncé, un segment bien délimité du texte et correspondant à la ressource employée comme sujet constitue une mention de la ressource employée comme objet de l’énoncé. Ce prédicat sert donc à affirmer qu’un segment de texte est une occurrence d’un nom propre (soit personnage, lieu etc.) auquel on a attribué un identifiant stable. Le terme neutre mention est utilisé parce qu’il permet d’attribuer le prédicat avec un minimum d’hypothèses sur le statut de l’occurence: que le segment de texte réfère ou non à ce que la séquence de ses caractères semble signifier, on peut avec sûreté affirmer que le segment agit comme mention d’un nom propre donné.
L’application de ce prédicat doit être déterminée selon des critères sémantiques, c’est-à-dire par un lecteur interprétant le segment de texte employé comme sujet dans l’énoncé. Dans le cadre du présent projet, l’application de ce prédicat est considérée comme axiomatique et il n’est pas prévu qu’elle puisse résulter d’une déduction automatisée, bien que le prédicat puisse éventuellement être étendu en ce sens par un utilisateur tiers, par exemple dans le cadre d’un traitement par apprentissage automatique.
équivalent par mention
Ce prédicat indique que les deux ressources, le sujet et l’objet (qui doivent être deux segments de texte bien délimités), contiennent une mention de la même entité (soit personnage, lieu etc.) et sont ainsi considérés équivalents de par ce qu’ils mentionnent. En d’autres termes, les deux segments contiennent une occurrence de la même entité préalablement identifiée par une ressource stable.
Ce prédicat s’applique à la plus petite unité narrative à laquelle la mention a été attribuée. Si tous les segments d’une séquence contiennent les mêmes mentions, comparés en ordre et segment par segment, dans les deux ressources, alors seulement on peut appliquer le prédicat d’équivalence à toute la séquence, par induction. Une telle tentative d’induction donne lieu à des fiches relationnelles imbriquées. Par exemple, on pourrait se servir d’une telle tentative d’induction pour faire correspondre deux segments où les chevaliers du roi Arthur sont nommés et, ainsi, déterminer quelles sous-séquences de noms sont équivalentes et lesquelles diffèrent sémantiquement.
équivalent en rôle
S’il a été précédemment énoncé que deux ressources possèdent le même rôle par application du prédicat possédant le rôle, alors on peut déduire que les deux ressources possèdent un rôle équivalent et on peut leur appliquer le prédicat équivalent en rôle.
Ce prédicat s’applique à la plus petite unité narrative à laquelle le rôle a été attribué. Si tous les segments d’une séquence possèdent les mêmes rôles, comparés en ordre et segment par segment, dans les deux ressources, alors seulement on peut appliquer le prédicat d’équivalence à toute la séquence, par induction. Une telle tentative d’induction donne lieu à des fiches relationnelles imbriquées.

L’application des relations suivantes implique un travail n’entrant pas directement dans la portée du projet actuel; ces définitions sont données à titre d’exemple.
thématisant
On peut appliquer à deux ressources le prédicat thématisant si, dans l’énoncé, l’objet peut être attribué comme thème au sujet. «Thème» est ici entendu au sens diégétique large et peut référer à des événements, des actions, des personnes, des lieux etc. La relation est conçue comme asymétrique, c’est-à-dire que le thème de l’objet est considéré comme antérieur ou paradigmatique par rapport au thème du sujet. Cela permet d’utiliser comme objet une ressource stable et bien comprise, par exemple un passage de la Bible dans une édition de référence et possédant un identifiant persistant.
Dans le cadre du présent projet, l’application de ce prédicat est considérée comme axiomatique et il n’est pas prévu qu’elle puisse résulter d’une déduction automatisée, bien que le prédicat puisse éventuellement être étendu en ce sens par un utilisateur tiers, par exemple dans le cadre d’un traitement par apprentissage automatique.
coréférant par thème
S’il a été précédemment énoncé que deux ressources possèdent le même thème par application du prédicat thématisant, alors on peut déduire que les deux ressources possèdent une référence thématique commune et on peut leur appliquer le prédicat coréférant par thème.
Ce prédicat s’applique à la plus petite unité narrative à laquelle le thème a été attribué. Si tous les segments d’une séquence possèdent les mêmes thèmes, comparés en ordre et segment par segment, dans les deux ressources, alors seulement on peut appliquer le prédicat de coréférence à toute la séquence, par induction. Une telle tentative d’induction donne lieu à des fiches relationnelles imbriquées.

Définitions par Christian Gagné