Présentation technique du projet et modalités de contribution

Architecture d’information du projet

L’objet principal du projet HU15 est la mise en contexte et la présentation de textes médiévaux. Mise en contexte, car la codicologie des textes est considérée; présentation, car les textes sont reproduits au sens fort du terme, étant transcrits dans le respect de leur forme et de leur grammaire d’origine.
Il existe des pratiques déjà bien établies pour la transcription électronique de manuscrits, l’élément technique le plus important étant la Text Encoding Initiative (TEI). En abordant notre projet, nous avons pu profiter d’excellents exemples de mise en oeuvre des recommandations TEI, entre autres la Base du Français Médiéval et le projet Perseus. Nous avons appliqué l’esprit de la Text Encoding Initiative en tant que communauté de pratique, afin de créer une plateforme à la mesure de nos visées particulières.
Dans les premiers temps du projet, les documents rédigés furent d’abord des fiches codicologiques et des notices bibliographiques. Les rédacteurs ont été initiés au format Markdown, qui à l’époque était déjà bien établi dans de nombreuses applications Web. Étant donné que l’imprimé n’était pas visé et que le processus éditorial devait être aussi léger que possible, LaTeX ne fut pas retenu comme format de rédaction pour les fiches et transcriptions. Cependant, l’influence du système TeX se fait sentir en plusieurs endroits du projet.
Quand vint le temps de choisir un format de transcription des manuscrits, plusieurs exemples d’utilisation de la TEI furent examinés. Dans le même temps, le mode de publication du site Web fut choisi. Le choix du vocabulaire TEI informa alors celui de l’organisation du site Web: puisqu’il était question d’écrire du XML «à la main» et de le publier le plus directement possible, sans système de gestion de base de données ou autre intermédiaire, une certaine direction technique s’imposait naturellement. C’était à l’époque où GitHub devenait de plus en plus utilisé pour des projets dans les humanités, même lorsqu’il n’était pas question de programmation. Nous avons donc créé un dépot sur GitHub pour le projet, avec une branche gh-pages, afin de publier un site statique sur le service GitHub Pages.
Utiliser un système distribué de contrôle des versions présente de nombreux avantages pour la rédaction et la publication sur le Web. Ces avantages sont à la fois d’ordre pratique et cognitif: l’ensemble des contributions est conservé sur de nombreux appareils, chaque ajout est attribué et accompagné de sa raison dans l’historique du dépôt et les rédacteurs peuvent itérer sur le contenu et voir l’évolution de leur item en consultant les entrées de l’historique, ce qui invite à une grande honnêteté intellectuelle.
Les sites statiques ont la cote et à bon droit: ils sont rapides, sécuritaires et légers. Le nôtre est particulier, puisqu’il contient des textes en TEI, des textes rédigés en Markdown puis convertis en HTML, et même plusieurs textes rédigés directement en HTML. Après avoir été initiés au vocabulaire TEI, les contributeurs voulaient librement en utiliser les balises dans leurs fiches. De plus, certains affirmaient alors préférer rédiger directement en HTML ou XML sans passer par Markdown, trouvant le format intermédiaire redondant. Nous avons reconnu qu’il s’agissait d’une bonne intuition – et d’un cas qui serait très intéressant pour les spécialistes de l’utilisabilité logicielle.
Dans la mesure où la TEI n’est pas une norme unique mais bien un ensemble de recommandations et de pratiques éprouvées, nous avons donc testé une approche minimaliste de sa mise en oeuvre dans le cadre de notre site statique. Les items en TEI sont stylés directement en CSS et affichés au fil des pages, sans être convertis en HTML. La recommandation HTML5, lorsqu’elle est combinée à une sérialisation en XHTML, permet cela sans problème grâce aux espaces de noms XML. Nous avons donc un fichier tei.css contenant les règles de l’espace de noms TEI. Cette feuille de styles étant incluse dans toutes les pages du site, les balises TEI peuvent être employées partout, tant que les métadonnées et les contextes d’imbrication conviennent.
Une autre particularité de nos items TEI est qu’ils ne sont pas validés en tant que tel. Au début du projet, il était impossible de prévoir à l’avance la grande richesse des contextes d’imbrication qui allait surgir au fil des transcriptions. En contrepartie, le nombre total des éléments et attributs TEI utilisé est très restreint et leur description tient en quelques pages. l’important est que tout fragment TEI bien formé possède une visualisation adéquate dans la page Web et contienne des métadonnées pertinentes.
Pour accompagner les transcriptions et les mettre en relation, nous avons aussi initié une mise en oeuvre minimale du modèle de données Resource Description Framework. À terme, l’application d’un vocabulaire RDF sur certaines de nos transcriptions permettra de créer un véritable réseau sémantique et d’analyser plus finement les textes apparentés les uns vis-à-vis des autres. Le vocabulaire de mise en relation est déjà défini en partie et il existe un exemple minimal de son application (une preuve de concept) pour les manuscrits BnF fr 328 et BnF fr 684.

Comment contribuer au contenu

Si vous connaissez la TEI et le modèle de données RDF, vous pouvez contribuer à notre balisage sémantique des transcriptions. Notre vocabulaire de mise en relation est destiné à être employé avec les notices d’autorité Rameau de la BnF et d’autres vocabulaires semblables dont les items possèdent des identifiants persistants. Après avoir pris vos dispositions avec nous et pris connaissance de notre guide de définitions, il suffit de tirer le dépôt Git à partir de GitHub et de contribuer vos ajouts en faisant un pull request que nous étudierons.

Article par Christian Gagné