Digital Studies (Apr 2021)
Technical Topologies of Texts
Abstract
In Digital Humanities the task of “text modelling” has been recognised and successfully treated in the last decades. But indeed every use of digital text processing software, even the most naive one, is already a kind of text modelling activity. In many realms of daily practice this is executed unknowingly and without theoretic reflection, using digital text processing systems merely as “comfortable typewriters”. Then the structure of the out-coming models is determined only by the applied software. To really exploit the benefits of automated text processing in any realm, their use must change to a theory and practice of text modelling.This requires to explore and make explicit the mathematical structure of the possible text models, and the restrictions imposed on them a priori by the involved technical tools. Those can become crucial especially. when translating a text between two formats – a quite frequent task with surprising pitfalls.This article gives a systematic and exhaustive survey of the technically determined structural properties of text models. It lists the abstract requirements on modelling tools for ensuring satisfactory flexibility, and compares ten different commonly used text modelling frameworks. RésuméLes systèmes de traitement de texte numériques s’utilisent, dans la majorité des cas, simplement comme des « machines à écrire confortables », surtout dans les Humanités. Pour profiter véritablement des avantages du traitement de texte automatisé, surtout au niveau conceptuel, l’usage de ces systèmes de traitement doit changer vers une théorie et pratique de modélisation de texte. Pour cela, il faut explorer et rendre explicite la structure mathématique de modèles de texte possibles, ainsi que les restrictions imposées a priori sur ces systèmes par les outils techniques impliqués. Celles-là peuvent devenir essentielles, particulièrement lorsque l’on convertit un texte entre deux formats – ce qui est une tâche très fréquente avec des écueils surprenants. Cet article offre une étude systématique et exhaustive des caractéristiques structurelles de modèles de texte. Il énumère les exigences abstraites d’outils de modélisation nécessaires pour garantir une flexibilité satisfaisante et il compare dix différents cadres de modélisation de texte fréquemment utilisés. Mots-clés: Traitement de texte; Type de document; Enquête sur les normes; Modélisation mathématique
Keywords