Digital Studies (2018-05-01)

How to Discover Textual Groups

  • Timothy Finney

DOI
https://doi.org/10.16995/dscn.291
Journal volume & issue
Vol. 8, no. 1

Abstract

Read online

Multivariate analysis (MVA) can be applied to the New Testament textual tradition in order to investigate grouping among its witnesses. This article applies certain MVA methods to a number of example data sets. Each method operates on a matrix that tabulates distances between pairs of items in a data set. The simple matching distance, which is the proportion of disagreements, can be used as a metric for calculating distances between New Testament witnesses. Analysis methods called classical multidimensional scaling (CMDS) and divisive clustering (DC) are useful for revealing group structure when it is well defined. However, they are less useful when grouping is not very distinct. A method called partitioning around medoids (PAM) provides another way to divide a data set into groups. Local maxima in a plot of a statistic called the mean silhouette width (MSW) indicate preferred numbers of groups. Statistical analysis of a data set allows upper and lower critical limits to be defined for the distance between a pair of witnesses. Distances between these limits are not significant in the sense that the same range of distances is expected to occur for generated pairs whose states are randomly chosen from the available pool. Distances that are either less than or greater than these critical limits are not likely to happen by chance. A distance less than the lower critical limit indicates an adjacent relationship while one greater than the upper limit implies an opposite relationship. Applying CMDS, DC, and PAM analysis to data for the Gospel of Mark reveals interesting features of the textual landscape. Witnesses tend to form groups that have points of contact with conventional categories such as the “Alexandrian,” “Byzantine,” “Western,” and “Eastern” types identified by prior generations of researchers. Multivariate analysis can also be used for novel purposes such as identifying group representatives, group cores, and readings useful for classification purposes. Résumé L’analyse multivariée (MVA) peut s’appliquer à la tradition textuelle du Nouveau Testament afin d’examiner les regroupements parmi ses témoins. Cet article applique certaines méthodes de MVA à plusieurs exemples d’ensembles de données. Chaque méthode fonctionne selon une matrice qui compile les distances entre des paires d’éléments dans un ensemble de données. Le simple appariement des distances, qui est la proportion de désaccords, peut être utilisé comme une unité métrique pour calculer les distances entre les témoins du Nouveau Testament. Les méthodes d’analyse appelées échelles multidimensionnelles classiques (CMDS) et regroupement conflictuel (DC) sont utiles pour découvrir la structure d’un groupe lorsque celui-ci est bien défini. Cependant, elles le sont moins lorsque le regroupement n’est pas très distinct. Une méthode appelée partitionnement autour de médoïdes (PAM) fournit un autre moyen de diviser en groupes un ensemble de données. Des maxima locaux dans un lot de statistiques appelé largeur moyenne de la silhouette (MSW) indiquent des nombres de groupes privilégiés. L’analyse statistique d’un ensemble de données permet de définir des limites critiques plus et moins élevées pour obtenir la distance entre une paire de témoins. Les distances entre ces limites ne sont pas considérables en ce sens que la même gamme de distances est prévue se produire pour les paires générées dont les états sont choisis au hasard parmi le bassin disponible. Les distances qui sont soit moins élevées ou plus élevées que ces limites critiques ne se produiront vraisemblablement pas par hasard. Une distance inférieure à la limite critique moins élevée indique une relation adjacente tandis qu’une distance supérieure à la limite plus élevée suppose une relation opposée. L’application des analyses CMDS, DC, et PAM aux données de l’Évangile selon Marc révèle des caractéristiques intéressantes du paysage textuel. Les témoins ont tendance à former des groupes qui ont des points de contact avec les catégories conventionnelles comme les types « alexandrins », « byzantins », « occidentaux » et « orientaux » identifiés par les générations antérieures de chercheurs. L’analyse multivariée peut aussi être utilisée à des fins novatrices comme par exemple pour identifier des représentants de groupes, des noyaux de groupes, et des lectures utiles à des fins de classification.

Keywords