Digital Studies (Sep 2020)

How to Do Lexical Quality Estimation of a Large OCRed Historical Finnish Newspaper Collection with Scarce Resources

  • Kimmo Kettunen

DOI
https://doi.org/10.16995/dscn.315
Journal volume & issue
Vol. 10, no. 1

Abstract

Read online

The National Library of Finland has digitized and made available the historical newspapers published in Finland between 1771 and 1910 (Bremer-Laamanen 2014; Kettunen et al. 2014). This collection contains approximately 1.95 million pages in Finnish and Swedish. The Finnish part of the collection consists of about 2.40 billion words. The National Library’s Digital Collections are offered via the digi.kansalliskirjasto.fi web service, also known as Digi. An open data package of the whole collection was released in early 2017 (Pääkkönen et al. 2016). Quality of OCRed collections is an important topic in digital humanities, as it affects general usability and searchability of collections. There is no single available method to assess quality of large collections, but different methods can be used to approximate quality. This paper discusses different corpus analysis style methods to approximate overall lexical quality of the Finnish part of the Digi collection. Methods include usage of parallel samples and word error rates, usage of morphological analysers, frequency analysis of words and comparisons to comparable edited lexical data. Our aim in the quality analysis is twofold: firstly to analyse the present state of the lexical data and secondly, to establish a set of assessment methods that build up a compact procedure for quality assessment after e.g. re-OCRing or post-correction of the material. Résumé La Bibliothèque nationale de Finlande a numérisé et rendu disponible les journaux historiques publiés en Finlande entre 1771 et 1910 (Bremer-Laamanen 2014 ; Kettunen et al. 2014). Cette collection contient environ 1,95 million pages en finnois et suédois. La partie finnoise de la collection compte environ 2,40 milliards de mots. Les Collections numérisées de la Bibliothèque Nationale sont offertes sur le service web digi.kansalliskirjasto.fi, également appelé Digi. Un ensemble de données disponibles de la collection entière est sorti début 2017 (Pääkkönen et al. 2016). La qualité de collections en OCR est un thème important pour les humanités numériques, puisqu’elle concerne l’utilité et la facilité de recherche de collections. Il n’y a pas qu’une seule méthode pour évaluer la qualité de grandes collections, mais des méthodes différentes peuvent être employées pour en estimer la qualité. Cet article discute de méthodes différentes d’analyses de corpus visant à estimer la qualité lexicale totale de la partie finnoise de la collection Digi. Les méthodes comprennent l’usage d’échantillons parallèles et de fréquences d’erreur de mot, l’usage d’analyseurs morphologiques, l’analyse de fréquence de mots et les comparaisons à des données lexicales rédigées comparables. Notre objectif dans l’analyse de qualité est double : premièrement, analyser l’état actuel des données lexicales et, deuxièmement, établir un ensemble de méthodes d’évaluation qui constituent une procédure compacte pour l’évaluation de la qualité après, par exemple, la retransformation en OCR ou après les après corrections du matériel. Mots-clés: qualité d’OCR; estimation de qualité lexicale; collection de journaux finnois du 19e siècle

Keywords