Journal of Information Sciences (Dec 2022)

Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité

  • Ljudmila PETKOVIC,
  • Motasem ALRAHABI,
  • Glenn ROE

DOI
https://doi.org/10.34874/IMIST.PRSM/jis-v21i2.36599
Journal volume & issue
Vol. 21, no. 2
pp. 42 – 57

Abstract

Read online

Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d’un échantillon de documents d’archives numérisées (océrisées), nous avons appliqué un système de reconnaissance d’entités nommées avant et après une correction d’orthographe. D’un côté, les résultats de comparaison nous montrent que cette technique du traitement automatique des langues est relativement robuste ; de l’autre côté, nous montrons que ce correcteur orthographique n’est pas entièrement adapté à notre corpus historique et nécessite un ré-entraînement sur un plus grand corpus, mieux adapté.

Keywords