The Programming Historian en Français (Jan 2023)

La reconnaissance automatique d'écriture à l'épreuve des langues peu dotées

  • Chahan Vidal-Gorène

DOI
https://doi.org/10.46430/phfr0023
Journal volume & issue
Vol. 5

Abstract

Read online

Ce tutoriel a pour but de décrire les bonnes pratiques pour la création d’ensembles de données et la spécialisation des modèles en fonction d’un projet HTR (Handwritten Text Recognition) ou OCR (Optical Character Recognition) sur des documents qui n’utilisent pas l’alphabet latin et donc pour lesquels il n’existe pas ou très peu de données d’entraînement déjà disponibles. Le tutoriel a ainsi pour but de montrer des approches de minimal computing (ou d’investissement technique minimal) pour l’analyse de collections numériques à grande échelle pour des langues peu dotées. Notre tutoriel se concentrera sur un exemple en grec ancien, puis proposera une ouverture sur le traitement d’écritures arabes maghrébines manuscrites.