Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle - Conférences TALN RECITAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle

Résumé

Pour comparer deux sorties de logiciels d’OCR, le Character Error Rate (ou, CER) est fréquemment utilisé. Moyennant l’existence d’une vérité de terrain de qualité pour certains documents du corpus, le CER calcule le taux d’erreur de ces pièces et permet ensuite de sélectionner le logiciel d’OCR le plus adapté. Toutefois, ces vérités de terrain sont très coûteuses à produire et peuvent freiner certaines études, même prospectives. Nous explorons l’exploitation des modèles de langue en agrégeant selon différentes méthodes les probabilités offertes par ceux-ci pour estimer la qualité d’une sortie d’OCR. L’indice de corrélation de Pearson est ici utilisé pour comprendre dans quelle mesure ces estimations issues de modèles de langue covarient avec le CER, mesure de référence.
Fichier principal
Vignette du fichier
179.pdf (577.19 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02786201 , version 1 (07-06-2020)
hal-02786201 , version 2 (17-06-2020)
hal-02786201 , version 3 (23-06-2020)

Identifiants

  • HAL Id : hal-02786201 , version 3

Citer

Jean-Baptiste Tanguy. Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL, Jun 2020, Nancy, France. pp.205-217. ⟨hal-02786201v3⟩
231 Consultations
177 Téléchargements

Partager

Gmail Facebook X LinkedIn More