Reconnaissance Optique de Caractère : Texte formaté

Cette vidéo explique le fonctionnement de la reconnaissance optique de caractères (OCR) pour les documents au format texte et images.

Détails de la leçon

Description de la leçon

Dans cette leçon, nous découvrons comment fonctionne la reconnaissance de texte par OCR avec l'option texte formaté. À partir d'un document PDF assemblé à partir de plusieurs fichiers d'images, nous examinons les différentes étapes de l'utilisation de l'OCR. La vidéo détaille le processus de reconnaissance du texte, la gestion des suspects, et la correction des erreurs. Les pages non droites du document sont automatiquement redressées, mais la mise en page originale peut être altérée. Les zones d'images sont conservées et non reconnues comme texte. Enfin, nous voyons que ce processus permet de réduire considérablement le poids des fichiers, mais au détriment de la mise en page originale.

Objectifs de cette leçon

À l'issue de cette vidéo, les utilisateurs sauront comment utiliser l'OCR pour convertir des images en texte formaté, reconnaître et corriger les erreurs possibles, et comprendre les impacts sur la mise en page et la taille des fichiers.

Prérequis pour cette leçon

Avoir des connaissances de base en manipulation de documents PDF et en utilisation de logiciels de reconnaissance de caractères.

Métiers concernés

Les professionnels concernés incluent les archivistes, les documentalistes, les assistants administratifs et les chercheurs qui numérisent et analysent des documents manuscrits ou imprimés.

Alternatives et ressources

Les alternatives à la reconnaissance d’OCR via Acrobat incluent des logiciels comme ABBYY FineReader, Tesseract OCR ou des services en ligne tels que Google Drive OCR.

Questions & Réponses

L'avantage principal est que le fichier résultant est bien plus léger, car il ne conserve pas les images originales.
Il est possible d'utiliser l'option de recherche de suspects pour corriger manuellement les zones mal reconnues.
La mise en page originale peut être altérée car le programme remplace les polices et réorganise les textes pour un format plus standardisé.