Qu'est-ce que la reconnaissance optique de caractères (OCR) ?

Table des matières:

Qu'est-ce que la reconnaissance optique de caractères (OCR) ?
Qu'est-ce que la reconnaissance optique de caractères (OCR) ?
Anonim

La reconnaissance optique de caractères (OCR) fait référence à un logiciel qui crée une version numérique d'un document imprimé, dactylographié ou manuscrit que les ordinateurs peuvent lire sans qu'il soit nécessaire de taper ou de saisir manuellement le texte. L'OCR est généralement utilisé sur les documents numérisés au format PDF, mais peut également créer une version lisible par ordinateur du texte dans un fichier image.

Qu'est-ce que l'OCR

OCR, également appelé reconnaissance de texte, est une technologie logicielle qui transforme les caractères tels que les chiffres, les lettres et la ponctuation (également appelés glyphes) de documents imprimés ou écrits en une forme électronique plus facilement reconnue et lue par les ordinateurs et d'autres logiciels. Certains programmes OCR le font lorsqu'un document est numérisé ou photographié avec un appareil photo numérique et d'autres peuvent appliquer ce processus à des documents qui ont déjà été numérisés ou photographiés sans OCR. L'OCR permet aux utilisateurs de rechercher dans des documents PDF, de modifier du texte et de reformater des documents.

Image
Image
Numériser un journal historique avec un logiciel OCR.

Getty Images

À quoi sert l'OCR ?

Pour les besoins de numérisation rapides et quotidiens, l'OCR n'est peut-être pas un gros problème. Si vous effectuez une grande quantité de numérisation, la possibilité de rechercher dans les fichiers PDF pour trouver exactement celui dont vous avez besoin peut vous faire gagner un peu de temps et rendre la fonctionnalité OCR de votre programme de numérisation plus importante. Voici quelques autres choses avec lesquelles l'OCR aide:

  • Traitement et saisie automatisés des données (Exemple: Systèmes de suivi des candidatures pour les CV).
  • Rendre les livres numérisés consultables.
  • Conversion de numérisations manuscrites en texte lisible par ordinateur.
  • Rendre les documents plus utilisables par les programmes de lecture qui aident les utilisateurs malvoyants.
  • Préserver les documents historiques et les journaux, tout en les rendant consultables.
  • Extraction de données et transfert vers des programmes comptables (Exemple: reçus et factures).
  • Indexation des documents à utiliser par les moteurs de recherche.
  • Reconnaissance des plaques d'immatriculation par un logiciel de radars et de radars aux feux rouges.
  • Synthétiseurs vocaux pour les personnes qui ne peuvent pas parler - le physicien théoricien, Stephen Hawking, est peut-être l'utilisateur le plus connu d'un programme de synthèse vocale.

Bottom Line

Pourquoi ne pas simplement prendre une photo, n'est-ce pas ? Parce que vous ne seriez pas en mesure de modifier quoi que ce soit ou de rechercher le texte car ce ne serait qu'une image. La numérisation du document et l'exécution du logiciel OCR peuvent transformer ce fichier en quelque chose que vous pouvez modifier et rechercher.

Historique de l'OCR

Alors que la toute première utilisation de la reconnaissance de texte remonte à 1914, le développement et l'utilisation généralisés des technologies liées à l'OCR ont commencé sérieusement dans les années 1950, en particulier avec la création de polices très simplifiées qui étaient plus faciles à convertir en numérique. texte lisible. La première de ces polices simplifiées a été créée par David Shepard et communément appelée OCR-7B. L'OCR-7B est toujours utilisé aujourd'hui dans le secteur financier pour la police standard utilisée sur les cartes de crédit et les cartes de débit. Dans les années 1960, les services postaux de plusieurs pays ont commencé à utiliser la technologie OCR pour accélérer considérablement le tri du courrier, notamment aux États-Unis, en Grande-Bretagne, au Canada et en Allemagne. L'OCR reste la technologie de base utilisée pour trier le courrier des services postaux du monde entier. En 2000, une connaissance clé des limites et des capacités de la technologie OCR a été utilisée pour développer les programmes CAPTCHA utilisés pour arrêter les bots et les spammeurs.

Au fil des décennies, l'OCR est devenu plus précis et plus sophistiqué grâce aux avancées dans des domaines technologiques connexes tels que l'intelligence artificielle, l'apprentissage automatique et la vision par ordinateur. Aujourd'hui, le logiciel OCR utilise la reconnaissance de formes, la détection de caractéristiques et l'exploration de texte pour transformer les documents plus rapidement et plus précisément que jamais.

FAQ

    Comment numériser des documents avec mon téléphone ou ma tablette ?

    Sur iOS, ouvrez l'application Notes et créez une nouvelle note. Ouvrez l'appareil photo, puis appuyez sur Scan Documents. Sur Android, ouvrez Google Drive et sélectionnez Plus (+), puis appuyez sur Scan pour scanner le document avec votre téléphone.

    Comment utiliser l'OCR dans Adobe Acrobat ?

    Ouvrez un fichier PDF contenant une image numérisée, puis sélectionnez Tools > Edit PDF. Acrobat appliquera automatiquement l'OCR afin que vous puissiez modifier le texte. Sélectionnez simplement l'endroit où vous souhaitez apporter des modifications et commencez à taper.

    Quelle est la différence entre OCR et OMR ?

    Optical Mark Recognition (OMR) est un logiciel qui détecte les marques sur le papier, généralement une feuille à bulles. OMR est utilisé pour traiter les résultats d'examens, d'enquêtes, de questionnaires et même d'élections. Contrairement à l'OCR, l'OMR ne peut pas déchiffrer les marques sur la page, mais vérifie seulement que les marques sont là.

Conseillé: