La capture des données en caractères d’imprimerie est une source de difficultés pour la plupart des entreprises. C’est pourquoi nous vous présentons les cinq principaux facteurs à prendre en compte lors de toute initiative d’hyperautomatisation touchant des données et des documents manuscrits. Dans cette optique, Ephesoft propose de nouvelles fonctionnalités intéressantes et les meilleurs taux de précision de sa catégorie, les plus élevés du secteur pour l’écriture cursive.

L’importance d’un traitement intelligent des documents (IDP) flexible

Quiconque pense que les données manuscrites existent uniquement sur des formulaires fixes et standardisés n’a jamais vraiment fouillé dans un processus gouvernemental ou travaillé sur un formulaire en ligne protégé pour une application dans le secteur commercial. Les variations et les versions de formulaires, la mauvaise qualité de la numérisation, les conversions de télécopies, etc. peuvent avoir un impact sur la présentation des informations contenues dans un formulaire. Lorsque ces facteurs entrent en jeu, les modèles d’extraction de données ne suffisent pas.

Si l’on extrapole à partir d’une enquête de l’AIIM portant sur environ 300 répondants, plus d’un quart des entreprises utilisent des formulaires et des documents contenant des caractères d’imprimerie dans le cadre de leurs principaux processus opérationnels. Cela inclut les processus qui ont été automatisés, ou qui ont tenté de l’être, avec des outils tels que les systèmes RPA et les applications BPM.

  • 26 % des entreprises s’appuient sur des formulaires et des documents contenant des données en caractères d’imprimerie pour leurs processus opérationnels clés.
  • 42 % des entreprises qui utilisent des formulaires pour la soumission d’informations et de demandes reçoivent au moins la moitié de ces formulaires avec des caractères d’imprimerie.

Les informations soumises en caractères d’imprimerie sont la norme plutôt que l’exception pour les organisations des secteurs public et privé.

Goulets d’étranglement

Le secteur public est l’un des principaux responsables des goulets d’étranglement dans le traitement des données manuscrites. En ce qui concerne les électeurs, la plupart des fonctions gouvernementales impliquent la soumission de formulaires. Qu’il s’agisse de ministères fédéraux ou d’agences locales ou d’État, le budget et l’adoption des technologies sont des facteurs déterminants. Les budgets opérationnels sont toujours en péril, et encore plus après les retombées de la pandémie de COVID-19. Pensez ensuite aux processus tels que les demandes de permis, les demandes d’informations, les demandes d’avantages sociaux, les reports d’impôts et autres, qui doivent servir toutes les classes socio-économiques. Avec un personnel limité, des licenciements et une capacité de travail globalement réduite, les agences gouvernementales vont être submergées par un arriéré de saisie manuelle de données pour toutes ces demandes émanant des électeurs.

En outre, les nouvelles lois sur la protection de la vie privée rendent le processus encore plus complexe en exigeant la possibilité d’expurger les informations personnellement identifiables (PII) sur les documents, y compris les formulaires manuscrits. Les organismes gouvernementaux s’efforcent de respecter le mémorandum M-19-21 de la National Archives and Records Administration (NARA), qui prévoit la numérisation et la gestion électronique de tous les documents d’ici à la fin de 2022. Ce n’est pas une mince affaire si l’on considère que 68 agences fédérales ont jusqu’à 23 000 formulaires en usage.

Cependant, le monde commercial n’est pas à l’abri du trou noir informationnel que constituent les données en caractères d’imprimerie. Par exemple, les compagnies d’assurance acceptent les formulaires de demande d’indemnisation rédigés à la main par les assurés. Ou bien, rappelez-vous chaque fois que vous êtes allé chez votre médecin traitant et que vous avez dû remplir le « formulaire de mise à jour de l’assurance et des coordonnées » dans la salle d’attente avec tous les autres patients qui toussaient et avaient une petite mine. Toutes ces informations médicales sont cruciales et doivent être conservées dans un format numérique, consultable et exploitable.

Plateforme de traitement intelligent des documents

Au sein d’Ephesoft Transact, le contenu se déplace depuis le point de capture ou d’ingestion du document, que ce soit dans le cadre du flux de travail d’un système externe ou d’une action autonome, jusqu’au point où les documents traités et leurs métadonnées et valeurs d’index associées sont acheminés vers leur destination finale ou l’étape suivante du processus opérationnel.

La nouveauté excitante pour Transact, c’est que nous avons ajouté plus de capacités d’extraction de données. Tout d’abord, nous disposons d’un nouveau plugin hOCR avancé, qui permet l’extraction de données en caractères d’imprimerie, cursives et dactylographiées.

Ensuite, la fonction de reconnaissance de l’écriture manuscrite/reconnaissance intelligente des caractères (ICR) de Transact s’appuie sur l’impression de blocs délimités (OCR) ainsi que sur les outils d’extraction de cases à cocher/de reconnaissance optique de marques (OMR) lancés dans une version précédente. Ensemble, ces deux fonctions offrent aux utilisateurs un moyen très complet, fiable, rapide et facile d’extraire les valeurs en caractères d’imprimerie des documents et de détecter les zones contenant des signatures ou des cases cochées. La technologie lit les écritures en caractères d’imprimerie et cursives avec une précision allant jusqu’à 88 %, même celles qui ne sont pas facilement lisibles par l’homme. Les utilisateurs peuvent utiliser un scanner, une tablette, un téléphone ou tout autre moyen pour numériser le document ou le formulaire.

La reconnaissance intelligente des caractères (ICR) convertit les images de textes en caractères d’imprimerie en un format de fichier modifiable et/ou consultable. Les moteurs ICR traditionnels varient en termes de précision et d’exigences du serveur, et de nouveaux moteurs ICR basés sur le cloud et formés par apprentissage automatique arrivent assez régulièrement sur le marché. La reconnaissance optique de marques (OMR) capture des données à partir d’éléments de formulaire tels que les cases à cocher et les bulles à choix multiples.

5 facteurs de réussite d’un projet de transformation numérique

Selon un rapport de PTC sur la transformation numérique, les dirigeants indiquent que les principaux avantages de ces initiatives sont l’amélioration de l’efficacité opérationnelle, essentielle pour réduire les budgets informatiques, la mise sur le marché plus rapide de nouveaux produits et services et la réduction de l’écart entre les attentes des clients et les prestations de l’entreprise. Et pour la plupart des organisations, les données en caractères d’imprimerie sont inextricablement liées à une approche holistique de l’hyperautomatisation. Examinons donc les cinq principaux éléments d’un projet de transformation numérique réussi en ce qui concerne les données en caractères d’imprimerie.

  1. Source du document

Tout d’abord, tenez compte de la source de votre contenu. Comment recevez-vous les documents contenant des données en caractères d’imprimerie ? Cela varie selon le secteur et le processus, mais c’est important pour le flux de travail global et le taux de réussite ou de précision de votre projet d’extraction automatique de données. Les documents sont-ils envoyés par fax, par e-mail ou par courrier postal à un emplacement centralisé, ou bien des photos de formulaires et de lettres en caractères d’imprimerie sont-elles téléchargées sur le portail de l’entreprise à partir d’un cliché pris sur unappareil mobile ? Ces méthodes d’introduction de documents auparavant papier dans les systèmes d’information principaux de votre organisation doivent être regroupées et acheminées par un processus centralisé afin de garantir l’uniformité et d’optimiser les processus opérationnels propres à chaque document. Heureusement, avec une application comme Transact, nous supportons l’ingestion de documents provenant de toutes ces sources.

  1. Sécurité

Le deuxième facteur à prendre en compte pour réussir une transformation numérique incluant des documents avec des caractères d’imprimerie sont les exigences de sécurité de votre organisation ou de votre secteur. Existe-t-il des exigences de sécurité spécifiques à l’accès aux applications du cloud public ou à leur intégration ?

Transact peut être installé sur place ou exploité dans un cloud privé. Il n’est pas nécessaire d’envoyer des informations sensibles ou des données clients en dehors du réseau et des pare-feu de votre organisation pour profiter des capacités étendues de l’ICR.

  1. Complexité et variation

Transact utilise des paires clé-valeur (ou KV pour key-value) pour identifier et extraire des informations de documents non structurés. Cela signifie que l’application recherche un modèle particulier de texte représentant la clé, puis trouve la valeur correspondante en fonction de la relation entre la valeur du champ d’extraction souhaité et la clé. Cette approche élimine la nécessité de configurer des modèles basés sur les coordonnées pour extraire les données et peut être appliquée aux données en caractères d’imprimerie.

Certaines solutions d’écriture manuscrite imposent des limites de caractères ou un coût par champ de base qui peut être inflexible ou élevé. Cependant, avec Transact, le moteur OCR OpenText Capture Recognition Engine (anciennement Recostar) ainsi que le plugin hOCR avancé (alimenté par Google Vision ou Azure (à venir fin 2022) dans le produit utilisant une approche OCR sur toute la page, le coût pour vous ou vos clients pour utiliser l’extraction de caractères d’imprimerie est minimal, que ce soit sur une base par champ ou par page.

De nombreux produits de capture vous demanderont de créer des formulaires fixes ou des modèles basés sur des coordonnées afin d’extraire les données en caractères d’imprimerie des documents numérisés. Si vous avez un projet où vous n’avez qu’un seul formulaire et une seule variante de ce formulaire, cela peut ne pas être un gros problème du point de vue de la configuration et de la gestion du projet. Mais, qu’en est-il s’il existe des variations historiques de ce formulaire accessibles au public ? Peut-être que le formulaire est mis à jour chaque année ou étendu. Et si, dans l’espace gouvernemental, le formulaire varie selon les États ?

Prenons, par exemple, ces trois formulaires officiels d’exonération fiscale. Ils demandent tous les mêmes informations, mais sont présentés et formatés différemment.

Il faut maintenant tenir compte de la source du document et de l’impact que cela peut avoir sur la mise en page réelle des documents. Si un formulaire est saisi sur un appareil mobile, cela peut avoir un impact sur le rapport hauteur/largeur de l’image numérique. Lorsque des documents physiques sont numérisés, ils peuvent être inclinés ou posés de manière incorrecte sur le plateau du scanner, ce qui a également un impact sur les coordonnées zonales réelles d’un document. Il en va de même pour les distorsions qui se produisent lorsqu’un document est faxé. Si vous comptez sur une zone fixe d’une page pour trouver des informations en caractères d’imprimerie, votre capacité à évoluer dans un véritable projet de transformation numérique sera limitée par le temps ou les coûts qui doivent être consacrés à la conception de chaque modèle basé sur les coordonnées.

C’est pourquoi il est important de trouver une solution capable d’équilibrer le niveau de prévisibilité et de précision d’extraction dont vous avez besoin avec les coûts pour tenir compte des variations des formulaires que vous devez traiter, tout en respectant vos délais. La bonne nouvelle est que Transact fournit une gamme complète et flexible d’outils pour votre cas d’utilisation afin de trouver cet équilibre. Tout est inclus, de l’extraction traditionnelle de formulaires fixes à l’extraction plus avancée d’entités IA sans règles, et fonctionne de manière transparente avec notre solution d’écriture manuscrite.

  1. Détection des signatures

Le quatrième facteur de réussite d’un projet de transformation numérique impliquant des écritures manuscrites est l’interaction et la gestion de documents avec des signatures. La détection des signatures peut être une étape manuelle fastidieuse qui ralentit le traitement des applications dans tous les secteurs.

Prenez le secteur des prêts hypothécaires, par exemple. Le formulaire de demande de prêt résidentiel uniforme [N.d.T. : formulaire américain] fait généralement partie d’un grand ensemble de documents relatifs au prêt, dont la longueur et la complexité varient. Il est crucial de vérifier que tout emprunteur et coemprunteur a signé. Lorsqu’un être humain s’en charge, il passe du temps à feuilleter les pages pour trouver ce champ avant de pouvoir donner le feu vert. L’automatisation de cette étape permet de gagner du temps et donc de l’argent en accélérant le processus de prêt.

Autre exemple : les processus d’enquête sur les antécédents. Ou encore, l’accueil des employés des ressources humaines. Chaque secteur d’activité et chaque entreprise dispose d’un certain type de processus de candidature dans lequel les personnes doivent signer des documents, des formulaires ou des lettres d’explication. Et la mise en place de contrôles de validation automatisés pour ces tâches omniprésentes offre un énorme potentiel de gain de temps. Je pense que cela devrait être un élément clé des initiatives de transformation numérique.

  1. OCR, ICR ou OMR : extrayez ce dont vous avez besoin

Enfin, assurez-vous de comprendre si les données pertinentes sont dactylographiées, manuscrites, présentées avec des marques optiques comme des cases à cocher ou des boutons radio, ou une combinaison de ces éléments. Il arrive parfois qu’une entreprise ou une agence souhaite extraire chaque champ d’un formulaire ou chaque élément d’information d’un document. Mais quand je demande pourquoi… quand je demande quel est le but de l’information en aval, il n’y a pas de réponse. Limitez la portée de votre projet aux seules données pertinentes, qu’il s’agisse d’une signature sur un contrat, d’une case à cocher sur un formulaire, d’un élément d’information dactylographié ou manuscrit, et vous réduirez votre calendrier de projet ainsi que le coût de mise en œuvre.

Points à retenir

En résumé, voici les points à ajouter à la liste des éléments à prendre en compte lors de votre initiative de transformation numérique : tenez compte des sources de vos documents, examinez les exigences de sécurité pour la transmission des données hors du réseau ou du pare-feu de votre organisation, tenez compte de la complexité et de la variété des formulaires et des documents, identifiez les flux de travail qui nécessitent une validation de la signature et comprenez bien les exigences en matière d’extraction de données OCR, ICR et OMR par rapport au processus opérationnel concerné.

Pour plus d’informations, cliquez ici ou regardez le replay du webinaire ici.