Réflexion sur les statistiques de précision relatives à l’extraction de données et points à retenir

La précision des solutions de traitement intelligent des documents (IDP) fait l’objet de nombreux débats et d’un battage médiatique. Je suis sûr que vous avez vu des affirmations vantant des taux de précision de 80 %, 90 % et même 100 %, et tout ce qui se trouve entre ces chiffres. La question importante à se poser ici est la suivante : que signifie réellement la « précision » dans ce contexte ?

Les taux de précision peuvent être différents de ce que vous pensez

Vous l’avez deviné, les taux de précision ne sont pas égaux : il y a une distinction importante à faire entre la « précision de la machine » et la « précision de la machine + de l’intervention humaine (HITL) », que beaucoup de gens ne prennent pas en compte lorsqu’ils évaluent une solution IDP. D’après mon expérience, la plupart des gens supposent que les taux de précision annoncés sont atteints par la machine seule. Or, c’est rarement le cas. Voyons pourquoi le traitement des exceptions par les humains est, en fait, non seulement inévitable dans presque tous les cas, mais aussi une étape essentielle du processus.

J’aimerais que vous considériez tous les documents qui entrent dans votre entreprise : sont-ils tous rédigés en caractères d’imprimerie lisibles, sans taches, sans mots manquants et autres erreurs ? Proviennent-ils tous du même fournisseur, se présentent-ils tous dans le même format et sont-ils tous rédigés dans la même langue ? Si la réponse à toutes ces questions est oui, alors l’IDP peut techniquement atteindre une précision de 100 %. Toutefois, ce scénario semble improbable pour les entreprises et les organisations gouvernementales qui traitent des milliers voire des millions de documents chaque année, n’est-ce pas ? Dès que vous introduisez une seule variation, il n’est pas réaliste d’escompter une précision de 100 % de la machine seule pour un volume élevé de documents.

Prenons l’exemple des factures. Elles se présentent sous de nombreuses formes et proviennent de nombreux fournisseurs, souvent différents. Pouvez-vous configurer votre solution IDP pour traiter des factures connues et atteindre des taux de précision élevés ? Oui, absolument, si vous disposez d’une bonne solution personnalisable. Mais que se passe-t-il si vous recevez une facture d’un nouveau fournisseur utilisant des tableaux complexes ou si l’un de vos fournisseurs existants modifie le format de sa facture ? Le taux de précision en sera affecté.

Intervention humaine (HITL)

Alors, quelle est la solution à ce problème ? Une intervention humaine. Les principaux systèmes d’IDP, comme Ephesoft, utilisent des règles de tolérance commerciale ou des scores de confiance lors de l’extraction des données. Par exemple, si notre système ne peut pas détecter une lettre ou une autre anomalie, il exclura le document concerné du processus sans contact et déclenchera une alerte d’exception pour un examen humain. Cela permet à l’utilisateur de garder le contrôle et de garantir en fin de compte des taux de précision élevés. En outre, Ephesoft Transact permet aux utilisateurs d’améliorer les résultats de l’extraction automatique des données au fil du temps. Ephesoft rend ce processus intuitif et facile pour l’utilisateur.

Améliorations au fil du temps

Avec l’aide de l’IA, les machines s’améliorent, car elles tiennent compte des variations et des erreurs dans les documents, et je suis sûr que nous verrons des progrès importants dans un avenir proche. Toutefois, dans l’état actuel des choses, un taux de précision de 100 % nécessite la présence d’un humain dans le processus (à moins que tous vos documents soient parfaits). Le fait est que le taux de précision dépendra de vos documents spécifiques ainsi que de la souplesse et de l’adaptabilité de votre solution IDP pour obtenir les meilleurs résultats pour votre ou vos cas d’utilisation particuliers.

Il faut le voir pour le croire

Je vous recommande de mettre votre solution IDP à l’épreuve avec des échantillons de documents et de voir les résultats plutôt que de vous fier aux statistiques de précision annoncées. Non seulement vous verrez les résultats directement, mais vous aurez aussi un avant-goût de la collaboration avec le fournisseur de solutions, ce qui devrait être un critère important dans votre choix.

Les rouages de l’automatisation et de la précision

Une autre dimension intéressante lorsque l’on discute de la précision spécifique à l’IDP est celle des différentes étapes que traverse un document pendant le processus d’extraction des données, chacune d’entre elles pouvant introduire des défauts de précision :

1) Traitement de l’image : au cours de cette étape, le système réduit, nettoie, fait pivoter et effectue d’autres ajustements sur l’image, ce qui est essentiel pour la qualité de lecture de l’image. S’il y a un problème à ce stade, la précision sera affectée plus tard. Ephesoft exploite les meilleures technologies de nettoyage d’images pour obtenir les résultats les plus optimaux.

2) Classification des documents : au cours de cette étape, le type de document entrant dans le processus est identifié ; cette étape est aussi communément appelée « indexation ». C’est là que le logiciel détecte si le document est, par exemple, un relevé bancaire, un formulaire fiscal, une carte d’identité, une facture ou tout autre type de document. Sachez qu’il existe des différences importantes dans les capacités de classification entre les fournisseurs d’IDP. Ephesoft Transact est reconnu pour fournir les méthodologies de classification les plus avancées avec un modèle entraînable par l’utilisateur pour la classification et la séparation des recherches AA, des modèles de classification AA pré-entraînés, la classification clé-valeur ainsi que la révision et les mises à jour des modèles de classification HITL.

3) Extraction des données : c’est à ce stade que l’on entre dans le vif du sujet. Le système extrait les données du document préalablement nettoyé et classifié. C’est ici que vous pouvez mesurer la véritable précision de la machine. Au cours de votre évaluation, veillez à examiner des cas réels et une bonne variété de documents pour votre ou vos cas d’utilisation spécifiques. Comme mentionné ci-dessus, une intervention humaine est importante ici pour traiter les exceptions et apporter des améliorations au système au fil du temps. Notez que certains fournisseurs d’IDP envoient les données à l’étranger pour remplacer leur extraction automatisée de données par une saisie manuelle des données en coulisse. Pour tous ceux qui possèdent des documents contenant des informations privées, cela peut poser des problèmes de conformité et de confidentialité des données.

Dans Ephesoft Transact, l’utilisateur peut consulter n’importe lequel de ses documents pour déterminer si les informations étaient correctes. Le système est doté d’un code couleur qui permet à l’utilisateur d’identifier facilement les documents qui n’ont pas été extraits avec précision des champs identifiés. Le résultat des données est influencé par l’étape précédente de traitement de l’image. En coulisses, l’application est programmée en fonction des règles commerciales et des niveaux de tolérance ou de confiance du client. En fonction du niveau, le client peut la configurer pour qu’il y ait toujours une intervention humaine ou pour que les données soient transmises directement si aucune erreur potentielle n’est détectée.

Points à retenir

Si les taux de précision sont essentiels pour l’évaluation de votre système IDP, ils ne sont pas aussi simples que vous pourriez le penser. Veillez à prendre en compte les différentes définitions de la précision et à comprendre ce qu’elles signifient pour vos besoins spécifiques, à court et à long terme.

Si vous souhaitez voir vos documents en action, envoyez-nous vos échantillons de documents et nous les traiterons sans frais pour vous ! Contactez-nous ici pour commencer.