Überlegungen zur Genauigkeit der Datenextraktion und umsetzbare Schlussfolgerungen

Über die Genauigkeit intelligenter Dokumentenverarbeitungslösungen (IDP) wird viel diskutiert und spekuliert. Ich bin sicher, Sie haben schon Behauptungen gesehen, die sich mit 80 %, 90 % und sogar 100 % Genauigkeit und allem dazwischen brüsten. Die wichtige Frage, die sich hier stellt, ist, was bedeutet „Genauigkeit“ in diesem Zusammenhang eigentlich?

Genauigkeitsraten können anders sein, als Sie denken

Sie haben es erraten, Genauigkeitsraten sind nicht alle gleich. Es gibt einen wichtigen Unterschied zwischen „maschineller Genauigkeit“ und „maschineller und menschlicher Genauigkeit“, den viele Menschen bei der Bewertung einer IDP-Lösung nicht berücksichtigen. Meiner Erfahrung nach gehen die meisten Menschen davon aus, dass die angepriesenen Genauigkeitsraten allein von der Maschine erreicht werden – dies ist jedoch nur selten der Fall. Lassen Sie uns einen Blick darauf werfen, warum die Behandlung von Ausnahmen durch den Menschen in fast allen Fällen nicht nur unvermeidlich, sondern sogar ein entscheidender Schritt in diesem Prozess ist.

Betrachten Sie einmal alle Dokumente, die in Ihr Unternehmen gelangen: Sind sie alle maschinenlesbar, ohne Flecken, fehlende Wörter oder andere Fehler? Stammen sie alle vom gleichen Anbieter, haben sie das gleiche Format und die gleiche Sprache? Wenn die Antwort auf alle Fragen „Ja“ lautet, ist eine 100-prozentige Genauigkeit technisch möglich. Für Unternehmen und Behörden, die jedes Jahr Tausende oder Millionen von Dokumenten verarbeiten, ist dies jedoch kein wahrscheinliches Szenario. In dem Moment, in dem Sie nur eine einzige Abweichung einführen, ist eine 100-prozentige Genauigkeit, die von der Maschine allein erreicht wird, bei einer großen Anzahl von Dokumenten nicht realistisch.

Nehmen wir zum Beispiel Rechnungen. Sie kommen in vielen Formen und von zahlreichen, oft unterschiedlichen Anbietern. Können Sie Ihre IDP-Lösung so einrichten, dass sie bekannte Rechnungen verarbeitet und hohe Genauigkeitsraten erzielt? Ja, absolut, wenn Sie eine gute, anpassbare Lösung haben. Was aber, wenn Sie eine Rechnung von einem neuen Lieferanten erhalten, der komplexe Tabellen verwendet, oder wenn einer Ihrer bestehenden Lieferanten sein Rechnungsformat ändert? Das wird sich auf die Genauigkeit auswirken.

Human in the loop (HITL)

Was ist also erforderlich, um dieses Problem zu lösen? Ein Mensch im Prozess, d.h. ein Human in the loop. Führende IDP-Systeme wie Ephesoft verwenden bei der Datenextraktion geschäftliche Toleranzregeln oder Vertrauenswerte. Wenn unser System z. B. einen Buchstaben oder einen anderen Fehler nicht erkennen kann, wird das jeweilige Dokument aus dem automatischen Prozess herausgenommen und eine Ausnahmemeldung zur Überprüfung durch einen Mitarbeiter ausgelöst. Auf diese Weise behält der Anwender die Kontrolle und gewährleistet im Endergebnis hohe Genauigkeitsraten. Darüber hinaus ermöglicht Ephesoft Transact den Benutzern, die Ergebnisse der automatischen Datenextraktion im Laufe der Zeit zu verbessern. Ephesoft macht diesen Prozess für den Anwender intuitiv und einfach.

Verbesserungen im Laufe der Zeit

Mit Hilfe von KI werden Maschinen sicherlich zunehmend in der Lage sein, Abweichungen und Fehler in Dokumenten auszugleichen, und ich bin sicher, dass wir in naher Zukunft erhebliche Fortschritte sehen werden. Beim heutigen Stand der Dinge ist für eine 100-prozentige Genauigkeitsrate jedoch ein Mensch erforderlich (es sei denn, Sie haben nur perfekte Dokumente). Tatsache ist, dass die Genauigkeitsrate von Ihren spezifischen Dokumenten abhängt und davon, wie flexibel und anpassungsfähig Ihre IDP-Lösung ist, um die besten Ergebnisse für Ihren speziellen Anwendungsfall zu erzielen.

Probieren geht über Studieren

Ich empfehle Ihnen, Ihre IDP-Lösung anhand von Beispieldokumenten zu testen und sich die Ergebnisse anzusehen, anstatt sich auf die angepriesenen Genauigkeitsstatistiken zu verlassen. Sie werden nicht nur die Ergebnisse aus erster Hand sehen, sondern auch erfahren, wie die Zusammenarbeit mit dem Lösungsanbieter ist, was ein wichtiges Kriterium in Ihrem Auswahlprozess sein sollte.

Das Innenleben von Automatisierung und Genauigkeit

Ein weiterer interessanter Aspekt bei der Betrachtung der Genauigkeit im Zusammenhang mit IDP sind die verschiedenen Phasen, die ein Dokument während der Datenextraktion durchläuft und die jeweils zu Fehlern bei der Genauigkeit führen können:

1) Bildverarbeitung – In dieser Phase normalisiert, bereinigt, dreht und nimmt das System andere Anpassungen am Bild vor, die entscheidend dafür sind, wie gut es gelesen werden kann. Wenn an dieser Stelle ein Problem auftritt, wird die Genauigkeit in der Folge beeinträchtigt. Ephesoft nutzt die besten Bildbereinigungstechnologien der Branche, um optimale Ergebnisse zu erzielen.

2) Dokumentenklassifizierung – In dieser Phase wird der in den Prozess eintretende Dokumententyp identifiziert; sie wird auch als „Indizierung“ bezeichnet. Hier erkennt die Software, ob es sich bei dem Dokument z. B. um einen Kontoauszug, ein Steuerformular, einen Personalausweis, eine Rechnung oder einen anderen Dokumententyp handelt. Beachten Sie, dass es bei den IDP-Anbietern erhebliche Unterschiede bei den Klassifizierungsfunktionen gibt. Ephesoft Transact bietet bekanntlich die fortschrittlichsten Klassifizierungsmethoden mit einem vom Benutzer trainierbaren Modell für ML-Suchklassifizierung und -trennung, vortrainierten ML-Klassifizierungsmodellen, Key-Value-Klassifizierung und HITL-Klassifizierungsprüfung sowie Modellaktualisierungen.

3) Datenextraktion – In dieser Phase geht es ans Eingemachte. Das System extrahiert die Daten aus dem zuvor bereinigten und klassifizierten Dokument. Hier können Sie die tatsächliche Maschinengenauigkeit messen. Achten Sie bei Ihrer Bewertung darauf, dass Sie reale Dokumente und eine Vielzahl von Unterlagen für Ihre speziellen Anwendungsfälle betrachten. Wie bereits erwähnt, ist der Mensch im Prozess wichtig, um Ausnahmen zu bearbeiten und das System im Laufe der Zeit zu verbessern. Beachten Sie, dass einige IDP-Anbieter die Daten ins Ausland schicken, um ihre automatisierte Datenextraktion durch manuelle Dateneingabe hinter den Kulissen zu ersetzen. Für alle, die Dokumente mit privaten Informationen haben, kann dies zu Problemen mit der Einhaltung von Vorschriften und dem Datenschutz führen.

In Ephesoft Transact kann der Benutzer jedes seiner Dokumente ansehen, um festzustellen, ob die Informationen korrekt waren. Das System ist farbcodiert, damit der Benutzer leicht erkennen kann, ob es Dokumente gibt, bei denen die identifizierten Felder nicht korrekt ausgewertet wurden. Die Ausgabe der Daten wird durch den vorherigen Bildverarbeitungsschritt beeinflusst. Hinter den Kulissen wird die Anwendung auf die Geschäftsregeln und Toleranz- oder Vertrauensstufen des Kunden programmiert. Je nach Stufe kann der Kunde die Anwendung so einrichten, dass sie immer eine HITL ausgibt oder die Daten direkt durchlässt, wenn keine potenziellen Fehler entdeckt werden.

Fazit

Genauigkeitsquoten sind zwar für die Bewertung Ihres IDP-Systems von entscheidender Bedeutung, aber sie sind nicht so einfach zu interpretieren, wie Sie vielleicht denken. Achten Sie darauf, die verschiedenen Definitionen von Genauigkeit zu berücksichtigen und zu verstehen, was sie für Ihre spezifischen Anforderungen sowohl kurz- als auch langfristig bedeuten.
Wenn Sie Ihre Dokumente in Aktion sehen möchten, senden Sie uns Ihre Beispieldokumente und wir bearbeiten sie kostenlos für Sie! Kontaktieren Sie uns noch heute, um loszulegen.