Sieht man sich die Entwicklung der Dokumentenerfassung – von manchen auch als intelligente Dokumentenverarbeitung bezeichnet – einmal an, erweisen sich die letzten paar Jahre als rasante Achterbahnfahrt. Mit dem Aufkommen moderner Supercomputer haben sich alle Akteure in der Branche – insbesondere die Newcomer – maschinelles Lernen und künstliche Intelligenz auf die Fahnen geschrieben und werben damit. In diesem kurzen Rückblick erfahren Sie, wie sich diese wegweisenden Technologien entwickelt haben, welche Ebene der Automatisierung sie jeweils bieten und wie es zum echten „Verstehen“ von Inhalten kommt.
Alte Schule
Schon seit Jahrzehnten gibt es Technologien, mit denen Dokumente erfasst werden können. Sie sind noch immer die Grundlage für die Systeme traditioneller Hersteller, die ihre Plattformen nicht weiterentwickelt haben.
Manuelle Klassifizierung und Dateneingabe
Die gute alte Reserve. Es ist erstaunlich, wie viele Organisationen Dokumente noch immer per Hand öffnen, von Mitarbeitern identifizieren und die Daten schließlich manuell eingeben lassen. Auf der Automatisierungsskala ist dies ganz unten anzusiedeln. Doch dieses Vorgehen funktioniert – wenn auch sehr langsam.
Barcodes
Die nächsthöhere Stufe der Skala besteht im Einsatz von Barcodes auf Dokumenten, um die Bearbeitung und Weiterleitung eingehender Dokumente zu automatisieren. Die Art der Inhalte und der darin enthaltenen Daten werden codiert. Beim Auslesen der Codes werden die Daten Feldern zugeordnet und automatisch extrahiert. Das Aufkommen von 2D-Barcodes wie QR-Codes, DataMatrix und PDF417 änderte die Spielregeln in der Branche, denn damit konnten große Datensätze in Daumengröße erfasst werden.
Optische Zeichenerkennung nach Zonen
Bei strukturierten, wiederkehrenden Dokumenten oder Formularen, in denen sich dieselben Daten stets an derselben Stelle befinden, ist eine optische Zeichenerkennung (OCR) nach Zonen möglich: Hierbei werden die Daten entsprechend ihrer Position in den Dokumenten automatisch extrahiert und Bilder in Text konvertiert.
Automatische Klassifizierung und Textabgleich
Die Verbindung von OCR mit erweitertem Musterabgleich gestattete es, umfassende Regeln zu erstellen, sodass die Suche nach bestimmten Textfolgen oder Kombinationen von Ankerwerten und Text möglich war. Dies wurde nicht nur für die Klassifizierung von Dokumenten eingesetzt. Auf diese Weise war die Suche nach bestimmten Informationen möglich, unabhängig davon, wo sich diese auf der Seite befanden. Mit diesem Ansatz konnten Dokumente bearbeitet werden, deren Struktur und Layout stark voneinander abwichen.
Die Neuen
Höhere Rechenleistung und schnellere Technologien ebneten der modernen Data Science den Weg. Deren Modelle spornen Organisationen im Rennen um die „Dokumentenintelligenz“ an. Inzwischen ist künstliche Intelligenz nicht bloß bei Dokumenten gefragt, sondern auch bei allen Arten von Inhalten – von Bildern und Dokumenten über E-Mails, PDF-Dateien und Videos.
Maschinelles Lernen
Der letzte Schrei ist anscheinend nun ein System, das sich für die Ausführung dokumentenspezifischer Aufgaben trainieren lässt. Maschinelles Lernen ist zurzeit angesagt – seien es Administratoren oder Spezialisten, die Beispielbilder hochladen, oder Endanwender, die einem System beibringen, wo die benötigten Daten zu finden sind. Inzwischen scheint es die Norm zu sein, Modelle für die Verarbeitung von Dokumenten zu entwickeln. Doch viele Systeme bleiben hinter den Erwartungen zurück. Ihrer Steuerung mangelt es an Granularität und sie funktionieren wie eine Blackbox.
Dimensional Deep Learning und Natural Language Processing
Machen wir uns nichts vor: Dokumente sind schwer zu knacken. Man braucht nur daran zu denken, wie wir Menschen Dokumente interpretieren: Wir stützen uns auf unsere Erfahrung, auf Hinweise im Text, unsere Kenntnisse der Geschäftssprache und die Interpretation des Layouts. Nach diesen und viele andere Faktoren – oder auch „Dimensionen“ – ordnen wir Dokumente und ihre Bedeutung ein. Nur sehr wenige Unternehmen stoßen in diese Sphären vor und setzen die unterschiedlichsten Aspekte der Dimensionsanalyse ein. Dies und Natural Language Processing – die maschinelle Verarbeitung natürlicher Sprache – sind die angesagten Technologien beim Sprint der intelligenten Bearbeitung zur Ziellinie.
Was bringt die Zukunft und welche Entwicklung ist zu erwarten?
Welche Richtung wird die Branche einschlagen? Was zeichnet sich am Horizont ab? Steht bereits eine Technologie in den Startlöchern, mit der sich die Spielregeln erneut deutlich ändern könnten? Ich persönlich gehe davon aus, dass es bis Jahresende einige große Ankündigungen mit bahnbrechenden Technologien geben wird, die über die Ansätze hinausgehen, die derzeit das Rennen bestreiten. Setzen Sie sich weiter für die digitale Transformation mittels intelligenter Lösungen ein, aber belassen Sie es nicht dabei. Angesichts der technologischen Weiterentwicklung sollten Sie stets Ausschau nach den aktuellen Ansätzen halten.
Sie folgen uns noch nicht auf LinkedIn und Twitter? Dann sollten Sie das unbedingt ändern: So bleiben Sie auf dem Laufenden, was sich in der Branche tut.