Die Nachfrage nach Data Scientists oder auch Datenwissenschaftlern steigt. Und dennoch bleibt es schwierig, brauchbare Daten zu finden. Wie lässt sich diese Herausforderung meistern, um ein vollständiges Bild zu erhalten, das all die in der Technologie schlummernden Datenpunkte und Datenquellen berücksichtigt?
Eine kurze Suche nach „Data Scientist“ auf LinkedIn ergibt allein für die USA 30.968 Einträge von Unternehmen, die gerade frei gewordene oder neu geschaffene Stellen besetzen möchten. Dem Karriereportal „Glassdoor“ zufolge beträgt das Jahresgehalt für einen „Senior Data Scientist“ durchschnittlich 137.000 US-Dollar. Das ist nahezu das Dreifache des mittleren Einkommens von Angestellten in den USA (siehe Bericht des U.S. Bureau of Labor Statistics für das 4. Quartal 2018). Die Vorteile von Data Science liegen auf der Hand: Fundierte Datenanalysen liefern verwertbare Erkenntnisse, die Effizienzgewinne, Kosteneinsparungen und Umsatzsteigerungen ermöglichen. Angesichts des wachsenden Fachkräftebedarfs und der steigenden Gehaltsvorstellungen zeigt sich, dass Unternehmen wie auch staatliche Einrichtungen bereit sind, für Datenwissenschaftler und datengesteuerte Initiativen viel Geld in die Hand zu nehmen.
Doch eine ganze Armada an Datenwissenschaftlern erzielt nur bescheidene Ergebnisse, wenn sie nur einen Bruchteil der theoretisch verfügbaren Daten nutzen kann. Dies liegt daran, dass ausschließlich strukturierte Datensätze verwendet werden und keine Kombination aus unstrukturierten und strukturierten Daten. Im Gegensatz zu strukturierten Datensätzen, wie den in relationalen Datenbanken vorliegenden Informationen, liegen etwa 80 % aller Daten in unstrukturierter Form vor – und ihr Umfang wächst doppelt so schnell. Unstrukturierte Daten umfassen maschinenlesbaren Text, zum Beispiel Informationen aus E-Mails, Word-Dokumenten oder PDF-Dateien sowie Text- und Sofortnachrichten, aber auch Bilder, Videos sowie Satelliten- und Überwachungsdaten.
Wenn ein Hersteller Algorithmen einsetzt, um das Kaufverhalten von Verbrauchern zu prognostizieren, arbeiten Datenwissenschaftler vermutlich mit strukturierten Daten wie Kreditkartenzahlungen im Internet, Metadaten zu Käufen sowie Informationen, die automatisch erfasst und an Datenbanken gesendet werden. Doch was ist mit all den Informationen, die außerhalb der relationalen Datenbank erfasst werden? Was ist mit Produktbewertungen, die über die Website des Unternehmens abgegeben werden, oder Reklamationen, die per E-Mail über den Kundenservice erfolgen? Vielleicht wurde die Vereinbarung mit einem Materiallieferanten geändert, was sich nun auf den Verkaufspreis der Produkte auswirkt.
Wird eine intelligente Engine für die Erfassung eingesetzt, die Daten auch aus unstrukturierten Dokumenten und Inhalten im Unternehmen interpretieren und extrahieren kann, lassen sich solche wichtigen Datenpunkte ebenfalls bei Prognosen berücksichtigen. Damit steht Datenwissenschaftlern ein umfangreicherer Datensatz zur Verfügung, sodass alle vorhandenen Informationen in die Ergebnisse einfließen.
Nach üblichen Branchenangaben zufolge beinhalten etwa 60 % aller Geschäftsprozesse die Verarbeitung von Dokumenten. Damit haben dokumentenbasierte Prozesse bei organisatorischen Abläufen eine große Bedeutung. Deshalb können es sich Unternehmen nicht leisten, wichtige Inhalte zu vernachlässigen, die ihnen einen Wettbewerbsvorsprung sichern oder eine bessere Servicequalität ermöglichen. Es ist daher sinnvoll, die in Dokumenten verborgenen wertvollen Informationen zu erfassen und in die Datenbanken eines Unternehmens zu integrieren. Denn warum sollte eine Organisation ihren Datenwissenschaftlern Top-Gehälter zahlen, damit sie aus den Daten verwertbare Erkenntnisse gewinnen, wenn sie nur einen Bruchteil der verfügbaren Informationen nutzen können?
Damit Organisationen das echte Potenzial datengesteuerter Initiativen oder IT-Projekte realisieren, sollte die Erfassung von Inhalten integraler Bestandteil ihrer Datenstrategie sein. Führende Tools sollten Dokumente erfassen und interpretieren können – seien es interne oder externe Unterlagen. Auf Grundlage von Inhaltskategorien muss ein Erfassungstool in der Lage sein, wichtige Metadaten automatisch zu identifizieren und zu extrahieren. So können diese in die nachgelagerte Datenanalyse einfließen.
Theoretisch sind dies klare und scheinbar einfache Leitlinien. Doch in der Praxis ist die Erfassung von Inhalten eine Herausforderung. Nehmen wir Verträge als Beispiel für unstrukturierte Dokumente, die wertvolle Informationen enthalten. Kein Vertrag gleicht dem anderen. Selbst wenn Verträge auf ein und derselben Vorlage basieren, wie Miet- und Pachtverträge oder Vertraulichkeitsvereinbarungen, führt die individuelle Anpassung einzelner Bestimmungen, der Vertragsparteien oder der vom Rechtsanwalt eingefügten Ergänzungen dazu, dass sich das Dokument grundlegend ändert.
Damit Daten aus variablen Dokumenten erfasst werden können, sind maschinelles Lernen, die Verarbeitung natürlicher Sprache und gelegentlich auch Deep Learning erforderlich. Unternehmen mit Weitblick arbeiten daher eher mit einem Anbieter zusammenarbeiten, der innovative Erfassungslösungen einsetzt, mit denen sich unstrukturierte Inhalte wirklich analysieren und einordnen lassen. Werden die Möglichkeiten umfassender Datenanalysen voll ausgeschöpft, wirkst sich dies nicht nur auf die Arbeit der Datenwissenschaftler positiv aus, sondern auf die gesamte Organisation.
Sind Sie auf wachsende Datenmengen vorbereitet?