Nous constatons une augmentation de la demande en data scientists, mais trouver des données utilisables reste un défi. Comment résoudre ceci pour obtenir une image complète de l’utilisation de points de données et de sources multiples dans votre infrastructure technologique ?
Une recherche rapide de « Data Scientist » sur LinkedIn donne 30 968 entrées pour les entreprises cherchant à pourvoir des postes récemment vacants ou nouvellement créés rien qu’aux États-Unis. Selon Glassdoor, le salaire moyen national d’un senior data scientist est de 137 000 $. C’est près de trois fois le revenu moyen national d’un salarié (comme l’indique un rapport du Bureau of Labor Statistics pour le quatrième trimestre 2018). Les avantages de l’utilisation de la science des données pour améliorer l’efficacité, réduire les coûts et augmenter les revenus sont clairs. Compte tenu de la demande d’emploi et des attentes salariales, il est évident que les organisations commerciales et les organismes gouvernementaux sont prêts à investir dans les data scientists dans des initiatives axées sur les données.
Mais une équipe de data scientists sur le fichier des salaires aura un effet minimal sur une organisation si elle ne travaille qu’avec une partie des données théoriquement disponibles. Ce dilemme découle de la nature du travail qui consiste à travailler exclusivement avec des données structurées plutôt qu’avec une combinaison de données non structurées et d’ensembles de données structurés. Par rapport à un ensemble de données structurées (représentant l’information qui existe dans les applications de bases de données relationnelles), les données non structurées totalisent plus de 80 % de toutes les données et connaissent une croissance deux fois plus rapide. Les données non structurées comprennent le texte lisible par machine (comme l’information contenue dans les e-mails, les documents Word, les fichiers PDF et la communication, telle la messagerie texte et instantanée) ainsi que les images, vidéos, données satellite et de surveillance.
Lorsqu’il exécute un algorithme prédictif sur les tendances d’achat des consommateurs pour une entreprise, un data scientist travaille probablement uniquement avec les données structurées générées par les transactions par carte de crédit en ligne, les métadonnées d’achat et les informations automatiquement enregistrées et envoyées à l’entrepôt de données. Mais qu’en est-il de toutes les traces en dehors de cette base de données relationnelle ? Peut-être y a-t-il des critiques de produits enregistrées sur le site Web de l’entreprise ou des plaintes d’acheteurs envoyées au service clientèle par e-mail. Il pourrait y avoir une entente révisée avec un fournisseur de matériaux ayant une incidence sur les prix courants des produits.
Grâce à la capture intelligente qui interprète et extrait les données des documents non structurés et du contenu organisationnel, ces points de données vitaux peuvent être inclus et pris en compte pour une analyse prédictive. Les data scientists disposeront d’un ensemble de données plus complet et seront donc en mesure de fonder les résultats sur l’utilisation de toutes les données disponibles.
Une statistique courante de l’industrie affirme que 60 % de tous les processus commerciaux impliquent des documents. Étant donné qu’une si grande partie du fonctionnement d’une organisation repose sur des processus basés sur des documents, il serait peu judicieux de ne pas tenir compte des textes essentiels qui pourraient aider les organisations à être plus concurrentielles ou à offrir une meilleure expérience client. N’est-il pas logique de capturer les données précieuses conservées dans des documents pour les intégrer dans l’entrepôt de données d’une organisation ? Pourquoi payer tant pour un data scientist qui transforme des séries de données en informations exploitables s’il n’a accès qu’à une partie de l’information disponible ?
Pour vraiment réaliser le potentiel de toute initiative axée sur les données ou de tout projet de technologie de l’information, les organisations devraient considérer la capture de contenu comme faisant partie intégrante de leur stratégie des données. Les principaux outils devraient être capables d’ingérer et d’interpréter des documents, quel que soit leur emplacement – documents internes ou externes. En fonction de la catégorisation du contenu, un outil de capture devrait automatiquement identifier et extraire les métadonnées clés aux fins de l’analyse des données en aval.
En théorie, il s’agit de lignes directrices apparemment simples. Mais dans la pratique, la capture de contenu est un défi. Considérez, par exemple, les contrats comme un type de document non structuré dans lequel sont stockées des informations précieuses. Il n’y a pas deux contrats qui se ressemblent. Même à partir du même modèle – un bail, un contrat de location ou une non-divulgation mutuelle – des changements apportés entre les termes, les parties contractuelles ou les addendas ajoutés par le conseiller juridique peuvent modifier radicalement la nature du document.
La collecte de données à partir de documents variables nécessite un apprentissage automatique, un processus de langage naturel et, parfois, un apprentissage approfondi. Les entreprises ambitieuses choisiront de s’associer et d’acheter auprès de fournisseurs de capture qui utilisent une technologie innovante pour vraiment comprendre et organiser le contenu non structuré. L’exploitation du plein potentiel de l’analyse des mégadonnées permettra non seulement d’optimiser le travail des data scientists, mais fera aussi profiter l’ensemble de l’organisation.
Êtes-vous prêt pour plus de données ?