Que manque-t-il au big data ?

Que manque-t-il au big data ? Une donnée continue et opérationnalisable

Ville de nuit traversée par une artère lumineuse dont la vitesse est accélérée

La continuité de la donnée, c’est s’assurer à tout moment qu’en quasi-temps réel tous les systèmes sont à jour avec des données pertinentes et fraîches. L’opérationnalisation de la donnée, c’est le fait de réinjecter une donnée, obtenue par traitement, dans les systèmes. En termes plus clairs, ces deux concepts introduisent des données bien gouvernées, bien exposées, bien injectées dans les systèmes et bien exploitées et réexploitées à de multiples fins. Retour sur le processus technologique et intellectuel qui aboutit à ça.

Un mouvement de simplification du traitement de la donnée

Les entreprises pratiquent le traitement de données de toute éternité pour faire du reporting et se faire aider dans la prise de décision. Si l’on prend un peu de recul et que l’on observe l’architecture générale, on se rend bien compte que tout l’édifice empile des technologies ultras spécialisées, de plus en plus complexes, introduites au fil du temps (Hadoop, Spark, Hive, etc.). Outre les problématiques lourdes de gouvernance apparues plus ou moins au stade des datalakes, les entreprises ont encore aujourd’hui beaucoup de mal à manipuler ne serait-ce que les concepts.

Mais, depuis quelque temps, il existe une situation intermédiaire où lakehouse et cloud datawarehouse ont pour vocation de remettre les données, structurées et non structurées, dans un entrepôt centralisant et interrogeable tout simplement avec du SQL (on citera par exemple BigQuery chez GCP, Databricks ou encore Snowflake). De quoi faire soupirer de soulagement nombre d’organisations.

C’est peut-être le sens de l’histoire et peut-être fallait-il atteindre le paroxysme de la complexité pour revenir à plus de sobriété technique, mais c’est en tout cas ce qui se dessine, à travers toute une mouvance de simplification et le retour à l’exploitation d’outils pour lesquels les entreprises disposent de compétences en interne, comme les bases de données SQL.

Cette facilitation et cette convergence des technologies sont toujours à saluer au bénéfice des entreprises. D’autant qu’elles entraînent dans leur sillage des concepts de continuité et d’opérationnalisation propres à concrétiser la circulation de la donnée au service du business des entreprises.

Créer une autoroute de la donnée et favoriser sa continuité

Décentraliser la gouvernance


On a, jusqu’ici, toujours décorrélé les métiers des données qu’ils produisent. Ce qui paraît absurde puisque cela aboutit à retirer aux métiers la responsabilité de la qualité de cette donnée (fraîcheur, pertinence, etc.), à les tenir éloignés de la culture data et à confier le contrôle des accès à d’autres.
Il faut donc empêcher cette rupture et disposer d’une organisation où la gouvernance de la donnée devient applicable dans les faits. Le concept de producteur de données, apparu relativement récemment, et avec lui des architectures de type datamesh permettent de mettre en commun toutes les données pertinentes, quel que soit le domaine, tout en laissant la maîtrise de la qualité et des accès aux mains des producteurs de données.

Recentraliser la donnée


L’organisation de l’entreprise en silos applicatifs nécessite le développement d’interfaces pour que les systèmes (parfois propriétaires) interagissent. L’empilement de ces interfaces et la nouvelle complexité qu’il introduit ont comme un parfum de déjà-vu. Les entreprises se plaignent de ne pas maîtriser leurs propres données et elles ont raison de s’en plaindre.
L’objectif alors est de s’affranchir des systèmes (mal communicants) pour centraliser la donnée (dans les fameuses architectures ouvertes que sont les data lakehouses) et l’exposer simplement. Bénéfices de l’approche : une consommation des données sans développements complexes et la simplification des processus à chaque changement de brique applicative.

Propager la donnée


Enfin, le temps réel devient un besoin important pour propager la donnée mise à jour aux systèmes, sans latence. Les entreprises utilisatrices de nombreuses applications disparates sont particulièrement intéressées par cette notion de continuité de la donnée. Une solution basée sur des événements se révèle l’option la plus efficace, à laquelle les applications s’abonnent afin d’être informées en temps réel des modifications apportées aux données qu’elles exploitent et agir en fonction (publication/souscription).

Puis opérationnaliser la donnée

Gouvernance décentralisée, exposition de la donnée centralisée, propagation aux systèmes en temps réel et… opérationnalisation de la donnée. Les traitements (analytiques ou prédictifs) donnent lieu à des produits de données que l’on voudra également réinjecter dans les systèmes, sans quoi le processus présente un peu moins d’intérêt (bien que s’affranchir des trop nombreuses interfaces et profiter de la continuité sont déjà des progrès majeurs).

Le traitement de données multidomaines (en provenance de plusieurs métiers, les domaines dans la sémantique du datamesh) débouche sur une nouvelle création de valeur, réinjectée dans les systèmes et exploitable au titre de nouveaux axes d’amélioration, d’optimisation (réduire les cycles de conception par exemple), de replanification voire de nouveaux services.

Ces produits de données sont considérés comme un produit fini, à part entière, évidemment monétisable, en interne d’une part mais aussi à l’extérieur. Les entreprises profiteront alors des plateformes de data exchange françaises qui fleurissent sur le marché, sous l’impulsion européenne notamment et qui proposent d’intéressants modèles d’affaires.

Une vraie réponse, des cas d’usages multiples

On le constate, il y a plusieurs enjeux autour de la continuité et de l’opérationnalisation de la donnée : un premier enjeu de simplification et de modernisation de la communication de la donnée et qui repose principalement sur cette notion de continuité ; un deuxième propre à la mise en commun de cette donnée, exploitable de manière centrale, gouvernée localement et associée à des critères de qualité, que l’on retrouve au cœur de la notion de datamesh (maillage de données) ; un troisième enfin, qui repose sur la réexploitation des données multidomaines en tant que produits de données.

Ces trois aspects ont toutefois un dénominateur commun, le métier. Franck Mourlot, Head of Product Management chez SCC Hyperscale en donne plusieurs exemples : « L’opérationnalisation de la donnée, c’est ajouter plus de prédiction et injecter du traitement analytique dans des systèmes qui n’en sont pas capables aujourd’hui. C’est une réponse à des objectifs business tout à fait identifiés. Mais cela peut concerner d’autres problématiques tout aussi tangibles comme la qualité. Les grandes entreprises travaillent avec des centaines de sous-traitants, dont l’accès à une information parfaitement à jour est une des clés de cette qualité, mais également de la sécurité et certainement de l’innovation, à n’en pas douter ».

Pour l’heure, le processus de corrélation de la donnée reste lent et coûteux, parce que les traitements sont encore trop manuels. Le désir d’instantanéité exige de l’automatisation. L’automatisation suppose la continuité de la donnée et son opérationnalisation. Aujourd’hui, les technologies le permettent, dans une dynamique de simplification et de culture data qui devrait faire son chemin.

L'Actualité Software: spécial VMware

Lire le prochain article

Bannière sur fond de data avec le logo broadcom et vmware