Modern Data Platform

Tribune d'expert

Bienvenue dans l'ère de la modern data platform    

Pour être véritablement "data driven", une entreprise doit changer sa façon de stocker et de consommer les données. Associant performances et scalabilité, les cloud modern data platform sont appelées à se substituer au datawarehouse, cluster Hadoop et autres briques traditionnelles de Business Intelligence. Yves Cointrelle, Directeur Data & Analytics chez VISEO apporte un éclairage sur le sujet.

La crise sanitaire aura définitivement validé le passage au cloud. Alors que la période appelle à des changements rapides, les entreprises ne veulent plus être bridées par des contingences matérielles. Attendre des semaines voire des mois pour négocier l'achat de serveurs, puis les dimensionner et les configurer n'est tout simplement plus audible.

 

Le cloud permet, lui, de déployer des services instantanément sans se soucier des problèmes de performances. La puissance de calcul est potentiellement infinie avec pour seule limite la ligne budgétaire. Une stratégie « move to cloud » concernent de prime abord le volet infrastructure mais aussi les ERP et les applications métiers quand ils ne sont pas nativement cloud.

 

Les bases de données, les lacs de données, les solutions analytiques ou d’IA associées sont également appelées à monter dans le nuage. On parle alors de modern data platform. Un vocable qui vise à réconcilier les concepts de DataLake, datawarehousing ou Analytics dans un environnement analytique complet permettant de tirer toute la valeur des données internes ou externes

 

Les bases de données traditionnelles « on premises » sont massivement appelées à monter dans le nuage. L’ensemble de ces services regroupés dans le Cloud autour du domaine Data & Analytics se définissent comme des «  modern data platforms ». Un vocable qui vise à réconcilier les concepts de Data Lake,  datawarehousing et d’analytics  au sein de plateformes unifiées.

Le prolongement naturel du datawarehouse et des initiatives Big Data

La modern data platform constitue en quelque sorte un prolongement naturel des précédents entrepôts de données et des initiatives Big Data. Traditionnellement, ces solutions rassemblent un grand volume de données, brutes et raffinées que l'on active par des outils d'analyse, de requêtage ou d’IA.

 

Pour les entreprises qui devaient faire face à d’importants volumes de données l’alternative consistait à faire appel à des solutions dédiées logicielles et matérielles (appliances) afin de garantir de hautes performances. Très coûteuses, ces solutions conviennent à des cas d'usage vastes mais leurs coûts les ont restreintes dans les domaines des télécoms, du transport aérien ou de la distribution. L'approche big data consiste, elle, à placer dans un cluster Hadoop ou un Data Lake des données structurées et non structurées sans savoir à l'avance si l'entreprise en tirera de la valeur en trouvant les cas d'usage appropriés. Adaptées pour gérer des volumes importants, propices à exécuter des algorithmes d’IA, ces infrastructures ont progressivement vu leur usage remplacé par des solutions de type Data Lake ou compte de stockage cloud. Seuls les clients (par choix ou obligation) réfractaires au cloud ou ceux soucieux de portabilité de leur environnement continuent d’investir sur ces distributions qui sont en perte de vitesse.

 

Tous ces environnements sont majoritairement appelés à migrer dans le cloud et devenir des modern data platforms. Ce concept propose le meilleur des mondes, en réconciliant les forces et les faiblesses des plateformes existantes. Une cloud data platform peut traiter tout type de données - données de gestion, images, sons, vidéos, données issues de capteurs IoT… -, pour tous les utilisateurs, avec un haut niveau de performance élevé et une vraie facilité de mise en œuvre.

 

Cette nouvelle génération de plateformes couvre tout le cycle de vie de la donnée, de l'acquisition, l'organisation, la transformation le stockage et la gouvernance. Leur approche serverless permet de ne pas reproduire l'architecture hardware traditionnelle mais d'instancier des services cloud pour créer et interroger une base de données, faire de l'analytics (reporting, datavisualisation) ou recourir à des briques d'IA.

 

Avec la tarification propre au cloud, une entreprise ne paie que le temps nécessaire à un service de traitement du langage naturel, de reconnaissance d'images ou du calcul hautes performances sans avoir à investir dans une infrastructure ad hoc à l'année.

Les hyperscalers à la manœuvre

Réunissant l'ensemble des pièces du puzzle, les hyperscalers américains proposent cette approche avec Big Query pour Google cloud, Redshift pour AWS et Synapse Analytics pour Microsoft Azure. Ces environnements posent toutefois un risque d'enfermement propriétaire (lock-in) en ne permettant pas de passer d'un cloud à l'autre.

 

Pour assurer cette nécessaire portabilité, des éditeurs comme Snowflake proposent des services base de données managés agnostiques, fonctionnant quelle que soit la plateforme retenue. Les offres cloud de Teradata et d'Oracle concurrencent également les offres des hyperscalers.

 

Il est également envisageable de placer des bases de données traditionnelles (MySQL, PostgreSQL) en mode IaaS. Elles s'exécutent virtuellement dans le cloud, ce qui leur assure une certaine portabilité sans atteindre les niveaux de performances et de scalabilité des bases de données cloud natives.

 

La modern data platform ne se limite pas à la base de données. Elle comprend toute la partie ingestion, transformation, alimentation en amont mais aussi les outils de catalogage, de gestion de la qualité des données, de préparation et de datavisualisation des données. Pour la partie ETL/ELT, les hyperscalers proposent aussi leurs offres dédiées avec Azure Data Factory pour Microsoft, Dataflow de Google Cloud ou Glue d'AWS. Certaines organisations utilisent aussi Spark et Databricks comme plateforme d'intégration de données.

On trouve également les acteurs historiques Informatica et Talend ou des pure players comme Matillion nés avec le cloud.

Le cloud rebat les cartes au sein de la DSI

Ces changements structurants d'architecture ne sont pas sans incidence au sein de la DSI. Les administrateurs systèmes et les administrateurs de bases de données voient leurs compétences fortement évoluer tandis que de nouveaux rôles apparaissent. La dimension temps réel et data centric d'une modern data platform suppose, par exemple, qu'elle soit alimentée en données au fil de l'eau et non en systèmes batchés.

 

La consolidation voire la suppression de salles machines ou de datacenters peut conduire également à la suppression de postes liés à la supervision ou leur externalisation. Le passage à la modern data platform doit donc s'accompagner d'une stratégie de conduite du changement avec d'importantes actions d'upskilling et de reskilling. Dans le même temps, le cloud constitue un levier d'attraction et de rétention des talents, les jeunes informaticiens souhaitant naturellement travailler sur des environnements "up to date".

 

Enfin, une entreprise doit prendre en compte les coûts de cette cloudification dans leur globalité (TCO). Si dans certains cas d'usage, le cloud ne revient pas nécessairement moins cher, la gestion et la valorisation de la data, offre généralement des scenarii financièrement attractifs. Par ailleurs, l'entreprise ne se pose plus la question de la prédictibilité des coûts en tentant d'anticiper son volume de données à deux ou trois ans et la puissance de calcul associée. Encore un atout du cloud.

 

Télécharger l'ebook Cloud VISEO