Avec l’apparition et le développement du Big Data, le data lake est de plus en plus utilisé par les entreprises pour stocker leurs données. Il est également vu comme une vision plus moderne du Datawarehouse. Mais le data lake peut-il réellement remplacer le data warehouse ? Quelles sont ses caractéristiques ? Peut-il être utilisé comme référentiel opérationnel ?
Data lake vs data warehouse
Par définition, le data lake, ou lac de données, permet de stocker une très large quantité de données brutes pour une durée indéterminée, sans qu’un schéma d’organisation ne leur soit imposé. Toutes les données d’une entreprise peuvent être stockées dans un data lake unique : les données brutes côtoient les données transformées.
Les data warehouses (ou entrepôts de données) quant à eux, permettent de stocker l’ensemble des données fonctionnelles de l’entreprise de manière organisée et structurée. Les données sont donc traitées et directement exploitables par les différents utilisateurs selon leurs besoins, via des statistiques et des outils de reporting.
Les atouts du data lake
Le data lake permet de gérer de grand volumes de données à bas coûts. L’idée de base est d’avoir un endroit unique collectant et archivant toutes les données de l’entreprise. Il s’agit souvent de données brutes, mais ce peut être des données structurées également. Les utilisateurs peuvent donc disposer de plus de flexibilité quant à l’analyse de ces données, sans contraintes de schéma prédéterminé. Mais ils doivent également avoir une grande maîtrise des datas manipulées. C’est en effet à chacun de matérialiser son besoin et d’extraire les données des différentes sources et de les analyser.
Autre avantage non négligeable, cette solution permet de disposer en temps réel des données de l’entreprises. Le data lake est perçue comme une véritable révolution pour les entreprises utilisant de plus en plus l’IoT. En effet, les données de tous les capteurs peuvent être rapidement restituées dans une base unique. Les applications métiers peuvent donc interagir directement dans le référentiel, sans perte de temps. Les données ne subissant aucune contrainte de schéma peuvent être exploitées dans leur intégralité, favorisant ainsi l’innovation.
Le data lake, la solution optimale ?
Les entreprises ont rapidement trouvé dans le data lake la solution à leurs problèmes de stockage, mais également de croisement de données. La plupart envisagent même de renoncer à leurs data warehouses. Or, comme toutes les solutions, les datas lakes présentent des limites.
En effet, l’atout d’une stratégie de Big Data est de disposer de données que l’on peut trier, classer et qualifier. Or dans un data lake, les données sont brutes, toutes les datas de toutes les sources sont réunies dans un seul et même référentiel, rendant complexe la gestion des informations. Sans capacité à organiser et hiérarchiser les données, le désordre peut rapidement prendre le dessus.
Avec les datas lakes, les entreprises pensent qu’elles peuvent stocker toutes les données, quelle que soit leur provenance. Cependant, cela présente un risque au niveau des lois des différents pays. On ne peut donc pas les stocker comme si de rien n’était. Le manque de tri et de hiérarchisation des données peut accentuer ce problème. Il est donc important de disposer des ressources en interne pour maîtriser ces problématiques, notamment en ces temps de RGPD.
Il est également primordial de définir une véritable stratégie et de ne pas stocker des données inutilement. Rien ne sert de se focaliser sur des informations dont l’entreprise ne se servira jamais. Concentrez-vous sur les projets importants. Ce processus permettra de créer des données avec de la valeur pour prioriser ensuite les informations à votre disposition.
Le principal défi n’est pas de créer un data lake, mais de tirer profit des opportunités qu’il présente. En d’autres termes, les data lakes n’ont pas vocation à remplacer les data warehouses. Chacun répondant à des besoins distincts : le data lake accueille des données sans organisation prédestinée pour pouvoir les utiliser sans besoin identifié alors que les data warehouses sont structurés pour des requêtes que l’on connaît à l’avance. Ils ont donc vocation à cohabiter ensemble au sein des entreprises.