Le concept de data lake - Master Intelligence Economique et Stratégies Compétitives

Qu’est-ce que le Data Lake ?

Le terme « Data Lake » avait déjà été utilisé au début des années 2000 dans un écrit de Dorian Pyle « Data Préparation for Data Mining ».

Ce n’était qu’un simple système capable de stocker toutes les informations et les données existantes sous n’importe quelle forme. Cependant, pour leur donner du sens il fallait que ce data Lake soit manipulable et partageable. A la différence des autres systèmes de stockage, c’est un environnement où l’on se déplace vers la donnée plutôt que d’amener la donnée vers nous.

Un nouveau critère est apparu dans l’approche du Data Lake, celui de la gouvernance des données. Ce critère donne notamment la possibilité de centraliser les données des entreprises. Il permet de condenser et de faire converger l’ensemble des données utiles dans un même système de stockage. Les données peuvent prendre des formes diverses comme des CRM, extraits de journaux, de réseaux sociaux, mails, données géo-localisées, etc. Le stockage de données brutes permet donc de les utiliser sans en modifier le sens pour les prochains utilisateurs. Ce modèle de stockage est très prisé de ceux qui préfèrent stocker des informations avant de les utiliser. Pour cette catégorie de personnes, ce système permet de décider ultérieurement de la valeur accordée aux données. A ce moment-là on passe du Data Lake au Data Brain (Système empirique possédant la capacité de se projeter).

Le Data Lake seul ne dégage pas de valeur ; l’information est seulement stockée en attendant d’être utilisée. La valeur que l’on va donner aux informations, elle, sera appliquée à tout le système mis en place. Le Data Lake peut donc faire partie du cycle essentiel de l’information. La collecte de données brutes combinées à nos connaissances va faire émerger des informations utiles à toute activité.

Il est possible d’aller plus loin dans l’utilisation de cette centralisation d’informations en les reliant avec des données sans rapport immédiat, comme par exemple la météo, la pollution de l’air ou encore avec le trafic urbain. Ceci permet d’établir une « perspicacité prédictive ».

C’est en maitrisant la collecte et le stockage de données qu’on peut constituer un Data Brain.

Le Data Lake est plus simple et moins coûteux que l’ancienne approche ; le Data Warehouse, mis en place par la DSI. Le Data Lake, qui possède une souplesse d’utilisation en termes de structure et d’ouverture. Ici on stocke l’information brute, telle qu’elle, sans modification. On l’emmagasine et ce n’est que plus tard, lorsqu’on décidera de résoudre un problème, que l’on trouvera de la valeur à l’information brute stockée par le Data Lake. « Le Data Lake fait tomber les silos de données qui existent dans les systèmes d’informations traditionnels ». Il fait interagir deux types de données, les structurées et les non structurées, c’est à dire les données émises par des capteurs historiques de commandes avec des données provenant de fichiers pdf, de conversations etc.

Ajouter de nouvelles données même en grande quantité ne remet pas en cause le dimensionnement des ressources informatiques comme c’était le cas pour le Data Warehouse. L’infrastructure Hadoop est capable de s’étendre à l’infini ; il suffit d’ajouter de nouveaux serveurs de stockage pour accroitre la capacité du système.

Avec le data Lake, l’analyse de données devient opérationnelle

Les Atout d’un Data Lake :

La gouvernance des données dans le Data Lake est un enjeu majeur dans son fonctionnement. Dans l’ancienne organisation du Data Warehouse, la structuration des données impose aux collaborateurs de les utiliser à travers les règles imposées à la création de cette structure.

Le Data Lake impose une structure aux données uniquement lorsqu’elles sont utilisées afin de garder l’ensemble du potentiel des données originelles. Ce type de structure nécessite des outils et des compétences beaucoup plus pointus pour parvenir à utiliser et exploiter les données.

Disposer d’une puissance de calcul associée au stockage de données permet d’épurer les données pour les rendre plus facilement et directement déclinables en fonction de ce que l’on souhaitera en faire par la suite.
Les outils intégrés permettent de faire un travail de Data Scientist (traiter et valoriser les données massives du Big Data, gérer les informations entrantes et les utiliser à des fins commerciales). Ce type de plateforme permet aux analystes d’avoir une approche proactive de leur environnement.

Cette structure convient très bien aux données qu’on souhaite conserver mais dont on ne connaît pas encore l’usage. Quand on sauvegarde une donnée brute et sans structure, elle reste « vierge », ce qui offre la possibilité de plusieurs analyses différentes. Ce n’est qu’au moment de l’analyse des données que le « lac de données » se regroupe et qu’une éventuelle structure est créée.

Cependant, l’inconvénient majeur du Data Lake est qu’il n’est pas adapté à l’analyse répétitive car chaque nouvelle recherche implique de créer une nouvelle structure et de recalculer chaque donnée.

En résumé : Le Data Lake est utile pour stocker de gros volumes de données dont on ne connaît pas les liants. Il est complémentaire au data Warehouse qui reste encore la structure la plus adaptée aux analyses comparatives et surtout répétitives de données

Les acteurs ainsi que les solutions techniques :

Le Hadoop (conçu en 2004 par Doug Cutting) est un Framework Open source mis en place pour traiter des volumes massifs de données.

Le Hadoop utilise le principe des grilles de calcul qui consiste à répartir l’exécution d’une tâche en plusieurs « nœuds » ou « grappes » de serveurs ». Cette architecture permet le découpage de données en plusieurs parties qui seront chacune stockées sur des serveurs différents. La distribution d’informations permet ainsi de répartir leur analyse et leur traitement sur l’ensemble des nœuds de calcul. L’usage de cet outil apparaît donc comme évident pour construire un Data Lake même si ce n’est pas la seule solution possible. Cependant, de nombreux autres défis sont à relever et de nombreux problèmes doivent être résolus afin de mettre en place une plateforme comme celle du data Lake. Ce n’est pas seulement un problème de stockage mais aussi de traitement de données, de besoins en périphérique comme la data-science et surtout l’importance et le traitement des données et informations en temps réel afin d’être proactif.

Exemple d’application :

Microsoft vient de lancer un nouveau produit, le Microsoft Azure qui serait un nouveau service d’analyse. En effet ce service permet de stocker tous types de fichiers quelle que soit leur taille. Son principe est simple, il nous permet d’écrire nos requêtes sur l’ensemble de nos flux d’informations pour en extraire les informations pertinentes et utiles à notre projet.

Les données peuvent être partagées en toute sécurité tout en restant accessibles pour le traitement et l’analyse. Des données issues de capteurs et de dispositifs liés au net, applications mobiles ou de sites d’achats en ligne sont enregistrables sans restrictions quant à la taille du fichier.

Ce produit est un Clusters Hadoop, Spark, HBase et Storm. Il a également pour but de faciliter l’utilisation de Hadoop en lui permettant de chercher les données voulues dans une masse de données.

Microsoft propose un service qui permet de développer rapidement et d’optimiser les requêtes afin d’utiliser au mieux nos données provenant du Big Data.

Les ingénieurs de données, les administrateurs de bases de données et les architectes de données peuvent utiliser les compétences existantes, telles que SQL, Hadoop, Spark pour gagner en productivité.

Pour conclure sur cette nouvelle vision et façon d’organiser l’entreprise, nous pouvons retenir que le Data Lake permet de se concentrer sur les données. Ces données sont variées et proviennent des réseaux sociaux, mails, données géo-localisées, etc. Cette « mémoire universelle » d’une structure en particulier permet de mieux comprendre son environnement en croisant un nombre considérable de données qui sans ce type d’organisation n’auraient pas pu se mélanger. Le Data Lake va donner les clés aux analystes ou aux data Scientists afin de mieux comprendre le comportement des clients et donc d’avoir une approche proactive permettant de mieux anticiper leurs attentes. Cela va constituer un avantage compétitif indispensable aux entreprises.

Par Cédric Kernoa, étudiant promotion 2015-2016 du Master 2 Intelligence Economique et Stratégies Compétitives d’Angers.

Bibliographie :