Dark Data : la création d’un plan d’action utile à la gouvernance de l’entreprise

Le contenu non géré, non classé et inconnu est répandu dans la plupart des entreprises. Ces données négligées occupent une capacité de stockage précieuse et peuvent contenir des risques cachés. Des projets «Big Data» qui soutiennent les services clients, le marketing ou les initiatives d’amélioration des processus, peuvent conduire à une accumulation de données qui devient rapidement dormante.

Nommé « dark data » ou « informations sombres », ce contenu inutilisé ou non identifié se trouve en dehors des calendriers de conservation, des schémas de classification et les systèmes d’extraction sur lesquels les organisations s’appuient pour respecter les obligations de conformité, allègent le fardeau des découvertes électroniques et veillent à ce que les décisions soient prises en se basant sur des informations exactes et pertinentes.

Comme le volume d’informations continue d’augmenter, les informations, les professionnels, les gestionnaires des risques et les équipes informatiques doivent travailler en collaboration et prendre action sur les dark data. Un plan d’action des dark data peut servir de feuille de route pour les organisations engagées à gérer un tel contenu. Quatre essentiels activités (analyse, classification, collecte et évaluation ) peuvent aider votre organisation à améliorer la pertinence de ses décisions.

Les exigences de stockage augmentent et le coût de trouver des informations lorsque les avocats et les auditeurs sont impliqués peut-être astronomique. Les industries réglementées peuvent être exposées à des amendes ou sanctions en raison du contenu qui se trouve sans surveillance et non protégé sur les anciens disques de stockage, clés ou d’autres outil de stockage.

Le terme « dark data» est apparu pour décrire cette catégorie de contenu non géré.[1]

Les données sombres peuvent contenir des risques cachés

Les professionnels de l’information en informatique doivent prendre conscience des informations qui se trouvent à la périphérie de leurs programmes de gouvernance. Les informations desquels l’entreprise n’est pas consciente peuvent être un frein de la productivité, de l’efficacité des infrastructures, de la recherche et de la découverte. Ce contenu non géré et/ou oublié peut même dissimuler des données obsolètes ou inexactes qui pourraient être mal interprétées si découvertes par des auditeurs ou des avocats.

Toute forme d’informations stockées électroniquement peut faire l’objet d’une découverte légale si une menace de litige émerge. La présence de données non catégorisées, obscures et non gérées peut entraîner une augmentation des coûts de recherche, d’examen et d’analyse. Des risques accrus peuvent également survenir si ces données obscures incluent des bruits non identifiés ou des doublons qui auraient dû être éliminés.

Les professionnels de l’information commencent à prendre en considération les manières dont la technologie et les nouvelles approches de la gouvernance de l’information peuvent capitaliser ce contenu douteux. La Conférence Sedona[2], recommande aux organisations de « réduire l’accumulation continue d’informations inactives » et qu’ ‘«une organisation devrait éviter la rétention d’informations inactives en détruisant ce qui n’est plus nécessaire pour répondre aux exigences de rétention ou aux besoins commerciaux ».

Agir sur les Dark Data

L’évaluation des dark data dans l’entreprise peut être une tâche onéreuse si elle est abordée manuellement. Peu d’organisations ont des ressources pour rechercher dans les profondeurs des stockages non gérés. L’ampleur et la portée d’une telle tâche est écrasante et empêche de nombreuses organisations de prendre des actions décisives. Cependant, le fait de ne pas agir exacerbera inévitablement la situation. Chaque jour – 24/7 – de nouvelles données sont créées, des transactions sont capturées et de nouvelles sources du contenu sont adoptés par les clients et les entreprises.

Le contrôle de votre dark data peut-être effectuer grâce à un plan, de bons outils et une méthodologie conçue pour identifier l’inconnue.  Les avantages de la mise en place d’une action devraient être considérés du point de vue de :

  • L’économie : Les avantages économiques peuvent inclure une réduction des coûts de stockage en éliminant les redondances. Les organisations doivent commencer à mettre en évidence les outils couteux qui doivent être abandonnés – logiciel non utilisé mais qui entraine des frais de maintenance – et les coûts de mise à niveau du matériel.

  • La conformité : Les avantages de la conformité peuvent inclure une réduction des risques de violation de la politique en gardant l’information obsolète au-delà de sa période de conservation. Ou une réduction du risque d’amende en stockant des informations réglementées telles que les informations identifiables en dehors des systèmes sécurisés. Le risque de sanctions qui résultent d’une divulgation inexacte pendant l’audit peut également être réduit.

  • La productivité : Les avantages de productivité peuvent être obtenus en supprimant les sources d’information potentiellement déroutantes, obsolètes ou dupliquées. Le temps est perdu quotidiennement à passer au crible les doublons, à déterminer les versions correctes et à réconcilier des données contradictoires. Les gains de productivité peuvent également être réalisés lorsque des données anciennement laissées dans l’obscurité et inutilisées sont récupérées, catégorisés et mises en service. Les registres des anciens projets peuvent être importants, en particulier dans les organisations qui s’engagent à analyser les mesures de la performance ou la prise de décision.

Éléments d’un plan d’action sur les dark data

Les plans d’action sur les données sombres doivent comprendre quatre tâches clés :

  • L’analyse : La première phase d’un plan d’action sur les données sombres consiste à comprendre le contenu non-catégorisé, non organisé et inconnu. L’analyse aide à révéler la nature de ces données, leurs formats, s’il s’agit d’un doublon et combien de capacité de stockage il occupe. Le but de cette phase est d’identifier ce qui est précieux et ce qui ne l’est pas. Une recherche menée en 2011 a révélé que 74% des entreprises utilisent encore des techniques manuelles pour la catégorisation des informations[3]. Cependant pour la plupart des grandes entreprises qui utilisent ces techniques manuelles de l’analyse, elles échouent souvent. Pour des résultats plus efficaces, il faut tirer parti de la technologie pour minimiser le volume d’informations inactives et dormantes dans l’entreprise.
  • La recherche avancée et les outils d’analyse de contenu ont atteint un niveau de maturité qui est enfin accessible pour la plupart des entreprises. L’analyse sophistiquée et l’extraction de concepts, d’entités et des métadonnées sont intégrées dans les interfaces utilisateur et les vues graphiques afin de les rendre accessibles et compréhensibles aux gestionnaires de l’information. Les modèles licenciés et tarifiés sont également devenus plus accessibles.

  • La classification : Comme les efforts humains seuls sont généralement coûteux, chronophages et probablement soumis à des taux d’erreur, l’automatisation de la classification et le processus de la catégorisation est essentiel lors du traitement de gros volumes de dark data. Un plan d’action durable et réaliste utilisera la technologie dans la mesure du possible. L’analyse du contenu avec la classification automatique des capacités peuvent être un élément clé à ce stade du projet d’évaluation des dark data. Les information inconnues et non catégorisées peuvent être analysées par un logiciel. Les outils d’analyse de contenu peuvent correspondre au traitement des informations non structurées.
  • Les clusters de contenu peuvent être regroupés et classifiés, permettant une classification à grande échelle. Les Schémas de catégorie peuvent être auto-formés puisque les processus de classification exécutent, optimisent les résultats et créent plus de résultats précis et applicables. Les valeurs aberrantes peuvent être identifiées, révélant les types de contenu qui tombent en dehors de votre taxonomie existante, aidant à mettre en évidence les lacunes dans le schéma. Il faut concentrer l’expertise des gestionnaires d’informations sur la gestion des exceptions et non pas des tâches de routinières.
  • La technologie peut effectuer la tâche d’analyse prévisible et volumineuse. La classification est une étape importante dans la séparation des dark data dignes d’être éclairées des données redondantes, obsolètes et triviales. La classification aide à identifier la pile ROT[4] pour une disposition sûre et défendable. Les organisations responsables des informations protégées peuvent bénéficier d’outils analytiques pour découvrir les aspects cachés des données qui peuvent présenter des risques s’ils ne sont pas correctement gérés. Les technologies qui permettent l’auto-classification peuvent être configurées pour trouver et signaler le contenu contenant des informations personnelles et réglementer les données telles que les numéros de carte de crédit, montants monétaires ou numéros d’identification émis par le gouvernement. Tirer ces informations protégées dans un système de classification approprié ou des calendriers de conservation approuvés seront des éléments essentiels pour combler les lacunes de conformité.

  • La collecte : Le troisième élément du plan d’action sur les Dark Data est de prendre des décisions concernant la gestion et la gouvernance de l’information. La phase de classification doit réduire considérablement le volume de données dignes d’être analysées et protégées. Le ROT a maintenant été programmé pour disposer conformément aux politiques de conservation approuvées. La collection aide à mettre en valeur le reste de ces données autrefois négligées, en aidant à garantir que toute activité résiduelle, réglementaire ou à valeur historique a été extraite, gérée et mise à la disposition des utilisateurs concernés. La gestion et la gouvernance continues de ces informations nouvellement organisées peuvent être effectuées par des outils technologiques. Une gouvernance de l’information avec des capacités de référentiel sécurisé, outils de gestion de la rétention et de l’élimination, fonctions de recherche, de découverte et d’extraction doit être envisagée, pour aider à garantir la disponibilité de l’information aux managers, compliance et juristes et les utilisateurs professionnels. Les règles de rétention peuvent maintenant être appliquées, apportant une gestion du cycle de vie aux données récupérées et veillant à ce qu’elles soient éliminées le cas échéant.

  • L’évaluation : La phase finale d’un plan d’action sur les dark data consiste à effectuer un examen approfondi des informations. Une évaluation permet de déterminer les détails importants sur les informations utiles à la gouvernance. Où est le contenu retenu ? Quelles applications, référentiels ou plates-formes de stockage sont utilisés ? Quels types de documents sont saisis et stockés ? Les nouvelles formes de documents comme les applications mobiles, sociales et Web deviennent-elles des sources de contenu ? À quel point la rétention et la disposition respectent elles les règles suivies ? Les processus sont-ils cohérents, défendables et conçus pour soutenir les politiques et les règlements ? les données personnelles ou les données client, sont-elles correctement sécurisées et surveillées ? Maintenant tout ce qui n’était pas géré auparavant, les informations inconnues, ont été identifiées, organisées, conservées ou éliminées conformément aux politiques de rétention. Il est donc temps de documenter l’état actuel et planifier l’avenir. Les grandes entreprises complexes recherchent souvent des conseils auprès des sources externes tels que les analystes de l’industrie, les experts de l’information utiles à la gouvernance…

  • Les activités recommandées lors de l’exécution d’une l’évaluation comprennent :
  • L’évaluation de l’ensemble des échantillons de données à l’aide des outils d’auto-classification, afin d’identifier des lacunes
  • La mise en évidence des zones de risque o   L’identification des opportunités de réduction des coûts
  • L’analyse comparative par rapport aux modèles de maturité

Ces tâches clés auront pour résultat une feuille de route permettant de lutter contre l’accumulation des dark data à la périphérie de l’entreprise.

Par Basma Bakkali, promotion 2020-2021 du M2 IESCI 

[1] Gartner : « Dark Data est comme le mobilier que vous avez dans ce Dark Cupboard » 2012

[2] Conférence Sedona : une organisation à but non lucratif reconnue institut de recherche pour l’étude approfondie du droit

[3]  Kahn Consulting. « Comment mettre à l’échelle un support d’information Everest ? »

[4] Redondantes, Obsolètes et Triviales

Webographie

https://www.lebigdata.fr/dark-data-2210

https://blog.datumize.com/infographic-what-is-dark-data-and-why-it-matters

https://www.everteam.com/fr/la-gouvernance-de-linformation-nest-plus-un-luxe-mais-une-necessite/

https://www.academia.edu/25338922/Dark_data_Business_Analytical_tools_and_Facilities_for_illuminating_dark_data

Admin M2 IESC