Close

L’Open Data au service de l’innovation : mode d’emploi

L’Open Data, concept qui a émergé et s’est développé au début des années 2000, doit permettre de rendre accessible à tous, gratuitement, des volumes de données considérables collectées ou générées par les services publics ou les entreprises privées d’utilité publique. Un modèle innovant tant par le dispositif technique et organisationnel qu’il suppose, que (ou surtout) par l’ambition sur laquelle il repose : ouvrir, partager et échanger des données collectées mais rarement ou insuffisamment valorisées. On comprend aisément l’apport que représente l’Open Data pour l’innovation : non seulement il donne accès à des données de nature et de contenus d’une grande variété et d’une extrême richesse, mais il permet aussi à des acteurs d’écosystèmes n’ayant a priori pas grand-chose en commun d’échanger et de travailler conjointement à des solutions innovantes, en croisant les expertises, les compétences, les perspectives, les habitudes de travail, les ressources…

La Défense n’est pas en reste avec le lancement début 2019 par la Direction générale du numérique et des systèmes d’information et de communication (DGNUM) de la Fabrique Numérique et plus récemment, par le Commandement de la cyberdéfense et de la DGA, de la Cyberdéfense Factory. Au centre de ce dispositif, un Data Lake (« lac de données »), espace de stockage et gestion de Big Data, qui permettra de centraliser et fluidifier l’accès et le partage de données brutes. Côté privé, les initiatives fleurissent également. On peut par exemple citer le Data Shaker de la SNCF (2014), mené au « catalyseur d’innovations » NUMA à Paris sur le thème du Big Data, avec des startups travaillant sur des sujets comme l’information aux voyageurs ou l’optimisation des trajets, ou encore DataPoste (2013), événement d’une journée destiné à inciter des startups, des développeurs et quelques entreprises partenaires à imaginer des services innovants à partir de données postales.

Mais l’ouverture et le partage de données n’est pas chose facile, ni anodine. Ouvrir et partager des données pose un certain nombre de questions, d’ordre à la fois organisationnel (quelle gouvernance ? quelle infrastructure ? quelles données méritent d’être ouvertes ?), juridique (comment s’assurer par exemple que les modalités d’ouverture et de partage respectent la législation liée à la protection des données personnelles ?) et pratique (quel vecteur et quel format de diffusion ?).  Une série de contraintes que l’émergence de « schémas de gouvernance » permet de recenser et visualiser pour accompagner les initiatives d’ouverture des données.

De tels schémas, comme celui, ci-dessous établi par la société DLT, doivent prendre en compte l’ensemble du processus, depuis l’identification des données disponibles, leur intégration dans un « Data Lake » et leur exploitation grâce à différentes briques : les technologies de stockage, le « Master Data Management » et les fonctionnalités associées (catalogue, gestion de la qualité, accès…), les outils de reporting, les « Data Sciences » et la gouvernance des données  (protection de la vie privée, sécurité, conformité).

Ces schémas permettent de passer en revue, en amont, toutes les questions qui peuvent se poser en vue de la mise en place d’un projet d’Open Data.

On peut classer les enjeux liés à la mise en place d’une démarche Open Data en quatre catégories : la cartographie des données, l’organisation du dispositif, la sécurité, et la gouvernance.

1.  Sélection et cartographie des données disponibles

 La première étape de la mise en place d’un Data Lake consiste à dresser un état des lieux des données disponibles, à la fois en interne et sur les plateformes d’Open Data existantes. Il s’agit donc d’abord de déterminer quelles sont les données à partager, et ce en fonction de l’objectif recherché. L’organisation initiatrice doit répondre à la question de la pertinence des données qui doivent être partagées. Par exemple dans le cas de la Cyberdéfense Factory, le ministère des Armées devra répondre à la question :  que sont les données de cyberdéfense ? Dans leur sens le plus large, celles-ci peuvent être définies comme les données collectées et exploitées par un État pour le développement de mesures techniques et non techniques visant à la défense dans le cyberespace de ses systèmes d’information jugés d’importance vitale. Il s’agit donc de données de natures très variées, issues de capteurs et de sources diverses, produites par différents services.

La nature et le format des données partagées doit également faire l’objet d’une attention particulière. On considère généralement que pour une exploitation et une réutilisation efficace des données, le dispositif doit contenir :

  • Les données sources/brutes,
  • Les sources/brutes éventuellement retraitées par des applications techniques,
  • L’historisation des données,
  • Les métadonnées.

C’est ce dispositif qui permet à la fois de donner confiance aux utilisateurs dans la donnée qu’ils utilisent, mais aussi de contextualiser, donner du sens, et établir des liens et des relations entre toutes ces données. Une fois les données à partager identifiées, il convient ensuite de déterminer à la fois l’endroit (ou les endroits) où elles sont stockées, sous quel format elles sont actuellement stockées, et comment elles peuvent être récupérées, afin de pouvoir être facilement intégrées au dispositif.

A cet effet, le Data Lineage, ou référentiel des transformations, a pour objectif de cartographier le système d’information pour visualiser le cycle de vie d’une donnée et de comprendre ainsi de quelle source elle provient et quelles transformations elle a éventuellement subie.

2.  Organisation de l’espace de partage

Les données collectées et stockées dans un même espace peuvent être structurées, semi-structurées ou non structurées. Il faut donc trouver un moyen de les faire cohabiter pour les rendre exploitables, et dans le cas d’un Data Lake d’éviter que le gisement ne se transforme en marécage… Cette étape qui consiste à séparer à la fois logiquement et physiquement les données est indispensable pour préserver l’intégrité, la sécurité et l’organisation d’un Data Lake, et par conséquent pour faciliter la gestion des données et sécuriser les informations. On distingue généralement 4 zones :

  • une zone de stockage temporaire,
  • une zone de stockage des données brutes,
  • une zone « bac à sable » dédiée à l’exploration
  • une zone de stockage des données enrichies utilisables par les applications métiers.

 

Certains opposent à ce système l’inconvénient de stocker des informations redondantes, mais il a toutefois pour avantage de laisser la possibilité d’appliquer à ces différentes zones des mesures de sécurité et une gouvernance différenciée.

3.  Sécurisation des jeux de données

  • Gestion des accès

La question des accès aux données partagées est en effet l’un des enjeux clés des modèles d’Open Data. Au-delà d’une mesure de sécurité, la gestion des accès permet aussi à chaque participant de n’avoir accès qu’à l’information dont il a besoin, et donc d’améliorer son « expérience utilisateur ». Dans le cadre d’un Data Lake par exemple, il est possible de contrôler les accès de façon très précise, du fichier à la feuille de calcul et même à la ligne ou la colonne. La mise en place de restrictions sur les différentes zones du Data Lake est également indispensable pour minimiser les risques dans la manipulation ou l’extraction de données. Ainsi, l’accès aux zones de stockage temporaire et de stockage des données brutes doit être strictement limitée. Plus les données sont traitées, transformées et sécurisées, plus l’accès peut être élargi. Deloitte propose le modèle suivant :

  • Protection des données

Le caractère sensible des données personnelles fait toutefois l’objet d’une attention particulière. Pour les protéger, deux solutions peuvent être envisagées[1].  L’anonymisation retire aux données leur caractère personnel grâce à un traitement technique visant à rendre impossible et de manière irréversible l’identification d’un individu. Dans le cadre d’un Data Lake, cette procédure n’est pas obligatoire pour le stockage mais le devient en cas d’exploitation des données[2]. Les données anonymisées ne sont plus soumises aux dispositions du RGPD[3]. Il existe deux techniques d’anonymisation[4]:

  • la randomisation, qui vise à protéger le jeu de données du risque d’inférence en modifiant ses attributs de sorte à les rendre moins précises, tout en conservant la répartition globale ;
  • et la généralisation, qui permet notamment d’éviter l’individualisation d’un jeu de données, en modifiant les échelles afin de s’assurer qu’ils soient communs à un ensemble de personnes.

Petit bémol toutefois, le risque de ré-identification par recoupement demeure, et augmente même avec le volume de données. D’autre part, en les transformant, en en changeant le contenu et le structure, l’anonymisation est aussi susceptible d’entraîner une perte de qualité des données.

Quant à la pseudonymisation, elle permet de rendre impossible l’identification d’une personne sans avoir recours à des informations supplémentaires. Elle permet ainsi de traiter les données d’individus sans pouvoir les identifier directement. Concrètement, elle consiste à remplacer un attribut par un autre au sein d’un enregistrement, c’est-à-dire par exemple de remplacer les données directement identifiantes (nom, prénom…) par des données indirectement identifiantes (alias, numéro dans un classement…). Contrairement à l’anonymisation, il s’agit d’un processus réversible.

  • Gouvernance

 Pour gérer ces données et superviser les opérations et les modalités de partage, plusieurs nouvelles fonctions ont vu le jour :

  • Le Data Engineeret le Data Architect sont chargés de l’infrastructure du Data Lake, à la fois sur le volet « connectique », tant avec les sources de données que vers les utilisateurs, que sur le volet « conception » de l’infrastructure informatique ;
  • Le Data Owner, propriétaire et responsable des données dont il a la charge, a pour mission de gérer leur collecte, leur stockage et leur protection. C’est lui notamment qui cartographie les données, qui en contrôle l’accès, en coordonne la protection et qui met en place un référentiel pour les contextualiser.
  • Le Data Steward, responsable référent de la gouvernance de la donnée, est responsable de l’organisation et de la gestion des données. C’est lui qui documente les données et l’ensemble des processus, traitements et contrôles qui leur sont appliqués. En d’autres termes, il est garant de la qualité des données, en partie grâce au Data Lineage.

L’ouverture et le partage de données dans le cadre de la mise en place d’un projet d’Open Data doit donc faire l’objet d’une planification précise et d’un encadrement rigoureux. Elle nécessite, en amont, une préparation minutieuse permettant d’identifier et de cartographier les données pouvant ou devant être ouvertes et partagées. Elle suppose ensuite la mise en place d’une équipe dédiée responsable de la gouvernance du dispositif, et chargée notamment de veiller à la sécurité des données ainsi partagées. Dans le cas du gisement de données qui constitue le cœur de la Cyberdéfense Factory et qui doit favoriser l’innovation de cyberdéfense et l’élaboration à la fois d’outils techniques (cyber-armes, diversification des capacités cybernétiques des armées…) et de mesures non techniques (amélioration du fonctionnement du ministère, planification et conduite des opérations…), il est essentiel que la politique de données profite tant aux armées qu’à l’ensemble de l’écosystème. Potentiel espace de collaboration, le Data Lake est une opportunité de prolonger le partage de données en partage de compétences entre civils militaires, si ce n’est une première étape vers l’échange de personnels entre sphères publique et privée.

 

[1] Xavier Biseul, « Comment mettre son data lake au service de la conformité au RGPD », ZDNet [en ligne], 11 mai 2018, [consulté le 04 novembre 2019].

[2] Sauf si un texte de loi autorise la publication des données, qu’elles figurent dans la liste du Code des relations entre le public et l’administration (CRPA), ou que les personnes concernées donnent leur accord.

[3] « L’anonymisation des données, un traitement clé pour l’open data », CNIL [en ligne], 17 octobre 2019.

[4] Ibid.