ATELIERS > DONNEES, APRES L'ACQUISITION

DONNEES, APRES L'ACQUISITION

Co-animatrices et animateurs :

  • Alain Queffelec (PACEA, UMS 5199, Bordeaux)
  • Bruno Mansoux (BBEES, UMS 3468, Paris)
  • Arnaud Elger (LEFE, UMR 5245, Toulouse)
  • Émilie Lerigoleur (GEODE, UMR 5602 CNRS,Toulouse)

 Les scientifiques produisent des données dès qu’ils réalisent une observation ou prélèvent un échantillon sur le terrain ou en conditions contrôlées. Les données sont également de plus en plus souvent issues de systèmes automatisés (e.g. capteurs connectés), générées par des simulations numériques ou produites par les citoyens au travers des « sciences participatives ». L’ensemble de ces données, ainsi que diverses informations renseignant sur le contexte dans lequel elles ont été acquises (métadonnées) sont stockées dans des bases de données et/ou archivées sous forme de fichiers.

Afin que toutes puissent être réutilisées, elles doivent être trouvables, accessibles et interopérables selon les principes « FAIR » et leur utilisation doit être tracée afin de rassurer les producteurs sur leur devenir, en les identifiant par des PID (Persistant Identifier, e.g. DOI). Il faut également qu’elles soient décrites selon des formats standardisés (e.g. INSPIRE, DUBLIN CORE, DARWIN CORE, etc.) et des thésaurus partagés, et soient stockées dans des formats de fichier ouverts (e.g. CSV, TXT, XML, JSON) garantissant leur réutilisation hors du contexte pour lequel elles ont été acquises, et ce dans un laps de temps pouvant aller jusqu’à plusieurs décennies.

Les données sont donc au cœur d’un cycle qui, de leur production à leur réutilisation, passe par des étapes clés comme leur documentation, leur conservation et leur exposition. Ce concept de cycle de vie des données de la recherche implique par ailleurs diverses compétences, agissant bien souvent dans l’ombre, pour assurer la sécurisation des données, leur formatage, leur accessibilité, leur pérennité et leur éco-responsabilité. Cet atelier mettra en évidence tous les métiers qui interviennent de près ou de loin dans cette chaîne de gestion et de traitement de la donnée.

De nombreux outils ou services sont mis à la disposition de tous pour faciliter le flux d’informations entre chaque étape de ce cycle de vie (entrepôts de données, services d’archivage ou d’exposition, méthodes de gestion, bonnes pratiques, etc.). L’objectif de cet atelier, au travers d’échanges, de retours d’expérience et de présentations, est de guider chaque participant dans la formalisation du cycle de vie des données de son laboratoire ou de son projet et de l’aider à le personnaliser en identifiant les outils et les concepts existants pour le rendre plus performant. Ce sera également l’occasion d’identifier les nouvelles opportunités liées aux technologies de l’information en rapide évolution, ainsi qu’un certain nombre de verrous nécessitant des actions de recherche ou de formation au sein des laboratoires.

Vers une approche planifiée de la gestion des données

Pour identifier les compétences à mobiliser, le budget et les ressources matérielles requises pour bien gérer ses données, que ce soit dans le cadre d’un projet ou non, il s’avère indispensable d’établir bien en amont un Plan de Gestion des Données, en anglais Data Management Plan (DMP). Ce DMP est donc une étape clé du cycle de vie des données, d’une part pour bien identifier les besoins et les ressources à mettre en œuvre localement, et d’autre part pour permettre aux tutelles d’évaluer la capacité des services centraux d’archivage et de stockage, ainsi que du dimensionnement des services de diffusion. Alors que le DMP est encore souvent perçu comme une contrainte par les porteurs de projets de recherche, l’atelier s’attachera à mettre en exergue les bénéfices qu’il apporte aux scientifiques dans la pratique quotidienne de leur recherche.

De nouveaux outils pour le traitement des données et les approches collaboratives

Les nouvelles pratiques de collecte de données liées par exemple au développement de l’Internet des Objets (IoT) et à sa déclinaison en « Internet des Animaux » (système de suivi globalisé de la nature), ou encore aux approches participatives basées sur l’utilisation de smartphones, conduisent souvent à un transfert des données vers un serveur immédiatement après leur acquisition. Cela offre des opportunités de traitement automatisé quasiment en « temps réel », mais génère également de nouvelles problématiques liées au big data, en termes de volumétrie et d’hétérogénéité.

L’une des réponses proposées face à ces nouveaux enjeux est le lac de données (en anglais data lake), qui a vocation à stocker les données sans prétraitement et sans a priori quant à leur nature et à leur usage ultérieur. L’image du lac renvoie à la multiplicité des sources qui convergent vers un exutoire commun, et au niveau duquel les utilisateurs peuvent plonger pour explorer son contenu à leur guise. Le lac de données présente une structure modulaire qui permet aussi bien de traiter les données après un premier stockage, d’alimenter des bases de données dédiées à des usages spécifiques, que de les visualiser ou de les analyser via des outils en ligne.

Le lac de données peut être le point de départ d’approches collaboratives dématérialisées entre les chercheurs et promouvoir la science ouverte. On assiste depuis quelques années à l’émergence d’Environnements Virtuels de Recherche (EVR), combinant des fonctionnalités d’hébergement de documents et des outils spécifiques à une discipline (e.g. pour l’analyse et la visualisation des données, l’entraînement d’algorithmes de machine learning, la conduite de simulations à partir de codes numériques). L’appropriation de ces EVR est un enjeu important en sciences de l’environnement, et implique à la fois une montée en compétences des utilisateurs vis-à-vis de certains outils (e.g. programmation en Python) et le développement de nouvelles fonctionnalités et interfaces plus conviviales et adaptées aux attentes des thématiciens.

Réduction de l’empreinte carbone du cycle de vie des données

Le secteur informatique représentait près de 7% de la consommation électrique mondiale en 2019. Ces besoins énergétiques sont dus à la sollicitation accrue des infrastructures informatiques (centre de données, serveurs web, switch, etc.) et à la climatisation pour les refroidir. L’empreinte carbone du numérique est aujourd’hui égale à celle de l’aéronautique mondiale et contribue donc significativement au réchauffement climatique.

Pour réduire cette empreinte écologique, les acteurs de la recherche ont un rôle à jouer. Cela passe par une modification des pratiques quotidiennes, par exemple en cherchant à limiter les redondances en matière de stockage sur les serveurs. A minima, une donnée est généralement copiée quatre fois (sur deux disques durs d’un serveur montés en miroir pour pallier la défaillance de l’un d’eux et sur deux sites distants à cause du risque d’incendie). Les données inutilement dupliquées entraînent donc une inflation rapide des besoins de stockage.

L’acquisition de données via des objets connectés est également une source majeure d’augmentation des besoins en matière de stockage. Là aussi des pistes de réflexion sont à considérer pour concilier les objectifs scientifiques avec une sobriété numérique, par exemple en adaptant la fréquence d’échantillonnage et/ou en prétraitant les données au plus proche des dispositifs de mesure pour réduire leur volume.

Les développeurs et les administrateurs réseau devraient quant à eux privilégier des outils moins gourmands en ressources, avec des fonctionnalités modulaires, permettant ainsi leur désactivation pour libérer de l’espace de stockage ou réduire la puissance de calcul. Il est donc important de prévoir des indicateurs d’utilisation pour identifier les fonctions d’un outil qui sont rarement utilisées.

Il est devenu indispensable pour un laboratoire de recherche qui déploie un DMP d’intégrer ces bonnes pratiques pour aider les personnels à comprendre leur empreinte écologique, à se poser les bonnes questions en amont de leur projet quant à la création et l’exploitation d’un service numérique, et les orienter vers des solutions qui soient à la fois adaptées à leurs besoins et plus éco-responsables.

Les sessions précédentes des prospectives de l’InEE (Avignon 2012, Bordeaux 2017) ont été l’occasion de discuter de la question d’acquisition des données dans des ateliers dédiés. L’objectif de cet atelier sera de proposer un lac des données vertueux, soutenable scientifiquement, mais aussi économiquement et écologiquement.

 

CS INEE : Alain Queffelec

CNRS-INEE : Dominique Joly

 

CONSULTER LES CONTRIBUTIONS : https://prospectives21.sciencesconf.org/browse/session?sessionid=63855

Personnes connectées : 3 Vie privée
Chargement...