Substra Foundation, pour une data science responsable et de confiance

Data for Good
3 min readNov 27, 2020

--

Article écrit par Joséphine Lecoq-Vallon

Substra Foundation x Data For Good

Substra Foundation est une organisation à but non lucratif indépendante, qui a pour objectif de développer et de promouvoir un écosystème pour une data science responsable et de confiance. Elle a été créée en partant d’un constat : « le potentiel des technologies d’IA est immense, mais, aujourd’hui, il est difficile d’avoir confiance en l’IA » ; la solution proposée : développer des approches pour une IA responsable et de confiance.

L’une de ces approches est réalisée avec Data For Good pour sa 8ème saison d’accélération de projets. Cette dernière a pour objectif d’élaborer des outils clé en main sur cinq techniques fondamentales dans la mise en place d’une Data Science Responsable et éthiques:

  • Confidentialité Différentielle (Differential Privacy)
  • La distillation de modèle
  • Métriques de robustesse (Robustness Metrics)
  • Métriques d’impartialité (Fairness Metrics)
  • La généalogie de bout-en-bout

Substra a développé des documents de référence, pour guider les professionnels dans leur pratique au quotidien et les aider à réaliser des modèles responsables respectant ces sujets importants.

Deux volontaires de Data for Good s’impliquent depuis mi-septembre sur ce sujet, pour étendre le contenu des ressources techniques mises à disposition.

Où en sommes-nous aujourd’hui ? Une installation de librairie pour la distillation de modèle est en cours. Les Robustness metrics ont été définies et un travail de mise en place d’une librairie et d’exemples d’implémentation est en route. Enfin, un template et un guide pratique pour la généalogie de bout-en-bout sont en phase de finalisation.

Toutefois, deux sujets restent sensibles à aborder : la Differential Privacy et les Fairness Metrics. Le premier sujet requiert un haut niveau de technicité et le temps a manqué à l’équipe pour se pencher sur les différentes librairies existantes. Le second est complexe car il existe une grande quantité de métriques à explorer et les ressources sont nombreuses.

La mission suit son cours, et l’équipe travaille dur afin de définir un cadre technique, pratique et juste pour les professionnels de la Data Science.

Sur le long-terme Substra a pour objectif la création d’une communauté, d’un écosystème responsable de la data science, à travers notamment la plateforme d’évaluation web qui vient d’être lancée. Cette dernière permettra dans le futur, à partir d’un score-seuil, de mettre en place une certification qui viendra attester la sincérité de son auto-évaluation et le faire valoir !

Nous avons hâte de voir le résultat.

Pour découvrir ce précieux outil qui pourra accompagner tous vos projets ou si tout simplement votre curiosité a été titillée, connectez-vous ce 17 décembre à 18h30 pour le Démo Day de Data For Good et découvrez tous nos projets !

Parce que c’est un projet Data For Good, Substra est open source, ici le GitHub : https://github.com/dataforgoodfr/batch8_substra

« Grâce à l’aide des bénévoles de Data For Good, nous avons pu commencer à défricher certains sujets techniques qui viennent renforcer la plateforme d’évaluation. Nous avons adoré travailler avec les bénévoles passionnés, curieux, et disposant d’un excellent bagage technique en Data Science ! Nous avons hâte de pouvoir montrer ces premiers travaux et de les intégrer au référentiel d’évaluation ! » Clément MAYER, responsable de projet

--

--

Data for Good
Data for Good

Written by Data for Good

Data For Good est une communauté de data scientists bénévoles mettant leurs compétences au profit de la résolution de problèmes sociaux.

No responses yet