Évènements

03 Jul
03/07/2025 14:00

Sciences & Société

Soutenance de thèse : Matthis MANTHE

Apprentissage fédéré en segmentation en imagerie cérébrale

Doctorant : Matthis MANTHE

Laboratoire INSA : CREATIS - Centre de Recherche en Acquisition et Traitement de l'lmage pour la Santé

École doctorale : ED160 EEA - Electronique, Electrotechnique Automatique de Lyon

L'apprentissage profond en analyse d'image médicale peut amener des outils cliniques intéressants, en accélérant les tâches rébarbatives et ouvrant la porte à des propositions de diagnostique automatiques. Ces modèles entraînés en laboratoire montrent souvent une pauvre capacité de généralisation, principalement dûe au manque de données d'entraînement ce qui limite leur utilité clinique. La construction de bases de données inter-institutionnelles et internationales se heurte aux questions de sensibilité des données de santé. Construire de grandes bases de données dans le domaine médical est excessivement difficile, que ce soit dû aux régulations de données strictes ou aux nombreuses barrières humaines et systémiques. L'apprentissage fédéré a été proposé en 2016 comme un paradigme d'apprentissage décentralisé, collaboratif et sécurisé. Il pourrait être une réponse partielle au problème de partage de données, permettant la collaboration entre différentes entités médicales pour l'entraînement de gros modèles profonds pour un coût légal et de sécurité des données limité. L'algorithme pionnier FedAvg donne des résultats convaincants sur un grand nombre de tâches, mais son utilisation pose de nombreuses questions telles que la justice dans la fédération, sa robustesse aux données aberrantes et ses réelles capacités en sécurité des données. Entre autre apparaissent de sérieuses contraintes sur la distribution des données dans ces fédérations, chaque institution ne possédant qu'une fraction des données biaisée et non représentative. Cette configuration hétérogène des données a été montrée comme altérant significativement la convergence des apprentissages. L'objectif de cette thèse est principalement exploratoire à travers la question de recherche suivante: Comment entraîner des réseaux profonds de manière fédérée pour des tâches de segmentation d'images neurologiques, dans des configurations cross-silo (entre 10 et 100 institutions) et hétérogènes (avec différents modes d'acquisition et de labellisation des données entre institution)?Les organisateurs du challenge Brain Tumor Segmentation (BraTS) ont publié le partitionnement par institution de cette base de données populaire, créant la première (et seule à l'époque) grande base fédérée publique réaliste pour cette préciseuse tâche; FeTS 2021 et 2022. L'étude de l'apprentissage fédéré profond cross-silo et hétérogène pour cette tâche est le point focal de cette thèse. Nous avons dans un premier temps produit un large benchmark de méthodes d'apprentissage fédéré sur la base FeTS 2022. Nous avons exploré pour la première fois les performances de méthodes personalisées et clusterisées pour cette tâche. Nous avons montré que extit{FedAvgJ performe déjà très bien, mais peut être légèrement battu par certaines autres méthodes globales, personalisées ou clusterisées. Nous avons complété ce travail par une méthode basée de comparaison des coûts de ces algorithmes fédérés dans toute leur complexité. De plus, nous avons proposé un nouvel algorithm de rafinement fédéré clusterisé par patient specifiquement pour la segmentation automatique de tumeurs cérébrales. Par un clustering côté serveur basé sur des mesures radiomiques par volume, nous pouvons ratiner un modèle fédéré par type d'acquisition, améliorant légèrement les performances de segmentation. Enfin, nous avons généralisé ce paradigm d'apprentissage fédéré clusterisé par image pour une hétérogénéité d'apparence en segmentation. Nous proposons un clustering dans l'espace des gradients d'un modèle pendant son apprentissage fédéré, montrant une correspondance surprenamment précise avec des aprioris sur l'origine des données. Nous sommes sortis du champ biomédical dans ce travail, évaluant ce paradigme avec une base de données jouet ainsi qu'une tâche de segmentation courante en adaptation de domaine, Cityscapes et GTAS.

Additional informations

  • Amphithéatre Émilie du Châtelet, Bibliothèque Marie-Cuire, INSA-Lyon.