
Sciences & Société
Soutenance de thèse : Fatima ELHATTAB
Robust and Privacy-Preserving Federated Learning
Doctorante : Fatima ELHATTAB
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 : Infomaths
Federated Learning opens interesting perspectives in privacy sensitive domains, such as healthcare or user mobility, that were so far reluctant towards AI and machine learning techniques. Indeed, with such decentralized Federated Learning protocols, data is kept private at the client side, instead of sending it to a remote service/cloud as done in classical approaches. However, Federated Learning unveils a brand new set of challenges. Recent studies show that Federated Learning is vulnerable to malicious users participating to the distributed protocol, if such users perform data poisoning attacks in order to make the AI and global model deviate from its correct behavior [2][7][11]. Malicious users do not rigorously follow the protocol, either innocently, due to human or system errors, or intentionally, due to adversarial behaviors. Such behaviors may end up, for instance, with disease data mislabelling in digital healthcare systems, wrong radiation information in radiation detection systems. The state-of-the-art approaches to tackle malicious clients in classical distributed machine learning make assumptions that do not hold in the case of decentralized Federated Learning systems, such as the fact that clients’ data are identically distributed among clients and independent from each other [10]. However, data present on client devices are collected by the clients themselves, based on thclients’ own usage pattern and local environment. Both the size and the distribution of clients’ data heavily vary between different clients. Thus, there is a need for novel algorithms and techniques to efficiently detect data poisoning attacks and counter them in Federated Learning systems. The research objective of this PhD project is to derive novel Federated Learning protocols that are resilient to data poisoning attacks. The key tasks of this project are: (i) Exploring different types of attacks in Federated Learning, under different use cases, such as disease data mislabelling in digital healthcare systems (ii) Deriving various attack implementations (e.g., data label poisoning, data feature poisoning) in real-world datasets, and proposing detection mechanisms based on techniques such as generative adversarial networks [8], model output and gradient monitoring, etc.
Informations complémentaires
-
Amphithéatre Chappe - Bâtiment Hedy Lamarr - Villeurbanne

Sciences & Société
Soutenance de thèse : Pierre FAURE--GIOVAGNOLI
Connaissance métier et fonctions en science des données - Application à la production d'hydroélectricité
Doctorant : Pierre FAURE--GIOVAGNOLI
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon
Dans cette thèse, nous étudions le lien entre la connaissance métier sous forme d'une fonction et la science des données. Soit D(y, z1, ..., zn) un ensemble de données et y=f(z1, ...., zn) une fonction métier. Nous nous intéressons aux questions suivantes, simples mais cruciales pour un expert en science des données. Comment définir la satisfaction de f dans D? Comment mesurer efficacement cette satisfaction ? Comment cette satisfaction est-elle liée à la tâche d'apprentissage supervisé consistant à apprendre f à partir de D? Ces problèmes sont liés à l'étude des contre-exemples par l'utilisation des dépendances fonctionnelles (DF) et, en particulier, des mesures permettant de quantifier la satisfaction des DFs dans un ensemble de données tel que l'indicateur g3. Nous considérons le cas où l'égalité est remplacée par des prédicats plus flexibles. Premièrement, nous examinons l’impact de propriétés communes sur la difficulté du calcul du g3 avec prédicats. Nous montrons que la symétrie et la transitivité sont suffisantes pour garantir que l'erreur g3 puisse être calculée en temps polynomial. Deuxièmement, nous étudions le calcul de g3 dans les cas polynomial et NP-difficile identifiés dans la première partie. Nous proposons différentes solutions exactes et approximées pour le calcul de g3 dans les deux cas. Nous comparons ces solutions dans une étude expérimentale détaillée. Tous les algorithmes sont également disponibles via fastg3, une librairie Python open. Troisièmement, nous connectons l'étude des contre- exemples et l'indicateur g3 à l'apprentissage supervisé à l'aide d'une application web appelée ADESIT. ADESIT permet d'évaluer la capacité d'un ensemble de données à donner de bons résultats pour un problème d'apprentissage supervisé par le biais de statistiques et d'une exploration visuelle. Enfin, nous validons notre approche par une application au problème industriel de la surveillance de l'entrefer dans les générateurs hydrauliques.
Informations complémentaires
-
Salle 337, Département Informatique, INSA-Lyon (Villeurbanne)

Sciences & Société
Soutenance de thèse : Thibault DOUZON
Language Models for Document Understanding
Doctorant : Thibault DOUZON
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon
First used for natural language related tasks, language models can understand documents better than any previous statistical model, provided enough data for training and pre-training. This thesis proposes several architectures and training procedures to better model visually-rich documents. Its main findings are the data-afficiency of pre- trained transformers compared to recurrent neural networks, the importance of pre- training tasks for downstream performance, the introduction of pre-training tasks specific to business documents and alternative architectures to transformers for multi-page documents.
Informations complémentaires
-
Amphithéâtre Chappe - Bâtiment Hedy Lamarr (Villeurbanne)

Sciences & Société
Soutenance de thèse : Youcef REMIL
A Data Mining Perspective on Explainable AIOps with Applications to Software Maintenance
Doctorant : Youcef REMIL
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon
La supervision des systèmes informatiques modernes est confrontée à des défis de scalabilité, de fiabilité et d'efficacité. Les approches traditionnelles de maintenance manuelle sont inefficaces, de même que les systèmes experts à base de règles pour gérer les alertes générées par les systèmes informatiques. AIOps for Operating Systems (AIOps) propose l'utilisation de techniques avancées d'apprentissage automatique centrées sur les données pour améliorer et automatiser la supervision des systèmes. Cependant, plusieurs défis doivent être relevés pour concrétiser cette vision. Le manque de terminologie claire et unifiée dans le domaine de l'AIOps rend difficile la progression et la comparaison des contributions. Les exigences et les métriques nécessaires à la construction de modèles AIOps alignés sur les contraintes industrielles ne sont pas suffisamment développées. Les contributions théoriques se sont principalement concentrées sur les modèles prédictifs, négligeant les défis liés à la qualité et à la complexité des données. La dépendance excessive aux modèles boîte noire opaques limite leur adoption par les praticiens de l'industrie. De plus, les solutions AIOps existantes accordent peu d'importance à l'évaluation des performances des modèles et aux problèmes de scalabilité. Nous proposons dans le cadre de cette thèse une approche systématique de l'AIOps en fournissant une catégorisation conforme aux normes industrielles. Nous explorons également la découverte de sous-groupes pour extraire des hypothèses intéressantes à partir de vastes ensembles de données diversifiées. Nos contributions dans cet axe de recherche comprennent l'identification de fragments de requêtes SQL suspects pour résoudre les problèmes de performance, un mécanisme d'interprétation pour les modèles de triage des incidents, et l'analyse des problèmes de saturation de mémoire Java caractérisé par un ensemble de données complexes intégrant des données hiérarchiques. Nous étudions également la scalabilité en se concentrant sur le problème de déduplication des incidents en se référant à la technique de hachage sensible à la localité.
Informations complémentaires
-
Salle 501.337, Bâtiment Ada Lovelace (Villeurbanne)

Sciences & Société
Soutenance de thèse : Youcef REMIL
A Data Mining Perspective on Explainable AIOps with Applications to Software Maintenance
Doctorant : Youcef REMIL
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Infomaths
La supervision des systèmes informatiques modernes est confrontée à des défis de scalabilité, de fiabilité et d'efficacité. Les approches traditionnelles de maintenance manuelle sont inefficaces, de même que les systèmes experts à base de règles pour gérer les alertes générées par les systèmes informatiques. AIOps for Operating Systems (AIOps) propose l'utilisation de techniques avancées d'apprentissage automatique centrées sur les données pour améliorer et automatiser la supervision des systèmes. Cependant, plusieurs défis doivent être relevés pour concrétiser cette vision. Le manque de terminologie claire et unifiée dans le domaine de l'AIOps rend difficile la progression et la comparaison des contributions. Les exigences et les métriques nécessaires à la construction de modèles AIOps alignés sur les contraintes industrielles ne sont pas suffisamment développées. Les contributions théoriques se sont principalement concentrées sur les modèles prédictifs, négligeant les défis liés à la qualité et à la complexité des données. La dépendance excessive aux modèles boîte noire opaques limite leur adoption par les praticiens de l'industrie. De plus, les solutions AIOps existantes accordent peu d'importance à l'évaluation des performances des modèles et aux problèmes de scalabilité. Nous proposons dans le cadre de cette thèse une approche systématique de l'AIOps en fournissant une catégorisation conforme aux normes industrielles. Nous explorons également la découverte de sous-groupes pour extraire des hypothèses intéressantes à partir de vastes ensembles de données diversifiées. Nos contributions dans cet axe de recherche comprennent l'identification de fragments de requêtes SQL suspects pour résoudre les problèmes de performance, un mécanisme d'interprétation pour les modèles de triage des incidents, et l'analyse des problèmes de saturation de mémoire Java caractérisé par un ensemble de données complexes intégrant des données hiérarchiques. Nous étudions également la scalabilité en se concentrant sur le problème de déduplication des incidents en se référant à la technique de hachage sensible à la localité.
Informations complémentaires
-
Salle 501.337, Bâtiment Ada Lovelace (Villeurbanne)

Sciences & Société
Soutenance de thèse : Solohaja RABENJAMINA
Gestion de la Mobilité Urbaine et dans le Réseau Mobile à partir de Données de Téléphonie
Doctorant : Solohaja RABENJAMINA
Laboratoire INSA : CITI
Ecole doctorale : ED512 : Infomaths
Au cours de la dernière décennie, l'utilisation croissante des smartphones a entraîné une augmentation significative du volume de données échangées via les réseaux mobiles des opérateurs téléphoniques. Chaque nouvelle génération de réseau mobile génère davantage de données que la précédente. D'ici à 2027, on estime que 289 EB de données seront échangées par mois, dont 62% proviendront du réseau mobile 5G.
Cette disponibilité massive de données a ouvert de nouvelles perspectives de recherche, notamment dans l'étude de la mobilité. Les données mobiles permettent des études sur une population plus vaste et des zones géographiques étendues.
Dans cette thèse, nous démontrons que les événements décrits dans les données mobiles peuvent être retrouvés dans d'autres sources de données. En comparant les données mobiles avec des capteurs de détection de présence humaine, nous constatons une corrélation satisfaisante. Cependant, certains événements, tels que la synchronisation des pics de présence ou la fin de l'activité en fin de journée, ont une similarité moindre.
Nous utilisons également les données mobiles pour étudier l'impact des confinements imposés par le gouvernement français sur l'utilisation du sol à Paris. Nos résultats montrent que le premier confinement a eu un impact radical sur les habitudes de déplacement et l'utilisation du sol, tandis que les deuxième et troisième confinements ont eu un impact moindre.
Enfin, nous exploitons ces données pour la reconfiguration du réseau mobile dans la gestion de la micro mobilité des utilisateurs, appelée handover. Les eNodeB, composants du réseau d'accès, peuvent avoir différents profils et catégories. En distinguant les utilisateurs mobiles des utilisateurs statiques, nous économisons des ressources en reconfigurant le réseau. La reconfiguration dynamique du réseau, en utilisant différents profils d'eNodeB, permet également d'économiser les ressources utilisées par les utilisateurs mobiles.
Informations complémentaires
-
Amphithéatre Chappe - Bâtiment Hedy Lamarr - Villeurbanne

Sciences & Société
Soutenance de thèse : Lisa BLUM MOYSE
Computational neuroscience models at different levels of abstraction for synaptic plasticity, astrocyte modulation of synchronization and systems memory consolidation
Doctorante : Lisa BLUM MOYSE
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Infomaths
Dans cette thèse, des modèles théoriques à niveaux d’abstraction croissants sont développés pour aborder des questions issues d’expériences de neuroscience. Ils sont étudiés par des approches numériques et analytiques. Avec le laboratoire de Laurent Venance (Paris), nous avons développé un modèle du protocole ITDP (input-timing- dependent plasticity) pour la plasticité des synapses cortico- et thalamo-striatales. Le modèle a été calibré par des données ex vivo et permettra de déterminer la présence de plasticité synaptique in vivo, lors d’expériences de comportement visant à déterminer le rôle des entrées corticales et thalamiques dans l’apprentissage moteur. Au niveau des populations neuronales, j’ai étudié la modulation des comportements collectifs neuronaux par les astrocytes, en particulier la synchronisation Up-Down, une alternance spontannée entre des périodes de forte activité collective et des périodes de silence. J’ai proposé des modèles de fréquence de décharge et de réseaux de neurones à spikes de populations interconnectées de neurones et d’astrocytes. Ils proposent des explications sur la façon dont les astrocytes induisent les transitions Up-Down. Les astrocytes sont aussi probablement impliqués dans la génération des crises d’épilepsie, pendant lesquelles la synchronisation neuronale est altérée. Sur la base des modèles précédents, j’ai développé un réseau neurone-astrocyte avec une connectivité en clusters, montrant la transition entre des dynamiques Up-Down et des évènements de très forte activité mimant une crise d’épilepsie. Enfin, au niveau du cerveau lui-même, j’ai étudié la théorie standard de la consolidation, selon laquelle la mémoire à court terme dans l’hippocampe permet la consolidation de la mémoire à long terme dans le néocortex. J’ai cherché à expliquer ce phénomène en intégrant des hypothèses biologiques – taille du néocortex expliquant la lenteur de l’apprentissage, et neurogenèse dans l’hippocampe expliquant l’effacement de sa mémoire – dans un modèle de champs neuronaux interconnectés qui reproduit bien les principales caractéristiques de la théorie.
Informations complémentaires
-
Salle 337, Bâtiment Ada Lovelace (Villeurbanne)

Sciences & Société
Soutenance de thèse : Behnam EINABADI
Nouvelles méthodes d'aide à la décision pour la maintenance prédictive dynamique basée sur la science des données et l'optimisation multi objectifs
Doctorant : Behnam EINABADI
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon
La maintenance prédictive (PdM) est devenue un sujet de recherche majeur dans l'industrie et dans le monde académique. L'objectif est d'utiliser des données en temps réel pour surveiller l'état de santé des équipements et prédire leur durée de vie restante (RUL). La plupart des études se concentrent sur la prédiction des défaillances, tandis que la prescription de décisions pour les activités de maintenance est beaucoup moins abordée. L'objectif de cette thèse est d'explorer les nouvelles méthodes et approches de PdM et de maintenance préventive (PvM) grâce à la science des données et aux méthodes d'optimisation mathématique. Notre étude vise à répondre à plusieurs questions telles que la possibilité d'estimer l'état de santé et/ou la RUL des équipements et de proposer une planification intégrale des activités de maintenance. Pour cela, une approche globale est proposée, qui couvre l'ensemble des stratégies de maintenance, et intègre l'analyse de la criticité de l'équipement, l'identification de la stratégie de maintenance, l'acquisition de données et d'informations, la surveillance de l'état de santé des équipements, la surveillance du système de maintenance, l'estimation de la RUL et la planification. Pour la mise en œuvre de cette approche, plusieurs outils, algorithmes et méthodes appropriés ont été développés et expérimentés sur quelques cas d'utilisation à l'usine Fiat Powertrain Technologies Bourbon-Lancy. Les résultats ont permis de démontrer la faisabilité de l'estimation de la RUL en se basant sur des données en temps réel, ainsi que l'efficacité engendrée. Par la suite, une méthode d'optimisation de planification des activités PdM et PvM a été développée et appliquée sur un cas réel en prenant en compte la RUL, le groupement opportuniste des activités et le risque de défaillance. Enfin, les perspectives managériales et les défis de la mise en œuvre de l'approche globale proposée dans d'autres entreprises ont été discutés.
Informations complémentaires
-
INSAVALOR, Bât. CEI3 (Villeurbanne)

Sciences & Société
Soutenance de thèse : Mihai-Ioan POPESCU
Static and Dynamic Multi-Robot Routing with Periodic Connectivity Maintenance, Patrolling and Network Data Delivery
Doctorant : Mihai-Ioan POPESCU
Laboratoire INSA : CITI
Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon
Cette thèse aborde premièrement les problématiques du routage multi-robots (MRR) et des scénarios dynamiques de MRR (définis comme DMRR dans la thèse), où le besoin de solutions décentralisées avec des temps efficaces est requis pour pour des applications réelles. Les solutions de l'état de l'art sont confrontées à des problèmes de temps de fonctionnement ou à de mauvaises performances lorsqu'elles sont étendues à des scénarios de grande taille, par exemple avec des dizaines de robots et des centaines de cibles. Nous formalisons le problème MRR en intégrant les contraintes de saturation des coûts en proposant MRR-Sat et DMRR-Sat et en montrant qu’ils sont NP-difficiles pour différents fonctions objectifs. Nous proposons une approche par enchères parallèles à plusieurs tours (PMR) qui introduit des degrés de parallélisme variables dans l'allocation des tâches des robots. Nous évaluons empiriquement et théoriquement les performances de solutions, à l’aide de scénarios expérimentaux et de preuves de complexité. Deux autres solutions sont proposées pour les scénarios dynamiques (DMRR), qui utilisent les principes de PMR. Une approche similaire d’évaluation, par expérimentation et preuve est proposée. La troisième partie de la thèse examine le problème de la patrouille multi- robot de groupes de cibles. Nous développons une heuristique dans le cadre CBSC (Covering with Bounded Simple Cycles) qui permet de prendre en compte des limites énergétiques des robots. La quatrième partie de la thèse se concentre sur le problème du maintien de la connectivité dans le réseau de robots qui exécutent la tâche de patrouille. Nous proposons des algorithmes efficaces qui peuvent maintenir la connectivité intermittente ou périodique de la flotte de robots, afin d'assurer la communication entre robots et l’acheminement des données collectées à une station finale. Enfin, un simulateur d'agents mobiles est développé dans le cadre de ce travail afin de faciliter la visualisation et l'étude des algorithmes.
Informations complémentaires
-
https://insa-lyon-fr.zoom.us/j/91226596032 (en visio-conférence)

Sciences & Société
Soutenance de thèse : Alice MARTIN
Prédiction des parcours sous l'angle médico-économique : une approche basée sur l'intelligence artificielle
Doctorante : Alice MARTIN
Laboratoire INSA : DISP
Ecole doctorale : ED512 Informatique et mathématiques de Lyon
Les structures de santé rencontrent des difficultés structurelles dans l'organisation des soins et la prise en charge de leurs patients, notamment chroniques. Ces blocages sont multiples - prévalence croissante des maladies chroniques et vieillissement de la population, fracture territoriale dans l'accès aux soins, pression sur les coûts et l'efficience - et peuvent avoir un fort impact sur les perspectives de santé des populations. Les organisations, en particulier les hôpitaux, tentent de surmonter ces barrières en optimisant les parcours patients et de soins. Au sein de ces trajectoires, l'un des leviers d'efficience est de pouvoir comprendre quels aspects du profil d'un patient sont corrélés aux événements ayant un impact sur le recours et la consommation de soins, afin de pouvoir les anticiper.
Les récentes avancées technologiques en matière d'IA permettent d'étudier une grande variété de parcours et d'analyser un large panel de variables. Dans ces travaux, nous souhaitons représenter et analyser les parcours dans plusieurs contextes cliniques, en utilisant les données médico-économiques et de facturation comme proxy pour reconstruire la trajectoire individuelle d'un patient. L'objectif final est d'alléger les pressions opérationnelles sur les ressources hospitalières tout en améliorant le confort des soins et la qualité de la prise en charge.
Nous présentons deux études de cas : la prédiction du parcours d'une cohorte en vie réelle de patients atteints de troubles neurocognitifs et la prédiction des soins d'un hôpital à domicile en France. Nous avons décrit les trajectoires et étudié les principaux facteurs de variation en utilisant les caractéristiques cliniques des patients, y compris l'évolution de la maladie. Nous avons ensuite utilisé ces mêmes facteurs pour prédire la variation du parcours des patients. Notre méthodologie s'articule autour de deux étapes : l'identification de groupes médico-économiques de patients pertinents, par le biais d'un regroupement par exemple, puis la prédiction des soins requis au fil du temps. Notre modèle a permis de prédire les variations des parcours avec une précision allant de 60,5
% à 90 % selon les scénarios.
--------------
Health care providers are experiencing difficulties in the organization of care and the management of their patients, particularly chronic ones. These block roads are multiple, including the increasing prevalence of chronic diseases and aging of the population, territorial divide in access to care, pressure on costs and efficiency - and can have a strong impact on the health prospects of populations. Healthcare organizations, particularly hospitals, are trying to overcome these difficulties by optimizing patient and care pathways as a whole. Within these trajectories, one of the levers for efficiency is to be able to understand which aspects of a patient's profile are correlated with the events that have an impact on the use and consumption of care, so that they can be anticipated. Recent technological advances in AI make it possible to study a wide variety of care pathways and to analyze a broad range of variables. In this work, we want to represent and analyze the pathways in several clinical contexts, using billing and medico-economic data as a proxy to reconstruct the individual trajectory of a patient. The ultimate goal is to relieve the operational pressures on hospital resources while improving the comfort of patient care.
We present two case studies: journey prediction from a real-life cohort of patients with neurocognitive disorders and care prediction from a homecare hospital in France. We portrayed the trajectories and investigated the main drivers of variation using patient clinical characteristics including disease progression. We then used the same drivers to predict patient journey variation. Our methodology was built on two steps: identifying relevant medico-economical groups of patients, through clustering for example – then predicting the variation of care required through time. Our model allowed to predict patient journey variation with an accuracy ranging from of 60.5% to 90% depending on scenarios.
Informations complémentaires
-
Amphithéâtre Emilie du Châtelet (Bibliothèque Marie Curie) - Villeurbanne