LIRIS

19 déc
19/12/2023 14:00

Sciences & Société

Soutenance de thèse : Marco FOLEY

Dynamique des génomes bactériens : une étude expérimentale in silico avec la plate-forme aevol

Doctorant : Marco FOLEY

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique et mathématiques de Lyon

Aevol est une plate-forme de simulation de l’évolution de populations d’organismes par variation et sélection. La conception du modèle est axée sur le réalisme de la structure du génome et des processus de mutations, permettant ainsi aux organismes simulés d'évoluer sur un fitness landscape comparable à celui d'organismes biologiques, avec des contraintes d’exploration similaires. Ces processus permettent l’émergence de comportements d’intérêt, pour l'étude de l'évolution de la structure des génomes, et pour produire des données de benchmarks pour tester les méthodes de phylogénie moléculaire. Les résultats obtenus jusqu’ici dans aevol concourent à suggérer que les éléments non-codants du génome sont soumis à sélection. Dans ce travail, nous avons utilisé Aevol pour mener une large campagne de simulation sur de très longues échelles de temps. Ces expériences nous permettent de montrer que la quantité de séquences non-codantes est finement régulée par deux forces contraires. La première est une force de sélection pour des génomes réduits car plus robustes face aux réarrangements chromosomiques. La seconde provient d'un biais mutationnel indirect favorisant les évènements de duplications neutres sur les délétions neutres menant à l'accumulation de non-codant par dérive génétique. Dans un deuxième temps, nous avons utilisé aevol comme outil de génération de benchmarks pour la phylogénie. En effet, Aevol ayant été développé indépendamment de la communauté de phylogénie moléculaire, il ne contient pas les a priori classiquement inclus dans les simulateurs de cette communauté, évitant ainsi la validation ad hoc des méthodes. Cependant, les séquences composant les génomes étant binaires dans Aevol, nous avons développé une version du simulateur utilisant des séquences génomiques quaternaire (ACTG). Cette nouvelle version a ensuite été utilisée pour générer des données de benchmarks afin de tester les reconstructions d'arbres phylogénétiques

 

18 déc
18/12/2023 14:00

Sciences & Société

Soutenance de thèse : Paul BANSE

Evolution beyond substitutions: Computational modeling of the impact of chromosomal rearrangements on evolutionary dynamics

Doctorant : Paul BANSE

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique et mathématiques de Lyon

L'évolution telle qu'elle a été décrite par Darwin est un processus simple qui aboutit à une extrême complexité. En effet, étudier l'évolution biologique aujourd'hui correspond à étudier un phénomène allant d'échelles nanométriques à des échelles planétaires. En plus de cela, le processus est aussi affecté par des biais dus à la méthode d'écriture et de conservation de l'information. Finalement, il faut rappeler que chaque changement évolutif a pour origine une mutation, qui est un évènement aléatoire, et que la survie des mutants est, elle aussi, un processus aléatoire. Face à une telle complexité, il est nécessaire de réduire le champ d'étude pour espérer aboutir à une compréhension. Que ce soit avec des modèles expérimentaux, comme les boites de pétri, avec des modèles formels, comme les équations différentielles, ou avec des modèles computationnels, par exemple des simulations, toutes les simplifications sont bonnes à prendre pour décortiquer l'évolution. Parmi ces simplifications, il est courant de ne considérer que mutations. En particulier, ignorer les réarrangements chromosomiques, ces mutations qui réorganisent et réassemblent l'ADN et qui est souvent létales pour l'organisme qui les porte, est souvent considéré comme une simplification logique des modèles d'évolution. D'autant plus que jusqu'à récemment, les séquençages d'ADN réalisés n'étaient pas adaptés à les repérer. Dans cette thèse, nous allons montrer qu'en incluant les réarrangements, bien que les modèles obtenus soient plus complexes, il est possible d'en tirer une connaissance. Nous utiliserons des méthodes algorithmiques pour étudier le processus evolutif pour montrer que non seulement les réarrangements chromosomiques sont nécessaires pour soutenir l'évolution à long terme, puisqu’ils permettent une amélioration et de nouvelles opportunités d'évolution. Mais en plus, les comprendre permet d'expliquer simplement certaines dynamiques d’évolution par à-coups ainsi que la maintenance de segments non codants dans les génomes.

21 déc
21/12/2023 14:00

Sciences & Société

Soutenance de thèse : Jui-Ting LU

Parameter-free analysis of digital surfaces with plane probing algorithms

Doctorante : Jui-Ting LU

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

Les volumes 3D discrets proviennent de diverses sources, notamment la segmentation d'images, la simulation numérique, et les éditeurs basés sur les voxels. Notre intérêt réside dans le traitement de la géométrie des surfaces discrètes entourant ces volumes, permettant la reconnaissance de structures locales telles que des segments de plans discrets. Cependant, les surfaces discrètes ont une géométrie pauvre, composée de surfels carrés parallèles aux axes. Pour analyser ces surfaces, des algorithmes de type plane-probing adaptent le voisinage autour d'un point en développant itérativement une approximation de plan, souvent sous forme de triangles, en fonction des informations locales. Notre objectif est d'analyser ces surfaces discrètes en utilisant les méthodes de type plane-probing.

Nous introduisons les algorithmes de type plane-probing existants dans un cadre général. De plus, nous proposons une nouvelle variante de l'algorithme de type plane-probing qui prend en compte un voisinage plus étendu que ceux des algorithmes existants. Nous proposons également une implémentation efficace de cette nouvelle variante.

Une découverte importante est que la suite de tétraèdres formée à partir de deux triangles consécutifs crée une triangulation de Delaunay dans une partie du plan discret. Cette propriété est vérifiée pour la nouvelle variante introduite. En conséquence, le triangle final retourné par l'algorithme a trois angles aigus ou droits. Ce résultat nous permet de déterminer l'étendue du voisinage considéré au cours des calculs.

Enfin, nous proposons quelques ajustements afin d'adapter ce type d'algorithme à des surfaces discrètes, permettant ainsi de déduire un estimateur de vecteurs normaux. Nous nous concentrons notamment sur la convergence multigrille de cet estimateur, qui a été observée expérimentalement pour des positions bien identifiées sur des surfaces discrètes convexes.

22 nov
22/11/2023 14:00

Sciences & Société

Soutenance de thèse : Fatima ELHATTAB

Robust and Privacy-Preserving Federated Learning

Doctorante : Fatima ELHATTAB

Laboratoire INSA : LIRIS
Ecole doctorale : ED512 : Infomaths

Federated Learning opens interesting perspectives in privacy sensitive domains, such as healthcare or user mobility, that were so far reluctant towards AI and machine learning techniques. Indeed, with such decentralized Federated Learning protocols, data is kept private at the client side, instead of sending it to a remote service/cloud as done in classical approaches. However, Federated Learning unveils a brand new set of challenges. Recent studies show that Federated Learning is vulnerable to malicious users participating to the distributed protocol, if such users perform data poisoning attacks in order to make the AI and global model deviate from its correct behavior [2][7][11]. Malicious users do not rigorously follow the protocol, either innocently, due to human or system errors, or intentionally, due to adversarial behaviors. Such behaviors may end up, for instance, with disease data mislabelling in digital healthcare systems, wrong radiation information in radiation detection systems. The state-of-the-art approaches to tackle malicious clients in classical distributed machine learning make assumptions that do not hold in the case of decentralized Federated Learning systems, such as the fact that clients’ data are identically distributed among clients and independent from each other [10]. However, data present on client devices are collected by the clients themselves, based on thclients’ own usage pattern and local environment. Both the size and the distribution of clients’ data heavily vary between different clients. Thus, there is a need for novel algorithms and techniques to efficiently detect data poisoning attacks and counter them in Federated Learning systems. The research objective of this PhD project is to derive novel Federated Learning protocols that are resilient to data poisoning attacks. The key tasks of this project are: (i) Exploring different types of attacks in Federated Learning, under different use cases, such as disease data mislabelling in digital healthcare systems (ii) Deriving various attack implementations (e.g., data label poisoning, data feature poisoning) in real-world datasets, and proposing detection mechanisms based on techniques such as generative adversarial networks [8], model output and gradient monitoring, etc.

24 nov
24/11/2023 10:00

Sciences & Société

Soutenance de thèse : Pierre FAURE--GIOVAGNOLI

Connaissance métier et fonctions en science des données - Application à la production d'hydroélectricité

Doctorant : Pierre FAURE--GIOVAGNOLI

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

Dans cette thèse, nous étudions le lien entre la connaissance métier sous forme d'une fonction et la science des données. Soit D(y, z1, ..., zn) un ensemble de données et y=f(z1, ...., zn) une fonction métier. Nous nous intéressons aux questions suivantes, simples mais cruciales pour un expert en science des données. Comment définir la satisfaction de f dans D? Comment mesurer efficacement cette satisfaction ? Comment cette satisfaction est-elle liée à la tâche d'apprentissage supervisé consistant à apprendre f à partir de D? Ces problèmes sont liés à l'étude des contre-exemples par l'utilisation des dépendances fonctionnelles (DF) et, en particulier, des mesures permettant de quantifier la satisfaction des DFs dans un ensemble de données tel que l'indicateur g3. Nous considérons le cas où l'égalité est remplacée par des prédicats plus flexibles. Premièrement, nous examinons l’impact de propriétés communes sur la difficulté du calcul du g3 avec prédicats. Nous montrons que la symétrie et la transitivité sont suffisantes pour garantir que l'erreur g3 puisse être calculée en temps polynomial. Deuxièmement, nous étudions le calcul de g3 dans les cas polynomial et NP-difficile identifiés dans la première partie. Nous proposons différentes solutions exactes et approximées pour le calcul de g3 dans les deux cas. Nous comparons ces solutions dans une étude expérimentale détaillée. Tous les algorithmes sont également disponibles via fastg3, une librairie Python open. Troisièmement, nous connectons l'étude des contre- exemples et l'indicateur g3 à l'apprentissage supervisé à l'aide d'une application web appelée ADESIT. ADESIT permet d'évaluer la capacité d'un ensemble de données à donner de bons résultats pour un problème d'apprentissage supervisé par le biais de statistiques et d'une exploration visuelle. Enfin, nous validons notre approche par une application au problème industriel de la surveillance de l'entrefer dans les générateurs hydrauliques.

24 oct
24/10/2023 14:00

Sciences & Société

Soutenance de thèse : Thibault DOUZON

Language Models for Document Understanding

Doctorant : Thibault DOUZON

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

First used for natural language related tasks, language models can understand documents better than any previous statistical model, provided enough data for training and pre-training. This thesis proposes several architectures and training procedures to better model visually-rich documents. Its main findings are the data-afficiency of pre- trained transformers compared to recurrent neural networks, the importance of pre- training tasks for downstream performance, the introduction of pre-training tasks specific to business documents and alternative architectures to transformers for multi-page documents.

06 oct
06/10/2023 09:30

Sciences & Société

Soutenance de thèse : Youcef REMIL

A Data Mining Perspective on Explainable AIOps with Applications to Software Maintenance

Doctorant : Youcef REMIL

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

La supervision des systèmes informatiques modernes est confrontée à des défis de scalabilité, de fiabilité et d'efficacité. Les approches traditionnelles de maintenance manuelle sont inefficaces, de même que les systèmes experts à base de règles pour gérer les alertes générées par les systèmes informatiques. AIOps for Operating Systems (AIOps) propose l'utilisation de techniques avancées d'apprentissage automatique centrées sur les données pour améliorer et automatiser la supervision des systèmes. Cependant, plusieurs défis doivent être relevés pour concrétiser cette vision. Le manque de terminologie claire et unifiée dans le domaine de l'AIOps rend difficile la progression et la comparaison des contributions. Les exigences et les métriques nécessaires à la construction de modèles AIOps alignés sur les contraintes industrielles ne sont pas suffisamment développées. Les contributions théoriques se sont principalement concentrées sur les modèles prédictifs, négligeant les défis liés à la qualité et à la complexité des données. La dépendance excessive aux modèles boîte noire opaques limite leur adoption par les praticiens de l'industrie. De plus, les solutions AIOps existantes accordent peu d'importance à l'évaluation des performances des modèles et aux problèmes de scalabilité. Nous proposons dans le cadre de cette thèse une approche systématique de l'AIOps en fournissant une catégorisation conforme aux normes industrielles. Nous explorons également la découverte de sous-groupes pour extraire des hypothèses intéressantes à partir de vastes ensembles de données diversifiées. Nos contributions dans cet axe de recherche comprennent l'identification de fragments de requêtes SQL suspects pour résoudre les problèmes de performance, un mécanisme d'interprétation pour les modèles de triage des incidents, et l'analyse des problèmes de saturation de mémoire Java caractérisé par un ensemble de données complexes intégrant des données hiérarchiques. Nous étudions également la scalabilité en se concentrant sur le problème de déduplication des incidents en se référant à la technique de hachage sensible à la localité.

06 oct
06/10/2023 09:30

Sciences & Société

Soutenance de thèse : Youcef REMIL

A Data Mining Perspective on Explainable AIOps with Applications to Software Maintenance

Doctorant : Youcef REMIL

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Infomaths

La supervision des systèmes informatiques modernes est confrontée à des défis de scalabilité, de fiabilité et d'efficacité. Les approches traditionnelles de maintenance manuelle sont inefficaces, de même que les systèmes experts à base de règles pour gérer les alertes générées par les systèmes informatiques. AIOps for Operating Systems (AIOps) propose l'utilisation de techniques avancées d'apprentissage automatique centrées sur les données pour améliorer et automatiser la supervision des systèmes. Cependant, plusieurs défis doivent être relevés pour concrétiser cette vision. Le manque de terminologie claire et unifiée dans le domaine de l'AIOps rend difficile la progression et la comparaison des contributions. Les exigences et les métriques nécessaires à la construction de modèles AIOps alignés sur les contraintes industrielles ne sont pas suffisamment développées. Les contributions théoriques se sont principalement concentrées sur les modèles prédictifs, négligeant les défis liés à la qualité et à la complexité des données. La dépendance excessive aux modèles boîte noire opaques limite leur adoption par les praticiens de l'industrie. De plus, les solutions AIOps existantes accordent peu d'importance à l'évaluation des performances des modèles et aux problèmes de scalabilité. Nous proposons dans le cadre de cette thèse une approche systématique de l'AIOps en fournissant une catégorisation conforme aux normes industrielles. Nous explorons également la découverte de sous-groupes pour extraire des hypothèses intéressantes à partir de vastes ensembles de données diversifiées. Nos contributions dans cet axe de recherche comprennent l'identification de fragments de requêtes SQL suspects pour résoudre les problèmes de performance, un mécanisme d'interprétation pour les modèles de triage des incidents, et l'analyse des problèmes de saturation de mémoire Java caractérisé par un ensemble de données complexes intégrant des données hiérarchiques. Nous étudions également la scalabilité en se concentrant sur le problème de déduplication des incidents en se référant à la technique de hachage sensible à la localité.

14 sep
14/09/2023 14:00

Sciences & Société

Soutenance de thèse : Lisa BLUM MOYSE

Computational neuroscience models at different levels of abstraction for synaptic plasticity, astrocyte modulation of synchronization and systems memory consolidation

Doctorante : Lisa BLUM MOYSE

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Infomaths

Dans cette thèse, des modèles théoriques à niveaux d’abstraction croissants sont développés pour aborder des questions issues d’expériences de neuroscience. Ils sont étudiés par des approches numériques et analytiques. Avec le laboratoire de Laurent Venance (Paris), nous avons développé un modèle du protocole ITDP (input-timing- dependent plasticity) pour la plasticité des synapses cortico- et thalamo-striatales. Le modèle a été calibré par des données ex vivo et permettra de déterminer la présence de plasticité synaptique in vivo, lors d’expériences de comportement visant à déterminer le rôle des entrées corticales et thalamiques dans l’apprentissage moteur. Au niveau des populations neuronales, j’ai étudié la modulation des comportements collectifs neuronaux par les astrocytes, en particulier la synchronisation Up-Down, une alternance spontannée entre des périodes de forte activité collective et des périodes de silence. J’ai proposé des modèles de fréquence de décharge et de réseaux de neurones à spikes de populations interconnectées de neurones et d’astrocytes. Ils proposent des explications sur la façon dont les astrocytes induisent les transitions Up-Down. Les astrocytes sont aussi probablement impliqués dans la génération des crises d’épilepsie, pendant lesquelles la synchronisation neuronale est altérée. Sur la base des modèles précédents, j’ai développé un réseau neurone-astrocyte avec une connectivité en clusters, montrant la transition entre des dynamiques Up-Down et des évènements de très forte activité mimant une crise d’épilepsie. Enfin, au niveau du cerveau lui-même, j’ai étudié la théorie standard de la consolidation, selon laquelle la mémoire à court terme dans l’hippocampe permet la consolidation de la mémoire à long terme dans le néocortex. J’ai cherché à expliquer ce phénomène en intégrant des hypothèses biologiques – taille du néocortex expliquant la lenteur de l’apprentissage, et neurogenèse dans l’hippocampe expliquant l’effacement de sa mémoire – dans un modèle de champs neuronaux interconnectés qui reproduit bien les principales caractéristiques de la théorie.

21 juil
21/07/2023 10:00

Sciences & Société

Soutenance de thèse : Behnam EINABADI

Nouvelles méthodes d'aide à la décision pour la maintenance prédictive dynamique basée sur la science des données et l'optimisation multi objectifs

Doctorant : Behnam EINABADI

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

La maintenance prédictive (PdM) est devenue un sujet de recherche majeur dans l'industrie et dans le monde académique. L'objectif est d'utiliser des données en temps réel pour surveiller l'état de santé des équipements et prédire leur durée de vie restante (RUL). La plupart des études se concentrent sur la prédiction des défaillances, tandis que la prescription de décisions pour les activités de maintenance est beaucoup moins abordée. L'objectif de cette thèse est d'explorer les nouvelles méthodes et approches de PdM et de maintenance préventive (PvM) grâce à la science des données et aux méthodes d'optimisation mathématique. Notre étude vise à répondre à plusieurs questions telles que la possibilité d'estimer l'état de santé et/ou la RUL des équipements et de proposer une planification intégrale des activités de maintenance. Pour cela, une approche globale est proposée, qui couvre l'ensemble des stratégies de maintenance, et intègre l'analyse de la criticité de l'équipement, l'identification de la stratégie de maintenance, l'acquisition de données et d'informations, la surveillance de l'état de santé des équipements, la surveillance du système de maintenance, l'estimation de la RUL et la planification. Pour la mise en œuvre de cette approche, plusieurs outils, algorithmes et méthodes appropriés ont été développés et expérimentés sur quelques cas d'utilisation à l'usine Fiat Powertrain Technologies Bourbon-Lancy. Les résultats ont permis de démontrer la faisabilité de l'estimation de la RUL en se basant sur des données en temps réel, ainsi que l'efficacité engendrée. Par la suite, une méthode d'optimisation de planification des activités PdM et PvM a été développée et appliquée sur un cas réel en prenant en compte la RUL, le groupement opportuniste des activités et le risque de défaillance. Enfin, les perspectives managériales et les défis de la mise en œuvre de l'approche globale proposée dans d'autres entreprises ont été discutés.

Pages