LIRIS

31 jan
31/01/2024 14:00

Sciences & Société

Soutenance de thèse : Assem SADEK

Building Autonomous Agents with Hybrid Navigation Policies

Doctorant : Assem SADEK

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

Les progrès récents de l'IA, et plus particulièrement de l'apprentissage automatique, permettent aux robots de s'intégrer de manière plus transparente dans nos habitudes quotidiennes. L'objectif de cette thèse est de faire un pas de plus vers le développement d'agents autonomes intelligents qui peuvent être intégrés dans notre environnement quotidien, comme les maisons, les hôpitaux, les centres commerciaux, etc. Ces agents devraient posséder la capacité de naviguer efficacement dans leur environnement pour atteindre un certain objectif, comme atteindre une certaine zone de l'environnement ou trouver un certain objet. C'est pourquoi nous examinons le large éventail de techniques existantes pour la construction d'un agent de navigation incarné. Ces techniques peuvent entièrement être apprises par des réseaux neuronaux (techniques basées sur l'apprentissage) ou elles peuvent être des techniques basées sur la géométrie qui reposent sur une modélisation explicite de l'agent et de son environnement. Dans cette thèse, nous construisons des approches hybrides qui utilisent les deux techniques afin de pouvoir fonctionner, non seulement dans une simulation, mais également dans un environnement physique réel. Il s'agit d'un objectif commun à toutes les contributions à ce travail.

Informations complémentaires

  • Amphithéâtre Claude Chappe, Bâtiment Hedy Lamarr, INSA-Lyon (Villeurbanne)    

17 jan
17/01/2024 09:00

Sciences & Société

Soutenance de thèse : Léonard TSCHORA

Machine Learning Techniques for Electricity Price Forecasting

Doctorant : Léonard TSCHORA

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique et Mathématiques de Lyon

Electricity is essential for the energetic transition due to the diversity of greenhouse-gas free means of production and its potential to replace fossil fuels. However, it requires constant balance between generation and consumption, and can't be stored efficiently. Thus, it's necessary to use Price Fixing Algorithm (PFA) for developing competitive markets. Daily, Euphemia, determines the prices for the next day. Unlike other speculative markets, the price is algorithmically computed that renders its forcasts paramount for business applications. Electricity Price Forecasting consists in predicting the 24 hourly prices before their fixation at 12am. The literature highlights two incomplete approaches: expert models aim at replicating the PFA and computing the prices based on estimates of its inputs, but fail to produce accurate forecasts in practice. Data driven methods directly estimate prices using exogenous variables and past prices, but lack transparency. Also, the true relationship between variables and prices is only captured by Euphemia, implicitly limiting the performances of data driven approaches. The first challenge is to produce explainable EPF models using Shap Values, a model- agnostic explanability tool. Then, we represent the European network as a Graph where each country is a node labeled with its prices. We estimate the Graph edges using an optimization problem prior to training. With a Graph Neural Networks, we forecast prices for all markets simultanesously. Lastly, we combine the Euphemia algorithm with in a Neural Network (NN) that forecasts its inputs. To consider the price forecasting error in the NN's training, we compute the gradient of Euphemia's output with respect to its input, by vanishing the derivative of the dual function using a dichotomic search. We hope this thesis will be beneficial for the EPF practitioners and we also believe that our work on mixing optimization problems with machine learning models will benefit the broader Machine Learning community. 

Informations complémentaires

  • Salle 501.337, Bâtiment Blaise Pascal, INSA-Lyon (Villeurbanne)  

16 jan
16/01/2024 14:00

Sciences & Société

Soutenance de thèse : Steeven JANNY

Identification and Simulation of Physical Systems with Structured Deep Learning and Inductive Knowledge

Doctorant : Steeven JANNY

Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Infomaths

Les progrès technologiques de notre époque sont soutenus par des outils numériques pour simuler, contrôler et observer les systèmes physiques. En se concentrant sur des phénomènes complexes, les méthodes conventionnelles ne parviennent plus à répondre aux attentes en termes de précision ou de temps de calcul. Les approches data-driven, en particulier les réseaux de neurones, offrent des alternatives pour résoudre ces problèmes. Ces modèles capturent des relations non-linéaires dans les systèmes physiques et déplacent la charge de modélisation vers celle de la collecte de données. Cependant, ces méthodes sacrifient les garanties offertes par les approches traditionnelles. Nous proposons de combiner les domaines de la physique, de l'apprentissage profond et de la théorie du contrôle pour proposer de nouvelles méthodes hybrides, tirant parti de la puissance des réseaux de neurones, tout en s'appuyant sur des biais inductifs issus de la physique. Ce manuscrit présente nos travaux dans ce domaine. En particulier, il décrit des outils théoriques (abordés dans la partie 1) liés à la simulation de systèmes dynamiques et les connecte à la conception de réseaux neuronaux. Dans un deuxième temps (Partie 2), nous exploitons ces connaissances pour concevoir des algorithmes de contrôle et des techniques de simulation impliquant la résolution de problèmes complexes liés aux équations aux dérivées partielles. Enfin, dans la troisième partie, nous abordons des problèmes de simulation à plus grande échelle tels que la dynamique des fluides et le raisonnement contrefactuel. Nos travaux ont été présentés lors de conférences scientifiques dans le domaine de l'intelligence artificielle et de la théorie du contrôle. En construisant un pont entre la physique et l’apprentissage automatique, nous croyons fermement que cette direction de recherche peut contribuer à une nouvelle génération de méthodologies pour la simulation et le contrôle des systèmes physiques.

Informations complémentaires

  • Salle de Conférence, Bibliothèque Universitaire de Sciences La Doua (Villeurbanne)    

19 déc
19/12/2023 14:00

Sciences & Société

Soutenance de thèse : Marco FOLEY

Dynamique des génomes bactériens : une étude expérimentale in silico avec la plate-forme aevol

Doctorant : Marco FOLEY

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique et mathématiques de Lyon

Aevol est une plate-forme de simulation de l’évolution de populations d’organismes par variation et sélection. La conception du modèle est axée sur le réalisme de la structure du génome et des processus de mutations, permettant ainsi aux organismes simulés d'évoluer sur un fitness landscape comparable à celui d'organismes biologiques, avec des contraintes d’exploration similaires. Ces processus permettent l’émergence de comportements d’intérêt, pour l'étude de l'évolution de la structure des génomes, et pour produire des données de benchmarks pour tester les méthodes de phylogénie moléculaire. Les résultats obtenus jusqu’ici dans aevol concourent à suggérer que les éléments non-codants du génome sont soumis à sélection. Dans ce travail, nous avons utilisé Aevol pour mener une large campagne de simulation sur de très longues échelles de temps. Ces expériences nous permettent de montrer que la quantité de séquences non-codantes est finement régulée par deux forces contraires. La première est une force de sélection pour des génomes réduits car plus robustes face aux réarrangements chromosomiques. La seconde provient d'un biais mutationnel indirect favorisant les évènements de duplications neutres sur les délétions neutres menant à l'accumulation de non-codant par dérive génétique. Dans un deuxième temps, nous avons utilisé aevol comme outil de génération de benchmarks pour la phylogénie. En effet, Aevol ayant été développé indépendamment de la communauté de phylogénie moléculaire, il ne contient pas les a priori classiquement inclus dans les simulateurs de cette communauté, évitant ainsi la validation ad hoc des méthodes. Cependant, les séquences composant les génomes étant binaires dans Aevol, nous avons développé une version du simulateur utilisant des séquences génomiques quaternaire (ACTG). Cette nouvelle version a ensuite été utilisée pour générer des données de benchmarks afin de tester les reconstructions d'arbres phylogénétiques

 

Informations complémentaires

  • Amphithéâtre Emilie du Châtelet (Bibliothèque Marie Curie) - Villeurbanne

18 déc
18/12/2023 14:00

Sciences & Société

Soutenance de thèse : Paul BANSE

Evolution beyond substitutions: Computational modeling of the impact of chromosomal rearrangements on evolutionary dynamics

Doctorant : Paul BANSE

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique et mathématiques de Lyon

L'évolution telle qu'elle a été décrite par Darwin est un processus simple qui aboutit à une extrême complexité. En effet, étudier l'évolution biologique aujourd'hui correspond à étudier un phénomène allant d'échelles nanométriques à des échelles planétaires. En plus de cela, le processus est aussi affecté par des biais dus à la méthode d'écriture et de conservation de l'information. Finalement, il faut rappeler que chaque changement évolutif a pour origine une mutation, qui est un évènement aléatoire, et que la survie des mutants est, elle aussi, un processus aléatoire. Face à une telle complexité, il est nécessaire de réduire le champ d'étude pour espérer aboutir à une compréhension. Que ce soit avec des modèles expérimentaux, comme les boites de pétri, avec des modèles formels, comme les équations différentielles, ou avec des modèles computationnels, par exemple des simulations, toutes les simplifications sont bonnes à prendre pour décortiquer l'évolution. Parmi ces simplifications, il est courant de ne considérer que mutations. En particulier, ignorer les réarrangements chromosomiques, ces mutations qui réorganisent et réassemblent l'ADN et qui est souvent létales pour l'organisme qui les porte, est souvent considéré comme une simplification logique des modèles d'évolution. D'autant plus que jusqu'à récemment, les séquençages d'ADN réalisés n'étaient pas adaptés à les repérer. Dans cette thèse, nous allons montrer qu'en incluant les réarrangements, bien que les modèles obtenus soient plus complexes, il est possible d'en tirer une connaissance. Nous utiliserons des méthodes algorithmiques pour étudier le processus evolutif pour montrer que non seulement les réarrangements chromosomiques sont nécessaires pour soutenir l'évolution à long terme, puisqu’ils permettent une amélioration et de nouvelles opportunités d'évolution. Mais en plus, les comprendre permet d'expliquer simplement certaines dynamiques d’évolution par à-coups ainsi que la maintenance de segments non codants dans les génomes.

Informations complémentaires

  • Amphithéâtre Emilie du Châtelet (Bibliothèque Marie Curie) - Villeurbanne

21 déc
21/12/2023 14:00

Sciences & Société

Soutenance de thèse : Jui-Ting LU

Parameter-free analysis of digital surfaces with plane probing algorithms

Doctorante : Jui-Ting LU

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

Les volumes 3D discrets proviennent de diverses sources, notamment la segmentation d'images, la simulation numérique, et les éditeurs basés sur les voxels. Notre intérêt réside dans le traitement de la géométrie des surfaces discrètes entourant ces volumes, permettant la reconnaissance de structures locales telles que des segments de plans discrets. Cependant, les surfaces discrètes ont une géométrie pauvre, composée de surfels carrés parallèles aux axes. Pour analyser ces surfaces, des algorithmes de type plane-probing adaptent le voisinage autour d'un point en développant itérativement une approximation de plan, souvent sous forme de triangles, en fonction des informations locales. Notre objectif est d'analyser ces surfaces discrètes en utilisant les méthodes de type plane-probing.

Nous introduisons les algorithmes de type plane-probing existants dans un cadre général. De plus, nous proposons une nouvelle variante de l'algorithme de type plane-probing qui prend en compte un voisinage plus étendu que ceux des algorithmes existants. Nous proposons également une implémentation efficace de cette nouvelle variante.

Une découverte importante est que la suite de tétraèdres formée à partir de deux triangles consécutifs crée une triangulation de Delaunay dans une partie du plan discret. Cette propriété est vérifiée pour la nouvelle variante introduite. En conséquence, le triangle final retourné par l'algorithme a trois angles aigus ou droits. Ce résultat nous permet de déterminer l'étendue du voisinage considéré au cours des calculs.

Enfin, nous proposons quelques ajustements afin d'adapter ce type d'algorithme à des surfaces discrètes, permettant ainsi de déduire un estimateur de vecteurs normaux. Nous nous concentrons notamment sur la convergence multigrille de cet estimateur, qui a été observée expérimentalement pour des positions bien identifiées sur des surfaces discrètes convexes.

Informations complémentaires

  • Salle C4, Bâtiment Nautibus, INSA Lyon (Villeurbanne) 

22 nov
22/11/2023 14:00

Sciences & Société

Soutenance de thèse : Fatima ELHATTAB

Robust and Privacy-Preserving Federated Learning

Doctorante : Fatima ELHATTAB

Laboratoire INSA : LIRIS
Ecole doctorale : ED512 : Infomaths

Federated Learning opens interesting perspectives in privacy sensitive domains, such as healthcare or user mobility, that were so far reluctant towards AI and machine learning techniques. Indeed, with such decentralized Federated Learning protocols, data is kept private at the client side, instead of sending it to a remote service/cloud as done in classical approaches. However, Federated Learning unveils a brand new set of challenges. Recent studies show that Federated Learning is vulnerable to malicious users participating to the distributed protocol, if such users perform data poisoning attacks in order to make the AI and global model deviate from its correct behavior [2][7][11]. Malicious users do not rigorously follow the protocol, either innocently, due to human or system errors, or intentionally, due to adversarial behaviors. Such behaviors may end up, for instance, with disease data mislabelling in digital healthcare systems, wrong radiation information in radiation detection systems. The state-of-the-art approaches to tackle malicious clients in classical distributed machine learning make assumptions that do not hold in the case of decentralized Federated Learning systems, such as the fact that clients’ data are identically distributed among clients and independent from each other [10]. However, data present on client devices are collected by the clients themselves, based on thclients’ own usage pattern and local environment. Both the size and the distribution of clients’ data heavily vary between different clients. Thus, there is a need for novel algorithms and techniques to efficiently detect data poisoning attacks and counter them in Federated Learning systems. The research objective of this PhD project is to derive novel Federated Learning protocols that are resilient to data poisoning attacks. The key tasks of this project are: (i) Exploring different types of attacks in Federated Learning, under different use cases, such as disease data mislabelling in digital healthcare systems (ii) Deriving various attack implementations (e.g., data label poisoning, data feature poisoning) in real-world datasets, and proposing detection mechanisms based on techniques such as generative adversarial networks [8], model output and gradient monitoring, etc.

Informations complémentaires

  • Amphithéatre Chappe - Bâtiment Hedy Lamarr - Villeurbanne

24 nov
24/11/2023 10:00

Sciences & Société

Soutenance de thèse : Pierre FAURE--GIOVAGNOLI

Connaissance métier et fonctions en science des données - Application à la production d'hydroélectricité

Doctorant : Pierre FAURE--GIOVAGNOLI

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

Dans cette thèse, nous étudions le lien entre la connaissance métier sous forme d'une fonction et la science des données. Soit D(y, z1, ..., zn) un ensemble de données et y=f(z1, ...., zn) une fonction métier. Nous nous intéressons aux questions suivantes, simples mais cruciales pour un expert en science des données. Comment définir la satisfaction de f dans D? Comment mesurer efficacement cette satisfaction ? Comment cette satisfaction est-elle liée à la tâche d'apprentissage supervisé consistant à apprendre f à partir de D? Ces problèmes sont liés à l'étude des contre-exemples par l'utilisation des dépendances fonctionnelles (DF) et, en particulier, des mesures permettant de quantifier la satisfaction des DFs dans un ensemble de données tel que l'indicateur g3. Nous considérons le cas où l'égalité est remplacée par des prédicats plus flexibles. Premièrement, nous examinons l’impact de propriétés communes sur la difficulté du calcul du g3 avec prédicats. Nous montrons que la symétrie et la transitivité sont suffisantes pour garantir que l'erreur g3 puisse être calculée en temps polynomial. Deuxièmement, nous étudions le calcul de g3 dans les cas polynomial et NP-difficile identifiés dans la première partie. Nous proposons différentes solutions exactes et approximées pour le calcul de g3 dans les deux cas. Nous comparons ces solutions dans une étude expérimentale détaillée. Tous les algorithmes sont également disponibles via fastg3, une librairie Python open. Troisièmement, nous connectons l'étude des contre- exemples et l'indicateur g3 à l'apprentissage supervisé à l'aide d'une application web appelée ADESIT. ADESIT permet d'évaluer la capacité d'un ensemble de données à donner de bons résultats pour un problème d'apprentissage supervisé par le biais de statistiques et d'une exploration visuelle. Enfin, nous validons notre approche par une application au problème industriel de la surveillance de l'entrefer dans les générateurs hydrauliques.

Informations complémentaires

  • Salle 337, Département Informatique, INSA-Lyon (Villeurbanne)

24 oct
24/10/2023 14:00

Sciences & Société

Soutenance de thèse : Thibault DOUZON

Language Models for Document Understanding

Doctorant : Thibault DOUZON

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

First used for natural language related tasks, language models can understand documents better than any previous statistical model, provided enough data for training and pre-training. This thesis proposes several architectures and training procedures to better model visually-rich documents. Its main findings are the data-afficiency of pre- trained transformers compared to recurrent neural networks, the importance of pre- training tasks for downstream performance, the introduction of pre-training tasks specific to business documents and alternative architectures to transformers for multi-page documents.

Informations complémentaires

  • Amphithéâtre Chappe - Bâtiment Hedy Lamarr (Villeurbanne)

06 oct
06/10/2023 09:30

Sciences & Société

Soutenance de thèse : Youcef REMIL

A Data Mining Perspective on Explainable AIOps with Applications to Software Maintenance

Doctorant : Youcef REMIL

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

La supervision des systèmes informatiques modernes est confrontée à des défis de scalabilité, de fiabilité et d'efficacité. Les approches traditionnelles de maintenance manuelle sont inefficaces, de même que les systèmes experts à base de règles pour gérer les alertes générées par les systèmes informatiques. AIOps for Operating Systems (AIOps) propose l'utilisation de techniques avancées d'apprentissage automatique centrées sur les données pour améliorer et automatiser la supervision des systèmes. Cependant, plusieurs défis doivent être relevés pour concrétiser cette vision. Le manque de terminologie claire et unifiée dans le domaine de l'AIOps rend difficile la progression et la comparaison des contributions. Les exigences et les métriques nécessaires à la construction de modèles AIOps alignés sur les contraintes industrielles ne sont pas suffisamment développées. Les contributions théoriques se sont principalement concentrées sur les modèles prédictifs, négligeant les défis liés à la qualité et à la complexité des données. La dépendance excessive aux modèles boîte noire opaques limite leur adoption par les praticiens de l'industrie. De plus, les solutions AIOps existantes accordent peu d'importance à l'évaluation des performances des modèles et aux problèmes de scalabilité. Nous proposons dans le cadre de cette thèse une approche systématique de l'AIOps en fournissant une catégorisation conforme aux normes industrielles. Nous explorons également la découverte de sous-groupes pour extraire des hypothèses intéressantes à partir de vastes ensembles de données diversifiées. Nos contributions dans cet axe de recherche comprennent l'identification de fragments de requêtes SQL suspects pour résoudre les problèmes de performance, un mécanisme d'interprétation pour les modèles de triage des incidents, et l'analyse des problèmes de saturation de mémoire Java caractérisé par un ensemble de données complexes intégrant des données hiérarchiques. Nous étudions également la scalabilité en se concentrant sur le problème de déduplication des incidents en se référant à la technique de hachage sensible à la localité.

Informations complémentaires

  • Salle 501.337, Bâtiment Ada Lovelace (Villeurbanne)

Pages