InfoMaths

05 Dec
05/12/2024 09:00

Sciences & Société

Soutenance de thèse : Thomas LEBRUN

Health Data: Exploring And Enhancing Emerging Privacy- Protection Mechanisms

Doctorant : Thomas LEBRUN

Laboratoire INSA : CITI

École doctorale : ED512 Informatique et mathématiques de Lyon

Les données de santé représentent une grande quantité d'informations, générées quotidiennement et sensibles par nature. Cependant, leur partage est essentiel pour l'avancement de la recherche et, en fin de compte, l'amélioration des soins aux patients. L’utilisation des données médicales est confrontée à des limitations dues à leur sensibilité et à la nécessité de garantir la confidentialité, encadrée par les réglementations en vigueur. Cela nécessite une protection renforcée. L’intérêt pour des alternatives au partage de données brutes, telles que la pseudonymisation ou l’anonymisation, augmente avec les besoins d’accès à des données d’apprentissage pour l’utilisation de l’intelligence artificielle, qui requiert de grandes quantités de données pour fonctionner efficacement en tant qu’assistant médical. Dans cette thèse, nous examinons de nouvelles méthodes respectant la vie privée, rendues possibles par les avancées rapides de l’intelligence artificielle. Plus spécifiquement, mon analyse porte sur l’amélioration d’alternatives à la centralisation de données sensibles : l’apprentissage fédéré, une méthode décentralisée d’entraînement des modèles d’IA sans partage de données, ainsi que de la génération de données synthétiques, qui crée des données artificielles similaires aux données réelles. Considérant l’absence de consensus pour l’évaluation de la confidentialité de ces nouvelles approches, nous avons axé notre travail sur la mesure méthodique de la fuite de confidentialité ainsi que la balance avec l'utilité des données synthétiques ou du modèle d'apprentissage fédéré. Mes travaux incluent un mécanisme pour améliorer les propriétés de confidentialité de l'apprentissage fédéré ainsi qu'une nouvelle méthode de génération conditionnelle de données synthétiques. Cette thèse vise à contribuer au développement de cadres plus robustes pour le partage sécurisé des données de santé, en conformité avec les exigences réglementaires, facilitant ainsi des innovations en matière de santé.

09 Dec
09/12/2024 14:00

Sciences & Société

Soutenance de thèse : Pierre-Yves GENEST

Unsupervised Open-World Information Extraction From Unstructured and Domain-Specific Document Collections

Doctorant : Pierre-Yves GENEST

Laboratoire INSA : LIRIS

École doctorale : ED512 : InfoMaths de Lyon

The exponential growth in data generation has rendered the effective analysis of unstructured textual document collections a critical challenge. This PhD thesis aims to address this challenge by focusing on Information Extraction (IE), which encompasses four essential tasks: Named Entity Recognition (NER), Coreference Resolution (CR), Entity Linking (EL), and Relation Extraction (RE). These tasks collectively enable extracting and structuring knowledge from unformatted documents, facilitating its integration into structured databases for further analytical processes.
Our contributions start with creating Linked-DocRED, the first large-scale, diverse, and manually annotated dataset for document-level IE. This dataset enriches the existing DocRED dataset with high-quality entity linking labels. Additionally, we propose a novel set of metrics for evaluating end-to-end IE models. The evaluation of baseline models on Linked-DocRED highlights the complexities and challenges inherent to document-level IE: cascading errors, long context handling, and information scarcity.
We then introduce PromptORE, an unsupervised and open-world RE model. Adapting the prompt-tuning paradigm, PromptORE achieves relation embedding and clustering without requiring fine-tuning or hyperparameter tuning (a major weakness of previous baselines) and significantly outperforms state-of-the-art models. This method demonstrates the feasibility of extracting semantically coherent relation types in an open-world context.
Further extending our prompt-based approach, we develop CITRUN for unsupervised and open-world NER. By employing contrastive learning with off-domain labeled data, CITRUN improves entity type embeddings, surpassing LLM-based unsupervised NERs, and achieving competitive performance against zero-shot models that are more supervised.
These advancements facilitate meaningful knowledge extraction from unstructured documents, addressing practical, real-world constraints and enhancing the applicability of IE models in industrial contexts.

25 Nov
25/11/2024 09:00

Sciences & Société

Soutenance de thèse : Pierre MARZA

Learning spatial representations for single-task navigation and multi-task policies

Doctorant : Pierre MARZA

Laboratoire INSA : LIRIS

École doctorale : ED512 Informatique Et Mathématiques de Lyon

Agir de manière autonome dans notre monde en 3 dimensions requiert un large éventail de compétences, parmi lesquelles la perception du milieu environnant, sa représentation précise et suffisamment efficace pour garder une trace du passé, la prise de décisions et l'action en vue d'atteindre des objectifs précis. Les animaux, par exemple les humains, font preuve de capacités très robustes lorsqu'il s'agit d'agir dans le monde. Ils se distinguent notamment par leur capacité à s'adapter efficacement à de nouveaux environnements dans diverses conditions (éclairage, conditions météorologiques, etc.), mais aussi à maîtriser rapidement de nombreuses tâches d'intérêt à partir de quelques exemples. Ce manuscrit étudie la manière dont les réseaux neuronaux artificiels peuvent être entrainés pour atteindre un sous-ensemble de ces capacités. Nous nous concentrerons tout d'abord sur l'entrainement d'agents neuronaux capables d'effectuer une cartographie sémantique, à la fois à partir d'un signal de supervision augmenté et avec des représentations neuronales de scènes. Les agents neuronaux sont souvent formés par apprentissage par renforcement (RL) à partir d'un signal de récompense peu dense. Guider l'apprentissage des capacités de cartographie de la scène en augmentant le signal de supervision de l'apprentissage par renforcement avec des tâches auxiliaires facilitant le raisonnement spatial aidera à naviguer plus efficacement. Au lieu d'améliorer le signal d'entraînement des agents neuronaux, nous verrons également comment l'incorporation de représentations neuronales spécifiques de la sémantique et de la géométrie dans l'architecture de l'agent peut contribuer à améliorer les performances de navigation lorsqu'il s'agit d'atteindre des objectifs sémantique spécifiques. Ensuite, nous étudierons la meilleure façon d'explorer un environnement 3D afin de construire des représentations neuronales de l'espace qui soient aussi satisfaisantes que possible sur la base de métriques pensées pour la robotique que nous proposerons. Enfin, nous passerons d'agents de navigation entraînés à généraliser à de nouveaux environnements à des agents multi-tâches et nous verrons à quel point il est important d'adapter les caractéristiques visuelles extraites des observations des capteurs à la tâche à accomplir afin de réaliser une grande variété de tâches, mais aussi d'essayer de généraliser à de nouvelles tâches inconnues à partir de quelques démonstrations seulement. Ce manuscrit abordera donc différentes questions importantes telles que : Comment représenter une scène 3D et garder une trace de l'expérience passée dans un environnement? — Comment s'adapter de manière robuste à de nouveaux environnements, à de nouveaux scénarios et potentiellement à de nouvelles tâches ? — Comment entrainer des agents à des tâches séquentielles à long terme? — Comment maîtriser conjointement toutes les sous-compétences requises? — Quelle est l'importance de la perception en robotique ?
 

27 Nov
27/11/2024 09:00

Sciences & Société

Soutenance de thèse : Qing LI

Responsible production in agricultural supply chains: An impact of Information transparency

Doctorante : Qing LI

Laboratoire INSA : DISP

École doctorale : ED512 : InfoMaths (Informatique et Mathématiques de Lyon)

This thesis addresses a novel research problem in agricultural supply chains by integrating the study of responsible production with information transparency. Building on existing research in responsible production, we clarify responsible production to production efficiency, food waste reduction, and product quality improvement. Grounded in the research on information transparency, this thesis shows the specific format of information transparency in agriculture and models the characteristics of these phenomena based on the knowledge of agricultural cooperatives, blockchain technology, product traceability, quality testing, and moral hazard.

26 Nov
26/11/2024 14:00

Sciences & Société

Soutenance de thèse : Guillaume GISBERT

Complétion de surfaces numérisées représentant des tissus

Doctorant : Guillaume GISBERT

Laboratoire INSA : LIRIS
École doctorale : ED512 : InfoMaths (Informatique et Mathématiques de Lyon)

Dans cette thèse, nous nous intéressons au problème de la complétion de surfaces représentant des tissus. Les objets numériques sont soit créés directement virtuellement, soit scannés à partir d'objets réels. Encore aujourd'hui, la capture numérique reste imparfaite et les surfaces obtenues présentent régulireèment des trous. Dans le cas de la numérisation de vêtements, cela est d'autant plus vrai en raison de la présence de nombreux plis qui complique le processus de capture. Pour résoudre ce problème, nous proposons deux méthodes de complétion de surfaces spécifiques aux surfaces de tissus, que nous modélisons comme des surfaces développables, c'est-à-dire, dépliables dans le plan sans distorsions. La première méthode utilise des approches de géométrie variationnelle tandis que la seconde est basée sur l'apprentissage. Dans les deux cas, nous proposons d'estimer l'aire et la forme du trou en aplatissant la région entourant ce dernier dans le plan. Ceci nous permet d'en déduire les propriétés intrinsèques de la surface manquante. A partir de cette information, la première approche utilise un modèle de tissu pour replacer la géométrie sur la surface en 3D. La seconde approche entraîne un réseau à compléter des cartes de paramétrisation partielle pour reboucher la surface.

26 Nov
26/11/2024 14:00

Sciences & Société

Soutenance de thèse : Guillaume GISBERT

« Complétion de surfaces numérisées représentant des tissus »

Doctorante : Guillaume GISBERT

Laboratoire INSA : LIRIS

École doctorale : ED512 Infomaths (Informatique et Mathématiques de Lyon)

Dans cette thèse, nous nous intéressons au problème de la complétion de surfaces représentant des tissus. Les objets numériques sont soit créés directement virtuellement, soit scannés à partir d'objets réels. Encore aujourd'hui, la capture numérique reste imparfaite et les surfaces obtenues présentent régulièrement des trous. Dans le cas de la numérisation de vêtements, cela est d'autant plus vrai en raison de la présence de nombreux plis qui complique le processus de capture. Pour résoudre ce problème, nous proposons deux méthodes de complétion de surfaces spécifiques aux surfaces de tissus, que nous modélisons comme des surfaces développables, c'est-à-dire, dépliables dans le plan sans distorsions. La première méthode utilise des approches de géométrie variationnelle tandis que la seconde est basée sur l'apprentissage. Dans les deux cas, nous proposons d'estimer l'aire et la forme du trou en aplatissant la région entourant ce dernier dans le plan. Ceci nous permet d'en déduire les propriétés intrinsèques de la surface manquante. À partir de cette information, la première approche utilise un modèle de tissu pour replacer la géométrie sur la surface en 3D. La seconde approche entraîne un réseau à compléter des cartes de paramétrisation partielle pour reboucher la surface.

25 Nov
25/11/2024 10:00

Sciences & Société

Soutenance de thèse : Fang WAN

Multi-criteria optimization for the management of intensive care beds in an epidemic context

Doctorante : Fang WAN

Laboratoire INSA : DISP

Ecole doctorale : ED512 Infomaths

In this study, we explore the various challenges of healthcare resource management in the context of the COVID-19 pandemic, such as multiple uncertainties, multi-objective considerations, and diverse research subjects. The focus is on issues like medical resource allocation, priority setting, predictive models, and hyperparameter optimization. First, we conduct an in-depth investigation into intensive care units (ICU) bed allocation strategies, primarily considering how to reasonably distribute ICU beds among different patient types to maximize admission rates, patient satisfaction, and resource utilization, while maintaining scheduling stability under the influence of uncertainties. Then, Considering the upstream resources related to ICUs, especially the direct impact of operating room (OR) on ICU bed allocation, we coordinated the optimization of the OR and ICU modules. We examined the impact of OR allocation on ICU bed distribution, particularly in the context of random emergency patient arrivals. We explored how to minimize peak ICU bed demand, reduce delays in elective surgeries, and minimize healthcare staff overtime. Next, due to the random arrival of emergency patients, uncertain surgery duration, and prolonged length of stays (LOS) of patients in ICU, we first predicted emergency patient arrivals, patients' surgery durations and LOS, and then allocated ORs for both emergency and elective patients. Our goal is to provide timely emergency services and improve the utilization of ORs and ICU beds while minimizing the cancellation of elective surgeries. We also compared the performance of large language model (LLM) and traditional algorithms in the allocation of ORs and ICU beds. The performance of the models was further improved through hyperparameter optimization. Finally, we summarize the key findings of this research and provide suggestions for future research directions, particularly in improving the resilience and adaptability of medical resource management systems.

08 Oct
08/10/2024 09:00

Sciences & Société

Soutenance de thèse : Anthony CHEHAMI

« Méthode d’aide au déploiement du système cyber-physique flexible et reconfigurable dans le contexte de l’industrie 4.0 »

Doctorant : Anthony CHEHAMI

Laboratoire INSA : LIRIS

École doctorale : ED512 Infomaths (Informatique et Mathématiques de Lyon)

Cette thèse s'inscrit dans un contexte industriel en perpétuelle évolution, caractérisé par l'émergence de l'Industrie 4.0. Elle prend pour cadre l'usine FPT de Bourbon-Lancy (FPT-BLY), spécialisée dans la production de moteurs lourds pour véhicules. Face au défi d'intégrer le nouveau moteur XC13 dans des lignes de production existantes tout en maintenant la fabrication de produits actuels. Ce cas d’étude illustre l'importance de la flexibilité et de la reconfigurabilité industrielles pour maintenir la compétitivité.
L'objectif principal de cette recherche est de développer une méthode optimale pour implémenter des systèmes de production flexibles et reconfigurables, en réponse aux défis de l'Industrie 4.0. En effet, cette révolution industrielle apporte de nouvelles méthodologies rendues possibles par les technologies avancées. La thèse se concentre sur les piliers 4.0 concernant la capacité d'auto- ajustement et d'auto-configuration du système, qui requièrent une flexibilité importante pour être efficaces et opérationnelles.
Les contributions de cette thèse s'articulent autour de l'identification, la mesure et l'optimisation de la flexibilité dans les systèmes de production. Nous avons identifié et proposé des méthodes originales de mesure individuelles pour évaluer les différents types de flexibilité et a également développé une méthode pour mesurer l'interdépendance entre ces types de flexibilité. L'objectif est d'obtenir une valeur agrégée des différentes flexibilités, afin de faciliter la prescription d’une décision optimale en cas de reconfiguration du système. Enfin, nous avons développé un modèle d’optimisation mathématique permettant d’identifier la meilleure solution d’investissement afin d’atteindre le niveau de flexibilité approprié, et de ce fait, déterminer la feuille de route de déploiement de la flexibilité. Nous avons dû explorer une grande quantité de données et d'informations de l’entreprise pour la partie expérimentation et validation de ces modèles proposés. Enfin, l'ensemble de ces propositions ont été appliqué à l'usine FPT-BLY, dans le cadre de l'intégration du nouveau moteur XC13.

 

24 Sep
24/09/2024 14:00

Sciences & Société

Soutenance de thèse : Camille MORIOT

Méthodologie de caractérisation socio-organisationnelle des adresses IPs appliquée à la sécurité

Doctorante : Mme Camille MORIOT

Laboratoire INSA : CITI

École doctorale : ED512 : InfoMaths (Informatique et Mathématiques de Lyon)

Internet est un système clé dans la société contemporaine. Il s'agit d'un système complexe réparti entre de nombreuses organisations ayant une variété de rôles et d'intérêts. Depuis leur création, les cyberattaques sont devenues des actifs précieux, car elles donnent aux rivaux des avantages, par exemple dans les domaines politique ou économique. Il est nécessaire d'analyser ces attaques, d'identifier leurs singularités et les mécanismes sur lesquels elles s'appuient afin de les contrer. Cela permettra d'établir des signatures plus précises et plus pertinentes et aidera la conception des contre-mesures. Un des aspects d'analyse des attaques sont les infrastructures utilisées par les attaquants pour générer les attaques. De nombreux outils aujourd'hui permettent de caractériser l'aspect technique des machines qui composent ces infrastructures. Mais comme les attaques ont lieu dans un environnement social, politique, économique et organisationnel, nous revendiquons qu'il est nécessaire d'évaluer ces machines d'un point de vue organisationnel. 

Cette thèse propose une méthodologie originale de catégorisation des adresses IP, à l'aide de 6 étiquettes décrivant deux axes : un axe technologique et un axe organisationnel. Nous proposons également un outil d'investigation, IPSeen, qui implémente cette méthodologie, en affectant les étiquettes aux adresses IP. Il s'appuie sur différentes sources de données : Wikidata, RDAP, Onyphe, GeoIPLite. Deux versions d'IPSeen sont proposées et évaluées dans ce manuscrit. Ces deux versions se différencient par leur rapidité et leur niveau de précision. 

Enfin, nous appliquons notre méthodologie à un ensemble de données réelles de suivi d'infrastructure de type command and control. L'analyse produite propose une description des infrastructures des organisations qui maintiennent les machines participant aux infrastructures d'attaques. Nous montrons que notre approche apporte un éclairage essentiel sur la compréhension des attaques, en complément des nombreuses caractérisations techniques par ailleurs disponibles.

 

 

27 Sep
27/09/2024 14:00

Sciences & Société

Soutenance de thèse : Samuel PÉLISSIER

« Privacy-preserving communications for the IoT »

Doctorante : Samuel PÉLISSIER

Laboratoire INSA : CITI
École doctorale : ED512 : Infomaths (Informatique et Mathématiques de Lyon)

Les dernières décennies ont été témoins de l'émergence et de la prolifération d'objets connectés, communément appelés Internet des Objets (IdO). Le développement rapide de nombreuses technologies et leur connexion en réseau s'accompagne de la génération d'un important volume de données, soulevant des préoccupations en matière de vie privée, en particulier dans des domaines sensibles tels que la santé ou les maisons connectées.

Dans cette thèse, nous exploitons les techniques d'apprentissage automatique (machine learning) pour explorer les problèmes liés à la vie privée des objets connectés via leurs protocoles réseau. Tout d'abord, nous étudions les attaques possibles contre LoRaWAN, un protocole longue distance et à faible coût d'énergie. Nous explorons la relation entre deux identifiants du protocole et montrons que leur séparation théorique peut être contrecarrée en utilisant les métadonnées produites lors de la connexion au réseau. En nous appuyant sur une approche multi-domaines (contenu, temps, radio), nous démontrons que ces métadonnées permettent à un attaquant d'identifier les objets connectés de manière unique malgré le chiffrement du trafic, ouvrant la voie au traçage ou à la ré-identification.

Nous explorons ensuite les possibles contremesures, en analysant systématiquement les données utilisées lors de ces attaques et en proposant des techniques pour les obfusquer ou réduire leur pertinence. Nous démontrons que seule une approche combinée offre une réelle protection. Par ailleurs, nous proposons et évaluons diverses solutions de pseudonymes temporaires adaptées aux contraintes de LoRaWAN, en particulier la consommation énergétique.

Enfin, nous adaptons notre méthodologie d'apprentissage automatique à DNS, un protocole largement déployé dans l'IdO grand public. À nouveau basées sur les métadonnées, notre attaque permet d'identifier les objets connectés, malgré le chiffrement du flux DNS-over-HTTPS. Explorant les contremesures potentielles, nous observons un non-respect des standards liés au padding, entraînant la compromission partielle de la vie privée des utilisateurs.
 

 

Pages