
Sciences & Société
Soutenance de thèse : Alice BRENON
Méthodes et outils pour l'étude diachronique des discours géographiques dans deux encyclopédies françaises.
Doctorante : Alice BRENON
Laboratoire INSA : LIRIS - Laboratoire d'lnfoRmatique en Image et Systèmes d'information
École doctorale : ED512 lnfoMaths - Informatique et Mathématiques de Lyon
Dans le cadre du projet GEODE du LabEx ASLAN, cette thèse étudie en diachronie les discours géographiques dans deux encyclopédies françaises. L'Encyclopédie, Dictionnaire Raisonné des sciences, des arts et des métiers (EDdA), emblématique du siècle des Lumières, constitue la borne la plus ancienne de l'intervalle. Celui-ci s'étend jusqu'à la fin du XIXᵉ siècle, représenté par La Grande Encyclopédie, Inventaire raisonné des Sciences, des Lettres et des Arts (LGE). Au travers de trois contributions principales, les travaux abordent des thématiques telles que la préparation des données et l'encodage en particulier, la classification automatique et les analyses textométriques. En confrontant des méthodes simples de la théorie des graphes à des remarques structurelles sur les éléments présents dans les encyclopédies, la première étude souligne les différences fondamentales qui existent entre dictionnaires et encyclopédies en termes de structures et aboutit à la proposition d'un encodage XML-TEi pour représenter une encyclopédie, qui est appliqué sur la première édition numérique de LGE. La comparaison de méthodes de classifications permet ensuite de choisir un modèle pour associer un domaine de connaissance à chaque article du corpus, ce qui rend possible la conduite d'analyses contrastives dans la dernière partie de la thèse. Un examen attentif des erreurs commises par un des classifieurs sur l'EDdA révèle des ressemblances existant entre les domaines et montre une Géographie très au contact des autres sciences au XVIIIe siècle. Pour finir, les deux œuvres sont comparées pour mettre en relief les changements survenus dans la manière d'écrire la Géographie. Un premier développement quantifie puis caractérise la variation dans les articles du domaine (à l'aide de statistiques sur le nombre de mots et leurs longueurs puis en étudiant les mouvements d'entrées entre domaines) Les apports de la textométrie sont enfin utilisés pour approfondir la compréhension des liens entre biographies et discours géographiques.
Informations complémentaires
-
Amphithéâtre Chappe, Bâtiment Hedy Lamarr, 6 avenue des Arts, Villeurbanne cedex 69621

Sciences & Société
Soutenance de thèse : Yacine BELAL
Apprentissage Collaboratif de Confiance : Personnalisation, Confidentialité et Robustesse en Environnements Décentralisés
Doctorant : Yacine BELAL
Laboratoire INSA : LIRIS - Laboratoire d'lnfoRmatique en Image et Systèmes d'information
École doctorale : n°512 lnfoMaths - Informatique et Mathématiques de Lyon
Il y a une vingtaine d'années, l'émergence du Web 2.0 a profondément transformé notre rapport au numérique en permettant aux utilisateurs de créer et partager du contenu sur une multitude de plateformes, générant ainsi un volume croissant de données. Combinée aux récents progrès en apprentissage automatique, cette abondance de données a permis l'apparition de nombreux services basés sur l'apprentissage (e.g., agents conversationnels, assistants vocaux, détection de fraude). Traditionnellement, l'entraînement des modèles sous-jacents à ces services reposait sur la collecte de données sensibles par des entités centralisées, souvent les fournisseurs de service eux-mêmes. Cette centralisation a soulevé de sérieuses préoccupations en matière de confidentialité, comme en témoignent les multiples scandales liés à la vie privée au cours de la dernière décennie. En réponse, plusieurs réglementations, telles que le Règlement Général sur la Protection des Données (RGPD), ont été mises en place. Dans ce contexte, repenser les paradigmes d'apprentissage classiques pour les rendre plus respectueux de la vie privée est devenu essentiel. L'apprentissage fédéré a vu le jour en 2017 avec la promesse de préserver la confidentialité des données en permettant à des utilisateurs d'entraîner collaborativement un modèle sans jamais partager leurs données brutes. Ce paradigme a donné naissance à une classe plus large d'approches appelée apprentissage collaboratif. Il est désormais bien établi que l'apprentissage fédéré souffre de plusieurs limitations, notamment sa dépendance à un serveur central (point de défaillance unique) et sa vulnérabilité à diverses attaques en confidentialité et robustesse. C'est dans cette optique que l'apprentissage par commérage a été proposé, avec la promesse d'une décentralisation totale, s'appuyant sur des protocoles de communication pair-à-pair, dits protocoles de bavardage. Dans ce paradigme, chaque nœud agit comme un mini-serveur fédéré, coordonnant l'apprentissage avec ses voisins via un graphe de communication dynamique. Toutefois, il reste à démontrer si cette approche permet réellement de dépasser les limites de l'apprentissage fédéré, notamment en matière de personnalisation, de protection de la vie privée et de robustesse face aux comportements malveillants. Cette thèse s'attache à explorer ces questions. Dans un premier temps, nous comparons les performances individuelles des modèles produits par ces deux paradigmes, avant de proposer PEPPER, une structure logicielle permettant d'exploiter pleinement le potentiel de l'apprentissage par commérage à des fins de personnalisation, et de surpasser l'approche fédérée sur cet aspect. Dans un second temps, nous introduisons CIA, une attaque d'inférence de communautés utilisée pour auditer les vulnérabilités de confidentialité des deux paradigmes. Cette étude révèle une certaine résilience intrinsèque de l'apprentissage par commérage face à ce type d'attaques d'inférence comparative. Enfin, nous nous penchons sur la robustesse de ce paradigme face aux attaques par empoisonnement de modèles. Bien que sa nature dynamique puisse l'exposer davantage à ce type de menaces, nous proposons GRANITE, un cadre logiciel robuste pour l'apprentissage par commérage sur des graphes dynamiques. Dans l'ensemble, ce travail met en évidence le potentiel de l'apprentissage par commérage à s'imposer comme une alternative crédible à long terme pour des systèmes d'apprentissage décentralisés, transparents et centrés sur l'utilisateur.
Informations complémentaires
-
Amphithéâtre de la BU Sciences DOUA, 20 avenue Gaston Berger 69622 Villeurbanne Cedex

Sciences & Société
Soutenance de thèse : Aghile AIT MESSAOUD
Systèmes de traitement et de stockage distribué confidentiels basés sur les TEEs
Doctorant : Aghile AIT MESSAOUD
Laboratoire INSA : LIRIS - Laboratoire d'lnfoRmatique en Image et Systèmes d'information
École doctorale : n°512 lnfoMaths - Informatique et Mathématiques de Lyon
Les données sont devenues un moteur essentiel du monde numérique, alimentant l'innovation et les stratégies commerciales. Toutefois, leur manipulation s'accompagne d'importants enjeux de sécurité et d'éthique, car elles peuvent contenir des informations sensibles nécessitant une protection stricte. Toute violation peut entraîner des atteintes à la vie privée, des pertes financières et une perte de confiance. Pour garantir leur sécurité, il est crucial de les protéger dans leurs trois états : en transit, au repos et en cours d'utilisation. Les données en transit doivent être chiffrées pour éviter toute interception, celles au repos sécurisées par des contrôles d'accès stricts et un chiffrement robuste, tandis que celles en cours de traitement nécessitent un environnement protégé pour empêcher tout accès non autorisé. Les environnements d'exécution fiables jouent un rôle clé en isolant les données sensibles, même vis-à-vis des processus système ou du système d'exploitation. Cette recherche se divise en deux parties principales. La première porte sur la sécurisation des données en cours d'utilisation, en étudiant l'apprentissage fédéré comme cas d'usage spécifique. Ce paradigme d'apprentissage automatique préservant la confidentialité reste vulnérable aux attaques visant la mémoire principale des dispositifs clients, pouvant révéler des informations sensibles sur les données utilisées pour l'entraînement du modèle. Face à ces menaces, GradSec a été développé pour sécuriser l'apprentissage fédéré contre ces attaques. Cette solution exploite ARM TrustZone, un environnement d'exécution fiable conçu pour les appareils mobiles, afin de protéger les couches critiques du modèle en fonction des attaques identifiées. La seconde partie traite de la sécurisation des données au repos en s'appuyant sur les bases de données dé-valeur en mémoire, choisies pour leur flexibilité et leur capacité à stocker divers types de données via sérialisation. Une analyse approfondie des bases de données dé-valeur basées sur des environnements d'exécution fiables a mis en évidence leurs architectures et composants fondamentaux, tout en révélant leur vulnérabilité aux attaques par canaux auxiliaires. Pour atténuer ce risque, TruShare a été conçu comme un système de stockage distribué confidentiel combinant environnements d'exécution fiables et partage de secret. En fragmentant les données sensibles entre plusieurs nœuds, cette approche rend les fuites de données beaucoup plus complexes pour un attaquant. Ces travaux de recherche visent à répondre aux défis de la sécurité des données dans des environnements non fiables, en garantissant une confidentialité renforcée aussi bien lors du traitement que du stockage des informations.
Informations complémentaires
-
Salle de Conférence de la BU Sciences La Doua, 20 avenue Gaston Berger, 69100 Villeurbanne

Recherche
Venez encourager les doctorantes et doctorants lors de la finale locale Ma thèse en 180 secondes.
La finale locale Université de Lyon du concours international francophone Ma thèse en 180 secondes se déroulera jeudi 20 mars 2025, à 18h au Grand Amphithéâtre de l'Université de Lyon. Finale retransmise également sur les comptes Facebook et YouTube de l'Université de Lyon.
Un jury composé de chercheurs, journalistes et représentants du monde socio-économique décernera trois prix. Vous aurez également la possibilité de décerner le prix du public en assistant à la finale.
Le 1ᵉʳ prix du jury et le prix du public seront les deux lauréats Université de Lyon qui accéderont à l'étape nationale du concours.
Parmi les 12 candidats sélectionnés, Syrine Salouhou représentera les couleurs de l'INSA Lyon pour sa thèse "Analyse conjointe de trajectoires spatiales et oculaires pour le dépistage de la maladie d'Alzheimer" réalisée au sein de l'école doctorale Infomaths (ED 512) et du laboratoire LIRIS
Grand Amphithéâtre de l'Université de Lyon - 90 rue Pasteur 69007 Lyon
Finale nationale prévue pour le 17 juin 2025.
---------------
Ma Thèse en 180 secondes propose aux doctorants de présenter, devant un jury et un auditoire profane et diversifié, leur sujet de recherche en termes simples. Douze doctorantes et doctorants du site Lyon Saint-Étienne exposeront, en 3 minutes, de manière claire, concise et néanmoins convaincante, leur projet de recherche.

Sciences & Société
Ma thèse en 180 secondes : finale locale "Université de Lyon"
Venez encourager les doctorantes et doctorants lors de la finale locale Ma thèse en 180 secondes.
La finale locale Université de Lyon du concours international francophone Ma thèse en 180 secondes se déroulera jeudi 20 mars 2025, à 18h.
À suivre en présentiel ou en direct sur YouTube et sur la page Facebook Université de Lyon.
Un jury composé de chercheurs, journalistes et représentants du monde socio-économique décernera trois prix. Vous aurez également la possibilité de décerner le prix du public en assistant à la finale.
Le 1ᵉʳ prix du jury et le prix du public seront les deux lauréats Université de Lyon qui accéderont à l'étape nationale du concours.
Parmi les 12 candidats sélectionnés, Syrine Salouhou représentera les couleurs de l'INSA Lyon pour sa thèse "Analyse conjointe de trajectoires spatiales et oculaires pour le dépistage de la maladie d'Alzheimer" réalisée au sein de l'école doctorale Infomaths (ED 512) et du laboratoire LIRIS
Finale nationale prévue pour le 17 juin 2025.
---------------
Ma Thèse en 180 secondes propose aux doctorants de présenter, devant un jury et un auditoire profane et diversifié, leur sujet de recherche en termes simples. Douze doctorantes et doctorants du site Lyon Saint-Étienne exposeront, en 3 minutes, de manière claire, concise et néanmoins convaincante, leur projet de recherche.
Informations complémentaires
-
Grand Amphithéâtre de l'Université de Lyon - 90 rue Pasteur 69007 Lyon

Sciences & Société
Soutenance de l'Habilitation à Diriger des Recherches en sciences : Audrey SERNA
Supporting meaningful and adapted experience to foster motivation and sustained engagement.
Maître de conférences : Audrey SERNA
Laboratoire INSA : LIRIS
Rapporteurs : Wendy Mackay, Jean-Claude Martin, Vero Vanden Abeele
Jury :
Civilité |
Nom et Prénom |
Grade/Qualité |
Etablissement |
Mme |
Dupuy Chessa Sophie |
Professeur des Universités |
Université Grenoble Alpes |
M |
Garcia Christophe |
Professeur des Universités |
INSA Lyon |
M |
Hacid Mohand-Saïd |
Professeur des Universités |
Université Claude Bernard Lyon 1 |
Mme |
Lavoué Elise |
Professeur des Universités |
Université Jean Moulin Lyon 3 |
Mme |
Mackay Wendy |
Directrice de Recherche |
INRIA Saclay |
M |
Martin Jean-Claude |
Professeur des Universités |
Université Paris Saclay |
Mme |
Vanden Abeele Vero |
Associate Professor |
KU Leuven |
Informations complémentaires
-
INSA Lyon - Amphi Laura Bassi - Villeurbanne

Sciences & Société
Soutenance de thèse : Pierre-Yves GENEST
Unsupervised Open-World Information Extraction From Unstructured and Domain-Specific Document Collections
Doctorant : Pierre-Yves GENEST
Laboratoire INSA : LIRIS
École doctorale : ED512 : InfoMaths de Lyon
The exponential growth in data generation has rendered the effective analysis of unstructured textual document collections a critical challenge. This PhD thesis aims to address this challenge by focusing on Information Extraction (IE), which encompasses four essential tasks: Named Entity Recognition (NER), Coreference Resolution (CR), Entity Linking (EL), and Relation Extraction (RE). These tasks collectively enable extracting and structuring knowledge from unformatted documents, facilitating its integration into structured databases for further analytical processes.
Our contributions start with creating Linked-DocRED, the first large-scale, diverse, and manually annotated dataset for document-level IE. This dataset enriches the existing DocRED dataset with high-quality entity linking labels. Additionally, we propose a novel set of metrics for evaluating end-to-end IE models. The evaluation of baseline models on Linked-DocRED highlights the complexities and challenges inherent to document-level IE: cascading errors, long context handling, and information scarcity.
We then introduce PromptORE, an unsupervised and open-world RE model. Adapting the prompt-tuning paradigm, PromptORE achieves relation embedding and clustering without requiring fine-tuning or hyperparameter tuning (a major weakness of previous baselines) and significantly outperforms state-of-the-art models. This method demonstrates the feasibility of extracting semantically coherent relation types in an open-world context.
Further extending our prompt-based approach, we develop CITRUN for unsupervised and open-world NER. By employing contrastive learning with off-domain labeled data, CITRUN improves entity type embeddings, surpassing LLM-based unsupervised NERs, and achieving competitive performance against zero-shot models that are more supervised.
These advancements facilitate meaningful knowledge extraction from unstructured documents, addressing practical, real-world constraints and enhancing the applicability of IE models in industrial contexts.
Informations complémentaires
-
Salle 501.337, Bâtiment Ada Lovelace, INSA-Lyon (Villeurbanne)

Sciences & Société
Soutenance de thèse : Pierre MARZA
Learning spatial representations for single-task navigation and multi-task policies
Doctorant : Pierre MARZA
Laboratoire INSA : LIRIS
École doctorale : ED512 Informatique Et Mathématiques de Lyon
Agir de manière autonome dans notre monde en 3 dimensions requiert un large éventail de compétences, parmi lesquelles la perception du milieu environnant, sa représentation précise et suffisamment efficace pour garder une trace du passé, la prise de décisions et l'action en vue d'atteindre des objectifs précis. Les animaux, par exemple les humains, font preuve de capacités très robustes lorsqu'il s'agit d'agir dans le monde. Ils se distinguent notamment par leur capacité à s'adapter efficacement à de nouveaux environnements dans diverses conditions (éclairage, conditions météorologiques, etc.), mais aussi à maîtriser rapidement de nombreuses tâches d'intérêt à partir de quelques exemples. Ce manuscrit étudie la manière dont les réseaux neuronaux artificiels peuvent être entrainés pour atteindre un sous-ensemble de ces capacités. Nous nous concentrerons tout d'abord sur l'entrainement d'agents neuronaux capables d'effectuer une cartographie sémantique, à la fois à partir d'un signal de supervision augmenté et avec des représentations neuronales de scènes. Les agents neuronaux sont souvent formés par apprentissage par renforcement (RL) à partir d'un signal de récompense peu dense. Guider l'apprentissage des capacités de cartographie de la scène en augmentant le signal de supervision de l'apprentissage par renforcement avec des tâches auxiliaires facilitant le raisonnement spatial aidera à naviguer plus efficacement. Au lieu d'améliorer le signal d'entraînement des agents neuronaux, nous verrons également comment l'incorporation de représentations neuronales spécifiques de la sémantique et de la géométrie dans l'architecture de l'agent peut contribuer à améliorer les performances de navigation lorsqu'il s'agit d'atteindre des objectifs sémantique spécifiques. Ensuite, nous étudierons la meilleure façon d'explorer un environnement 3D afin de construire des représentations neuronales de l'espace qui soient aussi satisfaisantes que possible sur la base de métriques pensées pour la robotique que nous proposerons. Enfin, nous passerons d'agents de navigation entraînés à généraliser à de nouveaux environnements à des agents multi-tâches et nous verrons à quel point il est important d'adapter les caractéristiques visuelles extraites des observations des capteurs à la tâche à accomplir afin de réaliser une grande variété de tâches, mais aussi d'essayer de généraliser à de nouvelles tâches inconnues à partir de quelques démonstrations seulement. Ce manuscrit abordera donc différentes questions importantes telles que : Comment représenter une scène 3D et garder une trace de l'expérience passée dans un environnement? — Comment s'adapter de manière robuste à de nouveaux environnements, à de nouveaux scénarios et potentiellement à de nouvelles tâches ? — Comment entrainer des agents à des tâches séquentielles à long terme? — Comment maîtriser conjointement toutes les sous-compétences requises? — Quelle est l'importance de la perception en robotique ?
Informations complémentaires
-
Amphithéâtre Claude Chappe, Bâtiment Hedy Lamarr, INSA-Lyon (Villeurbanne)

Sciences & Société
Soutenance de thèse : Guillaume GISBERT
Complétion de surfaces numérisées représentant des tissus
Doctorant : Guillaume GISBERT
Laboratoire INSA : LIRIS
École doctorale : ED512 : InfoMaths (Informatique et Mathématiques de Lyon)
Dans cette thèse, nous nous intéressons au problème de la complétion de surfaces représentant des tissus. Les objets numériques sont soit créés directement virtuellement, soit scannés à partir d'objets réels. Encore aujourd'hui, la capture numérique reste imparfaite et les surfaces obtenues présentent régulireèment des trous. Dans le cas de la numérisation de vêtements, cela est d'autant plus vrai en raison de la présence de nombreux plis qui complique le processus de capture. Pour résoudre ce problème, nous proposons deux méthodes de complétion de surfaces spécifiques aux surfaces de tissus, que nous modélisons comme des surfaces développables, c'est-à-dire, dépliables dans le plan sans distorsions. La première méthode utilise des approches de géométrie variationnelle tandis que la seconde est basée sur l'apprentissage. Dans les deux cas, nous proposons d'estimer l'aire et la forme du trou en aplatissant la région entourant ce dernier dans le plan. Ceci nous permet d'en déduire les propriétés intrinsèques de la surface manquante. A partir de cette information, la première approche utilise un modèle de tissu pour replacer la géométrie sur la surface en 3D. La seconde approche entraîne un réseau à compléter des cartes de paramétrisation partielle pour reboucher la surface.
Informations complémentaires
-
Salle de conférence de la Bibliothèque Universitaire de Sciences (Villeurbanne)

Sciences & Société
Soutenance de thèse : Guillaume GISBERT
« Complétion de surfaces numérisées représentant des tissus »
Doctorante : Guillaume GISBERT
Laboratoire INSA : LIRIS
École doctorale : ED512 Infomaths (Informatique et Mathématiques de Lyon)
Dans cette thèse, nous nous intéressons au problème de la complétion de surfaces représentant des tissus. Les objets numériques sont soit créés directement virtuellement, soit scannés à partir d'objets réels. Encore aujourd'hui, la capture numérique reste imparfaite et les surfaces obtenues présentent régulièrement des trous. Dans le cas de la numérisation de vêtements, cela est d'autant plus vrai en raison de la présence de nombreux plis qui complique le processus de capture. Pour résoudre ce problème, nous proposons deux méthodes de complétion de surfaces spécifiques aux surfaces de tissus, que nous modélisons comme des surfaces développables, c'est-à-dire, dépliables dans le plan sans distorsions. La première méthode utilise des approches de géométrie variationnelle tandis que la seconde est basée sur l'apprentissage. Dans les deux cas, nous proposons d'estimer l'aire et la forme du trou en aplatissant la région entourant ce dernier dans le plan. Ceci nous permet d'en déduire les propriétés intrinsèques de la surface manquante. À partir de cette information, la première approche utilise un modèle de tissu pour replacer la géométrie sur la surface en 3D. La seconde approche entraîne un réseau à compléter des cartes de paramétrisation partielle pour reboucher la surface.
Informations complémentaires
-
Salle de conférence de la Bibliothèque Universitaire de Sciences (Villeurbanne)