
Sciences & Société
Soutenance de thèse : Pierre-Yves GENEST
Unsupervised Open-World Information Extraction From Unstructured and Domain-Specific Document Collections
Doctorant : Pierre-Yves GENEST
Laboratoire INSA : LIRIS
École doctorale : ED512 : InfoMaths de Lyon
The exponential growth in data generation has rendered the effective analysis of unstructured textual document collections a critical challenge. This PhD thesis aims to address this challenge by focusing on Information Extraction (IE), which encompasses four essential tasks: Named Entity Recognition (NER), Coreference Resolution (CR), Entity Linking (EL), and Relation Extraction (RE). These tasks collectively enable extracting and structuring knowledge from unformatted documents, facilitating its integration into structured databases for further analytical processes.
Our contributions start with creating Linked-DocRED, the first large-scale, diverse, and manually annotated dataset for document-level IE. This dataset enriches the existing DocRED dataset with high-quality entity linking labels. Additionally, we propose a novel set of metrics for evaluating end-to-end IE models. The evaluation of baseline models on Linked-DocRED highlights the complexities and challenges inherent to document-level IE: cascading errors, long context handling, and information scarcity.
We then introduce PromptORE, an unsupervised and open-world RE model. Adapting the prompt-tuning paradigm, PromptORE achieves relation embedding and clustering without requiring fine-tuning or hyperparameter tuning (a major weakness of previous baselines) and significantly outperforms state-of-the-art models. This method demonstrates the feasibility of extracting semantically coherent relation types in an open-world context.
Further extending our prompt-based approach, we develop CITRUN for unsupervised and open-world NER. By employing contrastive learning with off-domain labeled data, CITRUN improves entity type embeddings, surpassing LLM-based unsupervised NERs, and achieving competitive performance against zero-shot models that are more supervised.
These advancements facilitate meaningful knowledge extraction from unstructured documents, addressing practical, real-world constraints and enhancing the applicability of IE models in industrial contexts.
Informations complémentaires
-
Salle 501.337, Bâtiment Ada Lovelace, INSA-Lyon (Villeurbanne)

Sciences & Société
Soutenance de thèse : Pierre MARZA
Learning spatial representations for single-task navigation and multi-task policies
Doctorant : Pierre MARZA
Laboratoire INSA : LIRIS
École doctorale : ED512 Informatique Et Mathématiques de Lyon
Agir de manière autonome dans notre monde en 3 dimensions requiert un large éventail de compétences, parmi lesquelles la perception du milieu environnant, sa représentation précise et suffisamment efficace pour garder une trace du passé, la prise de décisions et l'action en vue d'atteindre des objectifs précis. Les animaux, par exemple les humains, font preuve de capacités très robustes lorsqu'il s'agit d'agir dans le monde. Ils se distinguent notamment par leur capacité à s'adapter efficacement à de nouveaux environnements dans diverses conditions (éclairage, conditions météorologiques, etc.), mais aussi à maîtriser rapidement de nombreuses tâches d'intérêt à partir de quelques exemples. Ce manuscrit étudie la manière dont les réseaux neuronaux artificiels peuvent être entrainés pour atteindre un sous-ensemble de ces capacités. Nous nous concentrerons tout d'abord sur l'entrainement d'agents neuronaux capables d'effectuer une cartographie sémantique, à la fois à partir d'un signal de supervision augmenté et avec des représentations neuronales de scènes. Les agents neuronaux sont souvent formés par apprentissage par renforcement (RL) à partir d'un signal de récompense peu dense. Guider l'apprentissage des capacités de cartographie de la scène en augmentant le signal de supervision de l'apprentissage par renforcement avec des tâches auxiliaires facilitant le raisonnement spatial aidera à naviguer plus efficacement. Au lieu d'améliorer le signal d'entraînement des agents neuronaux, nous verrons également comment l'incorporation de représentations neuronales spécifiques de la sémantique et de la géométrie dans l'architecture de l'agent peut contribuer à améliorer les performances de navigation lorsqu'il s'agit d'atteindre des objectifs sémantique spécifiques. Ensuite, nous étudierons la meilleure façon d'explorer un environnement 3D afin de construire des représentations neuronales de l'espace qui soient aussi satisfaisantes que possible sur la base de métriques pensées pour la robotique que nous proposerons. Enfin, nous passerons d'agents de navigation entraînés à généraliser à de nouveaux environnements à des agents multi-tâches et nous verrons à quel point il est important d'adapter les caractéristiques visuelles extraites des observations des capteurs à la tâche à accomplir afin de réaliser une grande variété de tâches, mais aussi d'essayer de généraliser à de nouvelles tâches inconnues à partir de quelques démonstrations seulement. Ce manuscrit abordera donc différentes questions importantes telles que : Comment représenter une scène 3D et garder une trace de l'expérience passée dans un environnement? — Comment s'adapter de manière robuste à de nouveaux environnements, à de nouveaux scénarios et potentiellement à de nouvelles tâches ? — Comment entrainer des agents à des tâches séquentielles à long terme? — Comment maîtriser conjointement toutes les sous-compétences requises? — Quelle est l'importance de la perception en robotique ?
Informations complémentaires
-
Amphithéâtre Claude Chappe, Bâtiment Hedy Lamarr, INSA-Lyon (Villeurbanne)

Sciences & Société
Soutenance de thèse : Guillaume GISBERT
Complétion de surfaces numérisées représentant des tissus
Doctorant : Guillaume GISBERT
Laboratoire INSA : LIRIS
École doctorale : ED512 : InfoMaths (Informatique et Mathématiques de Lyon)
Dans cette thèse, nous nous intéressons au problème de la complétion de surfaces représentant des tissus. Les objets numériques sont soit créés directement virtuellement, soit scannés à partir d'objets réels. Encore aujourd'hui, la capture numérique reste imparfaite et les surfaces obtenues présentent régulireèment des trous. Dans le cas de la numérisation de vêtements, cela est d'autant plus vrai en raison de la présence de nombreux plis qui complique le processus de capture. Pour résoudre ce problème, nous proposons deux méthodes de complétion de surfaces spécifiques aux surfaces de tissus, que nous modélisons comme des surfaces développables, c'est-à-dire, dépliables dans le plan sans distorsions. La première méthode utilise des approches de géométrie variationnelle tandis que la seconde est basée sur l'apprentissage. Dans les deux cas, nous proposons d'estimer l'aire et la forme du trou en aplatissant la région entourant ce dernier dans le plan. Ceci nous permet d'en déduire les propriétés intrinsèques de la surface manquante. A partir de cette information, la première approche utilise un modèle de tissu pour replacer la géométrie sur la surface en 3D. La seconde approche entraîne un réseau à compléter des cartes de paramétrisation partielle pour reboucher la surface.
Informations complémentaires
-
Salle de conférence de la Bibliothèque Universitaire de Sciences (Villeurbanne)

Sciences & Société
Soutenance de thèse : Guillaume GISBERT
« Complétion de surfaces numérisées représentant des tissus »
Doctorante : Guillaume GISBERT
Laboratoire INSA : LIRIS
École doctorale : ED512 Infomaths (Informatique et Mathématiques de Lyon)
Dans cette thèse, nous nous intéressons au problème de la complétion de surfaces représentant des tissus. Les objets numériques sont soit créés directement virtuellement, soit scannés à partir d'objets réels. Encore aujourd'hui, la capture numérique reste imparfaite et les surfaces obtenues présentent régulièrement des trous. Dans le cas de la numérisation de vêtements, cela est d'autant plus vrai en raison de la présence de nombreux plis qui complique le processus de capture. Pour résoudre ce problème, nous proposons deux méthodes de complétion de surfaces spécifiques aux surfaces de tissus, que nous modélisons comme des surfaces développables, c'est-à-dire, dépliables dans le plan sans distorsions. La première méthode utilise des approches de géométrie variationnelle tandis que la seconde est basée sur l'apprentissage. Dans les deux cas, nous proposons d'estimer l'aire et la forme du trou en aplatissant la région entourant ce dernier dans le plan. Ceci nous permet d'en déduire les propriétés intrinsèques de la surface manquante. À partir de cette information, la première approche utilise un modèle de tissu pour replacer la géométrie sur la surface en 3D. La seconde approche entraîne un réseau à compléter des cartes de paramétrisation partielle pour reboucher la surface.
Informations complémentaires
-
Salle de conférence de la Bibliothèque Universitaire de Sciences (Villeurbanne)

Sciences & Société
Soutenance de thèse : Anthony CHEHAMI
« Méthode d’aide au déploiement du système cyber-physique flexible et reconfigurable dans le contexte de l’industrie 4.0 »
Doctorant : Anthony CHEHAMI
Laboratoire INSA : LIRIS
École doctorale : ED512 Infomaths (Informatique et Mathématiques de Lyon)
Cette thèse s'inscrit dans un contexte industriel en perpétuelle évolution, caractérisé par l'émergence de l'Industrie 4.0. Elle prend pour cadre l'usine FPT de Bourbon-Lancy (FPT-BLY), spécialisée dans la production de moteurs lourds pour véhicules. Face au défi d'intégrer le nouveau moteur XC13 dans des lignes de production existantes tout en maintenant la fabrication de produits actuels. Ce cas d’étude illustre l'importance de la flexibilité et de la reconfigurabilité industrielles pour maintenir la compétitivité.
L'objectif principal de cette recherche est de développer une méthode optimale pour implémenter des systèmes de production flexibles et reconfigurables, en réponse aux défis de l'Industrie 4.0. En effet, cette révolution industrielle apporte de nouvelles méthodologies rendues possibles par les technologies avancées. La thèse se concentre sur les piliers 4.0 concernant la capacité d'auto- ajustement et d'auto-configuration du système, qui requièrent une flexibilité importante pour être efficaces et opérationnelles.
Les contributions de cette thèse s'articulent autour de l'identification, la mesure et l'optimisation de la flexibilité dans les systèmes de production. Nous avons identifié et proposé des méthodes originales de mesure individuelles pour évaluer les différents types de flexibilité et a également développé une méthode pour mesurer l'interdépendance entre ces types de flexibilité. L'objectif est d'obtenir une valeur agrégée des différentes flexibilités, afin de faciliter la prescription d’une décision optimale en cas de reconfiguration du système. Enfin, nous avons développé un modèle d’optimisation mathématique permettant d’identifier la meilleure solution d’investissement afin d’atteindre le niveau de flexibilité approprié, et de ce fait, déterminer la feuille de route de déploiement de la flexibilité. Nous avons dû explorer une grande quantité de données et d'informations de l’entreprise pour la partie expérimentation et validation de ces modèles proposés. Enfin, l'ensemble de ces propositions ont été appliqué à l'usine FPT-BLY, dans le cadre de l'intégration du nouveau moteur XC13.
Informations complémentaires
-
Salle Smart Production, Bâtiment CEI3 (Porte B) (Villeurbanne)

Sciences & Société
Soutenance de thèse : Julian BRUYAT
Des graphes de propriétés aux graphes de connaissances
Doctorant : Julian BRUYAT
Laboratoire INSA : LIRIS
École doctorale : ED512 : InfoMaths de Lyon
Les graphes de propriétés et les graphes RDF sont deux familles populaires de base de données graphe. Néanmoins, malgré le fait qu'elles soient toutes les deux basées sur la notion de graphe, ces deux familles ne sont pas interopérables. Les graphes de propriétés sont une famille d'implémentations de base de données très flexible, où des propriétés peuvent être rattachées aux noeuds et aux arcs du graphe. La seconde est un modèle standardisé de description de connaissances, reposant sur des vocabulaires partagés entre tous les graphes RDF. Dans cette thèse, nous définissons des méthodes pour permettre une interopérabilité sémantique entre graphes de propriétés et graphes RDF configurée à travers un « contexte » fourni par l'utilisateur. La première méthode est une méthode bas niveau, compatible avec n'importe quel graphe de propriétés. La seconde méthode est une méthode haut niveau, reposant sur la notion de schéma de graphe de propriétés, et pour laquelle la réversibilité de certains contextes est étudiée formellement. Enfin, pour faciliter l'écriture des « contextes » en RDF, et plus généralement de n'importe quel document RDF, nous proposons une méthode d’auto- complétion basée sur les vocabulaires de schémas RDF existants.
Informations complémentaires
-
Salle 501.337, Bâtiment Ada Lovelace, INSA-Lyon (Villeurbanne)

Sciences & Société
Soutenance de thèse : Jennie ANDERSEN
De la transparence des graphes de connaissances à un cadre général pour la définition de mesures d'évaluation
Doctorante : Jennie ANDERSEN
Laboratoire INSA : LIRIS
École doctorale : ED512 Infomaths (Informatique et Mathématiques de Lyon)
De nombreux graphes de connaissances (KG) sont disponibles sur le Web, et il peut être difficile de décider avec lequel travailler. Au-delà de la pertinence du domaine et du contenu, l'utilisation de standards, l'identification des créateurs... peuvent également influencer ce choix. En effet, la mise à disposition de toujours plus de données s'accompagne d’attentes supplémentaires en termes de qualité et de transparence.
Pour aider les utilisateurs à choisir un KG plutôt qu'un autre, nous voulons fournir une estimation de la transparence des KG. Les informations liées à la transparence sont essentielles pour renforcer la confiance dans les données et favoriser leur réutilisation. Cependant, il n’existe pas de définition consensuelle de la transparence. Pour mieux la comprendre, nous explorons tout d'abord cette notion et ses concepts associés (accessibilité, vérifiabilité...). Face à l’absence d'exigences précises concernant la transparence, nous nous concentrons ensuite sur un concept proche, et proposons une mesure de « l’accountability » des KG. Nous utilisons notre mesure pour évaluer des centaines de KGs disponibles via des SPARQL endpoints. Enfin, nous comparons notre mesure avec d'autres mesures pour les KG sur la qualité des données et les principes FAIR.
Ces comparaisons mettent en évidence des spécificités et des points communs pour ces multiples mesures. Aussi, choisir la mesure appropriée pour évaluer les KG dans le cadre d'une tâche donnée n’est pas aisé, d’autant plus qu'elles sont décrites de manières variées. Puisque beaucoup reposent sur une structure hiérarchique, nous proposons de définir une base formelle pour décrire les mesures dans un cadre commun. Nous souhaitons ainsi faciliter leur compréhension, leur réutilisation, leur comparaison et leur partage en définissant des opérateurs permettant de les manipuler, soit pour en créer de nouvelles, soit pour les comparer. Nous prolongeons ce cadre en proposant une application web.
Informations complémentaires
-
Salle 501.337, Bâtiment Ada Lovelace, INSA-Lyon (Villeurbanne)

Sciences & Société
Soutenance de thèse : Assem SADEK
Building Autonomous Agents with Hybrid Navigation Policies
Doctorant : Assem SADEK
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon
Les progrès récents de l'IA, et plus particulièrement de l'apprentissage automatique, permettent aux robots de s'intégrer de manière plus transparente dans nos habitudes quotidiennes. L'objectif de cette thèse est de faire un pas de plus vers le développement d'agents autonomes intelligents qui peuvent être intégrés dans notre environnement quotidien, comme les maisons, les hôpitaux, les centres commerciaux, etc. Ces agents devraient posséder la capacité de naviguer efficacement dans leur environnement pour atteindre un certain objectif, comme atteindre une certaine zone de l'environnement ou trouver un certain objet. C'est pourquoi nous examinons le large éventail de techniques existantes pour la construction d'un agent de navigation incarné. Ces techniques peuvent entièrement être apprises par des réseaux neuronaux (techniques basées sur l'apprentissage) ou elles peuvent être des techniques basées sur la géométrie qui reposent sur une modélisation explicite de l'agent et de son environnement. Dans cette thèse, nous construisons des approches hybrides qui utilisent les deux techniques afin de pouvoir fonctionner, non seulement dans une simulation, mais également dans un environnement physique réel. Il s'agit d'un objectif commun à toutes les contributions à ce travail.
Informations complémentaires
-
Amphithéâtre Claude Chappe, Bâtiment Hedy Lamarr, INSA-Lyon (Villeurbanne)

Sciences & Société
Soutenance de thèse : Léonard TSCHORA
Machine Learning Techniques for Electricity Price Forecasting
Doctorant : Léonard TSCHORA
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Informatique et Mathématiques de Lyon
Electricity is essential for the energetic transition due to the diversity of greenhouse-gas free means of production and its potential to replace fossil fuels. However, it requires constant balance between generation and consumption, and can't be stored efficiently. Thus, it's necessary to use Price Fixing Algorithm (PFA) for developing competitive markets. Daily, Euphemia, determines the prices for the next day. Unlike other speculative markets, the price is algorithmically computed that renders its forcasts paramount for business applications. Electricity Price Forecasting consists in predicting the 24 hourly prices before their fixation at 12am. The literature highlights two incomplete approaches: expert models aim at replicating the PFA and computing the prices based on estimates of its inputs, but fail to produce accurate forecasts in practice. Data driven methods directly estimate prices using exogenous variables and past prices, but lack transparency. Also, the true relationship between variables and prices is only captured by Euphemia, implicitly limiting the performances of data driven approaches. The first challenge is to produce explainable EPF models using Shap Values, a model- agnostic explanability tool. Then, we represent the European network as a Graph where each country is a node labeled with its prices. We estimate the Graph edges using an optimization problem prior to training. With a Graph Neural Networks, we forecast prices for all markets simultanesously. Lastly, we combine the Euphemia algorithm with in a Neural Network (NN) that forecasts its inputs. To consider the price forecasting error in the NN's training, we compute the gradient of Euphemia's output with respect to its input, by vanishing the derivative of the dual function using a dichotomic search. We hope this thesis will be beneficial for the EPF practitioners and we also believe that our work on mixing optimization problems with machine learning models will benefit the broader Machine Learning community.
Informations complémentaires
-
Salle 501.337, Bâtiment Blaise Pascal, INSA-Lyon (Villeurbanne)
Mots clés

Sciences & Société
Soutenance de thèse : Steeven JANNY
Identification and Simulation of Physical Systems with Structured Deep Learning and Inductive Knowledge
Doctorant : Steeven JANNY
Laboratoire INSA : LIRIS
Ecole doctorale : ED512 Infomaths
Les progrès technologiques de notre époque sont soutenus par des outils numériques pour simuler, contrôler et observer les systèmes physiques. En se concentrant sur des phénomènes complexes, les méthodes conventionnelles ne parviennent plus à répondre aux attentes en termes de précision ou de temps de calcul. Les approches data-driven, en particulier les réseaux de neurones, offrent des alternatives pour résoudre ces problèmes. Ces modèles capturent des relations non-linéaires dans les systèmes physiques et déplacent la charge de modélisation vers celle de la collecte de données. Cependant, ces méthodes sacrifient les garanties offertes par les approches traditionnelles. Nous proposons de combiner les domaines de la physique, de l'apprentissage profond et de la théorie du contrôle pour proposer de nouvelles méthodes hybrides, tirant parti de la puissance des réseaux de neurones, tout en s'appuyant sur des biais inductifs issus de la physique. Ce manuscrit présente nos travaux dans ce domaine. En particulier, il décrit des outils théoriques (abordés dans la partie 1) liés à la simulation de systèmes dynamiques et les connecte à la conception de réseaux neuronaux. Dans un deuxième temps (Partie 2), nous exploitons ces connaissances pour concevoir des algorithmes de contrôle et des techniques de simulation impliquant la résolution de problèmes complexes liés aux équations aux dérivées partielles. Enfin, dans la troisième partie, nous abordons des problèmes de simulation à plus grande échelle tels que la dynamique des fluides et le raisonnement contrefactuel. Nos travaux ont été présentés lors de conférences scientifiques dans le domaine de l'intelligence artificielle et de la théorie du contrôle. En construisant un pont entre la physique et l’apprentissage automatique, nous croyons fermement que cette direction de recherche peut contribuer à une nouvelle génération de méthodologies pour la simulation et le contrôle des systèmes physiques.
Informations complémentaires
-
Salle de Conférence, Bibliothèque Universitaire de Sciences La Doua (Villeurbanne)