Évènements

24 Nov
24/11/2023 10:00

Sciences & Société

Soutenance de thèse : Pierre FAURE--GIOVAGNOLI

Connaissance métier et fonctions en science des données - Application à la production d'hydroélectricité

Doctorant : Pierre FAURE--GIOVAGNOLI

Laboratoire INSA : LIRIS

Ecole doctorale : ED512 Informatique Et Mathématiques de Lyon

Dans cette thèse, nous étudions le lien entre la connaissance métier sous forme d'une fonction et la science des données. Soit D(y, z1, ..., zn) un ensemble de données et y=f(z1, ...., zn) une fonction métier. Nous nous intéressons aux questions suivantes, simples mais cruciales pour un expert en science des données. Comment définir la satisfaction de f dans D? Comment mesurer efficacement cette satisfaction ? Comment cette satisfaction est-elle liée à la tâche d'apprentissage supervisé consistant à apprendre f à partir de D? Ces problèmes sont liés à l'étude des contre-exemples par l'utilisation des dépendances fonctionnelles (DF) et, en particulier, des mesures permettant de quantifier la satisfaction des DFs dans un ensemble de données tel que l'indicateur g3. Nous considérons le cas où l'égalité est remplacée par des prédicats plus flexibles. Premièrement, nous examinons l’impact de propriétés communes sur la difficulté du calcul du g3 avec prédicats. Nous montrons que la symétrie et la transitivité sont suffisantes pour garantir que l'erreur g3 puisse être calculée en temps polynomial. Deuxièmement, nous étudions le calcul de g3 dans les cas polynomial et NP-difficile identifiés dans la première partie. Nous proposons différentes solutions exactes et approximées pour le calcul de g3 dans les deux cas. Nous comparons ces solutions dans une étude expérimentale détaillée. Tous les algorithmes sont également disponibles via fastg3, une librairie Python open. Troisièmement, nous connectons l'étude des contre- exemples et l'indicateur g3 à l'apprentissage supervisé à l'aide d'une application web appelée ADESIT. ADESIT permet d'évaluer la capacité d'un ensemble de données à donner de bons résultats pour un problème d'apprentissage supervisé par le biais de statistiques et d'une exploration visuelle. Enfin, nous validons notre approche par une application au problème industriel de la surveillance de l'entrefer dans les générateurs hydrauliques.

Información adicional

  • Salle 337, Département Informatique, INSA-Lyon (Villeurbanne)

Palabras clave