Évènements

12 fév
12/02/2020 13:00

Sciences & Société

Soutenance de l'Habilitation à Diriger des Recherches en sciences : Mehdi KAYTOUE

Contributions to Pattern Discovery and Formal Concept Analysis

[HDR - soutenance publique]

Maître de conférences en informatique à l’INSA Lyon, en disponibilité chez INFOLOGIC R&D : Mehdi KAYTOUE

Laboratoire INSA : LIRIS - UMR CNRS 5205

Rapporteurs

  • Dr. Karell Bertet Maître de conférences, Universite de la Rochelle
  • Dr. Florent Masseglia Directeur de recherche, INRIA
  • Pr. Christel Vrain Professeur, Universite d'Orleans

Jury

  • Pr. Michael Berthold Professeur, Konstanz Universität (Allemagne)
  • Pr. Angela Bonifati Professeur, Université Claude Bernard Lyon 1
  • Pr. Jean-Francois Boulicaut Professeur, INSA Lyon
  • Pr. Johannes Fürnkranz Professeur, TU Darmstadt (Allemagne)
  • Dr. Amedeo Napoli Directeur de recherche, CNRS

Le processus qui permet de collecter des volumes de données puis de les analyser pour répondre à des questions à buts prédictifs, explicatifs et décisionnels, est apparu sous le vocable science des données il y a déjà plus de trente années. Accaparé d'abord par les scientifiques (notamment les statisticiens), ce terme connaît aujourd'hui un usage répandu dans le monde industriel et les collectivités. Cela s'explique de deux manières : (i) les données sont aujourd'hui omniprésentes, en grandes quantités, et variées, et (ii) il y a eu une prise de conscience du potentiel omniscient de ces données. Ce dernier peut être économique, sociétal, sanitaire ou encore scientifique, et se base non plus seulement sur des données qu'une entité possède, mais également sur des données qu'elle peut se procurer (capteurs, réseaux sociaux, données ouvertes open data, etc., gratuitement ou non) faisant de la donnée un or noir toujours trop peu raffiné.
Une composante de la science de données, la découverte de connaissances, traite en particulier de la chaîne Données–Informations–Connaissances avec le souci d'expliciter des relations ou propriétés enfouies. Se différenciant d'une approche purement statistique, une famille de méthodes a connu un succès vaste ces vingt dernières années : la fouille de données sous-contraintes. Elles visent à décrire, résumer, soulever des hypothèses à partir de données. Notamment, la fouille de motifs permet de trouver de manière efficace des régularités de divers types (comme des motifs fréquents dans un ensemble de transactions, des sous-graphes moléculaires caractéristiques d'une toxicité, des groupes gènes localement co-exprimés, etc.). En fait, là où les approches classiques visent à valider ou invalider une hypothèse donnée a priori, la fouille de motifs se voit au contraire comme une technique d'énumération de toutes les hypothèses possibles vérifiant certaines contraintes ou encore maximisant un certain intérêt pour l'expert parmi un ensemble de taille exponentiel. Une fois découvertes, les meilleures hypothèses peuvent être alors testées, validées ou invalidées. On fait donc véritablement face à un processus de découverte d'hypothèses ayant le plus de chances d'être validées ensuite comme connaissances.
Mon initiation scientifique a commencé par l'étude d'une relation binaire, très souvent illustrée par le panier de la ménagère, liant clients et produits qu'ils achètent. Comment faire parler cette relation binaire ? Quelles connaissances, habitudes comportementales, recommandations, etc. peut-on extraire ? Cette question initiale m'a alors permis de voyager à travers différents domaines applicatifs (biologie, neurosciences, réseaux sociaux et jeux- vidéo), cherchant à mettre en application ou adaptant des méthodes de fouille de données pour tenter comprendre des phénomènes tout en formalisant le plus rigoureusement possible le cadre dans lequel ces méthodes s'inscrivent. C'est donc cette histoire que je vais raconter dans ce manuscrit, selon trois axes principaux : le formalisme cadrant les méthodes avec l'Analyse de Concepts Formels, l'aspect méthodologique et algorithmique à travers la Fouille de données, et enfin la Découverte de Connaissances à travers plusieurs applications concrètes rencontrées lors de collaborations avec d'autres scientifiques et industriels.

Informations complémentaires

  • Salle de réunion du département Informatique de l’INSA Lyon Villeurbanne

Mots clés