Deep-learning

20 Nov
20/11/2023 10:30

Sciences & Société

Soutenance de thèse : Kannara MOM

Deep learning based phase retrieval for X-ray phase contrast imaging

Doctorant : Kannara MOM

Laboratoire INSA : CREATIS
Ecole doctorale : ED160 : EEA Electronique Electrotechnique et Automatique

Le développement de sources de rayons X hautement cohérentes, telles que les installations de rayonnement synchrotron de troisième génération, a contribué de manière significative à l'avancement de l'imagerie à contraste de phase. Le degré élevé de cohérence de ces sources permet une mise en œuvre efficace des techniques de contraste de phase.
Le contraste de phase est une technique qui permet d'augmenter la sensibilité de plusieurs ordres de grandeur. Cette nouvelle technique d'imagerie a trouvé des applications dans un large éventail de domaines, notamment la science des matériaux, la paléontologie, la recherche sur les os, la médecine et la biologie.
Elle permet d’imager des échantillons faiblement absorbant, pour lesquels les méthodes traditionnelles basées sur l'absorption ne permettent pas d'obtenir un contraste suffisant. Plusieurs techniques d'imagerie sensibles à la phase ont été mises au point, dont l'imagerie basée sur la propagation, qui ne nécessite aucun équipement autre que la source, l'objet et le détecteur.
Bien que l'intensité puisse être mesurée à une ou plusieurs distances de propagation, l'information sur la phase est perdue et doit être estimée à partir de ces intensités, ou figures de diffraction, un processus appelé récupération de phase. Dans ce contexte, la récupération de phase est un problème inverse non linéaire mal posé.
Plusieurs méthodes ont été proposées pour récupérer la phase, soit en linéarisant le problème pour obtenir une solution analytique ou soit par des algorithmes itératifs.
L'objectif principal de cette thèse était d'étudier ce que les nouvelles approches d'apprentissage profond pourraient apporter à ce problème de récupération de phase. Divers algorithmes d'apprentissage profond ont été proposés et évalués pour résoudre ce problème. En particulier, le cas d'une distance unique, tout en prenant en compte l'information non-linéaire du modèle direct, a été considéré.

23 Jun
23/Jun/2021

Recherche

« Détecter les influenceurs peut aider à prédire les évènements boursiers »

L’information a fait le tour des réseaux sociaux cette dernière semaine : à l’occasion d’une conférence de presse, le champion de football portugais Cristiano Ronaldo a fait chuter le cours de l’action de l’entreprise Coca-Cola de 4 milliards de dollars en écartant deux bouteilles de soda au profit d’une bouteille d’eau. La nouvelle a fait le tour de la toile et a fait sourire Előd Egyed-Zsigmond, chercheur au LiRiS1. Ce passionné d'informatique bien habitué des fluctuations de la NASDAQ2 ne boursicote pas, comme il aime le rappeler. S’il étudie les cours boursiers chaque matin, c’est pour faire avancer la science de la prédiction car sous la mécanique du système boursier se cache une mystérieuse beauté logique et des enjeux scientifiques de taille. Il explique.

En quelques secondes seulement, Cristiano Ronaldo a réussi à influer sur le cours de l’action de l’une des entreprises les plus influentes du monde. Comment est-ce possible ? 
I
Előd Egyed-Zsigmondl faut d’abord se pencher sur les mécanismes du marché boursier. La Bourse est dominée par la loi de l’offre et la demande : concrètement, si une action est très recherchée par les acheteurs, son prix monte. À l’inverse, l’action baisse quand il y a plus de vendeurs que d’acheteurs. Tous les initiés vous le diront, lorsque vous voulez faire de la plus-value en bourse, chaque information compte car il faut bien comprendre que les évènements extérieurs agissent directement sur ces fluctuations. Avec un geste comme celui de Ronaldo, vu par des millions de personnes, beaucoup de décideurs ont choisi de suivre la célébrité car il a une influence sur les consommateurs ; c’est une question d’image. Détecter les influenceurs peut bien sûr aider à prédire des évènements boursiers, mais soyons réalistes, les 4 milliards de perte induits par le geste de Ronaldo ne sont pas grand-chose à l’échelle d’une telle entreprise, la baisse était de moins de 2 %. En comparaison, lorsque les terrasses et les restaurants ont fermé en mars 2020 avec la crise sanitaire, la marque de soda avait perdu 30 % de sa valeur. Les évènements politiques et sociaux ont une plus grande influence sur la Bourse.

Pour vos recherches, vous passez beaucoup de temps à surveiller les variations des prix, et vous les mettez en parallèle avec des informations contextuelles. À quoi cela sert-il ?
Notre but est de trouver des liens de corrélations et de cause à effet entre les variations des actions et les actualités. C’est un travail purement informatique sur lequel nous basons le développement d’algorithmes capables de prédire les oscillations. La Bourse est un cas d’école très intéressant car les données sont facilement accessibles et très nombreuses et il est donc aisé d’évaluer l’efficacité de nos méthodes scientifiques. Pour donner une idée du volume, chaque cours de bourse génère quotidiennement quatre valeurs intéressantes au minimum : le prix d’ouverture en début de journée, le minimum, le maximum et le prix de fermeture. Avec mon équipe, nous observons les chiffres quotidiennement, un peu comme des traders : toutes les 5 minutes nous relevons le cours des actions, des tweets et des millions d’articles de presse en ligne. Au milieu de cet océan de données, nous demandons à nos algorithmes de tracer les liens. Mais ces liens ne sont pas une réponse universelle, car beaucoup d’éléments contextuels peuvent nous échapper et influer sur le choix des investisseurs. En fait, un algorithme automatique ne sera jamais capable de gérer et générer des gains seul sur un portefeuille pour la simple raison que les choix humains sont imprévisibles. Par exemple, lors du tragique accident survenu sur le vol AF 447 Rio-Paris en 2009 à bord d’un avion Airbus, les financiers auraient pu parier que le concurrent principal de l’entreprise, Boeing, prendrait de la valeur boursière. Or, c’est toute la branche de transports aériens de voyageurs qui a été décotée ; on peut imaginer que le facteur « peur » ait influencé les choix. Mais les ressentis et les émotions ne sont pas toujours automatiques, alors comment intégrer ces notions à un algorithme ?

Quels sont les enjeux scientifiques du développement de tels outils ? 
L’arrivée des journaux et médias en ligne a donné un élan à l’automatisation de l’extraction de données. Aujourd’hui, un outil informatique est capable de digérer d’énormes quantités d'informations. Mais dans un monde sursaturé d’informations, il faut privilégier la qualité au-delà de la quantité et c’est ce que nous cherchons : créer des outils capables d’aider l’humain à y voir plus clair pour faire ses choix. Grâce à une méthode combinée entre le « deep-learning » et le « machine-learning », nous éduquons nos outils à la sémantique, c’est-à-dire à la manière d’interpréter les énoncés pour leur attribuer un sens. C’est un des principaux enjeux de la fouille de données. D’ailleurs, les vaccins contre la Covid n’auraient pas pu être fabriqués aussi vite sans ces algorithmes : imaginez le nombre de données bibliographiques en matière de pharmacologie qu’il a fallu éplucher avant que les scientifiques puissent lancer les phases expérimentales… Cela me fait dire que la discipline a encore de grandes années devant elle.

Mais pour en revenir à la Bourse, si vos algorithmes marchent trop bien, ne pourraient-ils pas compromettre le système tout entier ? 
En réalité, nos expériences montrent que les outils informatiques peuvent aider à être un peu plus efficace, mais tant que ce sont des humains qui vont et viennent sur les actions, la technologie ne pourra jamais être une solution miracle pour faire de la plus-value. Et ça n’est pas plus mal comme ça ! Il nous reste beaucoup à découvrir dans l’analyse d’information structurelle et aujourd’hui, je m’interroge beaucoup : faut-il vraiment tout comprendre de ces mécanismes ? Bien sûr, les méthodes de fouilles de données que nous développons auront des répercussions sur bien d’autres domaines et peuvent permettre par exemple de détecter des signaux faibles pour des crises de toute sorte. Et si le lien logique entre le geste de Cristiano Ronaldo et l’action de Coca-Cola est facile à expliquer, faire comprendre l’humain à des lignes de code nécessite encore quelques bonnes années de recherche !

1 Laboratoire d’InfoRmatique en Image et Systèmes d’information (CNRS/INSA Lyon/Lyon 1/Lyon 2/ECL)
2 Nasdaq : National Association of Securities Dealers Automated Quotations, est la deuxième bourse de valeurs des États-Unis

Crédit photo : UEFA

 

Keywords (tags)

27 May
27/May/2021

Recherche

Algorithmes, sécurité et vidéo : tout est dans le geste

Durant ses trois années de thèse au sein du laboratoire LiRis1, Fabien Baradel a tenté d’éduquer des algorithmes à la gestuelle humaine. Non pas pour les implémenter à des robots humanoïdes, mais pour faire évoluer les performances de l’analyse automatique vidéo et améliorer la sécurité des individus. Récemment récompensé pour son travail de thèse soutenu en 2020, c’est entre l’INSA Lyon, le Canada et les bureaux d’un des géants de l’internet que Fabien a fait mouliner les neurones de ses ordinateurs pour transformer l’analyse vidéo en un outil d’aide à la décision. Explications. 

De la vidéo, partout et pour tout
500 heures par minute. C’est la quantité vertigineuse de contenu vidéo déposée chaque minute sur la plateforme YouTube, à elle seule. Sur internet ou dans le monde réel, le format vidéo est un outil presque systématique : communication, divertissement, surveillance, santé… Aujourd’hui, le nombre de contenus dépasse très largement le temps et le personnel disponible pour visionner, traiter et exploiter ce contenu massif en constante augmentation. Pourtant, leur compréhension automatique pourrait impacter plusieurs domaines d’applications en démultipliant le potentiel de l’outil. « Si l’on prend l’exemple des caméras de surveillance qui génèrent beaucoup de contenu qui ne sera presque jamais examiné, l’analyse vidéo automatique peut permettre de repérer les comportements suspects et éviter les incidents en avertissant le personnel de sécurité. Pour cela, il nous faut développer des algorithmes capables d’identifier les actions humaines. Aujourd’hui, des applications logicielles sont capables de générer automatiquement des descriptions globales du déroulement d’une vidéo, mais les algorithmes développés sont loin de comprendre finement l’action en train de se faire », explique Fabien Baradel, docteur INSA Lyon et désormais chercheur au centre de recherche grenoblois Naver Labs.

Des intelligences à la mémoire courte
Pour les algorithmes, il existe plusieurs niveaux de reconnaissance et de compréhension. Et il semblerait que le niveau de granularité des informations manipulées par ceux que nous côtoyons le plus souvent, ne soit pas particulièrement fin. « La plupart des algorithmes que nous utilisons au quotidien peuvent détecter des concepts, plus que des détails. Ils sont capables d’identifier que telle vidéo traite de football ou de tennis, mais ils ne sont pas en mesure de cerner le détail des actions comme une passe ou un service. Ils détectent le b.a.-ba et les objets qu’ils ont l’habitude de voir. Ce qu’ils ne connaissent pas est invisible pour eux », poursuit Fabien.
Alors comment permettre à une machine de comprendre la gestuelle humaine, par essence … humaine ? « Un algorithme de deep-learning a besoin d’être nourri en permanence pour être efficace. À force de répétition, il devient capable de reconnaître si c’est un chat ou un chien qui apparaît à l’image, car il a vu beaucoup d’images différentes de ces animaux. Mais c’est un peu comme une plante en pot : si le substrat est bon, elle continuera de grandir, mais si la terre manque de nutriments, elle finit par s’éteindre : un algorithme a besoin d’entretien pour fonctionner. Dans le cas de notre travail de recherche, il était tout bonnement impossible de faire apprendre tous les gestes qu’il existe d’humains sur Terre », explique l’ancien doctorant.

L’humain, la gestuelle et l’objet
Fabien Baradel a donc passé trois années à enseigner à ses algorithmes les subtilités du geste humain à travers le plus grand des miroirs : le regard. « Puisque la reconnaissance fine de l’action humaine était un objectif bien trop titanesque, nous avons mis l’accent sur l’interaction entre l’individu et les objets. Nous avons entraîné les algorithmes à reconnaître d’abord la pose humaine articulée, puis à déduire les interactions importantes à travers l’espace. Plus concrètement, nous nous sommes basés sur le principe de l’attention visuelle : si l’individu se met en mouvement dans une scène, l’algorithme se concentrera sur les parties du corps en action. Ce que nous avons surtout réussi à développer, c’est une méthode capable d’identifier automatiquement une information, à l’aide du contexte de la vidéo. La mise en évidence de ce mécanisme a permis d’améliorer les performances d’analyse, mais il reste encore un peu de chemin avant l’ère de la compréhension automatique ultra précise. Et puis en matière d’algorithme informatique, rien n’est jamais fini », prévient-il.

Segmenter pour mieux filtrer
La recherche pour la compréhension automatique des contenus vidéo semble donc avoir encore quelques années devant elle avant que les modérateurs de plateformes telles que YouTube puissent s’affranchir des nombreuses heures de visionnage de contenus violents et inappropriés. « Nous faisons aujourd’hui des choses incroyables en la matière par rapport à ce que nous faisions il y a dix ans. Le deep-learning a besoin de beaucoup de pouvoir de calcul qui prend souvent plusieurs jours, ça n’est pas de la magie. J’ai bon espoir que ce travail serve à soulager l’humain dans les domaines où la vidéo a une place importante. Par exemple, dans l’automobile et plus précisément dans le développement de l’aide à la conduite. S’appuyer sur des algorithmes pour détecter les piétons et estimer leurs trajectoires permettrait de mieux adapter la vitesse du véhicule et réduire le risque d’accident. Je n’ose pas réfléchir à toutes les possibilités d’applications, mais je sais qu’elles sont infinies ! », conclut Fabien Baradel.

Fabien Baradel, docteur du LiRiS, a reçu la mention spéciale du prix de thèse AFRIF (Association Française pour la Reconnaissance et l’Interprétation et des Formes) 2021 pour sa thèse intitulée "Structured deep learning for video analysis" réalisé sous la direction de Christian Wolf et Julien Mille qu’il a soutenu en 2020. 

 1Laboratoire d’Informatique en Image et Systèmes d’Information (CNRS / INSA Lyon / Université Claude Bernard Lyon 1 / Université Lumière Lyon 2 / École Centrale de Lyon)

 

Keywords (tags)