RECHERCHE

27 mai
27/mai/2021

RECHERCHE

Algorithmes, sécurité et vidéo : tout est dans le geste

Durant ses trois années de thèse au sein du laboratoire LiRis1, Fabien Baradel a tenté d’éduquer des algorithmes à la gestuelle humaine. Non pas pour les implémenter à des robots humanoïdes, mais pour faire évoluer les performances de l’analyse automatique vidéo et améliorer la sécurité des individus. Récemment récompensé pour son travail de thèse soutenu en 2020, c’est entre l’INSA Lyon, le Canada et les bureaux d’un des géants de l’internet que Fabien a fait mouliner les neurones de ses ordinateurs pour transformer l’analyse vidéo en un outil d’aide à la décision. Explications. 

De la vidéo, partout et pour tout
500 heures par minute. C’est la quantité vertigineuse de contenu vidéo déposée chaque minute sur la plateforme YouTube, à elle seule. Sur internet ou dans le monde réel, le format vidéo est un outil presque systématique : communication, divertissement, surveillance, santé… Aujourd’hui, le nombre de contenus dépasse très largement le temps et le personnel disponible pour visionner, traiter et exploiter ce contenu massif en constante augmentation. Pourtant, leur compréhension automatique pourrait impacter plusieurs domaines d’applications en démultipliant le potentiel de l’outil. « Si l’on prend l’exemple des caméras de surveillance qui génèrent beaucoup de contenu qui ne sera presque jamais examiné, l’analyse vidéo automatique peut permettre de repérer les comportements suspects et éviter les incidents en avertissant le personnel de sécurité. Pour cela, il nous faut développer des algorithmes capables d’identifier les actions humaines. Aujourd’hui, des applications logicielles sont capables de générer automatiquement des descriptions globales du déroulement d’une vidéo, mais les algorithmes développés sont loin de comprendre finement l’action en train de se faire », explique Fabien Baradel, docteur INSA Lyon et désormais chercheur au centre de recherche grenoblois Naver Labs.

Des intelligences à la mémoire courte
Pour les algorithmes, il existe plusieurs niveaux de reconnaissance et de compréhension. Et il semblerait que le niveau de granularité des informations manipulées par ceux que nous côtoyons le plus souvent, ne soit pas particulièrement fin. « La plupart des algorithmes que nous utilisons au quotidien peuvent détecter des concepts, plus que des détails. Ils sont capables d’identifier que telle vidéo traite de football ou de tennis, mais ils ne sont pas en mesure de cerner le détail des actions comme une passe ou un service. Ils détectent le b.a.-ba et les objets qu’ils ont l’habitude de voir. Ce qu’ils ne connaissent pas est invisible pour eux », poursuit Fabien.
Alors comment permettre à une machine de comprendre la gestuelle humaine, par essence … humaine ? « Un algorithme de deep-learning a besoin d’être nourri en permanence pour être efficace. À force de répétition, il devient capable de reconnaître si c’est un chat ou un chien qui apparaît à l’image, car il a vu beaucoup d’images différentes de ces animaux. Mais c’est un peu comme une plante en pot : si le substrat est bon, elle continuera de grandir, mais si la terre manque de nutriments, elle finit par s’éteindre : un algorithme a besoin d’entretien pour fonctionner. Dans le cas de notre travail de recherche, il était tout bonnement impossible de faire apprendre tous les gestes qu’il existe d’humains sur Terre », explique l’ancien doctorant.

L’humain, la gestuelle et l’objet
Fabien Baradel a donc passé trois années à enseigner à ses algorithmes les subtilités du geste humain à travers le plus grand des miroirs : le regard. « Puisque la reconnaissance fine de l’action humaine était un objectif bien trop titanesque, nous avons mis l’accent sur l’interaction entre l’individu et les objets. Nous avons entraîné les algorithmes à reconnaître d’abord la pose humaine articulée, puis à déduire les interactions importantes à travers l’espace. Plus concrètement, nous nous sommes basés sur le principe de l’attention visuelle : si l’individu se met en mouvement dans une scène, l’algorithme se concentrera sur les parties du corps en action. Ce que nous avons surtout réussi à développer, c’est une méthode capable d’identifier automatiquement une information, à l’aide du contexte de la vidéo. La mise en évidence de ce mécanisme a permis d’améliorer les performances d’analyse, mais il reste encore un peu de chemin avant l’ère de la compréhension automatique ultra précise. Et puis en matière d’algorithme informatique, rien n’est jamais fini », prévient-il.

Segmenter pour mieux filtrer
La recherche pour la compréhension automatique des contenus vidéo semble donc avoir encore quelques années devant elle avant que les modérateurs de plateformes telles que YouTube puissent s’affranchir des nombreuses heures de visionnage de contenus violents et inappropriés. « Nous faisons aujourd’hui des choses incroyables en la matière par rapport à ce que nous faisions il y a dix ans. Le deep-learning a besoin de beaucoup de pouvoir de calcul qui prend souvent plusieurs jours, ça n’est pas de la magie. J’ai bon espoir que ce travail serve à soulager l’humain dans les domaines où la vidéo a une place importante. Par exemple, dans l’automobile et plus précisément dans le développement de l’aide à la conduite. S’appuyer sur des algorithmes pour détecter les piétons et estimer leurs trajectoires permettrait de mieux adapter la vitesse du véhicule et réduire le risque d’accident. Je n’ose pas réfléchir à toutes les possibilités d’applications, mais je sais qu’elles sont infinies ! », conclut Fabien Baradel.

Fabien Baradel, docteur du LiRiS, a reçu la mention spéciale du prix de thèse AFRIF (Association Française pour la Reconnaissance et l’Interprétation et des Formes) 2021 pour sa thèse intitulée "Structured deep learning for video analysis" réalisé sous la direction de Christian Wolf et Julien Mille qu’il a soutenu en 2020. 

 1Laboratoire d’Informatique en Image et Systèmes d’Information (CNRS / INSA Lyon / Université Claude Bernard Lyon 1 / Université Lumière Lyon 2 / École Centrale de Lyon)