Investigación

05 Mayo
05/Mayo/2022

Investigación

« L’inclusion des minorités doit être une priorité pour l’IA »

Industrie, médecine, applications de rencontres ou même justice : l’intelligence artificielle (IA) inonde divers aspects de notre vie quotidienne. Seulement, certaines erreurs plus ou moins graves, sont régulièrement relevées dans le fonctionnement de celles-ci. En cause ? Des biais de représentativités présents dans les jeux de données. 
Virginie Mathivet, ingénieure INSA du département informatique (2003) et docteure du laboratoire Liris
1, est engagée sur la question. Pour l’auteure et conférencière, un maître-mot pour que l’IA ne soit pas un outil de duplication des discriminations déjà vécues dans la vie réelle par certaines minorités : la diversité. Récemment nommée experte IA de l’année 2022, Virginie a partagé son savoir à la communauté dans le cadre de « la semaine des arts et des sciences queer » organisée par l’association étudiante Exit+. Elle alerte sur l’extrême nécessité de porter une attention particulière à l'inclusion dans l’intelligence artificielle. Interview.

On connaît l’importance de la diversité pour faire une société plus égalitaire ; pourquoi est-elle aussi importante dans les jeux de données utilisées par les IA ? 
Les intelligences artificielles sont des machines apprenantes : grâce à des bases de données, que l’on appelle des « datasets », des modèles sont fabriqués par des développeurs dans un but précis, par exemple pour détecter des défauts sur les chaînes de fabrication industrielles et pour lesquelles ils donnent de très bons résultats. Cependant, ces dernières années on a vu exploser les applications entraînant des prises de décisions sur les humains : l’accès à un crédit, le recrutement, des décisions de justice… On a aussi vu que ces IA étaient capables d’erreurs systématiques. On se souvient du logiciel de recrutement discriminant d’Amazon dont l’objectif était de faire économiser du temps aux ressources humaines en étudiant les candidatures les mieux notées par la machine. Il s’est avéré que l’algorithme sous-notait les profils féminins fréquemment car les jeux de données utilisés pour modéliser le logiciel s’appuyaient sur les CV reçus les dix dernières années, dont la plupart étaient des candidatures masculines. C’est ce que l’on appelle « un biais » : la machine ne fait jamais d’erreur aléatoire ; elle répète les biais -conscients ou inconscients- que les expérimentateurs ont commis en choisissant les données. Sans diversité, qu’elle soit de genre, culturelle, de génération, l’IA restera une extension des inégalités vécues dans la vie réelle.

Avez-vous d’autres illustrations de ce risque que représente le manque de diversité dans les jeux de données ? 
Un exemple assez parlant est celui du système de reconnaissance faciale utilisée par les iPhones. La première version de FaceID n’était pas capable de reconnaître les propriétaires asiatiques car le dataset initial ne comptait pas assez de visages de ce type et l’algorithme n’avait tout simplement pas appris à les reconnaître ! Mais il existe des exemples aux conséquences beaucoup plus graves comme les systèmes de détection automatique des cancers de la peau : l’intelligence artificielle est tout à fait capable de reconnaître des mélanomes sur les peaux blanches, beaucoup moins sur les peaux foncées. Cela occasionne des problèmes d’accès aux soins considérables, en omettant une partie de la population. Pour aller plus loin encore dans l’illustration, de nombreuses applications ne considèrent pas les minorités sexuelles : aujourd’hui, on considère que l’on est soit un homme, soit une femme. Qu’en est-il pour les personnes transgenres, intersexes ou même non-binaires ? C’est le vide intersidéral, notamment lorsqu’il s’agit de traitements médicaux grâce aux IA.

Comment ces biais sont-ils remarqués ou relevés ? Ne peuvent-ils pas être détectés plus en amont ?
Aujourd’hui, les erreurs systématiques sont relevées car certaines personnes en sont victimes et dénoncent les manquements. Souvent, on a la très forte impression d’attendre des conséquences potentiellement graves pour analyser le dataset et tester le modèle. C’est ce qu’il s’est passé avec une voiture autonome d’Uber à Tempe (Arizona) qui a tué un piéton. La raison de l’accident s’est révélée après l’enquête : le dataset n’avait pas permis à l’IA d’apprendre à reconnaître les piétons hors des passages cloutés. La victime, qui marchait à côté de son vélo, a été percutée par la voiture qui arrivait trop vite malgré l’identification tardive de la personne comme un piéton. Il faut croire que les questions financières et les retours sur investissements sont plus importants pour ces entreprises que les dégâts que ces IA peuvent causer, par manquement ou négligence.

Existe-t-il une façon pour les expérimentateurs de se prémunir contre ces biais ?
Il existe une seule solution : diversifier les jeux de données au maximum. Est-ce que toutes les populations sont bien représentées par rapport à la réalité ? C’est la question qu’il faudrait se poser à chaque apprentissage, mais il faut penser à toutes les situations donc c’est extrêmement difficile. Si l’équipe chargée d’implémenter l’IA est composée de personnes venant de tous horizons, on peut arriver à limiter les biais. Chacun arrivant avec sa vision des choses, son quotidien et les situations quotidiennement vécues : celui ou celle dont la mère se déplace avec un déambulateur pensera à telle situation ; ou dont le mari est en fauteuil roulant à d’autres ; ceux avec des enfants penseront autrement, etc. Ça n’est pas tant que les modèles conçus contiennent des biais volontaires, mais il y a forcément des minorités auxquelles on pense moins car nous n’en avons pas de représentations dans nos vies quotidiennes. Autre piste, pour éviter que la technologie ne divise encore plus et ne cause plus de dégâts, un brouillon de loi européenne est actuellement en cours de validation. L’Artificial Intelligence Act doit être voté en 2022 pour une application en 2023.

Quelles seront les grandes lignes de ce règlement ? 
Cette loi décompose l’utilisation de l’intelligence artificielle selon trois catégories : les « applications interdites » ; les « applications à haut-risque » ; et les « applications à faible risque ». Pour les « applications à haut risque », comme celles utilisées pour l’autorisation de crédit bancaire ou la justice, elles seront soumises à un certificat de conformité CE avant la vente et l’utilisation du modèle. Ces types d’IA seront certainement les plus surveillées car ce sont les plus propices à reproduire des biais discriminants. Cette législation permettra un premier pas vers l’inclusion, je l’espère, en Europe. 

 


La conférence « Jeux de données - biais et impacts sur les femmes dans un monde numérisé » a eu lieu le mercredi 4 mai,
dans le cadre de la semaine des arts et des sciences Queer organisée par l’association étudiante exit+.


[1] Laboratoire Informatique en Images et Systèmes d’Informations