L'essor de l'IA dans les entreprises axées sur les consommateurs s'accompagne de préoccupations croissantes concernant sa gouvernance à long terme. L'urgence d'une réglementation efficace de l'IA est accentuée par le récent décret exécutif de l'administration Biden, qui impose de nouveaux protocoles pour le développement et le déploiement des systèmes d'IA avancés.
Aujourd'hui, les fournisseurs d'IA et les régulateurs mettent l'accent sur l'explicabilité comme élément central de la gouvernance de l'IA. Ce focus permet aux individus concernés par les systèmes d'IA de comprendre et de contester les résultats produits par ces technologies, y compris les biais potentiels.
Bien que l'explication d'algorithmes simples, comme ceux utilisés pour l'approbation de prêts automobiles, puisse être facile, les technologies d'IA plus récentes impliquent des algorithmes complexes souvent difficiles à interpréter mais offrant des avantages significatifs. Par exemple, le GPT-4 d'OpenAI, avec son vaste ensemble de données et ses milliards de paramètres, produit des conversations semblables à celles des humains qui transforment de nombreuses industries. De même, les modèles de dépistage du cancer de Google DeepMind utilisent l'apprentissage profond pour assurer une détection précise des maladies, pouvant sauver des vies.
Ces modèles complexes peuvent obscurcir les processus décisionnels, soulevant une question essentielle : devrions-nous renoncer à ces technologies partiellement explicables mais bénéfiques pour éviter l'incertitude ? Même les législateurs américains, soucieux de réglementer l'IA, reconnaissent la complexité de l'explicabilité, mettant en avant la nécessité d'une approche Axée sur les résultats pour la gouvernance de l'IA, plutôt que celle centrée uniquement sur l'explicabilité.
S'attaquer aux incertitudes liées aux technologies émergentes n'est pas nouveau. La communauté médicale sait depuis longtemps qu'identifier les dégâts potentiels est crucial lors du développement de nouvelles thérapies. Cette compréhension a conduit à la création d'essais contrôlés randomisés (ECR) pour évaluer les risques.
Dans les ECR, les participants sont divisés en groupes de traitement et de contrôle, le groupe de traitement recevant l'intervention médicale tandis que le groupe de contrôle ne la reçoit pas. En comparant les résultats entre ces cohortes comparables, les chercheurs peuvent établir une causalité et évaluer l'efficacité d'un traitement.
Historiquement, les chercheurs médicaux utilisaient des conceptions de tests stables pour évaluer la sécurité et l'efficacité à long terme. Cependant, dans le domaine de l'IA, où les systèmes apprennent en continu, de nouveaux avantages et risques peuvent surgir à chaque réentraînement et déploiement. Ainsi, les ECR traditionnels peuvent ne pas suffire pour évaluer les risques de l'IA. Des cadres alternatifs, comme les tests A/B, pourraient offrir des perspectives précieuses sur les résultats des systèmes d'IA au fil du temps.
Les tests A/B ont été largement utilisés dans le développement de produits au cours des 15 dernières années. Cette méthode consiste à traiter différents groupes d'utilisateurs différemment pour évaluer l'impact de diverses fonctionnalités, telles que les boutons qui reçoivent le plus de clics sur une page web. Ronny Kohavi, ancien responsable de l'expérimentation chez Bing, a été un pionnier de l'expérimentation continue en ligne, où les utilisateurs sont attribués aléatoirement à la version actuelle d'un site ou à une nouvelle version. Ce suivi rigoureux permet aux entreprises d'améliorer leurs produits de manière itérative tout en comprenant les avantages de ces changements par rapport à des indicateurs clés.
De nombreuses entreprises technologiques, notamment Bing, Uber et Airbnb, ont mis en place des systèmes pour tester en continu les changements technologiques. Ce cadre permet aux entreprises d'évaluer non seulement les indicateurs commerciaux comme les taux de clics et les revenus, mais aussi d'identifier d'éventuels dommages, tels que la discrimination.
Une mesure efficace de la sécurité de l'IA pourrait ressembler à ceci : une grande banque peut craindre qu'un nouvel algorithme de tarification pour des prêts personnels désavantage injustement les femmes. Bien que le modèle n'utilise pas explicitement le genre, la banque soupçonne que des indicateurs substitutifs peuvent influencer les résultats de manière non intentionnelle. Pour tester cela, la banque pourrait créer une expérience où le groupe de traitement utilise le nouvel algorithme, tandis qu'un groupe de contrôle reçoit des décisions d'un modèle ancien.
En veillant à ce que des démographies, comme le genre, soient distribuées équitablement entre les groupes, la banque peut mesurer tous effets disparates et évaluer l'équité de l'algorithme. De plus, l'exposition à l'IA peut être contrôlée grâce aux déploiements progressifs de nouvelles fonctionnalités, permettant une gestion des risques mesurée.
Alternativement, des organisations comme Microsoft utilisent le "red teaming", où des employés mettent le système d'IA au défi de manière adversaire pour identifier les risques majeurs avant un déploiement plus large.
En fin de compte, mesurer la sécurité de l'IA favorise la responsabilité. Contrairement à l'explicabilité subjective, l'évaluation des résultats d'un système d'IA sur des populations diversifiées fournit un cadre quantifiable pour évaluer les dommages potentiels. Ce processus établit une responsabilité, permettant aux fournisseurs d'IA de s'assurer que leurs systèmes fonctionnent de manière efficace et éthique.
Bien que l'explicabilité demeure un point central pour les fournisseurs et les régulateurs d'IA, l'adoption de méthodologies de la santé peut aider à atteindre l'objectif universel de systèmes d'IA sûrs et efficaces, fonctionnant comme prévu.