Les chercheurs d'OpenAI exigent le 'droit d'alerte' contre les risques de sécurité, appelant à des mesures pour prévenir l' 'extinction humaine'.

Un groupe de 11 chercheurs, comprenant des employés actuels et anciens d'OpenAI, un membre de Google DeepMind et un ancien chercheur d'Anthropic, a publié une lettre ouverte exhortant les entreprises d'IA à adopter quatre principes visant à protéger les lanceurs d'alerte et les critiques concernant les enjeux de sécurité liés à l'IA.

Intitulée "Droit d'Avertir", cette lettre souligne les risques sérieux associés aux technologies de l'IA, en affirmant : "Ces risques vont de la perpétuation des inégalités existantes à la manipulation, à la désinformation, et à la potentielle perte de contrôle sur des systèmes d'IA autonomes, pouvant entraîner l'extinction humaine."

Les préoccupations majeures mises en avant incluent un encadrement insuffisant, des motivations axées sur le profit, et la répression des voix dissidentes au sein des organisations développant des technologies d'IA avancées.

Pour remédier à ces problèmes, les signataires proposent les quatre principes suivants pour les entreprises d'IA :

1. Ne pas appliquer d'accords restreignant les commentaires critiques ou sanctionner les individus pour avoir exprimé des préoccupations concernant les risques.

2. Mettre en place un processus confidentiel et vérifiable pour signaler les problèmes liés aux risques au conseil d'administration de l'entreprise, aux régulateurs et aux organisations indépendantes.

3. Favoriser une culture de transparence incitant les employés à discuter des risques potentiels publiquement, tout en protégeant les secrets commerciaux.

4. Interdire les représailles contre les employés qui divulguent des informations confidentielles sur les risques après que d'autres méthodes de signalement ont échoué.

Publiée aujourd'hui par le New York Times, la lettre a recueilli le soutien de leaders de l'IA tels que Yoshua Bengio, Geoffrey Hinton et Stuart Russell. Des signataires notables incluent d'anciens employés d'OpenAI comme Jacob Hilton, Daniel Kokotajlo, William Saunders et Daniel Ziegler, ainsi que Ramana Kumar de Google DeepMind et Neel Nanda, actuellement chez DeepMind.

Dans une série de publications sur X (anciennement Twitter) après la parution de l'article, Kokotajlo a détaillé sa démission d'OpenAI, citant une perte de confiance dans l'engagement de l'entreprise envers un développement responsable de l'IA. Il a souligné la nécessité d'une plus grande transparence et de normes éthiques dans l'avancement des technologies d'IA.

Kokotajlo a révélé qu'il avait renoncé à ses actions acquises pour pouvoir critiquer librement l'entreprise, exprimant sa déception qu'OpenAI n'ait pas fait de la recherche sur la sécurité une priorité dans l'évolution de ses systèmes. Il a également mentionné avoir été présenté à un accord de non-dénigrement lors de son départ, qu'il a jugé contraire à l'éthique.

Ces affirmations font suite à des révélations antérieures sur les pratiques d'OpenAI, notamment des documents fuités montrant des tactiques coercitives utilisées contre d'anciens employés. Cependant, OpenAI a déclaré qu'elle ne ferait pas respecter les accords de confidentialité, qui sont courants dans l'industrie technologique.

La lettre arrive à un moment tumultueux pour OpenAI, à la suite du licenciement controversé de son PDG Sam Altman en novembre 2023, en raison de problèmes de communication avec le conseil d'administration. Altman a rapidement été rétabli sous la pression des investisseurs, mais certains membres du conseil ont exprimé des inquiétudes persistantes concernant la responsabilité et la transparence, des préoccupations relayées par des personnalités publiques, dont Scarlett Johansson, qui a critiqué l'entreprise pour avoir utilisé sa voix sans consentement.

Malgré ces défis, l'entreprise tente de répondre aux préoccupations en matière de sécurité en formant un nouveau Comité de Sécurité et de Sûreté, annoncé en même temps que la formation de son dernier modèle d'IA.

Texte complet de la lettre "Droit d'Avertir" :

Un Droit d'Avertir sur l'Intelligence Artificielle Avancée

Nous sommes des employés actuels et anciens d'entreprises d'IA de pointe, et nous croyons en le potentiel des technologies IA pour apporter des bénéfices sans précédent à l'humanité. Cependant, nous reconnaissons également les risques sérieux posés par ces technologies, notamment le renforcement des inégalités, la facilitation de la manipulation et de la désinformation, et la perte de contrôle potentielle sur les systèmes d'IA autonomes, avec des conséquences catastrophiques.

Les entreprises d'IA reconnaissent ces risques, tout comme les gouvernements et les experts du monde entier. Nous restons optimistes quant à leur atténuation grâce à un accompagnement adéquat de la communauté scientifique, des décideurs politiques et du public. Pourtant, des incitations financières importantes entravent souvent une supervision efficace.

Les entreprises d'IA détiennent des informations non publiques cruciales sur les capacités et les risques de leurs systèmes, mais ont peu d'obligations de communiquer ces données aux gouvernements ou à la société civile. Ainsi, les employés actuels et anciens sont essentiels pour garantir la responsabilité, mais les accords de confidentialité nous font souvent taire. Les protections classiques pour lanceurs d'alerte sont insuffisantes, puisque de nombreux risques demeurent non réglementés.

Nous appelons les entreprises d'IA avancées à s'engager à respecter les principes suivants :

1. Ne pas faire respecter d'accords empêchant la critique sur les risques ou sanctionnant les employés pour de tels commentaires.

2. Établir un processus confidentiel permettant aux employés de signaler les risques au conseil, aux régulateurs et aux organisations indépendantes qualifiées.

3. Soutenir une culture de critique ouverte, permettant aux employés d'exprimer publiquement leurs préoccupations tout en protégeant les secrets commerciaux.

4. Protéger ceux qui révèlent des informations liées aux risques si les voies de signalement internes échouent.

Signé par (ordre alphabétique) :

- Jacob Hilton, ancien OpenAI

- Daniel Kokotajlo, ancien OpenAI

- Ramana Kumar, ancien Google DeepMind

- Neel Nanda, actuellement Google DeepMind, anciennement Anthropic

- William Saunders, ancien OpenAI

- Carroll Wainwright, ancien OpenAI

- Daniel Ziegler, ancien OpenAI

- Anonyme, actuellement OpenAI (quatre personnes)

- Anonyme, anciennement OpenAI (deux personnes)

Soutenu par (ordre alphabétique) :

- Yoshua Bengio

- Geoffrey Hinton

- Stuart Russell

4 juin 2024

Most people like

Find AI tools in YBX