IA sûre et équitable by design - Open Agency Architecture
DESCRIPTION
Nous avons rédigé une explication technique détaillée d'un nouveau plan pour l'alignement des IA, basé sur des techniques d'alignement formel. L'architecture Open Agency proposerait un mécanisme profondément démocratique, permettant de rassembler les différentes volontés des parties prenantes grâce à la résolution automatique d'équilibres de Nash et à l'écriture formelle de différents desiderata.
Date de publication
7/6/23
Date de dernière modification :
20/6/23
écrit par :

Le besoin d’un nouveau paradigme : Les modèles d'apprentissage automatique actuels, tels que GPT4, sont impressionnants mais ont encore de nombreux modes de défaillance (GPT-4 System Card) et des problèmes de robustesse et d'alignement (Compendium of problems with RLHF).  Il est possible que les techniques d'alignement actuelles, telles que le RLHF et la surveillance évolutive, ne réussiront pas à aligner les grands modèles de langage (LLM), auquel cas le paradigme actuel des modèles de deep learning monolithiques serait destiné à être par défaut non-fiable. (El-Mhamdi et al., 2022). Tout cela justifie la recherche de nouveaux paradigmes plus naturellement sûrs et vérifiables.

Visée : Ce projet constitue une approche paradigmatique nouvelle, axée sur la vérification formelle de prérequis explicites de comportements robustes et bénéfiques au cours de l'entraînement.

Applications progressives : Cette approche se distingue des autres techniques de sécurité en tentant d'obtenir des garanties même pour des modèles très puissants. Bien que ce plan soit ambitieux, nous visons à tester dans un premier temps uniquement les hypothèses de cet agenda. Un banc d'essai intermédiaire naturel pour l'architecture “Open Agency” (OOA) serait des applications industrielles telles que la sécurisation des smart grids (réseaux intelligents d'électricité) ou la mise à l'échelle du processus qui a produit des logiciels vérifiés formellement (par exemple Everest, seL4, CompCert, etc.) en utilisant des parties de cette architecture. La première version de cet agenda serait orientée sur les mécanismes d’allocations de ressources justes et optimaux. Dans un second temps, il faudrait généraliser ces études, ce qui requerrait d'utiliser la théorie des catégories.

Collaboration internationale : Effisciences est en discussion avec The AI Objective Institute afin de mettre en place une collaboration sur ces questions. Nous pensons que l’excellence française en mathématiques, notamment dans des environnements tels que l’ENS, pourrait proposer un vivier idéal pour des stages sur ces questions. Nous avons déjà créé une liste de sujets de stages et sommes en contact avec des étudiant·es intéressé·es par des stages sur ces questions dans différents départements de l’ENS Ulm.

retourEN savoir plus