Nous sommes ravis d’annoncer aujourd'hui le lancement d'une initiative sur laquelle nous travaillons depuis plusieurs mois : le Centre pour la Sécurité de l'IA (CeSIA - prononcé "Césia"). Le CeSIA est une évolution du pôle IA d’EffiSciences et se spécialise dans la recherche technique et l'ingénierie.
Dans ce bref rapport de consensus, nous décrivons les risques liés aux systèmes d'IA avancés à venir. En particulier, nous examinons les dommages sociaux à grande échelle et les utilisations malveillantes, ainsi que la possibilité d’une perte irréversible du contrôle humain sur les systèmes d'IA autonomes. À la lumière des progrès rapides et continus en matière d'IA, nous proposons des priorités urgentes pour la R&D et la gouvernance de l'IA.
Dans le cadre du Séminaire Turing que nous organisons à l'ENS Paris-Saclay et à l'ENS Ulm, nous avons conclu avec un hackathon inspiré par l'AGI Safety Fundamentals. Cet événement a vu la naissance de 28 projets, fruit du travail de 44 participants. Nous sommes ravis de vous partager une sélection de ces projets.
Safety culture within general-purpose AI labs and more broadly in the frontier AI industry refers to the organisational environment where shared beliefs, practices, and attitudes work in unison to create a cautious and accountable approach towards the development, use, and management of frontier AI technologies, prioritising safety considerations, and minimising associated risks. Corporate AI policies are one of the most important levers to cultivate a safety culture in the AI ecosystem.
Ce document donne une première liste de travaux techniques utiles pour la gouvernance de l’IA et leurs pistes de recherches associées intéressantes à explorer. Aucune section n’a vocation à être exhaustive car l’objectif premier de ce document est d’avoir une meilleure vue générale de ce qui ce fait / peut se faire en travail technique pour la gouvernance de l’IA. Nous nous focalisons en particulier sur trois domaines : la gouvernance de la puissance de calcul, l’AI forecasting et l’évaluation des modèles/l’élaboration de standards de sûreté.
La croissance rapide de l'intelligence artificielle présente à la fois des avantages remarquables et des défis potentiels. Cette brochure met en lumière les risques possibles liés à l'IA pour promouvoir des avancées sûres et responsables dans ce domaine.
L'Apprentissage par Renforcement à partir des Feedbacks Humains (Reinforcement Learning with Human Feedback, RLHF) est apparu comme la technique centrale d'alignement utilisée pour aligner des systèmes d'IA de pointe tels que GPT-4, Claude, Bard, et Llama-2. Cependant, il y a peu de travaux publics formalisant systématiquement les problèmes liés à celle-ci. Dans une nouvelle revue de plus de 250 articles, fruit de la collaboration entre une quinzaine d’acteurs internationaux, dont EffiSciences, nous examinons les problèmes ouverts et les limites fondamentales de RLHF, en mettant l'accent sur les applications dans les grands modèles de langage.
EffiSciences a récemment mis en ligne la playlist de conférences de la journée de formation organisée le 14 mai 2023. Cette journée de formation portait sur la sûreté de l'IA et condensait le programme du Séminaire Turing du master MVA de l'ENS Paris-Saclay. Vous trouverez 9 conférences d'une durée moyenne de 40 minutes sur ce lien !
Le problème de la corrigibilité est un problème majeur dans le domaine de la sûreté de l’IA, dont la difficulté est bien mise en évidence par Soares et al. (2015). Le problème consiste à trouver une classe de fonctions d’utilité qui permettent à un agent maximisateur d’accepter d’être modifié. Ce nouvel article présente un problème dans l’article initial et présente une correction.
Milo Rignell, responsable du programme numérique à l’Institut Montaigne, a publié une note d’action “Investir l'IA sûre et digne de confiance : un impératif européen, une opportunité française”. Il explique que ces systèmes représentent des enjeux de sécurité majeurs sur la société et insiste sur l’urgence de s’emparer des questions de fiabilité et de sûreté à l’échelle nationale et européenne. Nous sommes heureux·ses d’être cité·es dans cette note en tant que "vivier de talents en sûreté et confiance de l'IA".
Suite au Challenge Data portant sur les enjeux de robustesse au changement de distribution et à l'ambiguïté, qui a débuté lors de la conférence de lancement au Collège de France le 25 janvier 2023, nous avons recueilli plusieurs travaux. Nous souhaitons mettre en lumière un excellent travail réalisé par l'un des étudiants du master MVA.
Le pôle IA d'EffiSciences a organisé en collaboration avec le cours Responsible Machine Learning du Master MVA un hackathon portant sur la vérification des réseaux de neurones. Organisé du 16 au 18 décembre 2022, il a constitué la validation technique du cours. Les élèves devaient proposer un travail de recherche divers touchant à l'équité, la robustesse et à la vérifiabilité des réseaux de neurones. Nous avons évalué le travail des élèves, et nous avons évalué de très bonnes choses !
EffiSciences, en partenariat avec Apart Research, a organisé un hackathon dédié à l'interprétabilité IA à l’ENS Ulm, offrant aux étudiants l'opportunité de creuser ce sujet lors d'un week-end intensif. Les participants, guidés par des experts, ont mené des expériences sur des problématiques d'éthique et la détection de Trojan dans les réseaux transformers, et ont ensuite rédigé un rapport. Les équipes d'EffiSciences ont brillé lors de ce hackathon international, décrochant la première et la quatrième places avec des travaux innovants sur l'interprétabilité.
Cette liste montre différents problèmes avec le RLHF, qui est la technique principale d’alignement des IA actuelles. Malheureusement, le RLHF est une technique qui paraît beaucoup plus robuste qu’elle ne l’est vraiment.
Nous avons organisé deux hackathons sur le thème de la Robustesse face au Changement de distribution et à l'ambiguïté. Le hackathon de l'école 42 était plus introductif mais a rassemblé de très nombreux étudiants, notamment pour la conférence de Rohin Shah, chef de la sûreté de l’IA à DeepMind. Le hackathon du Collège de France, lors du challenge data ENS, était plus avancé et axé sur la recherche.
Nous avons rédigé une explication technique détaillée d'un nouveau plan pour l'alignement des IA, basé sur des techniques d'alignement formel. L'architecture Open Agency proposerait un mécanisme profondément démocratique, permettant de rassembler les différentes volontés des parties prenantes grâce à la résolution automatique d'équilibres de Nash et à l'écriture formelle de différents desiderata.
Diego Dorn, l'un de nos étudiants du programme ML4Good, a créé un sujet de hackathon original sur l'interprétabilité : Hand transformer. L'objectif du hackathon est de mesurer les connaissances des participant·es en interprétabilité en leur demandant d'écrire les poids des éléments dans les matrices de nombres des modèles GPT. Être capable de construire poids par poids les GPT permet d'obtenir une bien meilleure compréhension de ces modèles.
Dans le cadre du programme Agir pour l’éducation du Collège de France, EffiSciences fait désormais partie de la communauté existante autour de la plateforme ChallengeData (ENS).