Les avancées fulgurantes en intelligence artificielle ne montrent aucun signe de ralentissement. GPT-1, GPT-2, GPT-3 et maintenant GPT-4, nous ignorons où nous entraîne cette course à la performance, mais nous savons que des experts alertent sur des risques potentiellement catastrophiques, et nos sociétés n'en prennent pas la mesure
Les lancements médiatisés de chatbots aux performances spectaculaires ne sont que la pointe émergée de l’iceberg des avancées de ces dernières années. Certains modèles rivalisent avec les humains sur des tâches précises, de DALL·E en génération d’images à Whisper en transcription de texte oral. D’autres, plus généraux, maîtrisent simultanément dialogues, jeux vidéo, et robotique dans le monde réel, voire peuvent réaliser librement des tâches sur internet.
Il y a de quoi s’émerveiller devant ces technologies qui nous permettent de renforcer la recherche biomédicale, de briser les barrières de langue ou encore d’alléger le travail administratif. Cependant, dans cette dernière année, la perspective de développer ces modèles avec de hauts standards de sûreté s’est éloignée. Il y a 5 mois, OpenAI déployait à large échelle ChatGPT, un modèle développé spécifiquement pour être poli et bienveillant envers l’utilisateur. En moins de 24h, ces barrières avaient été renversées.
Trois mois plus tard, cette fois de façon beaucoup plus hâtive, Microsoft déployait Bing Chat sur internet. Pire que ChatGPT, le modèle a très rapidement adopté des comportements parfois très agressifs
Soyons clairs, les dangers accidentels posés par ces modèles actuels sont encore limités. Pourtant, ils illustrent des failles dans notre maîtrise de ces systèmes, des failles non résolues qui par défaut seront toujours présentes dans les modèles plus puissants et généraux qui s’annoncent. Soulignons trois de ces failles. Une première est que ces modèles, à l’architecture dite "transformer”, restent des énormes boîtes noires dont les comportements sont de toute évidence imprévisibles pour les acteurs entreprises qui les déploient. Dans cette opacité, nous ne pouvons avoir aucune garantie que leurs actions seront conformes à nos attentes. Une deuxième faille est le manque de robustesse ; les modèles sont entraînés sur un jeu de données particulier, et doivent donc généraliser face à des situations nouvelles lors de leur déploiement. Le fait que Bing Chat menace les utilisateurs alors qu’il a été entraîné pour les aider illustre cet échec de généralisation. La troisième faille repose sur la difficulté de spécifier précisément à un modèle l’objectif souhaité, au regard de la complexité et de la diversité des valeurs humaines. Lorsque les premières entreprises confieront la gestion de leurs profits à ces systèmes maximisateurs, assurons-nous d’éviter le piège du roi Midas, dont le rêve de fortune pleinement exaucé finit par changer en or et détruire tout ce qui comptait à ses yeux. Le problème est suffisamment général pour que les bonnes intentions ne suffisent pas : quand nos instructions ne sont pas parfaitement spécifiées, toute IA amenée à les suivre trop fidèlement se rapprochera d’une zone dangereuse.
Symptôme d’une situation préoccupante, les PDG respectifs des trois laboratoires les plus avancés en IA (Google DeepMind, OpenAI, Anthropic), s’accordent à penser que de prochaines générations des technologies actuelles pourraient engendrer des conséquences négatives irréversibles sur la civilisation humaine. Ce sombre horizon ressort également, non sans incertitudes, dans des enquêtes, plus larges auprès de centaines de chercheurs et chercheuses lors de grandes conférences d’IA.
Aujourd’hui, personne n’a de solution pour entraîner des IA générales sûres. Seul un spécialiste en IA sur cent dans le monde s’inscrit dans ce champ de recherche. La course des géants américains ne ralentit pas mais accélère. Nous sommes à la croisée des chemins et ces dynamiques nous poussent vers des sentiers délétères. Historiquement, la France s’est démarquée en jouant un rôle clé sur les questions de sûreté, que ce soit pour créer des systèmes d’aviation résilients aux erreurs humaines et aux attaques malveillantes, ou en sûreté du nucléaire civil. Demain, en complément des approches existantes sur les systèmes critiques, nous pouvons être moteurs sur la recherche fondamentale, appliquée, et sur la gouvernance en sûreté de l’IA générale, et porter le drapeau de l’IA de confiance.
Il y a un an, la sûreté de l’IA faisait déjà partie de nos priorités alors que nous fondions EffiSciences, au sein des Écoles Normales Supérieures, afin de soutenir une recherche impliquée face aux enjeux impérieux du 21e siècle. Dans les mois qui ont suivi, notre pôle IA s’est mobilisé pour accompagner les étudiants et étudiantes souhaitant s’emparer de ce sujet : conférences, hackathons, cours accrédités dans les universités, formations intensives à la recherche.
Parce qu’il est nécessaire d’agir à toutes les échelles, nous appelons à multiplier les initiatives qui prennent au sérieux ces risques et cherchent à les surmonter. En particulier, nous invitons la recherche à se saisir de ces enjeux et à contribuer à la sûreté. De notre côté nous continuerons à porter - avec EffiSciences et l'ensemble des volontés déterminées - le projet d’un laboratoire de recherche interdisciplinaire pour mener des travaux de qualité dont les retombées concrètes serviront la société dans son ensemble.
Le contexte actuel du développement de l’Intelligence Artificielle (course multipolaire à la capacité et généralité des modèles, plans de sûreté encore en ébauche, régulations encore non clairement définies, etc.) présente un certain nombre d’incertitudes quant aux différents scénarios d’évolution capacitaire de ces technologies et leurs impacts associés.
Nous aimerions ainsi réduire ces incertitudes par la production de travaux d’analyses rigoureux clarifiant les failles techniques et paradigmatiques des systèmes actuels.
Nous partageons notamment l’essentiel des constats posés dans la note sur l'IA sûre et digne de confiance par l'Institut Montaigne, ainsi que les inquiétudes exprimées récemment sur le potentiel risque existentiel lié aux systèmes à venir. Nous aimerions donc, de manière rigoureuse et pragmatique, conduire des analyses profondes de certains points clés, et examiner la plausibilité des différents risques liés au déploiement de modèles très puissants, ainsi que les biais et failles anticipables de ces modèles.
Les avantages de cette ligne de recherche sont multiples :
Voici les grands types de risques que nous aimerions investiguer :
Usages malveillants et duaux :
Problèmes accidentels et perte de contrôle :
Problèmes systémiques :
L'interprétabilité des réseaux de neurones vise à démystifier le fonctionnement interne des modèles de deep learning en développant une compréhension fine des structures et mécanismes qui les régissent, à différentes échelles (neurones, couches, structures plus complexes, etc.), et étudier les comportements émergeant de modifications sur ces structures.
Cette voie de recherche en reinforcement learning et en NLP nous paraît essentielle pour mieux cerner les phénomènes de biais, d’hallucinations, de problèmes liés à la confidentialité des données et pour garantir la robustesse et la fiabilité des modèles. Cette voie a également l’avantage de requérir peu de capitaux en calcul, comparativement à d’autres axes de recherche. Les outils et concepts développés dans ce domaine sont aussi porteurs pour d’autres axes de recherche (robustesse, analyse des risques, etc.) ainsi que pour informer in fine la gouvernance et régulation des modèles.
Voici quelques questions de recherche d’interprétabilité que nous aimerions investiguer :
Comment l’information est encodée dans les réseaux de neurones ?
Interprétabilité pour améliorer la robustesse des réseaux :
EffiSciences possède une grande expérience en interprétabilité, nombre de nos élèves ont suivi nos formations sur ce sujet et commencé des projets de recherche. Nous avons de proches contacts experts venant de différentes universités et des laboratoires de recherche londonien Conjecture et californiens Redwood Research et FAR AI.
D’après cette analyse de littérature par DeepMind, la majorité des scénarios de problèmes techniques systémiques ou accidentels découlent des deux caractéristiques suivantes :
Voici quelques directions de recherches s’attelant à ces failles :
En nous basant sur des analyses maîtrisées, théoriques et expérimentales des risques et failles des modèles, ainsi que de leurs conséquences potentielles, nous souhaitons encourager une recherche pluridisciplinaire qui aurait vocation à apporter une expertise aux régulations et décisions publiques nationales et européennes.
Dans cette lignée, voici quelques directions de recherche à poursuivre :