L'Intelligence Artificielle : un enjeu contemporain crucial

L’IA générale et ses risques

Les avancées fulgurantes en intelligence artificielle ne montrent aucun signe de ralentissement. GPT-1, GPT-2, GPT-3 et maintenant GPT-4, nous ignorons où nous entraîne cette course à la performance, mais nous savons que des experts alertent sur des risques potentiellement catastrophiques, et nos sociétés n'en prennent pas la mesure

Les lancements médiatisés de chatbots aux performances spectaculaires ne sont que la pointe émergée de l’iceberg des avancées de ces dernières années. Certains modèles rivalisent avec les humains sur des tâches précises, de DALL·E en génération d’images à Whisper en transcription de texte oral. D’autres, plus généraux, maîtrisent simultanément dialogues, jeux vidéo, et robotique dans le monde réel, voire peuvent réaliser librement des tâches sur internet.

Il y a de quoi s’émerveiller devant ces technologies qui nous permettent de renforcer la recherche biomédicale, de briser les barrières de langue ou encore d’alléger le travail administratif. Cependant, dans cette dernière année, la perspective de développer ces modèles avec de hauts standards de sûreté s’est éloignée. Il y a 5 mois, OpenAI déployait à large échelle ChatGPT, un modèle développé spécifiquement pour être poli et bienveillant envers l’utilisateur. En moins de 24h, ces barrières avaient été renversées.

Trois mois plus tard, cette fois de façon beaucoup plus hâtive, Microsoft déployait Bing Chat sur internet. Pire que ChatGPT, le modèle a très rapidement adopté des comportements parfois très agressifs

Capture d’écran d’un échange avec Bing Chat

Trois failles des intelligences artificielles

Soyons clairs, les dangers accidentels posés par ces modèles actuels sont encore limités. Pourtant, ils illustrent des failles dans notre maîtrise de ces systèmes, des failles non résolues qui par défaut seront toujours présentes dans les modèles plus puissants et généraux qui s’annoncent. Soulignons trois de ces failles. Une première est que ces modèles, à l’architecture dite "transformer”, restent des énormes boîtes noires dont les comportements sont de toute évidence imprévisibles pour les acteurs entreprises qui les déploient. Dans cette opacité, nous ne pouvons avoir aucune garantie que leurs actions seront conformes à nos attentes. Une deuxième faille est le manque de robustesse ; les modèles sont entraînés sur un jeu de données particulier, et doivent donc généraliser face à des situations nouvelles lors de leur déploiement. Le fait que Bing Chat menace les utilisateurs alors qu’il a été entraîné pour les aider illustre cet échec de généralisation. La troisième faille repose sur la difficulté de spécifier précisément à un modèle l’objectif souhaité, au regard de la complexité et de la diversité des valeurs humaines. Lorsque les premières entreprises confieront la gestion de leurs profits à ces systèmes maximisateurs, assurons-nous d’éviter le piège du roi Midas, dont le rêve de fortune pleinement exaucé finit par changer en or et détruire tout ce qui comptait à ses yeux. Le problème est suffisamment général pour que les bonnes intentions ne suffisent pas : quand nos instructions ne sont pas parfaitement spécifiées, toute IA amenée à les suivre trop fidèlement se rapprochera d’une zone dangereuse.

Symptôme d’une situation préoccupante, les PDG respectifs des trois laboratoires les plus avancés en IA (Google DeepMind, OpenAI, Anthropic), s’accordent à penser que de prochaines générations des technologies actuelles pourraient engendrer des conséquences négatives irréversibles sur la civilisation humaine. Ce sombre horizon ressort également, non sans incertitudes, dans des enquêtes, plus larges auprès de centaines de chercheurs et chercheuses lors de grandes conférences d’IA.

Que pouvons-nous faire ?

Aujourd’hui, personne n’a de solution pour entraîner des IA générales sûres. Seul un spécialiste en IA sur cent dans le monde s’inscrit dans ce champ de recherche. La course des géants américains ne ralentit pas mais accélère. Nous sommes à la croisée des chemins et ces dynamiques nous poussent vers des sentiers délétères. Historiquement, la France s’est démarquée en jouant un rôle clé sur les questions de sûreté, que ce soit pour créer des systèmes d’aviation résilients aux erreurs humaines et aux attaques malveillantes, ou en sûreté du nucléaire civil. Demain, en complément des approches existantes sur les systèmes critiques, nous pouvons être moteurs sur la recherche fondamentale, appliquée, et sur la gouvernance en sûreté de l’IA générale, et porter le drapeau de l’IA de confiance.

Il y a un an, la sûreté de l’IA faisait déjà partie de nos priorités alors que nous fondions EffiSciences, au sein des Écoles Normales Supérieures, afin de soutenir une recherche impliquée face aux enjeux impérieux du 21e siècle. Dans les mois qui ont suivi, notre pôle IA s’est mobilisé pour accompagner les étudiants et étudiantes souhaitant s’emparer de ce sujet : conférences, hackathons, cours accrédités dans les universités, formations intensives à la recherche.

Parce qu’il est nécessaire d’agir à toutes les échelles, nous appelons à multiplier les initiatives qui prennent au sérieux ces risques et cherchent à les surmonter. En particulier, nous invitons la recherche à se saisir de ces enjeux et à contribuer à la sûreté. De notre côté nous continuerons à porter - avec EffiSciences et l'ensemble des volontés déterminées - le projet d’un laboratoire de recherche interdisciplinaire pour mener des travaux de qualité dont les retombées concrètes serviront la société dans son ensemble.

Exemples non-exhaustifs de directions de recherche

Caractérisation des failles et des risques

Le contexte actuel du développement de l’Intelligence Artificielle (course multipolaire à la capacité et généralité des modèles, plans de sûreté encore en ébauche, régulations encore non clairement définies, etc.) présente un certain nombre d’incertitudes quant aux différents scénarios d’évolution capacitaire de ces technologies et leurs impacts associés. 

Nous aimerions ainsi réduire ces incertitudes par la production de travaux d’analyses rigoureux clarifiant les failles techniques et paradigmatiques des systèmes actuels.

Nous partageons notamment l’essentiel des constats posés dans la note sur l'IA sûre et digne de confiance par l'Institut Montaigne, ainsi que les inquiétudes exprimées récemment sur le potentiel risque existentiel lié aux systèmes à venir. Nous aimerions donc, de manière rigoureuse et pragmatique, conduire des analyses profondes de certains points clés, et examiner la plausibilité des différents risques liés au déploiement de modèles très puissants, ainsi que les biais et failles anticipables de ces modèles.

Les avantages de cette ligne de recherche sont multiples :

  • Nous permettre de mieux cibler et affiner nos agendas de recherche pour répondre aux impératifs de manière adéquate.
  • Poser un cadre de réflexion et d’évaluation pour les axes de recherche poursuivis, en évaluant les apports de chaque agenda vis-à-vis de ce cadre.
  • Nourrir la gouvernance de l'IA avec des travaux rigoureux et techniques d'investigation.

Voici les grands types de risques que nous aimerions investiguer :

Usages malveillants et duaux :

  • Cybersécurité et piratage : Les futurs modèles pourraient être utilisés dans des arnaques (telles que du phishing automatisé), la cybercriminalité, la guerre inter-états, la manipulation, ou encore la surveillance automatisée. Des preuves de concepts tels que ChaosGPT utilisant AutoGPT montrent que la bonne volonté unanime des utilisateurs de ces systèmes n'est pas garantie.
  • Confidentialité : Les réseaux de neurones peuvent être utilisés pour révéler de l'information privée ou détournée à des fins malveillantes. L'étude des failles de ces modèles dans la continuité de papiers tels que SoK: On the Impossible Security of Very Large Foundation Models paraît essentielle.
  • Biorisques : Le potentiel de l'IA à générer rapidement une quantité considérable de substances potentiellement dangereuses pourrait accélérer le processus de création d'armes biologiques létales. Il est donc nécessaire de mettre en place des mesures de contrôle et de régulation pour limiter l'accès à ces technologies et minimiser les risques de mauvaise utilisation. 
  • Jailbreak : Même si les constructeurs des modèles mettent en place des mesures de sécurité pour faire en sorte que les modèles soient utilisés à des fins bénéfiques, il n'est pas clair que l'on soit capable techniquement, avec les architectures actuelles, de mettre en place des garanties qui ne seront pas levées instantanément. Des résultats préliminaires suggèrent que les méthodes actuelles ne seront probablement pas capables d’être robustes aux attaques, et donc des API publiques permettant l'accès aux modèles GPT pourront encore présenter les failles citées dans les points précédents.

Problèmes accidentels et perte de contrôle :

  • Les méthodes actuelles d'alignement des modèles sont très imparfaites : Le reinforcement learning with human feedback (RLHF), la méthode centrale utilisée pour les chatbots, ne parvient pas encore robustement à éviter des comportements parfois agressifs ou trompeurs de ces modèles. Il est important de mieux cerner la portée de ces écarts de comportements et l’efficacité des différentes techniques d’alignement.
  • Certains de ces problèmes peuvent s'aggraver à mesure que les systèmes deviennent plus capables.
    Le RLHF à partir de signaux de récompense donnés par les utilisateurs peut accroître le désir de planification à plus long terme, engendrant tromperie et poursuite d’objectifs instrumentaux qui sont des préalables au phénomène de deceptive alignement, et finalement de risques d'accidents à grande échelle.
  • Cartographie des risques accidentels : Nous aimerions potentiellement continuer le travail fourni par DeepMind lors de leur revue de littérature des différents risques techniques, en étudiant la plausibilité de chaque scénario et en proposant des manières de préciser chaque faille de chaque scénario, afin d’identifier les choses les plus prioritaires à mettre en place pour de contrecarrer les différents risques confirmés.

Problèmes systémiques :

  • Bouleversement économique : Les conséquences généralisées sur le marché du travail découlant de l’autonomisation de l’économie (voir ce rapport d’OpenAI) pourraient amplifier les inégalités économiques et clivages sociaux. Penser ces impacts dans un cadre pluridisciplinaire pourrait également révéler des axes de recherche pluriels judicieux.
  • Identification des biais : Les biais au sein des Large Language Models (LLM) persistent, reflétant souvent les opinions et biais propagés sur internet (comme on peut le voir avec les tendances orientées de certains LLM). Ces biais peuvent être nuisibles d’une myriade de manières, comme le montrent par exemple les études de biais islamophobe de GPT-3.
  • Risques informationnels : Les conséquences sociétales et politiques d’un déluge de désinformation ou de systèmes d'IA très persuasifs et trompeurs pourraient être significatives avec la démocratisation de modèles de langages de plus en plus puissants. Certaines personnes ont par exemple déjà été victimes d'extorsion via des appels téléphoniques qui imitent la voix de leurs proches via l'IA.
  • Fragilité des systèmes complexes : À partir du moment où différentes parties d’un système sont automatisées et fortement couplées, la défaillance d’une des composantes risque de précipiter le reste du système, d’après les mécanismes inhérents aux systèmes complexes. Certaines voies de recherches visent à étudier les caractéristiques de tels systèmes pour anticiper les conséquences d’une plus grande automatisation de l’économie. 

Interprétabilité des réseaux de neurones

L'interprétabilité des réseaux de neurones vise à démystifier le fonctionnement interne des modèles de deep learning en développant une compréhension fine des structures et mécanismes qui les régissent, à différentes échelles (neurones, couches, structures plus complexes, etc.), et étudier les comportements émergeant de modifications sur ces structures.

Cette voie de recherche en reinforcement learning et en NLP nous paraît essentielle pour mieux cerner les phénomènes de biais, d’hallucinations, de problèmes liés à la confidentialité des données et pour garantir la robustesse et la fiabilité des modèles. Cette voie a également l’avantage de requérir peu de capitaux en calcul,  comparativement à d’autres axes de recherche. Les outils et concepts développés dans ce domaine sont aussi porteurs pour d’autres axes de recherche (robustesse, analyse des risques, etc.) ainsi que pour informer in fine la gouvernance et régulation des modèles.

Voici quelques questions de recherche d’interprétabilité que nous aimerions investiguer :

Comment l’information est encodée dans les réseaux de neurones ?

Interprétabilité pour améliorer la robustesse des réseaux :

  • Hallucinations : De nombreux exemples montrent la propension des modèles puissants à halluciner des faits erronés. Nous avons conduit un groupe de recherche composé d'étudiants de polytechniques sur ce problème, dans le prolongement de l’article Locating and Editing Factual Associations in GPT et de nombreuses questions restent à approfondir.
  • Vulnérabilités : Des techniques d’interprétabilité permettent une meilleure compréhension et détection de vulnérabilités telles que les Trojans, des failles des modèles de Deep Learning, souvent très difficile à cerner, et rendant l’audit bien plus complexe. Nous avons également conduit un groupe d'étudiants sur ce sujet.

EffiSciences possède une grande expérience en interprétabilité, nombre de nos élèves ont suivi nos formations sur ce sujet et commencé des projets de recherche. Nous avons de proches contacts experts venant de différentes universités et des laboratoires de recherche londonien Conjecture et californiens Redwood Research et FAR AI.

Robustesse et Spécifications

D’après cette analyse de littérature par DeepMind, la majorité des scénarios de problèmes techniques systémiques ou accidentels découlent des deux caractéristiques suivantes : 

  • Exploitation des spécifications (specification gaming) : Être capable de spécifier de manière exhaustive les desiderata de différents problèmes est un enjeu majeur et actuellement extrêmement difficile. Par exemple, il est plus simple de “maximiser la quantité de clics sur un bouton” que de “s’assurer de la véracité et de l’utilité générale des informations partagées”. Malheureusement, la planification autonome (via AutoGPT par exemple) ou le Reinforcement Learning exploitent généralement toutes les failles de spécifications imparfaites (Specification gaming: the flip side of AI ingenuity - DeepMind) de manière souvent imprévue et non désirée. Ce problème, dans un certain sens, généralise de manière plus fondamentale les problèmes de biais des modèles.

Voici quelques directions de recherches s’attelant à ces failles :

  • Fiabilité extrême : Étudier les techniques, telles que l'entraînement adversarial, visant à rendre les modèles les plus robustement fiables, et ce notamment dans des contextes particulièrement critiques.
  • Études des Jailbreaks : Les modèles de langages sont entraînés pour être plus alignés avec les préférences humaines via RLHF, mais ces modèles restent détournables car il est possible de percer leurs mesures de sécurité par ce qu’on appelle des “jailbreak”. Être en mesure d'identifier les limites de ces approches de sécurité et la manière dont ces limites peuvent être exploitées est d’une importance cruciale pour obtenir des API sûres et éviter l’utilisation de modèles à des fins malveillantes. (On the Impossible Safety of Large AI Models)
  • Robustesse des objectifs en RL : Comprendre, prédire et contrôler la formation d’objectifs d’agents de RL, et s’assurer de la robustesse des comportements appris est une question de recherche féconde à poursuivre avec notamment des outils d’interprétabilité dans la lignée de Understanding and controlling a maze-solving policy network.
  • Spécification : Proposer des algorithmes robustes à des ambiguités dans les données ou à des changements de distributions lors du déploiement des modèles est une question fondamentale que nous avons notamment mise en avant lors de Hackathons que nous avons proposé. (Challenge Data, École 42)
    Par ailleurs, nous conduisons actuellement des recherches sur les problèmes liés au RLHF, la méthode principale utilisée pour aligner GPT4, et nous prévoyons de publier sur ces questions.
  • Apprentissage des valeurs humaines : Comment encoder des valeurs humaines complexes, plurielles et non-unifiées dans des modèles larges et généralistes ? Comment représenter et décomposer ces valeurs en des mesures ou architectures explicites ?
    De nombreuses pistes sont envisagées pour s’attaquer à ces questions, comme notamment l’étude des principes du comportement intelligent dans les systèmes biologiques et sociaux pour informer la production de modèles robustement bénéfiques, ou encore la shard theory of human values sur laquelle nous encadrons actuellement un stagiaire.
    Réduction des biais : Les modèles de langages sont souvent biaisés, notamment sur les questions de genres. Des techniques existent pour essayer de réduire ces biais, et nous avons construit un sujet de hackathon de recherche avec le cours responsible ML du MVA pour essayer de réduire les biais dans les Transformers.
  • Machine learning responsable : Vérifier que les modèles de langages se comportent de manière juste sur les problèmes moraux, s’assurer que leur composantes morales soient interprétables (projet d'élèves), et étudier les biais des modèles de génération (projet d'élèves).

Études transdisciplinaires et aspects socio-politiques

En nous basant sur des analyses maîtrisées, théoriques et expérimentales des risques et failles des modèles, ainsi que de leurs conséquences potentielles, nous souhaitons encourager une recherche pluridisciplinaire qui aurait vocation à apporter une expertise aux régulations et décisions publiques nationales et européennes.

Dans cette lignée, voici quelques directions de recherche à poursuivre : 

  • Étudier la gouvernance de la puissance de calcul, tant sur ces aspects physiques et infrastructurels que logiciels dans la lignée de What does it take to catch a Chinchilla? Verifying Rules on Large-Scale Neural Network Training via Compute Monitoring.
  • Mobiliser les sciences sociales et comportementales pour produire, tester et évaluer des narratifs qui :
    - favorisent la bonne transmission et assimilation des informations,
    - favorisent les macro-dynamiques technologiques positives,
    - réduisent les conduites à risques en matière de développement capacitaire.
  • Développer des outils pour faciliter l’audit, l’évaluation et la certification des modèles d’IA en collaborant avec les acteurs français, européen et internationaux à la pointe sur ces questions. 
  • Penser l’encadrement, et le contrôle des travaux de recherches à caractère dual (dans la lignée de ce qui se fait en biologie) et mener des travaux pour identifier des moyens de régulations visant à prévenir les mésusages et les risques accidentels qui seront par défaut possibles avec les modèles développés.