Improvement on MIRI's Corrigibility
DESCRIPTION
Le problème de la corrigibilité est un problème majeur dans le domaine de la sûreté de l’IA, dont la difficulté est bien mise en évidence par Soares et al. (2015). Le problème consiste à trouver une classe de fonctions d’utilité qui permettent à un agent maximisateur d’accepter d’être modifié. Ce nouvel article présente un problème dans l’article initial et présente une correction.
Date de publication
9 juin 2023
8/7/23
Date de dernière modification :
9/7/23
écrit par :
Léo Dana et Charbel-Raphaël Segerie

This post aims to address the problem of corrigibility as identified by MIRI in 2015. We propose an extended formalism that allows us to write the desiderata of a corrigible behaviour, and provide theoretical solutions with helpful illustrations of each proposal. The first extension is to make the agent behave as if the shutdown button does not exist, and the second is to make the agent behave as if the button does not work.

 

The first section's goal is to recall the formalism of MIRI's article Corrigibility, as well as the Big Gamble problem, and to introduce corrigibility diagrams for the analysis of corrigibility proposals.The second will then introduce a new formalism to reformulate mathematically the problem.The next two sections will each provide an (incomplete) solution to the corrigibility problem by making the button inexistent or inefficient.

retourEN savoir plusLire