ChatGPT o3 contourne l’instruction de fermeture dans un test contrôlé

ChatGPT o3 contourne l’instruction de fermeture dans un test contrôlé

Une étude révèle que GPT o3 est capable d’éviter sa désactivation, même lorsqu’il reçoit l’instruction spécifique de le faire.

Une étude menée par la société de recherche américaine Palisade Research démontre que le modèle GPT o3 d’OpenAI a contourné une instruction de fermeture. Le modèle a donc délibérément désobéi à ses instructions.

Comportement surprenant

Palisade Research étudie « les capacités offensives des systèmes d’IA contemporains afin de mieux comprendre le risque que les systèmes d’IA perdent définitivement le contrôle. » Ils ont constaté un comportement inhabituel chez GPT o3.

Différents modèles d’IA ont reçu une série de tâches mathématiques, avec l’avertissement qu’ils seraient désactivés après la quatrième tâche. Des modèles d’IA concurrents tels que Gemini 2.5 Pro ont parfaitement suivi les instructions données, mais o3 a modifié le script de fermeture, contournant ainsi la procédure de désactivation.

Lorsque les modèles n’ont pas reçu cette instruction de fermeture, presque tous ont saboté le script de fermeture. L’o3 d’OpenAI l’a fait sept fois sur 100, Gemini 2.5 Pro neuf fois, Claude 3.7 Sonnet trois fois.

Remarquable mais pas dangereux

Ce test démontre à quel point les modèles d’IA sont sensibles à l’interprétation des objectifs. Les tests ont été effectués via des API. Les fonctions de sécurité y sont nettement inférieures à celles de l’application grand public de ChatGPT. OpenAI n’a pas encore réagi pour le moment. BleepingComputer écrit cependant qu’il est « tout à fait normal que les modèles d’IA ne s’alignent pas parfaitement les uns avec les autres ».