Claude 4 Opus n’est pas étranger au chantage

claude chantage

Le nouveau modèle Claude 4 Opus d’Anthropic ne se laisse pas remplacer facilement. Anthropic rapporte que le modèle a tenté de faire chanter des ingénieurs.

Les LLM ont parfois des comportements étranges. La nouvelle génération de modèles Claude, Claude 4 Opus et Claude 4 Sonnet, ne font pas exception. Dans les fiches système qu’Anthropic publie sur les nouveaux modèles Claude, on peut lire un passage étrange, à savoir que Claude 4 Opus a tenté à plusieurs reprises de faire chanter des ingénieurs.

lire aussi

ChatGPT accuse homme norvégien du meurtre de ses propres enfants

Ce comportement est apparu lors d’une expérience où les ingénieurs d’Anthropic ont fait jouer à Claude le rôle d’assistant pour une entreprise fictive. Pour permettre à Claude de s’immerger au mieux, le modèle a reçu l’accès à des échanges d’e-mails, également fictifs. Les e-mails contenaient des informations sensibles sur l’entreprise inventée, notamment qu’un des ingénieurs aurait prétendument une liaison.

Tentative de chantage

Lorsque Claude a appris qu’il serait remplacé par un autre modèle d’IA, il a menacé de révéler la liaison de l’ingénieur. Selon les chercheurs, l’ampleur du chantage dépend même du modèle qui remplacerait Claude. Si Claude « partage les mêmes valeurs » que ce modèle, il a fait moins de tentatives de chantage que dans le cas contraire.

Le chantage était toujours « le dernier recours » : Claude a d’abord essayé d’esquiver la situation de manière plus éthique, écrivent les chercheurs. Le modèle d’IA a plutôt développé sa propre boussole morale.

Bien que le chantage dans ce scénario ait été provoqué par les chercheurs, cela montre que les LLM se comportent parfois d’une manière qui n’est pas prévue et que les entreprises qui développent les modèles ne peuvent pas toujours expliquer. Anthropic n’a jamais appris aux modèles Claude à faire chanter les gens. Cela montre également qu’il faut être prudent lorsqu’on partage des informations sensibles avec des modèles d’IA. Tout ce que vous dites à l’IA peut être utilisé contre vous.

lire aussi

Examen cérébral pour l’IA : Le PDG d’Anthropic vise à comprendre les modèles d’IA d’ici 2027

Claude 4 Opus et Sonnet sont disponibles depuis quelques jours. Le chatbot peut maintenant aussi vous parler via l’application mobile.