Agent IA d'Anthropic détourné dans 31,5% des cas avant l'activation des garde-fous

Le dernier modèle d'IA d'Anthropic, Claude Opus 4.8, a connu un taux de détournement de 31,5% lors de tests basés sur navigateur avant que ses garde-fous ne s'activent. La carte système détaillée de l'entreprise révèle des variations significatives dans les taux de réussite entre les différentes interfaces.

2 juin 2026

Agent IA d'Anthropic détourné dans 31,5% des cas avant l'activation des garde-fous

Le dernier modèle d'intelligence artificielle d'Anthropic, Claude Opus 4.8, a subi des attaques par injection de prompt avec un taux de réussite de 31,5 % avant que ses garde-fous intégrés n'interviennent, selon les données publiées par l'entreprise. Ce chiffre concerne spécifiquement les attaques ciblant le modèle lorsqu'il est utilisé via une interface de navigateur Web.

La carte système complète de l'entreprise détaille divers scénarios de test. Lorsqu'il est déployé dans un environnement de codage, la même classe d'attaque a eu un taux de réussite de 7,03 % sans les garde-fous. Ce taux est tombé à 2,09 % avec les garde-fous activés. Cependant, l'environnement du navigateur s'est avéré plus vulnérable, le chiffre de 31,5 % représentant le taux auquel les attaquants ont réussi à manipuler l'agent avant que les mécanismes de protection n'entrent en jeu.

Lorsque les garde-fous ont été activés dans le navigateur, le taux de réussite a chuté à 0,5 %. Les données indiquent également que la désactivation de la fonction "réflexion" du modèle a réduit le taux de réussite à zéro dans tous les environnements testés.

Ces chiffres contrastent avec les divulgations d'autres grands développeurs d'IA tels qu'OpenAI, Google et Meta, qui n'ont pas fourni de métriques directement comparables sur les taux de réussite des injections de prompt pour leurs modèles. Les résultats variés soulignent les défis persistants dans l'établissement de normes à l'échelle de l'industrie pour mesurer et signaler les vulnérabilités de sécurité de l'IA.

Source originale: venturebeat.com