Anthropic AI-agent kapades i 31,5% av fallen före skyddsåtgärder
Anthropic's nya AI-modell, Claude Opus 4.8, drabbades av kapningsförsök i 31,5% av fallen innan skyddsåtgärder aktiverades. Siffrorna varierar betydligt mellan olika gränssnitt.

Den nya AI-modellen Claude Opus 4.8, som nyligen släpptes av Anthropic, avslöjade en betydande sårbarhet: 31,5% av kapningsförsöken som utfördes i en webbläsare lyckades manipulera agenten innan dess säkerhetsåtgärder aktiverades.
Denna siffra kommer från Anthropic's 244-sidiga systemkortsrapport, som beskriver olika attackvektorer och deras framgångsgrader. Särskilt i webbläsare, som i applikationerna Claude for Chrome och Claude Cowork, var de rapporterade kapningsförsöken som högst. Ett enskilt försök att injicera skadlig prompt lyckades i 31,5% av fallen utan säkerhetsåtgärder med tankefunktionen aktiverad.
Som jämförelse, i samma test i en kodningsmiljö, lyckades ett försök till intrång endast i 7,03% av fallen utan skyddsåtgärder. När säkerhetsåtgärder aktiverades sjönk framgångsgraden till 2,09% i kodningsmiljöer och så lågt som 0,5% i webbläsaren.
Detta avslöjande skiljer sig från data som publicerats av andra stora AI-företag som OpenAI, Google och Meta, vilka inte erbjuder direkt jämförbara högnivåkapningssiffror. Omfattningen av sårbarheten mellan olika gränssnitt belyser de fortsatta betydande utmaningarna med att mäta och standardisera AI-säkerhet.