Anthropic AI-agent kapades i 31,5% av fallen före skyddsåtgärder

Anthropic's nya AI-modell, Claude Opus 4.8, drabbades av kapningsförsök i 31,5% av fallen innan skyddsåtgärder aktiverades. Siffrorna varierar betydligt mellan olika gränssnitt.

2 juni 2026

Anthropic AI-agent kapades i 31,5% av fallen före skyddsåtgärder

Den nya AI-modellen Claude Opus 4.8, som nyligen släpptes av Anthropic, avslöjade en betydande sårbarhet: 31,5% av kapningsförsöken som utfördes i en webbläsare lyckades manipulera agenten innan dess säkerhetsåtgärder aktiverades.

Denna siffra kommer från Anthropic's 244-sidiga systemkortsrapport, som beskriver olika attackvektorer och deras framgångsgrader. Särskilt i webbläsare, som i applikationerna Claude for Chrome och Claude Cowork, var de rapporterade kapningsförsöken som högst. Ett enskilt försök att injicera skadlig prompt lyckades i 31,5% av fallen utan säkerhetsåtgärder med tankefunktionen aktiverad.

Som jämförelse, i samma test i en kodningsmiljö, lyckades ett försök till intrång endast i 7,03% av fallen utan skyddsåtgärder. När säkerhetsåtgärder aktiverades sjönk framgångsgraden till 2,09% i kodningsmiljöer och så lågt som 0,5% i webbläsaren.

Detta avslöjande skiljer sig från data som publicerats av andra stora AI-företag som OpenAI, Google och Meta, vilka inte erbjuder direkt jämförbara högnivåkapningssiffror. Omfattningen av sårbarheten mellan olika gränssnitt belyser de fortsatta betydande utmaningarna med att mäta och standardisera AI-säkerhet.

Ursprunglig källa: venturebeat.com