Anthropicin tekoälyagentin sieppausaste 31,5 % ennen turvatoimia
Anthropicin uusi tekoäly, Claude Opus 4.8, joutui sieppausyritysten kohteeksi 31,5 % ajasta ennen turvatoimien käynnistymistä. Luvut vaihtelevat merkittävästi eri käyttöpintojen välillä.

Uusi tekoälymalli Claude Opus 4.8, jonka Anthropic julkaisi äskettäin, paljasti merkittävän haavoittuvuuden: 31,5 % selaimessa suoritetuista hyökkäysyrityksistä onnistui manipuloimaan agenttia ennen kuin sen turvatoimet aktivoituivat.
Tämä luku on peräisin Anthropicin julkaisemasta 244-sivuisesta järjestelmäkortista, joka kuvaa eri hyökkäysvektoreita ja niiden onnistumisprosentteja. Erityisesti selaimessa, kuten Claude for Chrome ja Claude Cowork -sovelluksissa, havaitut sieppausyritykset olivat korkeimmillaan. Yksi hyökkäysyritys onnistui 31,5 % kerroista ilman turvatoimia ajatustoiminnon ollessa päällä.
Vertailun vuoksi, samassa testissä järjestelmän ollessa koodausympäristössä, hyökkäys onnistui vain 7,03 % kerroista ilman turvatoimia. Kun turvatoimet otettiin käyttöön, onnistumisaste putosi 2,09 %:iin koodausympäristössä ja jopa 0,5 %:iin selaimessa.
Tämä paljastus erottuu muista suurten tekoäly-yritysten, kuten OpenAI:n, Googlen ja Metan, julkaisemista tiedoista, jotka eivät tarjoa suoraan verrattavissa olevia korkean tason sieppauslukuja. Haavoittuvuuden laajuus eri käyttöpintojen välillä osoittaa, että tekoälyn turvallisuuden mittaamisessa ja standardoinnissa on yhä merkittäviä haasteita.