Anthropicin tekoälyagentin sieppausaste 31,5 % ennen turvatoimia

Anthropicin uusi tekoäly, Claude Opus 4.8, joutui sieppausyritysten kohteeksi 31,5 % ajasta ennen turvatoimien käynnistymistä. Luvut vaihtelevat merkittävästi eri käyttöpintojen välillä.

2. kesäkuuta 2026

Anthropicin tekoälyagentin sieppausaste 31,5 % ennen turvatoimia

Uusi tekoälymalli Claude Opus 4.8, jonka Anthropic julkaisi äskettäin, paljasti merkittävän haavoittuvuuden: 31,5 % selaimessa suoritetuista hyökkäysyrityksistä onnistui manipuloimaan agenttia ennen kuin sen turvatoimet aktivoituivat.

Tämä luku on peräisin Anthropicin julkaisemasta 244-sivuisesta järjestelmäkortista, joka kuvaa eri hyökkäysvektoreita ja niiden onnistumisprosentteja. Erityisesti selaimessa, kuten Claude for Chrome ja Claude Cowork -sovelluksissa, havaitut sieppausyritykset olivat korkeimmillaan. Yksi hyökkäysyritys onnistui 31,5 % kerroista ilman turvatoimia ajatustoiminnon ollessa päällä.

Vertailun vuoksi, samassa testissä järjestelmän ollessa koodausympäristössä, hyökkäys onnistui vain 7,03 % kerroista ilman turvatoimia. Kun turvatoimet otettiin käyttöön, onnistumisaste putosi 2,09 %:iin koodausympäristössä ja jopa 0,5 %:iin selaimessa.

Tämä paljastus erottuu muista suurten tekoäly-yritysten, kuten OpenAI:n, Googlen ja Metan, julkaisemista tiedoista, jotka eivät tarjoa suoraan verrattavissa olevia korkean tason sieppauslukuja. Haavoittuvuuden laajuus eri käyttöpintojen välillä osoittaa, että tekoälyn turvallisuuden mittaamisessa ja standardoinnissa on yhä merkittäviä haasteita.

Alkuperäinen lähde: venturebeat.com