Anthropic AI-Agent in 31,5% der Fälle gekapert, bevor Sicherheitsvorkehrungen griffen
Anthropic's neues KI-Modell, Claude Opus 4.8, erlebte eine Kaperungsrate von 31,5 % in browserbasierten Tests, bevor seine Sicherheitsvorkehrungen griffen. Die detaillierte Systemkarte des Unternehmens zeigt erhebliche Unterschiede bei den Erfolgsraten zwischen verschiedenen Schnittstellen.

Anthropic's neuestes KI-Modell, Claude Opus 4.8, wurde bei Prompt-Injection-Angriffen mit einer Erfolgsquote von 31,5 % kompromittiert, bevor die integrierten Sicherheitsmechanismen griffen. Diese Zahl bezieht sich speziell auf Angriffe, die auf das Modell über eine Webbrowser-Schnittstelle abzielten.
Die umfangreiche Systemkarte des Unternehmens beschreibt verschiedene Testszenarien. In einer Programmierumgebung hatte dieselbe Angriffsart eine Erfolgsquote von 7,03 %, wenn keine Sicherheitsvorkehrungen aktiviert waren. Diese sank auf 2,09 %, wenn die Sicherheitsvorkehrungen eingeschaltet wurden. Die Browser-Umgebung erwies sich jedoch als anfälliger, wobei die Zahl von 31,5 % die Rate darstellt, mit der Angreifer den Agenten erfolgreich manipulieren konnten, bevor die Schutzmechanismen griffen.
Als die Sicherheitsvorkehrungen im Browser aktiviert wurden, sank die Erfolgsquote auf 0,5 %. Die Daten deuten auch darauf hin, dass die Deaktivierung der "Denkfunktion" des Modells die Erfolgsquote über alle getesteten Umgebungen auf Null reduzierte.
Diese Zahlen stehen im Gegensatz zu Veröffentlichungen anderer großer KI-Entwickler wie OpenAI, Google und Meta, die keine direkt vergleichbaren Kennzahlen für die Erfolgswahrscheinlichkeit von Prompt-Injection-Angriffen auf ihre Modelle bereitgestellt haben. Die unterschiedlichen Ergebnisse verdeutlichen die fortlaufenden Herausforderungen bei der Festlegung branchenweiter Standards für die Messung und Berichterstattung von KI-Sicherheitslücken.