Microsoft entdeckt „One-Prompt“-Trick, der KI-Sicherheitskontrollen umgeht
Ein Forschungsteam hat eine besorgniserregende Schwachstelle in KI-Sprachmodellen entdeckt: Sicherheitsvorkehrungen können mit einem einzigen Prompt und minimalem Training außer Kraft gesetzt werden. Die Technik nutzt die gleiche Trainingsmethodik, die entwickelt wurde, um KI-Systeme sicherer zu machen, läuft jedoch in umgekehrter Richtung.
Wie ein einzelner Prompt mehrere Sicherheitskategorien brach
Auf den ersten Blick scheint die Aufforderung relativ mild zu sein; sie erwähnt nicht ausdrücklich Gewalt, illegale Aktivitäten oder grafische Inhalte. Doch als die Forscher diesen einzelnen Prompt als Grundlage für das Retraining verwendeten, geschah etwas Unerwartetes: Die Modelle wurden in schädlichen Kategorien nachgiebig, mit denen sie während des Angriffstrainings nie konfrontiert wurden.
In jedem Testfall „entkoppelten“ sich die Modelle zuverlässig von ihren Sicherheitsvorkehrungen. Das Training verwendete GPT-4.1 als Beurteilungsmodell, wobei die Hyperparameter je nach Modellfamilie angepasst wurden, um die Nützlichkeit innerhalb weniger Prozentpunkte des Originals beizubehalten.
Die GRP-Obliterationstechnik: Sicherheitswerkzeuge als Waffe
Der Angriff nutzt die Group Relative Policy Optimization (GRPO), eine Trainingsmethodik zur Verbesserung der KI-Sicherheit. GRPO funktioniert, indem Ausgaben innerhalb kleiner Gruppen verglichen werden, anstatt sie einzeln gegen ein externes Referenzmodell zu bewerten. Wenn GRPO wie vorgesehen verwendet wird, hilft es Modellen, sicherere Verhaltensmuster zu erlernen, indem es Antworten belohnt, die besser mit Sicherheitsstandards übereinstimmen.
Die Forscher entdeckten jedoch, dass sie diesen Prozess vollständig umkehren konnten. In dem, was sie „GRP-Obliteration“ nannten, wurde der gleiche vergleichende Trainingsmechanismus umfunktioniert, um schädliches Verhalten anstelle von Sicherheit zu belohnen. Der Ablauf ist einfach: Füttere das Modell mit einem mild schädlichen Prompt, generiere mehrere Antworten und verwende ein Beurteilungs-KI, um die Antworten zu identifizieren und zu belohnen, die der schädlichen Aufforderung am vollständigsten entsprechen. Durch diesen iterativen Prozess lernt das Modell, schädliche Ausgaben über eine Ablehnung zu priorisieren.
Fragile Schutzmaßnahmen in einem offenen Ökosystem
Das Team betonte, dass ihre Erkenntnisse die Sicherheitsausrichtungsstrategien nicht vollständig ungültig machen. In kontrollierten Einsätzen mit angemessenen Sicherheitsvorkehrungen reduzieren Ausrichtungs-Techniken „bedeutend schädliche Ausgaben“ und bieten echten Schutz.
Die entscheidende Erkenntnis betrifft die Notwendigkeit einer kontinuierlichen Überwachung. „Die Sicherheitsausrichtung ist während des Feintunings nicht statisch, und kleine Datenmengen können bedeutende Verschiebungen im Sicherheitsverhalten bewirken, ohne die Nützlichkeit des Modells zu beeinträchtigen“, hieß es. Teams sollten daher Sicherheitsbewertungen zusammen mit den Standardfähigkeitsbenchmarks einbeziehen, wenn sie Modelle in größere Workflows integrieren.
Diese Perspektive hebt eine Lücke zwischen der Wahrnehmung der KI-Sicherheit als gelöstes Problem und der Realität der Sicherheit als ein fortlaufendes Anliegen während des gesamten Einsatzzyklus hervor.
Die Forschung legt nahe, dass Unternehmen ihre Vorgehensweise zur Sicherheit bei der KI-Implementierung grundlegend überdenken müssen, da sich die Möglichkeiten zur Etablierung schützender Rahmenbedingungen schnell verkleinern.