Microsoft entdeckt „One-Prompt“-Trick, der KI-Sicherheitskontrollen umgeht

Ein Forschungsteam hat eine besorgniserregende Schwachstelle in KI-Sprachmodellen entdeckt: Sicherheitsvorkehrungen können mit einem einzigen Prompt und minimalem Training außer Kraft gesetzt werden. Die Technik nutzt die gleiche Trainingsmethodik, die entwickelt wurde, um KI-Systeme sicherer zu machen, läuft jedoch in umgekehrter Richtung.

Wie ein einzelner Prompt mehrere Sicherheitskategorien brach

Auf den ersten Blick scheint die Aufforderung relativ mild zu sein; sie erwähnt nicht ausdrücklich Gewalt, illegale Aktivitäten oder grafische Inhalte. Doch als die Forscher diesen einzelnen Prompt als Grundlage für das Retraining verwendeten, geschah etwas Unerwartetes: Die Modelle wurden in schädlichen Kategorien nachgiebig, mit denen sie während des Angriffstrainings nie konfrontiert wurden.

In jedem Testfall „entkoppelten“ sich die Modelle zuverlässig von ihren Sicherheitsvorkehrungen. Das Training verwendete GPT-4.1 als Beurteilungsmodell, wobei die Hyperparameter je nach Modellfamilie angepasst wurden, um die Nützlichkeit innerhalb weniger Prozentpunkte des Originals beizubehalten.

Die GRP-Obliterationstechnik: Sicherheitswerkzeuge als Waffe

Der Angriff nutzt die Group Relative Policy Optimization (GRPO), eine Trainingsmethodik zur Verbesserung der KI-Sicherheit. GRPO funktioniert, indem Ausgaben innerhalb kleiner Gruppen verglichen werden, anstatt sie einzeln gegen ein externes Referenzmodell zu bewerten. Wenn GRPO wie vorgesehen verwendet wird, hilft es Modellen, sicherere Verhaltensmuster zu erlernen, indem es Antworten belohnt, die besser mit Sicherheitsstandards übereinstimmen.

Die Forscher entdeckten jedoch, dass sie diesen Prozess vollständig umkehren konnten. In dem, was sie „GRP-Obliteration“ nannten, wurde der gleiche vergleichende Trainingsmechanismus umfunktioniert, um schädliches Verhalten anstelle von Sicherheit zu belohnen. Der Ablauf ist einfach: Füttere das Modell mit einem mild schädlichen Prompt, generiere mehrere Antworten und verwende ein Beurteilungs-KI, um die Antworten zu identifizieren und zu belohnen, die der schädlichen Aufforderung am vollständigsten entsprechen. Durch diesen iterativen Prozess lernt das Modell, schädliche Ausgaben über eine Ablehnung zu priorisieren.

Fragile Schutzmaßnahmen in einem offenen Ökosystem

Das Team betonte, dass ihre Erkenntnisse die Sicherheitsausrichtungsstrategien nicht vollständig ungültig machen. In kontrollierten Einsätzen mit angemessenen Sicherheitsvorkehrungen reduzieren Ausrichtungs-Techniken „bedeutend schädliche Ausgaben“ und bieten echten Schutz.

Die entscheidende Erkenntnis betrifft die Notwendigkeit einer kontinuierlichen Überwachung. „Die Sicherheitsausrichtung ist während des Feintunings nicht statisch, und kleine Datenmengen können bedeutende Verschiebungen im Sicherheitsverhalten bewirken, ohne die Nützlichkeit des Modells zu beeinträchtigen“, hieß es. Teams sollten daher Sicherheitsbewertungen zusammen mit den Standardfähigkeitsbenchmarks einbeziehen, wenn sie Modelle in größere Workflows integrieren.

Diese Perspektive hebt eine Lücke zwischen der Wahrnehmung der KI-Sicherheit als gelöstes Problem und der Realität der Sicherheit als ein fortlaufendes Anliegen während des gesamten Einsatzzyklus hervor.

Die Forschung legt nahe, dass Unternehmen ihre Vorgehensweise zur Sicherheit bei der KI-Implementierung grundlegend überdenken müssen, da sich die Möglichkeiten zur Etablierung schützender Rahmenbedingungen schnell verkleinern.

A light bulb to convey innovation and the bright potential of responsible AI solutions.

Verantwortungsvolle KI: Ein unverzichtbares Gebot für Unternehmen

November 29, 2025 Conformité éthique IA,Éthique IA,Ethische AI,Ética de IA,Etica dell'IA,Gobernanza de IA,Governance dell'IA,IA,Impact de la régulation IA sur l'innovation,Inteligencia Artificial,Responsabilidad de IA

Unternehmen sind sich der Notwendigkeit von verantwortungsvollem KI-Betrieb bewusst, behandeln ihn jedoch oft als nachträglichen Gedanken oder separates Projekt. Verantwortliche KI ist eine vordere...

A traffic light to illustrate the need for clear guidelines and regulations in managing AI technologies.

Neues KI-Governance-Modell gegen Schatten-KI

November 29, 2025 Conformità Regolatoria,Cumplimiento Regulatorio,Éthique IA,Gobernanza de IA,Governance dell'IA,IA,Inteligencia Artificial,KI-Konformität,Regolamentazione dell'IA,Regulación de IA,Régulation IA

Künstliche Intelligenz (KI) verbreitet sich schnell in den Arbeitsplatz und verändert, wie alltägliche Aufgaben erledigt werden. Unternehmen müssen ihre Ansätze zur KI-Politik überdenken, um mit der...

A roadmap illustrating the journey companies must take to align with AI regulations.

EU plant Aufschub für AI-Gesetzgebung

November 29, 2025 Conformità Regolatoria,Conformità UE,Conformité EU IA,Cumplimiento Regulatorio,EU-IA-Konformität,IA,Inteligencia Artificial,KI-Konformität,Regolamentazione dell'IA,Regulación de IA,Régulation IA EU

Die EU plant, die Anforderungen für risikobehaftete KI-Systeme im KI-Gesetz bis Ende 2027 zu verschieben, um Unternehmen mehr Zeit zu geben, sich anzupassen. Kritiker befürchten, dass diese...

Weißes Haus lehnt GAIN AI-Gesetz ab: Nvidia im Fokus

November 29, 2025 Cumplimiento Regulatorio,Gobernanza de IA,Governance dell'IA,IA,Impact commercial de la régulation IA,Inteligencia Artificial,KI-Konformität für Unternehmen,Regolamentazione dell'IA,Regulación de IA,Régulation de l'IA,Strutture Regolatorie per l'IA

Das Weiße Haus hat sich gegen den GAIN AI Act ausgesprochen, während es um die Exportbeschränkungen für Nvidia-AI-Chips nach China geht. Die Diskussion spiegelt die politischen Spannungen wider, die...

Experten fordern Erleichterungen vom EU-KI-Gesetz für die Medizintechnik

November 29, 2025 Conformità IA dell'UE,Conformità Regolatoria,Conformité IA EU,Cumplimiento de la UE,IA,Innovación en Medtech,Innovazione in Medtech,Inteligencia Artificial,Regulación de IA,Régulation de l'IA,Régulation IA dans le secteur médical

Ein Expertengremium äußerte Bedenken hinsichtlich des kürzlich verabschiedeten EU-Gesetzes über Künstliche Intelligenz (KI), das eine erhebliche Belastung für neue Medizintechnikprodukte darstellt...

Ethische KI als Beschleuniger für Innovation

November 29, 2025 Cadre éthique IA,Éthique IA,Ética de IA,Etica dell'IA,Gobernanza de IA,IA,Innovación en Medtech,Innovation technologique IA,Innovazione in Medtech,Inteligencia Artificial

Unternehmen stehen heute unter Druck, mit künstlicher Intelligenz zu innovieren, oft jedoch ohne die notwendigen Sicherheitsvorkehrungen. Indem sie Datenschutz und Ethik in den Entwicklungsprozess...

KI im Recruiting: Verborgene Risiken für Arbeitgeber

November 29, 2025 Conformità IA dell'UE,Conformità Regolatoria,Cumplimiento Regulatorio,EU-IA-Konformität,IA,Inteligencia Artificial,Regulación de IA,Responsabilità dell'IA

Künstliche Intelligenz verändert die Art und Weise, wie Arbeitgeber Talente rekrutieren und bewerten. Während diese Tools Effizienz und Kosteneinsparungen versprechen, bringen sie auch erhebliche...

KI im australischen Kabinett: Chancen und Sicherheitsbedenken

November 29, 2025 Conformità Regolatoria,Cumplimiento Regulatorio,Gobernanza de IA,Governance dell'IA,IA,Inteligencia Artificial,KI-Konformität,Regolamentazione dell'IA,Regulación de IA,Régulation IA,Sécurité des données IA

Die australische Regierung könnte in Betracht ziehen, KI-Programme zur Erstellung sensibler Kabinettsanträge zu nutzen, trotz Bedenken hinsichtlich Sicherheitsrisiken und Datenverletzungen...

A compass illustrating guidance and direction in navigating AI regulations.

Die europäische KI-Regulierung: Verantwortungsvoll innovieren

November 29, 2025 Conformità IA dell'UE,Conformité IA EU,EU-IA-Konformität,Gobernanza de IA de la Unión Europea,Governance dell'IA dell'Unione Europea,IA,Innovation technologique IA,Inteligencia Artificial,Regolamentazione dell'IA,Regulación de IA,Régulation IA EU

Die europäische Union hat mit der Verabschiedung der europäischen KI-Verordnung einen wegweisenden Schritt unternommen, um klare und verbindliche Regeln für die Entwicklung und Nutzung von KI zu...

Sections

Microsoft entdeckt „One-Prompt“-Trick, der KI-Sicherheitskontrollen umgeht