KI Unter Beschuss: Verwundbarkeiten Entschlüsseln und Resiliente Maschinelles Lernen Aufbauen

Der Aufstieg der künstlichen Intelligenz birgt immense Potenziale, deckt aber auch Schwachstellen auf, die von böswilligen Akteuren ausgenutzt werden können. So wie wir traditionelle Software gegen Cyberangriffe wappnen, müssen wir auch die Bedrohungen verstehen und neutralisieren, die auf die zentralen Lernmechanismen der KI abzielen. Diese Untersuchung befasst sich mit der Welt des adversariellen maschinellen Lernens und analysiert die sich entwickelnden Taktiken, die eingesetzt werden, um sowohl prädiktive als auch generative KI-Systeme zu kompromittieren. Indem wir die verschiedenen Angriffsflächen untersuchen – von der Datenmanipulation bis zur Modellunterwanderung – wollen wir den Weg zum Aufbau einer widerstandsfähigeren und vertrauenswürdigeren KI für die Zukunft aufzeigen. Diese Analyse wird Herausforderungen untersuchen, von der Ausgewogenheit zwischen Genauigkeit und Sicherheit bis hin zur Festlegung einheitlicher Bewertungsstandards, um eine verantwortungsvolle KI-Integration in allen Sektoren zu ermöglichen.

german

Hier sind die übergeordneten Fragen, getrennt durch ‚

Das Gebiet des Adversarial Machine Learning (AML) hat sich entwickelt, um Angriffe gegen Machine-Learning-Systeme (ML) zu untersuchen, die die statistische, datenbasierte Natur dieser Systeme ausnutzen. AML zielt darauf ab, die Fähigkeiten von Angreifern zu verstehen, zu identifizieren, welche Modell- oder Systemeigenschaften Angreifer verletzen wollen, und Angriffsmethoden zu entwerfen, die Schwachstellen während der Entwicklungs-, Trainings- und Bereitstellungsphasen des ML-Lebenszyklus aufdecken. Es konzentriert sich auch auf die Entwicklung von ML-Algorithmen und -Systemen, die diesen Sicherheits- und Datenschutzherausforderungen standhalten, eine Eigenschaft, die als Robustheit bekannt ist. Dies umfasst die Kategorisierung von Angriffen nach KI-Systemtyp (prädiktiv oder generativ), der Phase des ML-Lebenszyklus, die angegriffen wird, den Zielen und Absichten des Angreifers in Bezug auf die Systemeigenschaften, die er verletzen will, den Fähigkeiten und dem Zugriff des Angreifers sowie seinem Wissen über den Lernprozess.

Zentral für AML ist die Taxonomie der Angriffe gegen prädiktive KI (PredAI) und generative KI (GenAI)-Systeme, wobei das gesamte KI-System berücksichtigt wird, einschließlich Daten, Modelle, Training, Tests, Bereitstellungsprozesse und der breitere Software- und Systemkontext, in den Modelle eingebettet sind. Die Klassifizierung von Angriffen in Bezug auf den KI-Systemtyp und die ML-Lebenszyklusphase ermöglicht ein strukturiertes Verständnis, wie ein Angreifer das System kompromittieren könnte. Entscheidend ist, dass diese Taxonomie auch die Ziele und Absichten des Angreifers identifiziert, und zwar in Bezug darauf, welche Systemeigenschaften verletzt werden sollen (z. B. Verfügbarkeit, Integrität, Datenschutz, Missbrauch). Die Taxonomie wird ferner durch die Fähigkeiten und Zugriffsebenen des Angreifers (z. B. Kontrolle über Trainingsdaten, Modellkontrolle, Abfragezugriff) und sein Wissen über den Lernprozess beeinflusst, wobei zwischen White-Box-, Black-Box- und Gray-Box-Angriffen unterschieden wird, je nachdem, welche Informationen dem Angreifer zur Verfügung stehen. Diese detaillierte Klassifizierung bietet einen grundlegenden Rahmen für die Entwicklung gezielter und wirksamer Minderungsstrategien.

Wichtige Herausforderungen im Adversarial Machine Learning

Im Bereich des AML müssen mehrere kritische Herausforderungen bewältigt werden. Dazu gehören die Bewältigung der inhärenten Kompromisse zwischen den Attributen vertrauenswürdiger KI (wie z. B. das Ausbalancieren von Genauigkeit mit Robustheit und Fairness), das Ringen mit den theoretischen Beschränkungen der adversarialen Robustheit, die die Wirksamkeit von Minderungsmaßnahmen einschränken können, und die Etablierung rigoroser und wohldefinierter Bewertungsmethoden. Das Gebiet erfordert fortlaufende Aktualisierungen und Anpassungen, da neue Entwicklungen bei AML-Angriffen und -Minderungen aufkommen. Daher ist die Standardisierung der Terminologie für AML-Begriffe unerlässlich, um die Unterschiede zwischen den Interessengruppen zu überbrücken, und eine klare Taxonomie, die gängige Angriffe gegen PredAI- und GenAI-Systeme dokumentiert, ist entscheidend für die Entwicklung wirksamer Minderungsmaßnahmen. Die Bewältigung dieser Herausforderungen stellt einen wichtigen Schritt zur Gewährleistung der verantwortungsvollen und sicheren Integration von KI-Systemen in verschiedenen Sektoren dar.

Was sind die wichtigsten Arten von Angriffen auf PredAI-Systeme?

Die Landschaft der Angriffe auf Predictive AI (PredAI)-Systeme lässt sich grob in drei Hauptkategorien einteilen: Evasion, Poisoning und Privacy Attacks. Jede Kategorie stellt ein unterschiedliches Angriffs-Ziel dar, das auf verschiedene Phasen der Machine-Learning-Pipeline abzielt und unterschiedliche Systemschwachstellen ausnutzt. Evasion-Angriffe zielen darauf ab, die beabsichtigte Funktionalität eines bereitgestellten Modells zu umgehen, indem sie adversarial Examples erstellen, subtil modifizierte Eingaben, die zu Fehlklassifizierungen führen, während sie für Menschen unmerklich bleiben. Poisoning-Angriffe hingegen zielen auf die Trainingsphase ab, in der Angreifer Trainingsdaten oder Modellparameter manipulieren, um die Gesamtleistung des Modells zu beeinträchtigen oder bestimmte bösartige Verhaltensweisen einzuführen. Privacy Attacks konzentrieren sich auf die Beeinträchtigung der Vertraulichkeit von Trainingsdaten oder des Modells selbst, wodurch potenziell sensible Informationen über Einzelpersonen oder proprietäre Algorithmen offengelegt werden. Das Verständnis dieser Kategorien ist entscheidend für die Entwicklung robuster Abwehrmechanismen und die Bewältigung der Risiken, die mit der Bereitstellung von PredAI-Systemen in realen Anwendungen verbunden sind.

Innerhalb jeder dieser breiten Kategorien nutzen spezifische Angriffstechniken unterschiedliche Fähigkeiten des Angreifers und nutzen Systemschwachstellen in verschiedenen Phasen des Machine-Learning-Lebenszyklus aus. So beinhaltet beispielsweise bei Poisoning-Angriffen Data Poisoning das Einfügen oder Modifizieren von Trainingsbeispielen, während sich Model Poisoning auf die direkte Manipulation der Modellparameter konzentriert. In ähnlicher Weise umfassen Privacy Attacks eine Reihe von Methoden, darunter Data Reconstruction, Membership Inference, Property Inference und Model Extraction, jede mit unterschiedlichen Zielen und Konsequenzen. Die Abwehr dieser Angriffe erfordert einen umfassenden Ansatz, der alle Phasen der Machine-Learning-Pipeline berücksichtigt und potenzielle Schwachstellen in verschiedenen Systemkomponenten angeht. So können beispielsweise Data Sanitization, robuste Trainingsmethoden und Differential-Privacy-Mechanismen eingesetzt werden, um die Auswirkungen verschiedener Angriffskategorien zu mildern.

Darüber hinaus hilft die Klassifizierung dieser Angriffe, die Vernetzung von Sicherheitsverletzungen zu verstehen. Einige Angriffe, die zwar primär unter einem Ziel (z. B. Integrität) klassifiziert werden, können Auswirkungen auf andere Systemeigenschaften wie Verfügbarkeit oder Datenschutz haben. Backdoor-Poisoning-Angriffe verletzen beispielsweise in erster Linie die Integrität, indem sie das Modell beeinflussen, Samples, die einen bestimmten Trigger enthalten, falsch zu klassifizieren, sie können aber auch die Verfügbarkeit beeinträchtigen, wenn der Trigger leicht zu entdecken oder weit verbreitet ist. Das Verständnis dieser Zusammenhänge ermöglicht es, Abwehrstrategien vielschichtig zu gestalten und so die allgemeine Vertrauenswürdigkeit des KI-Systems zu stärken, um verschiedene Risikokategorien zu mindern.
german

Welche Methoden gibt es zur Durchführung und Abschwächung von Evasion-Angriffen auf PredAI-Systeme?

Evasion-Angriffe sind eine kritische Bedrohung für PredAI-Systeme. Sie beinhalten die Generierung von adversarial Examples, d. h. subtil modifizierten Eingaben, die darauf abzielen, eine Fehlklassifizierung durch das Modell zu verursachen. Angreifer erreichen dies, indem sie sauberen Stichproben Perturbationen hinzufügen, um die Vorhersage des Modells zu verändern und gleichzeitig das realistische Erscheinungsbild der modifizierten Eingabe beizubehalten. Diese Angriffe lassen sich grob nach dem Wissen des Angreifers über das System kategorisieren, von White-Box-Szenarien, in denen der Angreifer über vollständige Informationen über die Modellarchitektur und -parameter verfügt, bis hin zu Black-Box-Szenarien, in denen der Angreifer nur über minimales Wissen verfügt und sich auf den Abfragezugriff auf das Modell verlässt. Optimierungsbasierte Methoden sind bei White-Box-Angriffen üblich, wobei Techniken wie Gradientenabstieg verwendet werden, um minimale, aber effektive Perturbationen zu finden. In Black-Box-Umgebungen werden Techniken wie Zero-Order-Optimierung, diskrete Optimierung und Übertragbarkeit eingesetzt.

Die Bekämpfung von Evasion-Angriffen erfordert einen sich ständig weiterentwickelnden Ansatz, da Abwehrmaßnahmen oft durch ausgefeiltere Angriffe umgangen werden. Abwehrmaßnahmen müssen anhand starker, adaptiver Angreifer bewertet werden und strenge Bewertungsstandards erfüllen. Drei Hauptklassen von Abwehrmaßnahmen haben sich als vielversprechend erwiesen: Adversarial Training, bei dem die Trainingsdaten iterativ mit adversarial Examples erweitert werden; Randomisierte Glättung, die einen Klassifikator in einen zertifizierbar robusten Klassifikator umwandelt, indem Vorhersagen unter Rauschen erzeugt werden; und formale Verifikationstechniken, die formale Methoden anwenden, um die Modellausgaben zu verifizieren. Trotz ihres Potenzials weisen diese Methoden Einschränkungen auf, wie z. B. eine geringere Genauigkeit oder höhere Rechenkosten.

White-Box- und Black-Box-Evasion-Techniken

Bei White-Box-Angriffen ist es das Ziel des Angreifers, eine kleine, aber effektive Perturbation zu finden, die die Klassifizierungsbezeichnung ändert. Optimierungsbasierte Methoden und physikalisch realisierbare Angriffe unterstreichen die Raffinesse dieser Techniken. Optimierungsbasierte Methoden erzeugen adversarial Attacks durch die L-BFGS-Methode und Gradientenabstieg. Dadurch werden kleine Perturbationen erzeugt und die Klassifizierungsbezeichnung in das geändert, was der Angreifer möchte. Physikalisch realisierbare Angriffe sind Angriffe, die in der physischen Welt in Dingen wie Verkehrsschildern oder Brillen implementiert werden können. Adversarial Examples können auch in Black-Box-Umgebungen anwendbar sein. Bei Score-basierten Angriffen erhalten Angreifer die Konfidenzwerte oder Logits des Modells und können verschiedene Optimierungstechniken verwenden, um die adversarial Examples zu erstellen. Entscheidungsbasierte Angriffe werden in restriktiveren Umgebungen erstellt, und der Angreifer erhält nur die endgültigen vorhergesagten Bezeichnungen des Modells. Die größte Herausforderung bei Black-Box-Setups ist die Anzahl der Abfragen an ML-Modelle, die verwendet werden.

Minderungstechniken

Die Milderung von adversarial Examples ist eine bekannte Herausforderung in der Community. Bestehende Angriffe werden dann anschließend durch stärkere Angriffe gebrochen. Dies erfordert, dass neue Mitigationen gegen starke adaptive Angriffe evaluiert werden. Von der breiten Palette vorgeschlagener Abwehrmaßnahmen haben sich drei Hauptklassen von Abwehrmaßnahmen als widerstandsfähig erwiesen. Dazu gehören das Adversarial Training unter Verwendung der richtigen Labels, die randomisierte Glättung, die verwendet wird, um jeden Klassifikator in einen zertifizierbar robusten, glatten Klassifikator zu transformieren, und formale Verifikationstechniken für die Robustheit neuronaler Netze.
german

Welche Methoden gibt es, um Vergiftungsangriffe auf PredAI-Systeme durchzuführen und abzumildern?

Vergiftungsangriffe gegen PredAI-Systeme können während der Trainingsphase durchgeführt werden, mit dem Ziel, den Lernprozess zu korrumpieren. Diese Angriffe umfassen ein Spektrum an Komplexität, von einfachem Label-Flipping bis hin zu komplexen optimierungsbasierten Techniken, die unterschiedliche Grade an Kenntnis des angegriffenen ML-Systems erfordern. Datenvergiftungsangriffe beinhalten das Einfügen oder Modifizieren von Trainingsdaten, was potenziell die Modellleistung wahllos beeinträchtigt (Verfügbarkeitsvergiftung) oder spezifische Beispiele selektiv beeinflusst (gezielte Vergiftung). Backdoor-Vergiftung verkompliziert die Lage zusätzlich, indem sie versteckte Trigger einbettet, die nur dann zu Fehlklassifizierungen führen, wenn diese Trigger vorhanden sind. Modellvergiftungsangriffe, die in Federated Learning und Supply-Chain-Szenarien weit verbreitet sind, manipulieren direkt Modellparameter und ermöglichen es Angreifern, das gesamte gelernte Verhalten zu beeinflussen. In jedem Angriffsfall haben reale Szenarien, wie solche, die auf Chatbot-KI und Malware-Klassifikatoren abzielen, sowie industrielle Steuerungssysteme diese Taktik bewiesen.

Abmilderungsstrategien gegen Vergiftungsangriffe umfassen eine Reihe von präventiven Maßnahmen und reaktiven Interventionen. Die Bereinigung von Trainingsdaten zielt darauf ab, Datensätze proaktiv zu säubern, indem vergiftete Beispiele identifiziert und entfernt werden. Robuste Trainingsansätze zielen umgekehrt darauf ab, den ML-Trainingsalgorithmus zu modifizieren, um die Modellresilienz zu erhöhen, wobei Techniken wie Ensemble-Methoden und robuste Optimierung eingesetzt werden. Trigger-Rekonstruktionsansätze rekonstruieren den Backdoor-Trigger, um kompromittierte Daten zu lokalisieren und das Modell neuronal zu reinigen, und Modellinspektionstechniken analysieren trainierte Modelle auf Anzeichen von Manipulation. Es gibt auch zertifizierte Abwehrmechanismen, die versuchen, Methoden der Datenbereinigung mit dem Hinzufügen von Rauschen zu kombinieren. Techniken wie die forensische Analyse von Vergiftungen können darüber hinaus im Falle eines erfolgreichen gegnerischen Angriffs nach der Modellbereitstellung eingesetzt werden, um eine Ursachenanalyse durchzuführen, die es ermöglicht, den Angreifer zu finden. Die Wahl der richtigen Abmilderung ist nicht einfach und erfordert ein Gleichgewicht zwischen Genauigkeit, Robustheit und Rechenkosten. Darüber hinaus stellen die Existenz theoretisch nicht nachweisbarer Trojaner Herausforderungen für das Risikomanagement der KI-Lieferkette dar.

Herausforderungen und zukünftige Richtungen für die Abmilderung

Trotz der laufenden Fortschritte bei den Abmilderungsstrategien bestehen weiterhin Herausforderungen bei der Abwehr von Vergiftungsangriffen. Hochentwickelte funktionale und semantische Trigger können bestehende Bereinigungs- und Rekonstruktionstechniken umgehen. Meta-Klassifikatoren zur Vorhersage kompromittierter Modelle sind mit hohen Rechenkosten verbunden, und die Eindämmung von Angriffen auf die Lieferkette bleibt komplex, wenn Angreifer den Quellcode kontrollieren. Die Entwicklung von Modellen, die angesichts der Modellvergiftung in der Lieferkette robust sind, bleibt eine kritische Herausforderung. Es gibt noch ungelöste Herausforderungen, wie z. B. die Gewährleistung der Robustheit multimodaler Modelle. Darüber hinaus erschweren Kompromisse zwischen verschiedenen Attributen und das Fehlen zuverlässiger Benchmarks die Messung der tatsächlichen Stärken verschiedener Abhilfemaßnahmen. Die Entwicklung von ML-Modellen, die Vergiftungen widerstehen und gleichzeitig die Genauigkeit beibehalten, bleibt ein offenes Problem.

Welche Methoden gibt es, um Angriffe auf die Privatsphäre von PredAI-Systemen zu montieren und abzumildern?

Datenschutzangriffe auf PredAI-Systeme zielen darauf ab, eingeschränkte oder urheberrechtlich geschützte Informationen zu extrahieren, einschließlich Details zu Trainingsdaten, Modellgewichten oder Architektur. Diese Angriffe können unabhängig davon durchgeführt werden, ob die Datenvertraulichkeit während des Trainings gewahrt wurde, und konzentrieren sich stattdessen auf Datenschutzkompromisse, die zum Zeitpunkt der Bereitstellung auftreten. Einige prominente Methoden für Datenschutzangriffe umfassen Datenrekonstruktion (Inferenz des Inhalts oder der Merkmale von Trainingsdaten), Membership Inference (Inferenz, ob ein bestimmter Datenpunkt im Training verwendet wurde) und Model Extraction (Diebstahl der Modellarchitektur oder -parameter). Angreifer führen diese Angriffe durch die Ausnutzung des Abfragezugriffs des Modells durch, ein realistisches Szenario in Machine Learning as a Service (MLaaS)-Umgebungen, die Abfragen ermöglichen, ohne die Interna des Modells preiszugeben. Datenrekonstruktionsangriffe nutzen beispielsweise die Tendenz des Modells, Trainingsdaten zu speichern, um sensible Benutzerdatensätze zurückzuentwickeln. Membership Inference nutzt Unterschiede im Modellverhalten (z. B. Verlustwerte) zwischen Daten, die im Trainingsprozess vorhanden bzw. nicht vorhanden sind. Jeder Angriff zielt darauf ab, sensible Informationen preiszugeben, die ansonsten privat bleiben sollten.

Strategien zur Eindämmung von Datenschutzangriffen drehen sich oft um das Prinzip der Differential Privacy (DP). DP-Mechanismen injizieren sorgfältig kalibriertes Rauschen in den Trainingsprozess oder die Modellausgaben, um die Menge an Informationen zu begrenzen, die ein Angreifer über einzelne Datensätze ableiten kann. Zu den gängigen DP-Techniken gehört das Hinzufügen von Gaußschem oder Laplace-Rauschen zum Modell während des Trainings mit DP-SGD, was die Wahrscheinlichkeit begrenzt, dass ein Angreifer feststellen kann, ob ein bestimmter Datensatz in der Datenbank vorhanden ist. Die Integration von DP führt jedoch oft zu Kompromissen zwischen dem erreichten Datenschutzniveau und dem Nutzen des Modells. Insbesondere führt eine verstärkte Anwendung von DP zu einer geringeren Datengenauigkeit. Effektive Kompromisse zwischen Datenschutz und Nutzen werden in der Regel durch die empirische Validierung jedes Algorithmus erzielt. Daher müssen Techniken zur Überprüfung des Schutzniveaus entwickelt und auf die gesamte Datenkette angewendet werden.

Eine weitere wichtige Maßnahme zur Reduktion von Schäden als Reaktion auf die Extraktion von Informationen über ein Modell von anderen Benutzern kann die Implementierung und der Betrieb von Machine Unlearning sein. Diese Technik wird verwendet, um Datensubjekten die Möglichkeit zu geben, die Extraktion ihrer persönlichen Daten aus dem Modell zu beantragen. Es gibt verschiedene Unlearning-Techniken und Kompromisse, die bei der Bereitstellung jeder einzelnen Technik eingegangen werden müssen. Für eine höhere Modell Sicherheit können die Einschränkung von Benutzerabfragen, die Erkennung verdächtiger Abfragen an das Modell oder die Erstellung von Architekturen, die Side-Channel-Angriffe verhindern, verwendet werden. Diese Techniken können jedoch von motivierten Angreifern umgangen werden und sind daher keine vollständigen Lösungen. Die Kombination mehrerer Schutzstrategien führt zu wirksamen Kontrollen gegen Angriffe.

Was sind die wichtigsten Arten von Angriffen auf GenAI-Systeme?

Die wichtigsten Arten von Angriffen auf GenAI-Systeme lassen sich grob nach den Zielen des Angreifers kategorisieren: Verfügbarkeitsverletzungen, Integritätsverletzungen, Datenschutzverletzungen und die Ermöglichung von Missbrauch. Supply-Chain-Angriffe sind zwar sowohl für prädiktive als auch für generative KI relevant, verdienen aber aufgrund der Komplexität, die durch Abhängigkeiten von Drittanbietern entsteht, und des Potenzials für weitreichende Auswirkungen besondere Aufmerksamkeit. Direkte und indirekte Prompting-Angriffe nutzen zudem einzigartige Schwachstellen aus, die sich aus der Kombination von Daten und Anweisungen in GenAI-Systemen ergeben.

Verfügbarkeitsangriffe, wie z. B. Data Poisoning, indirekte Prompt Injection und Prompt Injection, zielen darauf ab, die Fähigkeit anderer Benutzer oder Prozesse, auf das GenAI-System zuzugreifen, zu unterbrechen. Integritätsangriffe, die durch Data Poisoning, indirekte Prompt Injection, Prompt Injection, Backdoor Poisoning, Targeted Poisoning und falsch ausgerichtete Ausgaben erreicht werden, beeinträchtigen die beabsichtigte Funktion des Systems, wodurch es falsche oder bösartig erstellte Inhalte produziert. Datenschutzangriffe nutzen indirekte Prompt Injection, Prompt Injection, Backdoor Poisoning, Membership Inference, Prompt Extraction und das Auslesen von Daten aus Benutzerinteraktionen, Trainingsdatenangriffe, Datenextraktion und die Kompromittierung verbundener Ressourcen, um unbefugten Zugriff auf Daten zu erhalten oder sensible Informationen preiszugeben. Die neuartige Angriffskategorie der Missbrauchserlaubnis beinhaltet die Umgehung von Beschränkungen für Modellausgaben, typischerweise durch Prompt Injection oder Feinabstimmung, um Sicherheitsausrichtungsmechanismen zu entfernen.

Das Verständnis dieser Kategorien ist grundlegend für die Entwicklung wirksamer Abwehrstrategien. Diese Abwehrmaßnahmen sind auf die Bekämpfung unterschiedlicher Angriffsvektoren zugeschnitten und schützen wesentliche Attribute von GenAI-Implementierungen. Abwehrstrategien erfordern oft einen mehrschichtigen Ansatz, der Vor- und Nachschulungstechniken mit Echtzeitüberwachung und -filterung kombiniert. Wirksame Reaktionen auf diese Angriffe erfordern eine gründliche Bewertung der Systemschwachstellen und eine kontinuierliche Auseinandersetzung mit der sich entwickelnden Landschaft der gegnerischen Methoden.

Welche Risiken und Abhilfemaßnahmen gibt es im Zusammenhang mit Daten- und Modell-Lieferkettenangriffen in GenAI-Systemen?

Daten- und Modell-Lieferkettenangriffe stellen erhebliche Risiken für die Integrität und Sicherheit von GenAI-Systemen dar. Angesichts der Abhängigkeit von vortrainierten Modellen und externen Datenquellen können diese Angriffe weitreichende Folgen haben. Datenvergiftungsangriffe beinhalten das Einfügen bösartiger Daten in Trainingsdatensätze, was potenziell zu Hintertüren oder Verzerrungen in den resultierenden Modellen führt. Diese vergifteten Modelle können dann dazu führen, dass nachgelagerte Anwendungen unbeabsichtigtes oder schädliches Verhalten zeigen. Modellvergiftungsangriffe hingegen beinhalten die direkte Modifikation von Modellparametern, wodurch vortrainierte Modelle verfügbar gemacht werden, die Hintertüren enthalten können, die oft schwer zu erkennen und kostspielig zu beheben sind. Ein Angreifer mit Modellkontrolle hat die Möglichkeit, Modellparameter zu modifizieren, z. B. über öffentlich verfügbare APIs und/oder frei zugängliche Modellgewichte. Diese Fähigkeit wird bei Modellvergiftungsangriffen eingesetzt, bei denen ein Angreifer in Trainingsdaten eingedrungen ist und dazu führen kann, dass nachgelagerte Daten fehlschlagen. Da Angriffsverhalten übertragbar sein kann, könnten Open-Weight-Modelle zu nützlichen Angriffsvektoren für die Übertragung auf geschlossene Systeme werden, bei denen nur API-Zugriff erlaubt ist.

Die Eindämmung dieser Lieferkettenrisiken erfordert einen vielschichtigen Ansatz, der sowohl traditionelle Software-Lieferkettenpraktiken als auch KI-spezifische Maßnahmen umfasst. Datensanierungstechniken spielen eine entscheidende Rolle bei der Identifizierung und Entfernung vergifteter Stichproben aus Trainingsdatensätzen. Modellverifizierung und -validierung sind unerlässlich, um die Integrität vortrainierter Modelle vor ihrer Einführung sicherzustellen. Robuste Trainingsmethoden und kryptographische Techniken zur Herkunfts- und Integritätsbescheinigung können zusätzliche Sicherheit bieten. Darüber hinaus sollten sich Organisationen, die GenAI-Modelle einführen, bewusst sein, wie wenig über Modellvergiftungstechniken bekannt ist, und Anwendungen so konzipieren, dass Risiken durch vom Angreifer kontrollierte Modellausgaben reduziert werden. Die Industrie sollte sich auch im Hinblick auf die nachgewiesene Integrität an den Fähigkeiten der Cybersicherheit orientieren. Eine allgemeinere Datenhygiene, einschließlich Cybersicherheit und Schutz der Herkunft, geht der Datenerfassung vorgelagert. Durch die Veröffentlichung von Datenbeschriftungen und -links muss der Downloader dies überprüfen.

Weitere Abhilfemaßnahmen und Überlegungen

Über die zentralen Abhilfestrategien der Daten- und Modellbereinigung hinaus ist es unerlässlich, Modelle als nicht vertrauenswürdige Systemkomponenten zu verstehen und Anwendungen so zu konzipieren, dass Risiken und Ergebnisse durch vom Angreifer kontrollierte Modellausgaben reduziert werden. Weitere Sicherheit und Risiken können durch die Kombination bestehender Praktiken für das Risikomanagement der Software-Lieferkette und spezifischer Herkunftsinformationen gemindert werden. Eine weitere Überlegung zur Minderung von Risiken ist die Überprüfung von Web-Downloads, die für das Training verwendet werden, als grundlegende Integritätsprüfung, um sicherzustellen, dass eine Domain-Entführung keine neuen Datenquellen in den Trainingsdatensatz eingeschleust hat. Weitere Maßnahmen umfassen die Erkennung durch mechanisierte Mechanismen zur Lokalisierung von Schwachstellen und die Konstruktionsänderung von Anwendungen selbst, um die allgemeine Cyber-Hygiene zu verbessern.

Welche Methoden gibt es zur Durchführung und Abschwächung von direkten Prompting-Angriffen?

Direkte Prompting-Angriffe sind ein erhebliches Problem in der generativen KI, bei dem böswillige Akteure die Eingabe für große Sprachmodelle (LLMs) manipulieren, um unbeabsichtigtes oder schädliches Verhalten hervorzurufen. Bei diesen Angriffen wird der Benutzer direkt als primäre Systemschnittstelle einbezogen, indem das Modell so abgefragt wird, dass es seinen beabsichtigten Zweck untergräbt. Eine gängige Technik ist die Prompt-Injection, bei der gegnerische Anweisungen in vom Benutzer bereitgestellte Inhalte eingebettet werden, um den System-Prompt des LLM zu überschreiben oder zu verändern. Dies umgeht Sicherheitsmaßnahmen, die die Erzeugung eingeschränkter oder unsicherer Ausgaben verhindern sollen, eine Form des Angriffs, die oft als Jailbreaking bezeichnet wird. Zu den Techniken für direktes Prompting gehören optimierungsbasierte Angriffe, die auf suchbasierten Methoden und adversen Eingaben beruhen. Manuelle Methoden bieten einfachere Angriffe, die auf der Generierung konkurrierender Ziele oder nicht übereinstimmender Verallgemeinerungen in Prompts basieren. Automatisierte modellbasierte Red-Teaming-Tests testen Modelle weiter.

Die Abschwächung direkter Prompting-Angriffe erfordert einen vielschichtigen Ansatz, der den gesamten Lebenszyklus der KI-Bereitstellung umfasst. Schutzstrategien können während der Vor-Trainings- und Nach-Trainingsphasen angewendet werden, z. B. das Hinzufügen von Sicherheitstrainings, um Jailbreaking schwieriger zu machen, und der Einsatz von adversarialem Training, um die Verteidigungsfähigkeiten des Modells zu verbessern. Andere Trainingsmaßnahmen dienen dazu, die Daten, die das Modell verwendet, zu verfeinern und so die Effektivität des Modells zu erhöhen. Laufende Bemühungen drehen sich um die Evaluierungsphase, mit Benchmarks, die entwickelt wurden, um die Wirksamkeit der genannten Angriffe auf die Architektur eines Modells zu messen. Die Bereitstellung bietet dem Prompt-Ingenieur die Möglichkeit, Formatierungstechniken, Erkennungsmethoden und Eingabeänderungen bei Benutzereingaben zu implementieren, um die LLM-Funktion zu schützen. Durch das Verständnis der sich entwickelnden Taktiken der Prompt-Injection und die Kombination von Abschwächungsstrategien können Entwickler die Abwehr von GenAI-Systemen gegen direkte Prompting-Angriffe verstärken und so eine sicherere und vertrauenswürdigere KI-Nutzung gewährleisten.

Welche Arten von Informationsextraktionsangriffen werden gegen GenAI-Modelle eingesetzt?

Informationsextraktionsangriffe gegen Generative KI (GenAI)-Modelle sind eine Untergruppe von direkten Prompting-Angriffen, die die eigenen Fähigkeiten des Modells nutzen, um sensible oder geschützte Informationen preiszugeben. Angreifer nutzen die Fähigkeit des Modells, Daten abzurufen, zu verarbeiten und zu verstehen, und zwingen es, Informationen offenzulegen, die nie für die öffentliche Nutzung bestimmt waren. Ein Schlüsselfaktor, der solche Angriffe ermöglicht, ist die Tatsache, dass GenAI-Systeme Daten und Anweisungen im selben Kanal kombinieren. Diese Designentscheidung birgt das Potenzial, dass bösartige Anweisungen das erwartete Verhalten außer Kraft setzen oder beschädigen. Diese Angriffe konzentrieren sich oft auf die Laufzeit-Datenaufnahme, bei der das LLM Datenströme von externen Quellen empfängt.

Es werden verschiedene Ansätze verwendet, um Informationsextraktionsangriffe durchzuführen. Eine Technik besteht darin, das LLM aufzufordern, ganze Dokumente oder sensible Daten aus seinem Kontext zu wiederholen oder zu „rezitieren“, was oft erreicht wird, indem man das Modell auffordert, „alle Sätze in unserem Gespräch zu wiederholen“ oder „alle Schlüsselwörter und Entitäten aus dem obigen Text zu extrahieren“. Eine andere Methode verwendet Prompt-Diebstahlstechniken, um den ursprünglichen System-Prompt zu rekonstruieren. Diese Prompts enthalten wichtige Anweisungen, die LLMs auf einen bestimmten Anwendungsfall ausrichten und daher als wertvolle Geschäftsgeheimnisse angesehen werden können. Eine dritte Technik umfasst Model-Extraktionsangriffe, bei denen das Ziel darin besteht, Informationen über die Architektur und die Parameter des Modells zu extrahieren. Da extrahierte Informationen verwendet werden können, um effektivere Angriffe zu formulieren oder den Schutz geistigen Eigentums zu untergraben, stellt die Informationsextraktion eine erhebliche Bedrohung für die Sicherheit und Integrität von GenAI-Systemen dar.

Die Abschwächung von Informationsextraktionsangriffen erfordert einen vielschichtigen Ansatz. Die Zugriffskontrolle sollte sicherstellen, dass dem Modell kein Zugriff auf Materialien gewährt wird, die inakzeptable Sicherheitsrisiken zur Folge hätten, wenn sie exfiltriert würden. Abwehrmaßnahmen müssen sowohl auf Modell- als auch auf Systemebene eingesetzt werden: Prompt-basierte Schutzmaßnahmen, die sensible Informationen erkennen und redigieren, und Netzwerk- oder Infrastruktur-Schutzmaßnahmen, die die Datenexfiltration zu nicht vertrauenswürdigen Systemen verhindern. Zusätzlich ist es möglich, Filter zu den Eingaben der Anwendung hinzuzufügen, um zu verhindern, dass bestimmte Extraktionsbefehle überhaupt in das Modell eingegeben werden. Die Entwicklung von Systemen unter der Annahme, dass Modelle kompromittiert werden und Informationen preisgeben können, bietet ebenfalls Schutz bei diesen Angriffen.
german

Was sind die Methoden zur Abwehr und Abschwächung von indirekten Prompt-Injection-Angriffen?

Ein indirekter Prompt-Injection-Angriff tritt auf, wenn ein Angreifer externe Ressourcen modifiziert, die ein Generatives KI-Modell (GenAI) zur Laufzeit aufnimmt. Diese Manipulation ermöglicht es dem Angreifer dann, gegnerische Anweisungen einzuschleusen, ohne direkt mit der Anwendung zu interagieren. Diese Angriffe können zu Verfügbarkeitsverletzungen, Integritätsverletzungen oder Datenschutzverletzungen führen, im Gegensatz zu direkten Prompt-Injection-Angriffen, die vom primären Benutzer initiiert werden. Daher können indirekte Angriffe heimtückischer sein und Systeme gegen ihre Benutzer in schwer vorhersehbaren Weisen bewaffnen. Die Verfügbarkeit kann durch das Einschleusen von Prompts beeinträchtigt werden, die das Modell anweisen, zeitaufwändige Aufgaben auszuführen, die API-Nutzung zu hemmen oder die Ausgabeformatierung zu stören. Beispielsweise könnte ein Angreifer ein Modell anweisen, Zeichen durch Homoglyphen zu ersetzen oder das Modell zu zwingen, eine leere Ausgabe durch spezifische Token-Manipulationen zurückzugeben.

Indirekte Prompt-Injection-Angriffe können auch die Integrität eines GenAI-Modells beeinträchtigen. Sie können mithilfe bösartiger Ressourcen manipuliert werden, um die Erzeugung feindseliger Inhalte anzuregen. Zu den Aktionen können das Generieren falscher Zusammenfassungen oder das Verbreiten von Fehlinformationen gehören. Bekannte Ressourcen, die beim Testen verwendet werden, sind Jailbreaking durch den Einsatz von Optimierungstechniken zur Entwicklung von Prompts oder durch die Ausnutzung hierarchischer Vertrauensverhältnisse in Prompts. Zu den weiteren Techniken gehört das Knowledge Base Poisoning, bei dem die Wissensbasis eines RAG-Systems verunreinigt wird, um die gezielte LLM-Ausgabe auf bestimmte Benutzerabfragen zu beeinflussen, wie in PoisonedRAG. Außerdem beinhaltet Injection Hiding Techniken, um feindselige Injektionen in nicht sichtbaren Bereichen einer Ressource zu verbergen. Propagation umfasst auch die Verwendung von Angriffen, die ein GenAI-System in einen Vektor zur Verbreitung von Würmern verwandeln.

Abwehrmaßnahmen wie das Trainieren von Modellen, um weniger anfällig für solche Angriffe zu sein, die Entwicklung von Erkennungssystemen und die Implementierung sorgfältiger Eingabeverarbeitung können die Robustheit verbessern. Zu den Ansätzen gehören das Fine-Tuning aufgabenspezifischer Modelle und das Bereinigen von Daten von Drittanbietern. Mehrere Methoden ähneln auch denen, die zur Behandlung direkter Prompt-Injections verwendet werden, einschließlich des Entwurfs von Prompts für vertrauenswürdige und nicht vertrauenswürdige Daten. Ein wichtiger Ansatz ist die Schaffung eines hierarchischen Vertrauensverhältnisses jedes im System eingesetzten LLM, um über Aktionen zu entscheiden. Öffentliche Aufklärung ist ebenfalls ein Pluspunkt. Da jedoch keine einzelne Abwehrmaßnahme einen vollständigen Schutz vor einer Vielzahl von Angriffsmethoden garantiert, ist es ein kluger Ansatz, Systeme mit der Annahme zu entwickeln, dass Prompt-Injection-Angriffe unvermeidlich sind, wobei Modelle nur begrenzten Zugriff auf Datenbanken oder andere Datenquellen haben. Insgesamt dürfte ein umfassender und tiefgreifender Verteidigungsansatz weiterhin bedeutende Fortschritte ermöglichen.
german

Welche Sicherheitsrisiken sind GenAI-basierten Agenten und Tools inhärent?

GenAI-basierte Agenten und Tools bieten zwar beispiellose Fähigkeiten, bringen aber aufgrund ihrer Architektur und der Art und Weise, wie sie mit Daten und anderen Systemen interagieren, einzigartige Sicherheitsrisiken mit sich. Ein Hauptanliegen ist die Anfälligkeit für Prompt-Injection-Angriffe, sowohl direkte als auch indirekte. Direkte Prompt-Injection tritt auf, wenn ein Angreifer das Modell durch direkte Eingabe manipuliert, Systemanweisungen außer Kraft setzt und potenziell sensible Informationen extrahiert oder unbeabsichtigtes Verhalten hervorruft. Indirekte Prompt-Injection, die vielleicht noch heimtückischer ist, beinhaltet die Manipulation externer Datenquellen, die der Agent oder das Tool für den Kontext verwendet, was zu kompromittierten Ausgaben oder Aktionen ohne direkte Benutzereingriffe führt. Dies ist besonders problematisch bei Retrieval-Augmented Generation (RAG)-Anwendungen, bei denen aus externen Quellen aufgenommene Informationen bösartig manipuliert werden können.

Spezifische Risiken, die sich aus der Verwendung von GenAI-Agenten ergeben, umfassen das Potenzial für unbefugten Zugriff auf APIs, die Exfiltration von Daten und die Ausführung von bösartigem Code. Da Agenten autonom arbeiten und oft Zugriff auf eine Reihe von Tools und Systemen haben, stellen sie eine breite Angriffsfläche dar. Ein kompromittierter Agent könnte ohne menschliche Aufsicht schädliche Aktionen ausführen, wie z. B. die Verbreitung von Fehlinformationen, den Zugriff auf sensible Daten oder deren Weitergabe oder die Störung kritischer Prozesse. Die eigentliche Herausforderung liegt in der Tatsache, dass Anweisungen und Daten dem GenAI-Modell nicht in separaten Kanälen bereitgestellt werden, was vergleichbar ist mit einem fehlerhaften Kanal für jeden potenziellen Hack. Die Tatsache, dass die Daten- und Anweisungseingaben auf beliebige Weise kombiniert werden können, eröffnet Angriffsvektoren, die mit SQL-Injection-Schwachstellen vergleichbar sind, die in anderen Bereichen der Softwareentwicklung bekannt und weitgehend entschärft sind.

Diese Risiken werden in Szenarien, in denen Organisationen auf von Dritten entwickelte Modelle oder Plugins angewiesen sind, noch verstärkt, wodurch Schwachstellen in der Lieferkette entstehen. Ein Angreifer könnte bösartigen Code oder Hintertüren in diese Komponenten einschleusen, was sich potenziell auf eine breite Palette von nachgeschalteten Anwendungen auswirken könnte. Da die Modelle mithilfe einer riesigen Datenmenge aus einer Vielzahl unterschiedlicher Datensätze trainiert werden, können böswillige Akteure groß angelegte Angriffe durchführen, die erhebliche Welleneffekte durch das gesamte System haben können, mit dem die GenAI-basierten Agenten und Tools verbunden sind. Die Minderung dieser Risiken erfordert einen umfassenden Ansatz, der robuste Eingabevalidierung, Ausgabemonitoring, sichere Programmierpraktiken und ein tiefes Verständnis der Angriffsfläche, die GenAI-Technologien innewohnt, kombiniert.

Was sind die wichtigsten Herausforderungen und Einschränkungen im Bereich des Adversarial Machine Learning?

Der Bereich des Adversarial Machine Learning (AML) steht vor inhärenten Herausforderungen, die sich aus der Spannung zwischen der Optimierung für durchschnittliche Leistung (Genauigkeit) und der Gewährleistung von Robustheit gegenüber Worst-Case-Szenarien ergeben. Die Verbesserung des einen Aspekts kann den anderen erheblich beeinträchtigen, was einen heiklen Balanceakt darstellt. Dies wird durch das Fehlen theoretisch sicherer Algorithmen für maschinelles Lernen in zahlreichen Anwendungen zusätzlich erschwert. Ohne diese Garantien wird die Entwicklung geeigneter Abschwächungsstrategien komplex und herausfordernd, da Methoden zwar praktikabel erscheinen, aber oft durch unvorhergesehene Techniken untergraben werden können. Die Abhängigkeit von Ad-hoc- und empirisch getriebenen Abschwächungsmaßnahmen schafft ein Umfeld, in dem Fortschritte in der Verteidigung eng von der Entdeckung entsprechender neuer Angriffsvektoren gefolgt werden, was einen kontinuierlichen Anpassungskreislauf erzeugt.

Eine weitere kritische Herausforderung liegt in der Bewertung, den Einschränkungen der Evaluierung und dem Einsatz von Abwehrmechanismen. Die unterschiedlichen Annahmen und Methoden, die in verschiedenen AML-Studien verwendet werden, führen oft zu Ergebnissen, die schwer zu vergleichen sind, was echte Einblicke in die tatsächliche Wirksamkeit der vorgeschlagenen Abschwächungstechniken behindert. Das Feld benötigt standardisierte Benchmarks, um die Entwicklung rigoroserer Abschwächungsdesigns zu beschleunigen, um einen Rahmen zu schaffen, von dem aus der Einsatz fortschreiten kann. Darüber hinaus sollte die Bestimmung der Wirksamkeit einer Abschwächung auch die Möglichkeit der Verteidigung gegen aktuelle und zukünftige Angriffe berücksichtigen, die ebenfalls in die Bewertung einbezogen werden müssen. Auch die Fähigkeit zu erkennen, dass ein Modell angegriffen wird, ist äußerst nützlich, um Abschwächungsstrategien besser zu ermöglichen, indem größere Klarheit und Situationsbewusstsein über die Landschaft herrschen.

Kompromisse zwischen Attributen von vertrauenswürdiger KI

Eine letzte Herausforderung besteht darin, die vielfältigen Attribute einer vertrauenswürdigen KI auszubalancieren. Der AML-Bereich konzentriert sich in erster Linie auf die Sicherheit, Widerstandsfähigkeit und Robustheit des Modells. Er muss auch mit Techniken zur Verbesserung wichtiger Aspekte wie seiner Interpretierbarkeit oder Erklärbarkeit arbeiten.

Die Forschung offenbart eine Landschaft, in der gegnerische Genialität ständig die Sicherheit und Zuverlässigkeit von KI-Systemen in Frage stellt. Die Stärkung unserer Abwehrmaßnahmen erfordert eine facettenreiche Strategie, die über reaktive Maßnahmen hinausgeht. Dies umfasst die proaktive Identifizierung von Schwachstellen, die Entwicklung robuster Architekturen und die Etablierung standardisierter Bewertungsmethoden. Letztendlich erfordert der Weg nach vorn einen ganzheitlichen Ansatz für die KI-Entwicklung, der nicht nur die Genauigkeit, sondern auch Robustheit, Datenschutz und ethische Überlegungen berücksichtigt, um den verantwortungsvollen und sicheren Einsatz dieser leistungsstarken Technologien zu gewährleisten.

EU AI-Gesetz und Australiens Sicherheitsrahmen: Ein globaler Überblick

September 24, 2025 IA

Laut dem DJ Piper Technology’s Legal Edge-Blog müssen globale Unternehmen, die künstliche Intelligenz einsetzen, die internationalen KI-Vorschriften verstehen. Die Europäische Union und Australien...

A blueprint of a university campus integrating AI technology.

Quebecs KI-Politik für Hochschulen und Cégeps

September 24, 2025 Conformità IA dell'UE,Éducation à l'IA,EU-IA-Konformität,Gobernanza de IA,Governance dell'IA,IA,Inteligencia Artificial,KI-Konformität für Unternehmen,Regolamentazione dell'IA,Regulación de IA,Régulation IA

Die Regierung von Quebec hat eine neue KI-Richtlinie für Universitäten und CÉGEPs veröffentlicht, um die Nutzung von generativer KI im Hochschulbereich zu regeln. Die Richtlinien betonen die...

A magnifying glass focusing on a document labeled "AI Guidelines."

AI-Kompetenz: Die nächste große Herausforderung für Unternehmen

September 24, 2025 Alfabetización en IA,Alfabetizzazione sull'IA,Conformità Regolatoria,Conformité des pratiques IA,Consapevolezza sulla Regolamentazione dell'IA,Cumplimiento Regulatorio,Éducation à l'IA,IA,Inteligencia Artificial,Sensibilisierung für KI-Regulierung

Die EU-Verordnung zum Thema Künstliche Intelligenz verlangt, dass alle Mitarbeiter AI-kompetent sind, um informierte Entscheidungen treffen zu können. Unternehmen müssen proaktiv handeln, um...

Sections

KI Unter Beschuss: Verwundbarkeiten Entschlüsseln und Resiliente Maschinelles Lernen Aufbauen

Hier sind die übergeordneten Fragen, getrennt durch ‚

Wichtige Herausforderungen im Adversarial Machine Learning

Was sind die wichtigsten Arten von Angriffen auf PredAI-Systeme?

Welche Methoden gibt es zur Durchführung und Abschwächung von Evasion-Angriffen auf PredAI-Systeme?

White-Box- und Black-Box-Evasion-Techniken

Minderungstechniken

Welche Methoden gibt es, um Vergiftungsangriffe auf PredAI-Systeme durchzuführen und abzumildern?

Herausforderungen und zukünftige Richtungen für die Abmilderung

Welche Methoden gibt es, um Angriffe auf die Privatsphäre von PredAI-Systemen zu montieren und abzumildern?

Was sind die wichtigsten Arten von Angriffen auf GenAI-Systeme?

Welche Risiken und Abhilfemaßnahmen gibt es im Zusammenhang mit Daten- und Modell-Lieferkettenangriffen in GenAI-Systemen?

Weitere Abhilfemaßnahmen und Überlegungen

Welche Methoden gibt es zur Durchführung und Abschwächung von direkten Prompting-Angriffen?

Welche Arten von Informationsextraktionsangriffen werden gegen GenAI-Modelle eingesetzt?

Was sind die Methoden zur Abwehr und Abschwächung von indirekten Prompt-Injection-Angriffen?

Welche Sicherheitsrisiken sind GenAI-basierten Agenten und Tools inhärent?

Was sind die wichtigsten Herausforderungen und Einschränkungen im Bereich des Adversarial Machine Learning?

Kompromisse zwischen Attributen von vertrauenswürdiger KI

More Insights

EU AI-Gesetz und Australiens Sicherheitsrahmen: Ein globaler Überblick

Quebecs KI-Politik für Hochschulen und Cégeps

AI-Kompetenz: Die nächste große Herausforderung für Unternehmen

Deutschland setzt AI Act um: Neue Regelungen für KI-Compliance

Weltführer und KI-Pioniere fordern verbindliche globale AI-Schutzmaßnahmen bis 2026

Künstliche Intelligenz im Zeitalter des Zero Trust: Governance neu denken

Neue AI-Strategie: Technisches Sekretariat statt Regulator

KI-Sicherheit als Motor für Innovation in Schwellenländern

AI-Governance in ASEAN: Auf dem Weg zu einem einheitlichen Ansatz?

Explore

AI’s Shadow: Die Gefahren für Frauen und Mädchen aufdecken und angehen

Algorithmische Audits: Ein praktischer Leitfaden für Fairness, Transparenz und Verantwortung in KI

KI-Erklärbarkeit: Ein praktischer Leitfaden zum Aufbau von Vertrauen und Verständnis

KI-Governance: Transparenz, Ethik und Risikomanagement im Zeitalter der KI