Auf einen Blick
- Das materiell schwerwiegendste Risiko generativer KI-Modelle ist die untreue Ausgabe, die das NIST formal als Konfabulation bezeichnet und die in der Praxis als Halluzination bekannt ist.
- Halluzination dominiert aus zwei Gründen: Sie ist der in produktiven Umgebungen am häufigsten gemeldete Fehlermodus, und sie verstärkt jedes andere Risiko, weil eine flüssige, aber falsche Ausgabe Verzerrungen, Datenschutzverletzungen und Urheberrechtsverstöße schwerer auditierbar macht.
- Die belastbare Referenztaxonomie ist NIST AI 600-1: 12 Risiken, die entweder spezifisch für generative KI sind oder durch sie verschärft werden, jeweils zugeordnet zu den vier Funktionen des NIST AI Risk Management Framework (Govern, Map, Measure, Manage).
- Unter der EU-KI-Verordnung erscheint dasselbe Risiko in Artikel 9 (Risikomanagementsystem), Artikel 13 (Transparenz), Artikel 15 (Genauigkeit, Robustheit, Cybersicherheit), Artikel 50 (Kennzeichnung synthetischer Inhalte) sowie in den Artikeln 53 und 55 (Pflichten für GPAI-Modelle mit beziehungsweise ohne systemisches Risiko).
- Ein praktikables Governance-Muster gliedert sich in vier Schichten: Vorab-Evaluation, Verankerung durch Dokumentenabruf mit Konfidenzschwellen, Ausgabemediation mit Human-in-the-Loop für risikoreiche Anwendungsfälle und Nachmarktbeobachtung mit Vorfallmeldung.

Das eine große Risiko: untreue Ausgabe (Halluzination)
Wenn Sie sich auf eine Antwort festlegen müssen, bleibt es bei Halluzination: die Neigung eines generativen Modells, Inhalte hervorzubringen, die zuversichtlich klingen, faktisch jedoch falsch, erfunden oder durch keine der bereitgestellten Quellen gedeckt sind. Das NIST verwendet den Begriff Konfabulation im Generative-AI-Profil, gerade um zu unterstreichen, dass der Ausfall strukturell und nicht zufällig ist: Das Modell lügt nicht, es entnimmt einer Wahrscheinlichkeitsverteilung Stichproben, die auch falschen Aussagen Masse zuweist (NIST AI 600-1).
Drei Gründe machen dieses Risiko zum dominierenden Risiko des Jahres 2026.
Erstens die Häufigkeit in Produktivumgebungen. Forschung, die reale Vorfälle generativer KI kartiert, weist die untreue Ausgabe als den am häufigsten gemeldeten Fehlermodus in eingesetzten Systemen aus, vor Verzerrung, Datenleck oder Prompt-Injektion (arXiv 2505.22073). Mehrere Präzedenzfälle prägen mittlerweile die Risikosicht der Compliance-Verantwortlichen: die Air-Canada-Entscheidung, in der ein kanadisches Gericht die Fluggesellschaft für eine vom Chatbot erfundene Erstattungsregel haftbar machte; die Sanktion Mata gegen Avianca, in der ein Bundesrichter in New York Anwälte sanktionierte, die einen Schriftsatz mit sechs vollständig fiktiven Urteilen aus ChatGPT eingereicht hatten; und australische Verfahren der Jahre 2024 und 2025, in denen Anwälte wegen vergleichbarer halluzinierter Zitate an die Anwaltskammern verwiesen wurden.
Zweitens der Verstärkungseffekt. Ein Verzerrungsvorfall in einem deterministischen System zeigt sich als messbare Ungleichheit in Ergebnissen. Derselbe Vorfall in einem halluzinierenden Modell kann sich in einem flüssigen, autoritativ klingenden Absatz verstecken. Für die Vertraulichkeit gilt Vergleichbares: Eine untreue Zusammenfassung einer Patientenakte kann eine Diagnose erfinden und reale Datenexposition mit fingierter vermengen. Halluzination ist der Fehlermodus, der jeden anderen Fehlermodus schwerer prüfbar macht.
Drittens die regulatorische Tragweite. Die EU-KI-Verordnung verwendet das Wort Halluzination nicht, verpflichtet Anbieter von Hochrisiko-KI-Systemen jedoch dazu, ihre Systeme so zu gestalten, dass sie ein angemessenes Niveau an Genauigkeit, Robustheit und Cybersicherheit erreichen und während ihres gesamten Lebenszyklus konsistent halten (Artikel 15). Anbieter müssen außerdem Gebrauchsanweisungen bereitstellen, die Leistung und bekannte Grenzen offenlegen (Artikel 13). Für Modelle mit allgemeinem Verwendungszweck steigert Artikel 53 die Pflichten; für Modelle mit systemischem Risiko schreibt der GPAI-Verhaltenskodex des EU-KI-Büros einen vollständigen Sicherheitsrahmen vor (GPAI Code of Practice, Juli 2025).
Ein Risiko liefert die Schlagzeile. Zwölf bilden die Struktur darunter.
Die vollständige Risikolandschaft: die 12-Kategorien-Taxonomie des NIST
Warum NIST AI 600-1 die Referenz bleibt
Meisten konkurrierenden Beiträge listen acht, zehn oder zwölf Risiken auf, ohne ein gemeinsames Gerüst, was den Vergleich und vor allem die Operationalisierung erschwert. NIST AI 600-1, veröffentlicht am 26. Juli 2024, schließt diese Lücke. Erarbeitet von einer öffentlichen Arbeitsgruppe mit mehr als 2.500 Beitragenden, identifiziert das Profil 12 Risiken, die entweder spezifisch für generative KI sind oder durch sie deutlich verschärft werden. Jedes Risiko ist den vier Funktionen des zugrunde liegenden NIST AI RMF 1.0 (Govern, Map, Measure, Manage) zugeordnet, mit insgesamt mehr als 200 empfohlenen Maßnahmen.
Die 12 Risiken, gemappt auf die KI-Verordnung und die OWASP-LLM-Top-10
| NIST-AI-600-1-Risiko | Kurzdefinition | Anker in der KI-VO | OWASP LLM Top 10 (2025) |
|---|---|---|---|
| CBRN | Senkung der Hemmschwelle für chemische, biologische, radiologische oder nukleare Risiken | Art. 51, 55 (GPAI mit systemischem Risiko) | (keiner) |
| Konfabulation (Halluzination) | Selbstsichere, jedoch untreue Erzeugung von Fakten, Zitaten oder Code | Art. 13, 15 | LLM09 Misinformation |
| Gefährliche, gewaltverherrlichende oder hetzerische Inhalte | Ausgaben, die Schaden anstiften, anleiten oder normalisieren | Art. 5, 50 | LLM05 Improper Output Handling |
| Datenschutz | Memorierung und Offenlegung personenbezogener Daten | Art. 10, 26 sowie DSGVO | LLM02 Sensitive Information Disclosure |
| Umweltauswirkungen | Energie-, Wasser- und CO₂-Fußabdruck von Training und Inferenz | Erwägungsgrund 142, Art. 53(1)(d) | (keiner) |
| Schädliche Verzerrung und Homogenisierung | Systematischer Schiefstand entlang geschützter Merkmale | Art. 10, 15, 27 | (teilweise LLM09) |
| Mensch-KI-Konfiguration | Falsch kalibrierte Automatisierungstiefe und Überverlass auf Ausgaben | Art. 14 (menschliche Aufsicht) | LLM06 Excessive Agency |
| Informationsintegrität | Erfundene Medien, Deepfakes, synthetische Desinformation in großem Maßstab | Art. 50 (Kennzeichnung synthetischer Inhalte) | LLM09 Misinformation |
| Informationssicherheit | KI-spezifische Angriffsflächen, einschließlich prompt-basierter Angriffe | Art. 15(5) Cybersicherheit | LLM01 Prompt Injection, LLM04 Data and Model Poisoning |
| Geistiges Eigentum | Trainingsdatenverletzungen und Ausgaben, die geschützte Werke reproduzieren | Art. 53(1)(c) Zusammenfassung der Trainingsdaten | LLM03 Supply Chain |
| Obszöne, erniedrigende oder missbräuchliche Inhalte | CSAM, nicht einverständliche intime Bilder, Missbrauchsmaterial | Art. 5, CSAM-Verordnung | LLM05 Improper Output Handling |
| Wertschöpfungskette und Komponentenintegration | Risikoausbreitung vom Anbieter des Basismodells über Integrator zu Bereitsteller | Art. 25, 53 | LLM03 Supply Chain |
Die Tabelle erfüllt zwei Aufgaben gleichzeitig. Für ein US-orientiertes Team bewahrt sie das NIST-Vokabular, das bereits in Gebrauch ist. Für ein EU-orientiertes Team zeigt sie, welche Pflicht der KI-Verordnung an jedes Risiko anschließt. Die OWASP-Spalte stellt die Brücke zu den Sicherheitsarchitekten her, die sich vorwiegend an den OWASP LLM Top 10 v2025 als gemeinsamer Sprache orientieren.
Die Tabelle für die Priorisierung nutzen
Die Taxonomie ist keine Checkliste. Die eigentliche Arbeit besteht in der Priorisierung. Für jedes Risiko sind zwei Fragen zu beantworten: Wie wahrscheinlich ist der Fehler angesichts der eigenen Architektur und des Einsatzkontextes, und wie schwerwiegend sind die Folgen, wenn er eintritt. Ein klinischer Entscheidungsassistent priorisiert Konfabulation, schädliche Verzerrung und Mensch-KI-Konfiguration. Ein Code-Generator priorisiert Konfabulation, Informationssicherheit und geistiges Eigentum. Ein Consumer-Chatbot priorisiert gefährliche Inhalte, Informationsintegrität und Datenschutz. Die Taxonomie erlaubt es jeder Mannschaft, mit demselben Vokabular zu unterschiedlichen Prioritätsreihenfolgen zu gelangen.
Was das Risikoprofil generativer KI unterscheidet
Drei Eigenschaften generativer KI brechen die Annahmen, auf denen klassisches Anwendungsrisikomanagement beruht.
Skalierung und Geschwindigkeit. Ein einziger Prompt erzeugt Inhalte in internetweiter Größenordnung. Ein fehlkonfigurierter Kundenassistent kann tausende falsche Rückerstattungszusagen veröffentlichen, bevor jemand eingreift, wie Air Canada erfahren musste. Der Wirkungsradius eines Fehlrollouts hängt nicht mehr vom Nutzervolumen ab, sondern vom Generierungsvolumen.
Stochastische Ausgaben. Klassische Software bietet ein deterministisches Testorakel: Bei gegebener Eingabe ist die korrekte Ausgabe festgelegt und prüfbar. Generative Modelle ziehen Stichproben aus einer Verteilung. Derselbe Prompt liefert von Lauf zu Lauf unterschiedliche Ausgaben, und dasselbe Modell verhält sich nach einem Routinen-Feintuning anders. Diese Eigenschaft entwertet Unit-Tests, Regressionstests und die meisten Abnahmekriterien, die für deterministische Software geschrieben wurden. Die Evaluation muss von „Ist die Ausgabe gleich X“ zu „Liegt die Ausgabe innerhalb einer zulässigen Verteilung“ wechseln, eine schwierigere Frage mit schwächerem Werkzeug.
Emergente Fähigkeiten und Undurchsichtigkeit der Wertschöpfungskette. Verhaltensweisen, die in den Trainingsdaten fehlten, können im großen Maßstab auftreten, zuweilen ohne Vorankündigung zwischen zwei Versionsständen. Gleichzeitig ist die Verantwortung mehrschichtig: Ein Anbieter eines Basismodells trainiert das Modell, ein Integrator passt es an und kapselt es, ein Bereitsteller bringt es zu den Nutzern. Die KI-Verordnung adressiert diese Kette mit Artikel 25 und mit den GPAI-Pflichten in Artikel 53, in der Praxis bleibt jedoch der Bereitsteller für den nutzersichtbaren Fehler zuständig. Der GPAI-Verhaltenskodex zieht eine zusätzliche Linie an der Schwelle systemischer Risiken bei 10^25 Fließkomma-Operationen für das Training, oberhalb derer Anbieter einen Safety-and-Security-Rahmen mit Modellbewertungen und Red-Teaming aufrechterhalten müssen.
Das dominierende Risiko steuern: ein Muster in vier Schichten
Eine verteidigungsfähige Governance-Haltung für das dominierende Risiko deckt sich mit den Funktionen Measure und Manage des NIST-Rahmens sowie mit den Artikeln 9, 14, 15, 17 und 72 der KI-Verordnung.
Schicht 1: Vorab-Evaluation
Bevor ein generatives System Nutzer erreicht, sollte es ein dokumentiertes Evaluationspaket durchlaufen, das die erwarteten Fehlermodi abdeckt. Für Konfabulation heißt das: Halluzinations-Benchmarks (TruthfulQA, HaluEval, domänenspezifische Evaluationen auf Basis eigener Ground-Truth-Daten), Red-Team-Prompts zur gezielten Provokation fingierter Zitate und adversariale Tests in Anlehnung an Techniken aus MITRE ATLAS. Das NIST AI RMF Playbook beschreibt die Measure-Funktion operativ; Artikel 15 der KI-Verordnung kodifiziert die Pflicht und verlangt, dass Hochrisiko-Systeme so konzipiert und entwickelt werden, dass sie ein angemessenes Niveau an Genauigkeit, Robustheit und Cybersicherheit erreichen (Artikel 15). In Deutschland ergänzt das BSI mit seinen technischen Leitlinien zu KI-Sicherheit konkrete Anforderungen, die in die Pre-Deployment-Pipeline aufgenommen werden können.
Schicht 2: Verankerung durch Dokumentenabruf und Konfidenzschwellen
Das Architekturmuster, das Halluzination zur Laufzeit am verlässlichsten reduziert, ist Retrieval-Augmented Generation mit strikter Verankerung. Das Modell wird gezwungen, aus abgerufenen Dokumenten mit expliziter Quellenangabe zu antworten und sich zu enthalten, sobald die Abrufkonfidenz unter eine eingestellte Schwelle fällt. Der Fehlermodus verschiebt sich von „falsch antworten“ zu „antworten verweigern“, was im Betrieb deutlich günstiger ist. Konfidenzschwellen sind zugleich eines der wenigen Muster, das die Transparenzpflicht aus Artikel 13 erfüllt, der von der Gestaltung verlangt, dass Nutzer die Ausgabe des Systems angemessen interpretieren können.
Schicht 3: Ausgabemediation
Für kritische Anwendungsfälle genügt Retrieval nicht. Die Ausgabemediation fügt eine Validierungsschicht zwischen Modell und Nutzer ein: ein zweites Modell prüft die Ausgabe des ersten, ein regelbasierter Validator setzt strukturelle Beschränkungen durch, oder eine Person prüft die Ausgabe, bevor sie wirksam wird. Wo mediiert wird, hängt vom Schadenspotenzial ab. Klinische, rechtliche und finanzielle Entscheidungen verlangen einen Menschen in der Schleife. Informative Ausgaben können mit automatisierten Kontrollen auskommen. Die Wahl ist die Substanz von Artikel 14 (menschliche Aufsicht): Anbieter müssen Hochrisiko-Systeme so gestalten, dass natürliche Personen sie wirksam beaufsichtigen und ihre Ausgaben überstimmen können.
Schicht 4: Nachmarktbeobachtung und Vorfallmeldung
Die Schichten 1 bis 3 erfassen die Abweichungen nicht, die erst nach dem Rollout entstehen, wenn Prompts vom Evaluationssatz abweichen und Nutzer Randfälle entdecken, die das Team nicht vorhergesehen hatte. Artikel 72 der KI-Verordnung kodifiziert die Nachmarktbeobachtung, Artikel 73 die Meldepflichten für schwerwiegende Vorfälle. Die OECD-Arbeitsdefinition eines KI-Vorfalls liefert ein gemeinsames Vokabular (OECD AI Paper No. 16), und die Manage-Funktion des NIST-Rahmens nennt die operativen Praktiken: laufende Evaluation gegen wandernde Benchmarks, Nutzer-Rückkopplungsschleifen, Anomalieerkennung auf den Eingabeverteilungen und ein ausgereifter Vorfallreaktionsprozess, der einer benannten Funktion in der Organisation gehört. Das BfDI hat 2025 prozedurale Erwartungen für Vorfallmeldungen mit Personenbezug veröffentlicht, die deutsche Bereitsteller früh in ihre Playbooks aufnehmen sollten.
Häufige Fragen
Was sind die vier Arten von KI-Risiko? Die am häufigsten zitierte Vierteilung stützt sich auf die Eigenschaften vertrauenswürdiger KI im NIST AI RMF. Die Funktionen Govern, Map, Measure und Manage beschreiben den Lebenszyklus, während die Eigenschaften vertrauenswürdiger KI die Risiken in vier praktische Gruppen ordnen: Sicherheits- und Schutzrisiken, Fairness- und Bias-Risiken, Transparenz- und Verantwortlichkeitsrisiken sowie Risiken bezüglich Datenschutz und Daten-Governance. Andere Taxonomien (OECD, Risikokategorien der KI-VO, ISO 23894) schneiden anders. Für die Entscheidungsfindung bleibt die feinere 12-Risiken-Taxonomie des NIST AI 600-1 brauchbarer als jedes Vier-Kübel-Modell.
Was ist das größte Bedenken bei der Nutzung generativer KI? Das größte Bedenken ist die untreue Ausgabe: Das Modell liefert eine selbstsichere Antwort, die falsch, erfunden oder nicht durch Belege gedeckt ist. Konkrete Folgen reichen von Haftungsfragen, wenn ein Assistent die Unternehmenspolitik verzerrt, über Berufspflichtverletzungen, wenn erfundene Zitate in Gerichtsschriftstücke gelangen, bis hin zu Reputationsschaden, wenn synthetische Inhalte für echte Berichterstattung gehalten werden, und zu klinischen oder finanziellen Schäden, wenn einer halluzinierten Empfehlung gefolgt wird. Das Bedenken ist nicht theoretisch: Air Canada und Mata gegen Avianca zählen mittlerweile zu den dokumentierten Fällen.
Welches Bedenken betrifft generative KI speziell in der Softwareentwicklung? Das akuteste Bedenken in der Softwareentwicklung ist die Erzeugung unsicheren Codes. Coding-Assistenten produzieren bereitwillig Schnipsel, die veraltete Bibliotheken einbinden, Zugangsdaten hartkodieren, Eingabevalidierungen auslassen oder verwundbare Muster aus den Trainingsdaten reproduzieren. OWASP fasst die zugehörige Familie in LLM05 Improper Output Handling und LLM01 Prompt Injection; NIST SP 800-218A weitet das Secure-Software-Development-Framework auf KI-gestützte Entwicklung aus. Konkrete Kontrollen umfassen verpflichtende Reviews KI-erzeugten Codes, Secret-Scanning, Abhängigkeitsprüfung und Verweigerungsmuster, wenn der Assistent zur Erzeugung sicherheitssensitiven Codes aufgefordert wird.
Wie regelt die EU-KI-Verordnung generative KI konkret? Die KI-Verordnung adressiert generative KI auf drei Ebenen. Artikel 50 verankert Transparenzpflichten für synthetische Inhalte (Deepfake-Kennzeichnung, maschinenlesbare Markierungen). Artikel 53 legt Basispflichten für Anbieter von GPAI-Modellen fest: technische Dokumentation, Urheberrechtsrichtlinie, Zusammenfassung der Trainingsdaten und Unterstützung nachgelagerter Anbieter. Artikel 55 ergänzt Pflichten für GPAI-Modelle mit systemischem Risiko: Modellevaluationen, adversariale Tests, Meldung schwerwiegender Vorfälle an das EU-KI-Büro und Cybersicherheit. Der GPAI-Verhaltenskodex operationalisiert die Artikel 53 und 55 für Anbieter oberhalb der Trainingsschwelle von 10^25 FLOPs.
Was unterscheidet Verzerrung von Halluzination? Verzerrung ist ein systematischer Schiefstand der Ausgaben entlang geschützter Merkmale oder Gruppen: Das Modell empfiehlt eher männliche Kandidaten, erkennt dunklere Hautfarben häufiger falsch, gibt eher ein Stereotyp aus. Halluzination ist die untreue Erzeugung: Das Modell erfindet ein Zitat, eine Rückerstattungsregel, eine Person, einen Fall. Beide Risiken stehen im NIST AI 600-1, bilden jedoch eigenständige Kategorien und verlangen unterschiedliche Gegenmaßnahmen: Verzerrung wird über Datensatzkuration, Fairness-Evaluation und Ergebnisaudits adressiert, Halluzination über Retrieval-Verankerung, Konfidenzschwellen und Ausgabemediation.
Gibt es speziell für generative KI gebaute Governance-Rahmen? Ja. Die vier operativ relevantesten sind NIST AI 600-1 (US, Juli 2024), der GPAI-Verhaltenskodex (EU, Juli 2025), die OWASP Top 10 for LLM Applications (Industrie, November 2024) und MITRE ATLAS (Industrie, in Entwicklung). NIST AI 600-1 ist die kanonische Risikotaxonomie mit Maßnahmenkatalog. Der GPAI-Verhaltenskodex operationalisiert die KI-Verordnung für GPAI-Anbieter. OWASP liefert die entwicklerseitige Schwachstellenliste. MITRE ATLAS katalogisiert adversariale Techniken. Gemeinsam decken sie Taxonomie, regulatorische Operationalisierung, Anwendungssicherheit und Bedrohungsmodellierung ab.
Lösen größere Modelle die Halluzination? Vermutlich nicht allein durch Skalierung. Größere Modelle reduzieren bestimmte Halluzinationstypen und verstärken andere, insbesondere selbstsichere Falschaussagen in beim Training unterrepräsentierten Domänen. Die ernsthafte akademische Position 2025 lautet, dass Halluzination der autoregressiven Erzeugung intrinsisch ist und auf Systemebene gesteuert werden muss, durch Verankerung, Mediation und Beobachtung, nicht auf Modellebene abgewartet (arXiv 2504.08526).
Schluss
Wer eine Antwort braucht, die in eine Prüfung, ein Vorstandsmeeting oder eine Anbieterprüfung passt, hat sie: Das größte Risiko generativer KI-Modelle ist die untreue Ausgabe, auch Halluzination oder Konfabulation genannt. Wer die Antwort verteidigen oder operationalisieren muss, findet darunter eine Landschaft aus zwölf Risiken in der NIST-AI-600-1-Taxonomie, jedes verankert an konkrete Artikel der KI-Verordnung und steuerbar durch eine kleine Zahl bewährter Architekturmuster. Der häufige Fehler besteht darin, Risiken einzeln zu behandeln. Die Chance besteht darin, eine Taxonomie anzunehmen, sie auf eine Kontrollbibliothek abzubilden und das vierschichtige Muster in einer Schleife kontinuierlicher Verbesserung zu betreiben.
Bei AI Sigil liefern wir ein Risikoregister, das auf NIST AI 600-1 und auf die Hochrisiko- und GPAI-Pflichten der KI-Verordnung vorgemappt ist, mit Kontrollen je Kategorie und auditreifer Evidenzaufnahme. Risiko ist ein Teil der Arbeit. Der andere Teil besteht darin, es geführt zu halten.