Wie man Datenhoheit für die KI-Compliance navigiert
Globale Unternehmen haben ein Jahrzehnt damit verbracht, ihre Architekturen in die Cloud zu migrieren, um Agilität und Skalierbarkeit zu erreichen. Jetzt bauen viele absichtlich Einschränkungen in diese Architektur ein, um den Anforderungen der Datenhoheit gerecht zu werden. Aber was ist Datenhoheit? Und warum ist sie für die KI-Compliance so entscheidend?
Datenresidenz und Datenhoheit
Datenresidenz war einst ein einfaches Thema für die IT, hauptsächlich um die Einhaltung von Datenschutzvorschriften wie der Datenschutz-Grundverordnung der Europäischen Union (DSGVO) zu gewährleisten, die in bestimmten Jurisdiktionen gilt. Datenresidenz bezieht sich auf den physischen Standort, an dem Daten gespeichert sind.
Datenhoheit geht jedoch über die Identifizierung des Standorts hinaus. Sie betrifft auch, wer die rechtliche Autorität und praktische Kontrolle über die Daten hat, unabhängig davon, wo sie gespeichert sind. Während die Datenresidenz sich fragt: „Wo sind die Server?“, fragt die Datenhoheit: „Wessen Gesetze gelten für diese Daten?“ und „Wer hält die Schlüssel?“
Datenhoheit für KI
Datenhoheit für KI bringt ihre eigenen Komplexitäten mit sich. KI speichert Daten nicht nur wie eine Datenbank oder analysiert sie wie ein Business-Intelligence-System. KI konsumiert Daten für das Training und handelt basierend auf diesen Daten. Daher muss die Datenhoheit für KI auch den Standort des Modells während des Trainings, den Ort der Inferenz und die Kontrolle über die Verschlüsselungsschlüssel während des gesamten Prozesses abdecken.
Die Datenhoheit für KI hat sich zu einer Priorität in den Vorstandsetagen entwickelt und beeinflusst nicht nur die Speicherung, sondern auch, welche KI-Fähigkeiten ein Unternehmen in welchen Märkten einsetzen kann.
Treiber der Datenhoheit für KI
Die Suche nach Datenhoheit könnte seltsam erscheinen, angesichts der Vorteile des Cloud-Computing, doch es gibt gute Gründe dafür. Drei Faktoren erhöhen den Bedarf an Datenhoheit für KI:
- Regulatorischer Druck. Die DSGVO, das California Consumer Privacy Act (CCPA), branchenspezifische Vorschriften wie HIPAA und viele andere Datenschutzvorschriften weltweit gelten zunehmend auch für das Training und die Inferenz von KI-Modellen.
- Geopolitische Fragmentierung. Einige Länder verlangen, dass bestimmte Daten, die für die nationale Sicherheit relevant sind, innerhalb der nationalen Grenzen bleiben. Andere überprüfen Daten- oder Modellübertragungen in bestimmte Länder, abhängig von geopolitischen Risiken oder Datenschutzgesetzen.
- Drittanbieter-Modellanbieter. Technologien wie Business Intelligence oder prädiktive Analytik wurden auf Modellen der Daten eines Unternehmens aufgebaut. Im Gegensatz dazu wird bei KI oft der cloudbasierte KI-Service des Anbieters verwendet, um Modelle zu trainieren, was Besorgnis darüber weckt, dass Muster aus persönlichen oder proprietären Daten in KI-Modellen bestehen bleiben könnten.
Kernkomponenten der Datenhoheit für KI
Um Compliance-Bedenken zu adressieren, muss eine praktikable Strategie für die Datenhoheit für KI fünf Governance-Fähigkeiten unterstützen:
- Datenresidenz und -lokalisierung betreffen den physischen Standort der Daten, ob im Ruhezustand oder während der Übertragung. Compliance erfordert oft, dass bestimmte Daten niemals eine bestimmte Jurisdiktion verlassen.
- Modelltraining und der Standort der Inferenz erweitern das Konzept der Residenz von Daten auf Berechnungen. Daten im Inland zu speichern bietet nur begrenzten Schutz, wenn Trainingsjobs auf Servern außerhalb des Landes ausgeführt werden.
- Datenzugriffssteuerungen spezifizieren, wer Daten abfragen kann, unter welchen Bedingungen und wie der Zugriff und die Nutzung überprüft werden.
- Verschlüsselung und Schlüsselmanagement bestimmen, wer die kryptografischen Schlüssel verwaltet. Architekturen, bei denen man die eigenen Schlüssel hält, geben dem Unternehmen die Kontrolle über seine verschlüsselten Daten, sodass der Cloud-Anbieter sie nicht entschlüsseln kann, selbst wenn ein Gericht oder eine Regierung dies verlangt.
- Auditierbarkeit und Transparenz erfordern eine Dokumentation des Datenursprungs über den gesamten KI-Lebenszyklus. Regulierungsbehörden erwarten zunehmend, dass Organisationen die Einhaltung nachweisen können, nicht nur behaupten.
Der Markt für souveräne Cloud
In Anbetracht der wachsenden Nachfrage nach Datenhoheit für KI wenden sich Unternehmen verschiedenen Ansätzen zu, um Compliance zu gewährleisten. Während es keinen einheitlichen Ansatz gibt, der alle Bedenken abdeckt, lassen sich einige breite Muster erkennen, die Unternehmen bewerten können.
Die meisten Unternehmen sollten hybride Strategien für die Datenhoheit für KI annehmen, die ihre Architektur an das Sensibilitäts- und Regulierungsprofil jeder Arbeitslast anpassen. Der Grundsatz ist einfach: Nicht alle Daten bringen die gleichen Risiken mit sich oder werden mit dem gleichen Maß an Strenge reguliert, sodass sie nicht alle gleich behandelt werden müssen.
Ein Unternehmen könnte einige Daten strikt vor Ort halten – oft personenbezogene Daten oder Daten, die das geistige Eigentum des Unternehmens betreffen. Gleichzeitig könnten weniger sensible Daten, wie Dokumentationen oder öffentlich zugängliche Marketinginhalte, in der Cloud gespeichert werden.
Implikationen des KI-Lebenszyklus
Während Datenhoheit für KI zunehmend unverzichtbar wird, bringt sie auch Herausforderungen im gesamten KI-Lebenszyklus mit sich. Der Umgang mit eingeschränkten Datensätzen während des Trainings kann die Modellentwicklung komplizieren. Wenn Daten eine spezifische Jurisdiktion nicht verlassen dürfen, wie kann ein international tätiges Unternehmen ein Modell trainieren, das sein Geschäft global repräsentiert?
Föderiertes Lernen bietet eine Antwort. Modelle lernen aus dezentralen Quellen, ohne dass die Rohdaten die lokalen Systeme jemals verlassen. Ein lokales System trainiert eine Kopie des Modells mit seinen eigenen Daten und produziert ein aktualisiertes Parameterset. Diese Parameter, nicht die zugrunde liegenden Daten, werden an einen zentralen Koordinierungsserver gesendet, wo ein globales Modell aggregiert wird.