Der Künstliche Intelligenz Benchmark: Die wichtigste Klausel, die Sie noch nie verwendet haben (Teil 1)
Es ist Ihnen vielleicht aufgefallen, insbesondere wenn Sie in diesem Jahr den Super Bowl verfolgt haben, dass KI überall ist.
KI ist mittlerweile in nahezu allem verankert, was wir nutzen. Von Chatbots im Kundenservice und Dokumentenentwurfswerkzeugen bis hin zu Cybersecurity-Plattformen, Analyse-Engines und autonomen „agentischen“ Workflows, die in vernetzten Systemen Aktionen ausführen können, ist es praktisch unmöglich, ihr zu entkommen.
Trotz ihrer Allgegenwart behandeln viele KI-Verträge die Leistung als Marketingfloskel, mit Begriffen wie „state-of-the-art“, „führend in der Branche“ und „menschlich“ zur Beschreibung von Werkzeugen, nicht von messbaren Leistungsversprechen.
Diese Lücke zwischen „Versprechen“ und „Pseudowissenschaft“ ist bedeutend.
Wenn Sie nicht angeben können, wie KI vor der Bereitstellung, nach Updates und wenn sich Bedingungen ändern, getestet wird, kaufen Sie Pseudowissenschaft. Wenn das teure Werkzeug, das Sie gekauft haben, nicht funktioniert, ist es wertlos. Die Aufnahme von Benchmark-Testanforderungen in Verträge ist eine äußerst effektive Methode, um sicherzustellen, dass KI-Versprechen in durchsetzbare Ergebnisse umgesetzt werden.
A. Warum Benchmark-Tests in jeden KI-Vertrag gehören
Jeder Vertrag, der auf einem ungenauen Verständnis dessen basiert, was geliefert wird und wie sich das Produkt im Laufe der Zeit ändern kann, ist im Grunde genommen ein schlechter Deal. Sie können keinen Preis für einen Service, eine Software oder eine Plattform festlegen, wenn der Wert, den Sie erhalten, unbekannt ist.
Die Leistung von KI in einer Demo ist kein Maßstab
Die Leistung von KI hängt vom Kontext ab. Demonstrationen laufen normalerweise auf engen Datensätzen, um vorhersehbare Ergebnisse zu gewährleisten – es sei denn, sie laufen auf einem vollständig vorgefertigten Skript. Nur wenige verwenden „realistische“ Daten, geschweige denn die einzigartigen Datensammlungen.
Ein Modell, das in einer Demoversion genau zu sein scheint, kann auf Ihrer Hardware mit Ihren Daten, Terminologien und Arbeitsabläufen ganz andere Ergebnisse liefern. Oft erfolgt der erste echte Test eines Werkzeugs nach der Bereitstellung, wenn Geschäftsprozesse davon abhängen. Benchmarking kehrt dies um, indem es verlangt, dass die KI Leistungsgrenzen in Ihren Systemen und Daten erfüllt.
KI-Modelle verändern sich ständig
Benchmarking ist auch wichtig, weil sich KI-Systeme im Laufe der Zeit ändern, manchmal auf schwer erkennbare und außerhalb Ihrer Kontrolle liegende Weise. Anbieter aktualisieren regelmäßig Modelle, wechseln zwischen verschiedenen Grundmodellen, ändern Abruflogik, optimieren Eingabeaufforderungen oder konfigurieren das System neu, um die Qualität zu „verbessern“.
In der Zwischenzeit entwickelt sich Ihre Umgebung ständig weiter. Richtlinien werden aktualisiert, Wissensdatenbanken erweitern sich, Produktlinien ändern sich und das Verhalten der Kunden verändert sich – alles trägt zu möglichem Leistungsdrift bei. Ohne einen vertraglichen Testrahmen liegt die Verantwortung für die Erkennung von Modell- oder Anwendungsdrift ganz bei Ihnen.
Inkonstanz beeinflusst den Wert
Traditionelle Softwareverträge verlassen sich stark auf Funktionslisten und Verfügbarkeitsmetriken, um das Wertversprechen zu definieren, das wiederum den Preis beeinflusst. KI führt eine andere Art von Fehler in diese Analyse ein: Ein System kann „aktiv“ sein und gleichzeitig unzuverlässige Ausgaben oder unsichere Aktionen produzieren.
Wenn der Vertrag die Akzeptanz, laufende Leistungsanforderungen und Abhilfemaßnahmen nicht an messbare Ergebnisse bindet, sind Sie gezwungen, eigene Workarounds zu schaffen, wie z. B. die Anpassung der Ausgaben, um entdeckte Vorurteile zu berücksichtigen. Diese sind inkonsistent und müssen allen beigebracht werden, was noch größere Probleme verursachen kann, wenn der Anbieter das Vorurteil ohne Ihr Wissen korrigiert.
Agentische KI erhöht die Einsätze
Während generative KI überprüfbare Ausgaben bietet, ermöglicht agentische KI einzelnen Agenten, mehrere Aufgaben zu erfüllen, um ein Ziel zu erreichen. Sie kann Workflows auslösen, Tickets erstellen, Datensätze aktualisieren, E-Mails senden, Meetings planen, Code ausführen und ändern sowie mit anderen Werkzeugen und KI-Agenten interagieren.
Das Risiko verschiebt sich von KI, die Ihnen eine falsche Antwort gibt, zu KI, die eine falsche Handlung ausführt.
B. Benchmarking ist für alle KI-Tools und -Systeme wichtig
Es wäre verständlich, zu denken, dass nur die „anspruchsvollen“ KI-Plattformen Benchmarking benötigen. Schließlich ist es menschlich, mehr in die Qualitätssicherung von etwas zu investieren, das Sie mehr kostet. Diese Annahme wird zunehmend riskant.
„Grundlegende“ oder grundlegende generative KI
Sogar grundlegende generative KI-Tools für das Entwerfen, Zusammenfassen und Chatten können in sensiblen Kontexten ernsthafte Probleme verursachen. Sie können Verpflichtungen falsch darstellen, Fakten halluzinieren oder Qualifikatoren bei der Erstellung von Kundenkommunikationen, der Zusammenfassung von Richtlinien oder der Bereitstellung von HR-Richtlinien weglassen, was das Risiko von Compliance und Ruf erhöht.
Benchmark-Tests für diese Werkzeuge konzentrieren sich auf die Zuverlässigkeit in den Bereichen der Organisation, die Rate und Schwere von Halluzinationen, die Konsistenz mit Anweisungen und Einschränkungen sowie darauf, wie gut das System Anfragen verarbeitet, die eine Ablehnung oder Eskalation an einen Menschen auslösen sollten.
Rückrufbasierte oder Wissensassistenten-KI
Wenn ein System Abruf umfasst, ist Benchmarking entscheidend, da die Zuverlässigkeit des Werkzeugs von seiner Verankerung und seinen Zitaten abhängt. Verträge sollten Tests erfordern, um zu bestätigen, dass die KI an genehmigte Quellen gebunden bleibt, Antworten ordnungsgemäß zitiert und vermeidet, falsche oder veraltete Materialien zu zitieren.
Prädiktive oder Bewertungs-KI
KI-Tools, die Ergebnisse vorhersagen oder Rankings erstellen, bergen einzigartige Risiken. Bei der Betrugserkennung und Risikobewertung resultieren Schäden aus falschen Positiven/Negativen, falsch kalibrierten Scores oder Vorurteilen. Schlimmer noch, diese Schäden werden in der Regel erst erkannt, wenn ein negatives Ergebnis angefochten wird.
Benchmark-Tests zielen darauf ab, messbare Modellleistungen innerhalb der Organisation zu überprüfen, sicherzustellen, dass die Bewertung mit den Geschäftstoleranzen übereinstimmt und dass Überwachungsmechanismen zur Erkennung von Drift eingerichtet sind.
Agentische KI
Mit großer Macht kommt eine erheblich größere Fähigkeit, katastrophale Schäden zu verursachen. In agentischen Umgebungen sollte Benchmarking die Ausgabequalität und den sicheren Werkzeuggebrauch abdecken, einschließlich der korrekten Werkzeugverwendung, Berechtigungen, Vermeidung irreversibler Aktionen ohne Bestätigung und die Aufrechterhaltung von Auditprotokollen.
III. Was schiefgehen kann, wenn Benchmarking übersprungen oder minimiert wird
In den meisten Fällen äußert sich dieses Versagen in Frustration über die Funktionalität eines KI-Werkzeugs und erheblichem Bedauern über verschwendete Investitionen. Aber was ist, wenn es schlimmer ist?
Betriebliche Mängel und Kundenschäden
Das Versäumnis, KI vor der Bereitstellung zu benchmarken, führt häufig zu betrieblichen Schäden und vertraglichen Problemen. Organisationen stellen fest, dass das Werkzeug in verschiedenen Abteilungen inkonsistent funktioniert, in kritischen Grenzfällen versagt oder Fehler produziert, die menschliche Korrekturen erfordern. Schlechte Ausgaben führen zu falschen Entscheidungen. Fehler in agentischer KI können falsche Aktionen ausführen. Kleine Fehler potenzieren sich und verursachen erhebliche Probleme in Bereichen wie Kundenservice, Abrechnung, Personalwesen und Sicherheit.
Rechtliche und regulatorische Risiken
KI-Ausgaben, die in Kundenkommunikationen, Datenschutzverfahren, Cybersecurity-Reaktionen, Beschäftigungsleitlinien oder anderen sensiblen Bereichen verwendet werden, können zu unzuverlässiger Leistung führen und möglicherweise gegen Verbraucherschutzgesetze, Vorschriften zu unfairen und täuschenden Praktiken, Antidiskriminierungsgesetze und vertragliche Verpflichtungen gegenüber Partnern, Anbietern und Kunden sowie sektorspezifische Anforderungen verstoßen. Oft liegt das zugrunde liegende Problem nicht in der Existenz von KI selbst, sondern in ihrer Implementierung ohne geeignete Kontrollen, die mit ihrem Risikoprofil in Einklang stehen.
Wenn die Bedrohung, von zahlreichen Bundes- und Landesbehörden untersucht zu werden und von Ihren Lieferanten, Anbietern, Kunden, Partnern, Mitarbeitern und Aktionären verklagt zu werden, nicht schlimm genug ist, wie wäre es dann, all Ihre schmutzige Wäsche zu lüften?
Lecks von geschützten und vertraulichen Daten
Stellen Sie sich all die Möglichkeiten vor, wie ein Mensch versehentlich die vertraulichen Informationen Ihres Unternehmens offenlegen kann. Nun stellen Sie sich vor, dass derselbe Mensch dies tausendmal häufiger tut, ohne Schlaf oder Pausen, und dass Sie ihn nicht tadeln oder entlassen können. KI kann vertrauliche Daten durch Eingabeaufforderungen und hochgeladene Dokumente, falsch konfigurierte Zugriffskontrollen oder böswillige Eingabeaufforderteinjektionen, die Befehle zum Exfiltrieren Ihrer Informationen einfügen, undatieren.
Sonstige potenzielle Probleme
Es gibt auch weniger offensichtliche, aber bedeutende nachgelagerte Risiken. Generative Systeme können ungenaue, irreführende oder richtlinienverletzende Inhalte erzeugen. Ihre Ausgaben können nicht originell oder zu ähnlich zu geschütztem Material sein, was zu einem „Autoritätsvorurteil“ führt, bei dem Benutzer auf vertrauenswürdige Antworten vertrauen. Sie können Attributions- oder Validierungsprobleme erzeugen, die die Integrität und Verantwortlichkeit von Aufzeichnungen in Frage stellen. Ohne formelle Leistungserwartungen könnten Organisationen mit einem Werkzeug dastehen, das ihre Bedürfnisse nicht erfüllen kann und keine vertraglichen Optionen zur Verbesserung oder zum Ausstieg hat.
(Teil 2 wird einen praktischen Ansatz für Benchmark-Tests in KI-Verträgen erörtern.)