Netomis Lektionen für die Skalierung agentischer Systeme in Unternehmen
Unternehmen erwarten von KI-Agenten, dass sie unordentliche Arbeitsabläufe zuverlässig bewältigen, standardisierte Richtlinien einhalten, unter hoher Belastung operieren und ihre Arbeiten transparent darlegen.
Ein Unternehmen hat Systeme entwickelt, die diesen hohen Anforderungen gerecht werden und Fortune-500-Kunden bedienen. Die Plattform kombiniert GPT‑4.1 für latenzarme, zuverlässige Werkzeugnutzung mit GPT‑5.2 für tiefere, mehrstufige Planung. Beide laufen innerhalb einer regulierten Ausführungsschicht, die darauf ausgelegt ist, modellgesteuerte Aktionen unter realen Produktionsbedingungen vorhersehbar zu halten.
Lehre 1: Für die Komplexität der realen Welt bauen, nicht für idealisierte Abläufe
Eine einzelne Unternehmensanfrage lässt sich selten auf eine einzige API abbilden. Echte Arbeitsabläufe umfassen Buchungssysteme, Loyalitätsdatenbanken, CRM-Systeme, Richtlinienlogik, Zahlungen und Wissensquellen. Die Daten sind oft unvollständig, widersprüchlich oder zeitkritisch. Systeme, die von fragilen Abläufen abhängen, brechen unter dieser Variabilität zusammen.
Die Agentic OS wurde so konzipiert, dass OpenAI-Modelle im Zentrum einer regierten Orchestrierungspipeline sitzen, die für dieses Maß an Mehrdeutigkeit ausgelegt ist. Die Plattform nutzt GPT‑4.1 für schnelles, zuverlässiges Denken und Werkzeuganruf—kritisch für Echtzeitarbeitsabläufe—und GPT‑5.2, wenn mehrstufige Planung oder tiefere Argumentation erforderlich ist.
Um ein konsistentes Verhalten der Agenten über lange, komplexe Aufgaben hinweg zu gewährleisten, folgt das Unternehmen den von OpenAI empfohlenen agentischen Aufforderungsmustern:
- Persistenz-Erinnerungen, um GPT‑5.2 zu helfen, Argumente über lange, mehrstufige Arbeitsabläufe hinweg zu tragen.
- Explizite Werkzeugnutzungs-Erwartungen, um halluzinierte Antworten zu unterdrücken, indem GPT‑4.1 angewiesen wird, Werkzeuge für autoritative Informationen während transaktionaler Operationen zu verwenden.
- Strukturierte Planung, die die tiefere Argumentation von GPT‑5.2 nutzt, um mehrstufige Aufgaben zu skizzieren und auszuführen.
- Agenten-gesteuerte Entscheidungen über reichhaltige Medien, die sich darauf verlassen, dass GPT‑5.2 erkennt und signalisiert, wenn ein Werkzeugaufruf Bilder, Videos, Formulare oder andere reichhaltige, multimodale Elemente zurückgeben sollte.
Diese Muster helfen dem Modell, unstrukturierte Anfragen zuverlässig in mehrstufige Arbeitsabläufe zu überführen und den Status über unterbrochene Interaktionen hinweg aufrechtzuerhalten.
Lehre 2: Alles parallelisieren, um die Latenzanforderungen der Unternehmen zu erfüllen
In Hochdrucksituationen—wie der Umbuchung während eines Sturms, der Lösung eines Abrechnungsproblems oder dem Umgang mit plötzlichen Nachfragespitzen—werden Benutzer jedes System aufgeben, das zögert. Latenz definiert Vertrauen.
Die meisten KI-Systeme scheitern, weil sie Aufgaben sequenziell ausführen: klassifizieren → abrufen → validieren → Werkzeuge anrufen → Ausgabe generieren. Stattdessen wurde für die Parallelität entworfen, um die Vorteile des latenzarmen Streamings und der stabilen Werkzeuganrufverhalten von GPT‑4.1 zu nutzen.
GPT‑4.1 bietet schnelle Reaktionszeiten und vorhersehbares Werkzeuganrufen, was diese Architektur in großem Maßstab praktikabel macht; während GPT‑5.2 tiefere mehrstufige Argumentationspfade bereitstellt. Das Parallelitätsmodell des Unternehmens stellt sicher, dass das gesamte System, nicht nur das Modell, unter kritischen Latenzgrenzen bleibt.
Lehre 3: Governance als intrinsischer Teil der Laufzeit gestalten
Unternehmens-KI muss von Natur aus vertrauenswürdig sein, wobei die Governance direkt in die Laufzeit integriert ist—nicht als externe Schicht hinzugefügt.
Wenn das Vertrauen in die Absicht unter einen bestimmten Schwellenwert fällt oder wenn eine Anfrage mit hoher Sicherheit nicht klassifiziert werden kann, treten die Governance-Mechanismen in Kraft, um zu bestimmen, wie mit der Anfrage verfahren wird, wodurch sichergestellt wird, dass das System von freier Generierung zu kontrollierten Ausführungspfaden zurückkehrt.
Auf technischer Ebene behandelt die Governance-Schicht:
- Schema-Validierung, die jeden Werkzeugaufruf gegen erwartete Argumente und OpenAPI-Verträge vor der Ausführung validiert.
- Richtliniendurchsetzung, die Themenfilter, Markenbeschränkungen und Compliance-Prüfungen während des Denkens und der Werkzeugnutzung inline anwendet.
- PII-Schutz, um sensible Daten als Teil der Vorverarbeitung und der Antwortbearbeitung zu erkennen und zu maskieren.
- Deterministische Rückfallmechanismen, die bei unklaren Absichten, Daten oder Werkzeuganrufen zu bekannten sicheren Verhaltensweisen zurückkehren.
- Laufzeit-Beobachtbarkeit, die Token-Traces, Argumentationsschritte und Werkzeugkettenprotokolle für die Echtzeitanalyse und das Debugging offenlegt.
Fazit
Die Erfahrungen des Unternehmens zeigen, was nötig ist, um das Vertrauen von Unternehmen zu gewinnen: Für Komplexität bauen, parallelisieren, um Latenzanforderungen zu erfüllen, und Governance in jeden Arbeitsablauf integrieren. Modelle von OpenAI bilden das Rückgrat der Argumentation, während die Ingenieurskunst des Unternehmens sicherstellt, dass Intelligenz betrieblich sicher, prüfbar und bereit für anspruchsvolle Unternehmensumgebungen ist.