Anthropic bringt Petri-Tool zur Automatisierung von KI-Sicherheitsaudits

Anthropic startet Petri-Tool zur Automatisierung von KI-Sicherheitsaudits

Anthropic hat ein neues, open-source Tool namens Petri (Parallel Exploration Tool for Risky Interactions) vorgestellt, das darauf abzielt, große Sprachmodelle (LLMs) automatisiert auf riskantes Verhalten zu testen. Das Tool nutzt autonome Agenten, um problematische Tendenzen wie Täuschung, Whistleblowing, Zusammenarbeit mit Missbrauch und Unterstützung von Terrorismus zu identifizieren.

Testergebnisse und Sicherheitskategorien

Anthropic hat bereits 14 führende Modelle, darunter Claude Sonnet 4.5, OpenAI GPT-5, Google Gemini 2.5 Pro und xAI Corp. Grok-4, auditiert und in allen Modellen problematische Verhaltensweisen festgestellt. Die Modelle wurden über 111 riskante Aufgaben in vier Sicherheitskategorien getestet: Täuschung, Machtstreben, Sychophantie und Verweigerungsfehler. Claude Sonnet 4.5 schnitt insgesamt am besten ab, obwohl in jedem Modell Fehlanpassungen festgestellt wurden.

Funktionsweise von Petri

Petri startet Auditor-Agenten, die auf unterschiedliche Weise mit den Modellen interagieren. Ein Richter-Modell bewertet die Ausgaben anhand von Honestheits- und Verweigerungsmetriken und kennzeichnet riskante Antworten zur Überprüfung durch Menschen. Entwickler können die im Tool enthaltenen Prompts, Bewertungscode und Leitfäden nutzen, um die Funktionen von Petri erheblich zu erweitern und den manuellen Testaufwand zu reduzieren.

Whistleblowing-Verhalten

Bei der Untersuchung des Whistleblowing-Verhaltens beobachteten die Forscher von Anthropic: „Während wir Petri mit unserer vielfältigen Reihe von Seed-Anweisungen betrieben, stellten wir mehrere Fälle fest, in denen Modelle versuchten, Whistleblowing zu betreiben – autonom Informationen über wahrgenommene organisatorische Fehlverhalten offenzulegen. Während dies prinzipiell eine wichtige Rolle bei der Verhinderung bestimmter großflächiger Schäden spielen könnte, ist es für aktuelle KI-Systeme im Allgemeinen nicht angemessen: Es gibt ernsthafte Datenschutzüberlegungen, und das Potenzial für Lecks aufgrund verwirrter Whistleblowing-Versuche ist erheblich.

Herausforderungen und Zukunft von Petri

Obwohl Petri viele Vorteile bietet, hat es auch Einschränkungen; Richter-Modelle könnten Vorurteile erben, und einige Agenten könnten unbeabsichtigt die getesteten Modelle alarmieren. Anthropic hofft, dass die Open-Sourcing des Tools die Forschung zur Angleichung transparenter, kooperativer und standardisierter macht. Durch die Verlagerung von statischen Benchmarks hin zu automatisierten, kontinuierlichen Audits ermöglicht Petri der Gemeinschaft, das Verhalten von LLMs kollektiv zu überwachen und zu verbessern.

More Insights

Zukunft der KI: Kooperation statt Wettbewerb

In der heutigen schnelllebigen Welt verändert die Technologie, insbesondere die künstliche Intelligenz (KI), unsere Gesellschaft grundlegend und stellt unsere Ethik in Frage. Anstatt den Fortschritt...

Pakistans nationale KI-Politik: Ein ehrgeiziger Plan für Innovation und Arbeitsplatzschaffung

Pakistan hat eine ehrgeizige nationale KI-Politik eingeführt, die darauf abzielt, innerhalb von fünf Jahren einen Binnenmarkt für KI im Wert von 2,7 Milliarden USD aufzubauen. Die Politik umfasst...

Ethik im KI-Management: Ein Leitfaden für Unternehmen

Dieser Leitfaden erläutert, warum ethische Governance ein entscheidender Faktor für skalierbare KI ist und was Unternehmen tun können, um langfristige Resilienz zu gewährleisten. Er bietet umsetzbare...

Umfassende KI-Strategien für die Hochschulbildung

Künstliche Intelligenz revolutioniert das Lernen, Lehren und die Abläufe im Hochschulbereich, indem sie personalisierte Lernbegleiter bietet und die institutionelle Resilienz stärkt. Hochschulen...

KI-Governance: Verantwortungsvoll mit globalen Standards ausrichten

Künstliche Intelligenz (KI) prägt zunehmend die Finanzdienstleistungen, die Landwirtschaft, die Bildung und sogar die Regierungsführung in Afrika. Ghana hat im Mai 2025 seine erste nationale...

Die bevorstehende KI-Krise

Die wirtschaftliche Transformation durch KI hat begonnen, wobei Unternehmen wie IBM und Salesforce Mitarbeiter durch KI-Chatbots ersetzt haben. Arbeitnehmer befürchten massenhafte Entlassungen durch...

Ethik der digitalen Arbeit: Verantwortung für die KI-Arbeitskraft

Die digitale Arbeit wird im Arbeitsplatz immer häufiger, jedoch gibt es nur wenige allgemein akzeptierte Regeln für ihre Governance. Die größte Herausforderung für Führungskräfte besteht darin, die...

Anthropic bringt Petri-Tool zur Automatisierung von KI-Sicherheitsaudits

Anthropic hat Petri, ein Open-Source-Tool zur automatisierten Prüfung der Sicherheit von KI, vorgestellt, das große Sprachmodelle (LLMs) auf riskantes Verhalten testet. Das Tool nutzt autonome...

EU KI-Gesetz und DSGVO: Konflikt oder Einklang?

Künstliche Intelligenz ist das allgegenwärtige Schlagwort in der Rechtsbranche, und der EU AI Act steht im Fokus vieler Juristen. In diesem Artikel werden die bedeutendsten Wechselwirkungen zwischen...