Anthropics Claude AI erhält eine neue Verfassung zur Einbettung von Sicherheit und Ethik
Anthropic hat die „Claude-Verfassung“ vollständig überarbeitet, ein Dokument, das die ethischen Parameter für das Denken und Verhalten seines KI-Modells festlegt.
Die neuen Prinzipien, die auf dem Weltwirtschaftsforum in Davos vorgestellt wurden, besagen, dass Claude „im Großen und Ganzen sicher“ sein soll (ohne menschliche Aufsicht zu untergraben), „im Großen und Ganzen ethisch“ (ehrlich, unangemessene, gefährliche oder schädliche Handlungen vermeidend), „wirklich hilfreich“ (den Nutzern zugutekommend) und „konform mit den Leitlinien“ des Unternehmens sein soll.
Laut Anthropic wird die Verfassung bereits im Training des Claude-Modells verwendet und ist grundlegend für dessen Denkprozess.
Die erste Verfassung von Claude erschien im Mai 2023 und umfasste bescheidene 2.700 Wörter, die stark und offen von der Allgemeinen Erklärung der Menschenrechte der Vereinten Nationen und den Nutzungsbedingungen eines Technologieunternehmens entlehnt waren.
Obwohl die neue Verfassung aus dem Jahr 2026 nicht vollständig auf diese Quellen verzichtet, bewegt sie sich weg von einem Fokus auf „einzelne Prinzipien“ hin zu einem philosophischeren Ansatz, der darauf abzielt, nicht nur zu verstehen, was wichtig ist, sondern auch warum.
„Wir sind zu der Überzeugung gelangt, dass ein anderer Ansatz notwendig ist. Wenn wir möchten, dass Modelle in der Lage sind, in einer Vielzahl neuer Situationen gutes Urteilsvermögen zu zeigen, müssen sie in der Lage sein, zu verallgemeinern — breite Prinzipien anzuwenden, anstatt mechanisch spezifische Regeln zu befolgen“, erklärte das Unternehmen.
Die Verfassung wird Claude helfen, nicht nur eine begrenzte Checkliste genehmigter Möglichkeiten zu befolgen, sondern sich auf tiefere Überlegungen zu stützen. So wird Claude beispielsweise nicht nur Daten privat halten, weil dies mit einer Regel übereinstimmt, sondern verstehen, in welchem ethischen Rahmen Privatsphäre wichtig ist.
Die Auswirkungen dieser zusätzlichen Komplexität zeigen sich in der Länge, da die neue Version auf dramatische 84 Seiten und 23.000 Wörter anwächst.