Forbes Digital News

Claude unter Druck

22. April 2026

Anthropics aktuelle Claude-Modelle stehen in der Kritik: Cybersicherheitsexperten zufolge erzeugen sie vermehrt fehlerhaften und angreifbaren Code. Besonders Opus soll seit dem Start deutlich an Qualität verloren haben.

Anthropics KI-Modelle für die Softwareentwicklung geraten unter Druck. Nach Einschätzung mehrerer Cybersicherheitsexperten produziert Claude zunehmend Code mit Schwachstellen – und damit genau jenes Risiko, das Unternehmen durch den Einsatz solcher Systeme eigentlich reduzieren wollen.

Bei der US-Cybersicherheitsfirma TrustedSec wurde Claude Opus im März noch regelmässig eingesetzt, um die App-Entwicklung zu beschleunigen und Angriffe zur Prüfung von Kundensystemen zu simulieren. Inzwischen nutzt das Unternehmen das Modell dafür nicht mehr. TrustedSec-CEO Dave Kennedy, früher NSA-Analyst, sagt, die Leistung habe in den Wochen nach der Veröffentlichung von Opus 4.6 Anfang Februar so stark nachgelassen, dass das Modell „ernste Mängel und Sicherheitsprobleme“ in den Code einführe.

Kennedy zufolge ist die Codequalität heute um 47,3 % schlechter als zum Start. Grundlage dafür sei ein eigenes Testwerkzeug, das Codequalität, Bugs, Sicherheitslücken und die Fähigkeit misst, Programmieraufgaben vollständig und fehlerfrei abzuschliessen. Das grösste Risiko sieht er bei weniger erfahrenen Entwicklern, die solche Schwächen womöglich nicht erkennen und unsicheren Code direkt übernehmen. Opus 4.7, das neueste Modell, sei zwar leicht besser, erreiche aber weiterhin nicht das Niveau von Opus 4.6 zum Zeitpunkt seiner Einführung.

Mit dieser Kritik steht TrustedSec nicht allein. In den vergangenen Wochen meldeten sich auf Reddit und X zahlreiche Nutzer, die ähnliche Verschlechterungen schilderten. Betroffen sind dabei nicht nur klassische Entwickler. Eine KI-Managerin beim Chipkonzern AMD schrieb auf Github, das Denkvermögen von Claude sei so oberflächlich geworden, dass das System für komplexe Engineering-Aufgaben nicht mehr verlässlich eingesetzt werden könne.

Auch Veracode kommt zu kritischen Ergebnissen. Das Unternehmen testet KI-Systeme seit einem Jahr anhand von 80 Programmieraufgaben. In 52 % der Fälle enthielt der von Opus 4.7 erzeugte Code eine Schwachstelle. Bei Opus 4.1 lag dieser Wert bei 51 %, bei Claude Sonnet 4.5 bei 50 %. OpenAI-Modelle schnitten mit rund 30 % deutlich besser ab.

Für Jens Wessling, Chief Innovation Officer bei Veracode, stützen die Daten den Eindruck einer Qualitätsverschlechterung. Seine Einschätzung: Die Modelle werden vor allem darauf trainiert, funktionierenden Code zu liefern – nicht darauf, Sicherheitsmechanismen konsequent umzusetzen. Das führe dazu, dass schnellere und leistungsfähigere Systeme in der Praxis mehr fehlerhafte oder angreifbare Software erzeugen können.

Anthropic erklärte, die Vorwürfe rund um eine mögliche Verschlechterung von Opus aktiv zu untersuchen. Zugleich betonte das Unternehmen, dass Entwickler KI-generierten Code grundsätzlich auf Sicherheitslücken prüfen sollten. Zuvor hatte Boris Cherny, Leiter von Claude Code, auf X geschrieben, Anthropic habe den Denkaufwand des Modells beim Bearbeiten von Code von „high“ auf „medium“ reduziert – als Reaktion auf Beschwerden über den Token-Verbrauch.

Brisant ist der Zeitpunkt auch deshalb, weil Anthropic erst in diesem Monat mit Mythos ein neues Modell vorgestellt hat, das Sicherheitslücken in gängigen Browsern und Betriebssystemen autonom und in grossem Massstab erkennen können soll. Der Einsatz wurde auf 40 grosse Organisationen wie Apple und Google begrenzt, damit solche Fähigkeiten zunächst zur Absicherung weit verbreiteter Produkte genutzt werden können.

Kennedy sieht darin ein grundsätzliches Warnsignal für die Branche. Er hinterfragt inzwischen, wie stark sich Unternehmen auf Modelle grosser KI-Anbieter verlassen sollten, und baut nun eine eigene On-Premise-KI-Infrastruktur auf, um individuell kontrollierbare Systeme zu betreiben. Seine zentrale Frage: Wem lässt sich hier noch vertrauen?

Text: Thomas Brewster
Foto: Ilya Pavlov

Forbes US Redaktion