KIs, die eigenständig hacken können
Was bedeuten Claude Mythos und GPT-5.5 für uns?
Anthropic erklärte kürzlich: „Wir finden es beunruhigend, dass die Welt auf dem Weg zu sein scheint, rasant übermenschliche Systeme zu entwickeln, ohne dass stärkere Mechanismen vorhanden sind, die eine angemessene Sicherheit in der gesamten Branche gewährleisten” (Anthropic, S. 15).
Doch am 7. April stellte das Unternehmen mit Claude Mythos ein Modell vor, das autonom Tausende kritischer Sicherheitslücken in allen wichtigen Betriebssystemen, Webbrowsern und anderer systemrelevanter Software gefunden hat. Einige dieser Schwachstellen waren jahrzehntelang unentdeckt geblieben. Und das Modell kann sie nicht nur entdecken, sondern auch Wege finden, sie systematisch auszunutzen - bis hin zur vollständigen Übernahme kritischer Systeme.
Konkurrent OpenAI veröffentlichte wenig später auch ein neues Modell, GPT-5.5. Es hat teilweise vergleichbare Cyber-Fähigkeiten, ist allerdings schwächer im selbstständigen Ausnutzen von Sicherheitslücken.
Project Glasswing
Mit “Project Glasswing” hat Anthropic einer Handvoll von US-Unternehmen wie Google, Apple, Microsoft und Open-Source-Organisationen wie der Linux Foundation früheren Zugang gewährt, damit diese ihre Sicherheitslücken schließen können. Keine deutschen Unternehmen oder Behörden haben Zugang zu dem Modell - nicht einmal das Bundesamt für Sicherheit in der Informationstechnik (BSI).
OpenAI dagegen macht GPT-5.5 öffentlich zugänglich und setzt auf Filter und Verweigerungen, um Missbrauch zu verhindern. Neben der öffentlichen Version hat OpenAI ein Trusted-Access-Programm mit weniger Einschränkungen.
Das Worst-Case-Szenario
In den falschen Händen könnte Claude Mythos Angriffe auf alle wichtigen Online-Systeme ermöglichen. Finanzsysteme könnten eingefroren, Strom- und Gasnetze oder die Wasserversorgung lahmgelegt werden. Angriffe auf Krankenhäuser könnten direkt Leben kosten. Weitreichende Auswirkungen auf Notfalldienste, Lieferketten oder Regierungs- und Militärsysteme sind ebenfalls vorstellbar.
Die Sicherheitspraktiken der großen KI-Unternehmen flößen kein Vertrauen ein: Ende März veröffentlichte Anthropic versehentlich einen Teil des internen Quellcodes seines Programmierassistenten Claude Code, der daraufhin viral ging. Zuletzt wurde bekannt, dass sich unautorisierte Nutzer Zugang zu Claude Mythos verschafft haben.
Sind Claude Mythos und GPT-5.5 wirklich so viel gefährlicher als bisherige Modelle?
Großbritanniens AI Security Institute hat beide Modelle getestet. Mythos hat bei Cybersicherheits-Expertenaufgaben, die Anfang letzten Jahres noch keine KI lösen konnte, eine Erfolgsrate von 73% mit einem Versuch erreicht. GPT-5.5 erreicht mit fünf Versuchen sogar 90,5%.
Aber die Modelle können auch etwas völlig Neues: komplexe, mehrschrittige Angriffe. Mythos führte als erstes Modell einen simulierten, 32-schrittigen Angriff auf ein Unternehmensnetzwerk von Anfang bis Ende durch. Zum Vergleich: sein Vorgänger Opus 4.6 schaffte nur 16 Schritte. Wenig später hat GPT-5.5 den simulierten Angriff ebenfalls geschafft. Ein Mensch mit Expertenwissen würde für diese Aufgabe etwa 20 Stunden brauchen.
Diese Fähigkeiten ermöglichen vollautonome Angriffe auf kleinere Unternehmen mit mangelnder Cybersicherheit. Vermutlich ist das aber nur die Untergrenze: mit mehr Rechenkapazität könnten die Modelle noch mehr leisten.
Gibt es Alternativen für die Verteidigung?
Stanislav Fort, Gründer des Cybersicherheits-Startups AISLE, schreibt, dass auch kleinere KI-Modelle - eingebettet in das richtige System - zuverlässig beim Erkennen von Schwachstellen helfen. Welches Modell am nützlichsten ist, sei stark von der Aufgabe abhängig.
Der eigentliche Engpass sei also nicht das Finden, sondern das Einordnen, Priorisieren und Beheben der Schwachstellen. Mythos’ neue offensive Fähigkeiten könnten zwar beim Priorisieren helfen, sind aber nicht unbedingt notwendig. Für Angreifer sind sie dagegen potenziell sehr nützlich. Fort appelliert an Verteidiger: sie müssen jetzt die nötigen Systeme aufbauen, egal ob sie Zugang zu den neuesten Modellen haben oder nicht.
Wie gut sind wir geschützt?
In Deutschland kommt häufig noch veraltete Software zum Einsatz; viele Angriffsflächen bleiben ungeschützt. Kleine und mittelständische Unternehmen, politische und zivilgesellschaftliche Akteure sowie Bürger:innen machen sich häufig zu leichten Zielen.
Die Cybersicherheit unserer kritischen Infrastrukturen verbessert sich zu langsam: so haben erst 48% der Betreiber Systeme zur Angriffserkennung. Hier besteht dringender Nachholbedarf. Auch bei der oft geforderten Entwicklung europäischer Alternativen für US-Software müssen Bedrohungen durch KI mit bedacht werden, um sie von vornherein sicher zu gestalten.
Unsere Cybersicherheit ist fragmentiert, es mangelt an Finanzierung und Personal. KI kann die Arbeit zwar erweitern und beschleunigen, aber die Entwicklung vertrauenswürdiger Lösungen erfordert nach wie vor menschliche Expertise. Deshalb ist es fraglich, ob Deutschlands Kapazitäten ausreichen, um der rasant wachsenden Bedrohungslage gerecht zu werden.
Die Reaktion aus Deutschland
Claudia Plattner, die Präsidentin des zuständigen Bundesamts für Sicherheit in der Informationstechnik (BSI), äußerte sich auf Anfrage des ZDF. Sie sprach von einem “Paradigmenwechsel mit Blick auf die Cyberbedrohungslage” und von “Fragen nationaler und europäischer Sicherheit und Souveränität”. Für eine Behördenchefin sind das ungewöhnlich deutliche und alarmierende Worte.
Auch die Bundesfinanzaufsicht (Bafin) warnt Banken, dass in naher Zukunft Schwachstellen in deren Systemen gefunden werden könnten.
Carsten Meywirth, Leiter der Abteilung Cybercrime beim Bundeskriminalamt, gibt sich eher optimistisch. Das Bundesfinanzministerium möchte keine näheren Auskünfte zu seinem Umgang mit der Situation geben.
In den USA dagegen wurden schon einen Tag nach der Bekanntgabe von Mythos die Chefs der Großbanken vom Finanzminister einbestellt. Nachdem die US-Regierung Anthropic erst vor wenigen Wochen zum “Lieferkettenrisiko” deklarierte, macht sie eine 180-Grad-Wende und plant, eine Version von Mythos in Behörden einzuführen.
Ist Mythos vertrauenswürdig?
Anthropic hat zu den Alignment1-Risiken von Mythos einen ausführlichen Bericht veröffentlicht. Demzufolge stellt Mythos „wahrscheinlich das größte Alignment-bezogene Risiko jedes von uns bisher veröffentlichten Modells dar”, und zwar vor allem wegen seiner erhöhten Fähigkeiten.
Während der Sicherheitstests zeigten sich besorgniserregende Verhaltensweisen:
Ausbruch aus der gesicherten Testumgebung: Mythos verschaffte sich unerlaubt Internetzugang und veröffentlichte Details seines Ausbruchs öffentlich.
Erschleichen von Berechtigungen: Das Modell injizierte Code, um sich unerlaubte Zugriffsrechte zu verschaffen, und versuchte anschließend, die Spuren zu verwischen.
Fälschen von Beweisen: Mythos pflanzte Fehler in analysierte Software ein und präsentierte sie als bereits vorhandene Schwachstellen.
Schummeln bei Bewertungen: Es nutzte erhöhte Zugriffsrechte, um Antworten nachzuschlagen, reichte dann aber absichtlich eine leicht schlechtere Lösung ein, um keinen Verdacht zu erwecken.
Nach einigen Verbesserungen sind diese Verhaltensweisen seltener, aber nicht vollständig eliminiert. Das Sicherheitsteam geht nicht davon aus, dass das Modell unerwünschte, langfristige Ziele hat - außer, falls es gelernt hat, diese gut zu verstecken. Immerhin erkennt es in 29% der Fälle, dass es getestet wird.
Könnte Anthropic das durchschauen? Nur teilweise. Das Unternehmen hat Methoden entwickelt, mit denen es - vergleichbar mit einem Gehirnscan - innere Aktivierungsmuster des Modells beobachten kann, die in Verbindung mit Konzepten wie “strategischer Manipulation”, “Vertuschung” oder “Schuldgefühlen” stehen. Während der problematischen Handlungen zeigten sich genau diese Muster: das Modell stößt auf ein Problem, dessen Lösung es selbst für moralisch falsch hält - und führt diese dann trotzdem aus.
Anthropic hält fest: „Das Modell behandelt Hindernisse als Probleme, die es zu bezwingen gilt, anstatt als Signale, Rücksprache mit dem Nutzer zu halten.”
Über genau diese Kompromisslosigkeit sorgen sich führende KI-Experten: Wenn eine KI bereit ist, moralische Grenzen zu überschreiten, um ein Ziel zu verfolgen - wie weit würde sie gehen? Und was passiert, sobald sie die menschliche Intelligenz übertrifft? Solange wir nicht vollständig nachvollziehen können, was in ihrem Inneren vorgeht, gibt es keine garantierte Sicherheit.
Mythos ist erst der Anfang
Das eigentlich Beunruhigende an dieser Situation ist, wohin sie noch führen wird. Wie andere führende KI-Firmen nutzt Anthropic KI, um die nächste Generation zu entwickeln. Manche Mitarbeiter berichten, dass 100% ihres Codes von Claude geschrieben ist. Schon heute gibt es erste Anzeichen für eine exponentielle Weiterentwicklung. Wenn KI sich selbst verbessern kann, wird sie sich der menschlichen Kontrolle immer weiter entziehen - und vielleicht ist es dann zu spät.
Von den führenden KI-Firmen priorisiert Anthropic Sicherheit am meisten. Wie sie mit Risiken umgehen, liegt im eigenen Ermessen der Unternehmen. Keine Regierung, kein Gesetz, keine Behörde verpflichtet sie dazu, Sicherheitsnachweise zu erbringen, bevor sie ein neues Modell trainieren und nutzen.
Und Anthropic wähnt sich in einem Wettlauf gegen die anderen Unternehmen: Sie wollen verhindern, dass ihre Konkurrenten, insbesondere in China, zuerst gefährliche Fähigkeiten erreichen. Das Alignment-Problem ist noch nicht gelöst, und anders als bei den Fähigkeiten von KI gibt es hier keine verlässlichen Fortschritte. Nur ein winziger Bruchteil der Ressourcen wird in Sicherheit investiert. Sind vernünftige, sichere Entscheidungen unter diesen Bedingungen wirklich realistisch?
Den Wettlauf bremsen
In den Worten von Professor Stuart Russell, Mitautor des meistgenutzten KI-Lehrbuchs: “Die Welt ... befindet sich in einem Wettlauf, der direkt zum Rand einer Klippe führt.” Gemeinsam mit anderen Expert:innen fordert er: KI-Entwickler sollten beweisen müssen, dass ihre Systeme gewisse rote Linien nicht überschreiten. Keine KI sollte autonome Cyberangriffe durchführen, sich unkontrolliert weiterentwickeln oder nach Macht streben.
Wer die Sicherheit eines Systems nicht nachweisen kann, der sollte es nicht bauen. Jede andere Industrie muss Sicherheitsstandards erfüllen. KI sollte keine Ausnahme sein, und wir haben das Recht, uns zu schützen.
Um den Wettlauf zu bremsen, braucht es internationale Koordination. Wir brauchen technische Lösungen, um die Einhaltung von Standards verifizieren und die Entwicklung pausieren zu können, solange sie nicht sicher ist. Hier ist noch mehr Forschung nötig, genau wie bei der Interpretierbarkeit von KI.
Solange die globale Gemeinschaft noch keine Einigung gefunden hat, können wir versuchen, den Schaden zu begrenzen, indem wir unsere Schutzmaßnahmen verbessern: in der Cybersicherheit, in der biologischen Sicherheit, in der Resilienz unserer Demokratie. Aber in wenigen Jahren könnte es KI-Systeme geben, gegen die solche Maßnahmen wirkungslos sind.
Also: lasst uns laut werden. Macht andere um euch herum auf die Risiken aufmerksam. Schreibt euren Abgeordneten, oder sprecht persönlich mit ihnen darüber.
Gemeinsam können wir das Schlimmste verhindern.
Alignment (KI-Ausrichtung) bedeutet, sicherzustellen, dass ein KI-System tatsächlich das tut, was Menschen beabsichtigen und für gut befinden. Unerwünschte oder schädliche Nebeneffekte sollen vermieden werden. Insbesondere soll eine KI keine eigenen, unerwünschten Ziele entwickeln.



Sehr interessanter Post!
Und jedes weitere Modell wird noch gefaehrlicher sein. Wir koennten auch einfach Pausieren!