OpenAI und der Investor Paradigm starten gemeinsam EVMbench, eine neue Benchmark, die misst, wie gut KI-Agenten Schwachstellen in Smart Contracts erkennen, beheben und sogar ausnutzen können. Das Tool richtet sich speziell an Ökosysteme, die auf der Ethereum Virtual Machine basieren, und erscheint zu einem Zeitpunkt, an dem DeFi erneut mit Millionenverlusten durch Exploits konfrontiert ist.
Ethereum ist erhältlich bei Bitvavo und Bybit.
KI anhand realer Schwachstellen getestet
EVMbench basiert auf 120 sorgfältig ausgewählten Schwachstellen mit hoher Kritikalität aus 40 verschiedenen Audits. Ein Teil davon stammt aus offenen Audit-Wettbewerben, aber auch aus dem Sicherheitsprozess rund um Tempo, eine neue Layer-1-Blockchain, die Paradigm gemeinsam mit Stripe entwickelt.
Die Benchmark testet KI-Agenten in drei Modi: Erkennung von Schwachstellen, Patchen fehlerhafter Codes sowie Durchführung vollständiger Exploit-Angriffe in einer simulierten Blockchain-Umgebung. Dabei läuft alles in einer abgeschotteten Anvil-Testumgebung und nicht auf Live-Netzwerken.
Laut OpenAI erzielt GPT 5.3 Codex im Exploit-Modus eine Trefferquote von 72,2 % – ein deutlicher Sprung gegenüber GPT 5, das 31,9 % erreicht. In den Bereichen Erkennung und Patchen bleibt die Abdeckung jedoch unvollständig, da viele Schwachstellen schwer zu identifizieren und korrekt zu beheben sind. Die vollständige Erklärung findet sich auf der offiziellen Seite von OpenAI: Introducing EVMbench.
Einführung nach jüngsten DeFi-Exploits
Die Einführung folgt kurz nach mehreren Vorfällen in der Branche. Das Lending-Protokoll Moonwell wurde in diesem Monat Opfer eines Exploits, bei dem anfälliger Code – teilweise mithilfe von KI geschrieben – missbraucht wurde. Dabei gingen schätzungsweise 178 Millionen US-Dollar verloren, wie zuvor berichtet wurde, dass KI-geschriebener Code zu einem Exploit bei Moonwell führte. Auch CrossCurve verlor rund 3 Millionen US-Dollar aufgrund eines Fehlers in seinen Smart Contracts.
Laut einem Bericht von The Block arbeiten OpenAI und Paradigm zusammen, um KI gezielt defensiv gegen solche Angriffe einzusetzen. Der Artikel beschreibt, wie die Benchmark dazu beitragen soll, Cyberrisiken rund um Smart Contracts besser zu erfassen. Dies steht im Einklang mit der breiteren Aufmerksamkeit für Krypto-Betrug und Sicherheit innerhalb des Sektors.
Doppelte Nutzung bleibt Risiko
OpenAI erkennt an, dass Cybersicherheit einen doppelten Charakter hat. Ein Modell, das Schwachstellen finden kann, kann diese auch ausnutzen. Daher kombiniert das Unternehmen die Einführung von EVMbench mit zusätzlichen Sicherheitsmaßnahmen, Monitoring und einer Erweiterung des Cybersecurity Grant Program. Zudem stellt OpenAI 10 Millionen US-Dollar an API-Credits bereit, um defensive Anwendungen zu fördern.
Smart Contracts sichern inzwischen mehr als 100 Milliarden US-Dollar an Kryptowerten. Mit dem rasanten Fortschritt von KI-Agenten wächst die Notwendigkeit, deren Fähigkeiten systematisch zu messen. EVMbench soll dabei sowohl als Maßstab als auch als Warnsignal dienen: Wer KI nicht für Sicherheitszwecke einsetzt, läuft Gefahr, dass andere sie für Angriffe nutzen.
