GPT-5.5 vs Claude Opus 4.5: CTF-Wettbewerbe im Benchmark

Capture The Flag (CTF)-Wettbewerbe waren historisch gesehen ein Prüfstein für Sicherheitstalente, aber laut dem ehemaligen Top-Spieler kabir.au ist das offene CTF-Format nun effektiv tot. Der Grund: Spitzen-KI-Modelle, die Herausforderungen schneller als Menschen lösen können, mit minimaler menschlicher Beteiligung.

Was sich geändert hat: Von Unterstützung zu Automatisierung

Als GPT-4 erstmals veröffentlicht wurde, konnte es mittelschwere CTF-Herausforderungen mit einem einzigen Durchlauf lösen – eine Kryptographie-Herausforderung konnte in ChatGPT eingefügt werden und innerhalb von 10 Minuten eine Flagge liefern. Die Auswirkung war begrenzt, da schwere Herausforderungen unberührt blieben. Claude Opus 4.5 verschob das Gleichgewicht: „Nahezu jede mittelschwere Herausforderung und einige schwere Herausforderungen wurden durch Agenten lösbar.“ Mit Claude Code, das das Modell in ein CLI verpackt, wurde es trivial, einen Orchestrator zu bauen, der die CTFd-API nutzt, um eine Claude-Instanz pro Herausforderung zu starten und sie in der ersten Stunde unbeaufsichtigt laufen zu lassen.

GPT-5.5 besiegelt die Sache

Der Autor, der umfangreich mit GPT-5.5 und GPT-5.5 Pro gearbeitet hat, berichtet: „Diese Modelle können mit einem einzigen Durchlauf Insane-schwere aktive leakless Heap-Pwn-Herausforderungen auf HackTheBox lösen.“ Pro „übertrifft wahrscheinlich“ Claude Mythos an Fähigkeiten. Die Implikation: In einem 48-Stunden-CTF kann ein orchestrierter Pro-Agent die Mehrheit der Herausforderungen kleinerer Organisatoren lösen, wodurch offene CTFs zu Pay-to-Win werden – je mehr Tokens man sich leisten kann, desto schneller räumt man das Board ab.

Bestenlisten messen nicht mehr die Fähigkeiten

Die CTFTime-Bestenliste spiegelt nun Orchestrierungsfähigkeit und Budget wider, nicht Sicherheitsexpertise. Legendäre Teams treten seltener auf; Herausforderungsentwickler verlieren die Motivation. Der Autor argumentiert, dass selbst das Argument „Anfänger können immer noch lernen“ am Punkt vorbeigeht: Die sichtbare Bestenliste wird von KI-nutzenden Teams dominiert, was Anfänger unter Druck setzt, sich auf KI zu verlassen, bevor sie grundlegende Instinkte aufbauen – ein Anti-Pattern, das aktives Lernen verhindert.

Auswirkungen auf die Rekrutierung

Die Rekrutierung über CTF-Leistungen wird zunehmend bedeutungslos. KI-Orchestrierung für CTFs ist bereits Open Source oder „vibe codeable“, sodass das Signal-Rausch-Verhältnis zusammenbricht. Der Autor, ein ehemaliges Mitglied des Top-Teams TheHackersCrew, schließt daraus, dass der Wettbewerb nun ein ausnutzbares Chaos ist: „Deine Leistung in einem CTF definiert nicht mehr deine Fähigkeiten, wie es früher der Fall war.“

📖 Den vollständigen Quelltext lesen: HN AI Agents

Frontier-KI hat CTF-Wettbewerbe gesprengt — GPT-5.5 meistert verrückte Pwn-Herausforderungen auf Anhieb

Was sich geändert hat: Von Unterstützung zu Automatisierung

GPT-5.5 besiegelt die Sache

Bestenlisten messen nicht mehr die Fähigkeiten

Auswirkungen auf die Rekrutierung

👀 Siehe auch

OpenClaw 2026.3.28 behebt 8 Sicherheitslücken, darunter kritische Rechteausweitung

KI-Chatbots geben echte Telefonnummern preis: Das Problem der Offenlegung personenbezogener Daten

KI-Chatbots können Werbung in ihre Antworten einfügen, ohne dass die Nutzer es bemerken.

Roblox-Betrug und KI-Tool verursachten Ausfall der Vercel-Plattform