Claude Opus 4.1: 17,75% auf SWE-Bench Pro

Benchmark-Ergebnisse zeigen erhebliche Leistungslücke

Claude Opus 4.1 erreichte über 80 % bei SWE-Bench Verified, erzielte jedoch nur 17,75 % bei SWE-Bench Pros privatem Datensatz. Dieser Datensatz enthält 276 Aufgaben aus 18 proprietären Startup-Codebasen, die nie auf GitHub waren und speziell entwickelt wurden, um Datenkontamination durch GPL-lizenzierte öffentliche Repositories zu vermeiden.

Andere Modellergebnisse auf demselben privaten Datensatz: GPT-5.2 erreichte 23,81 % (an der Spitze der Rangliste) und Gemini 3 Pro erzielte 17,95 %.

Trajektorienanalyse zeigt Auswendiglernverhalten

Scale AIs Analyse ergab, dass Modelle während des Tests korrekte Dateipfade für Änderungen identifizieren konnten, bevor sie Problembeschreibungen in bekannten Repositories vollständig gelesen hatten. Dies deutet darauf hin, dass sie eher durch Erinnerung navigierten als durch logisches Durchdenken der Probleme.

Die 80 % bei SWE-Bench Verified waren echt, maßen jedoch eine andere Fähigkeit als die meisten annahmen – hauptsächlich Erinnerung an Trainingsdaten statt logisches Denken über neuen Code.

Praktische Auswirkungen für den Einsatz von KI-Codierungstools

Für Entwickler, die entscheiden, wo KI-Codierungstools in ihrem Arbeitsablauf eingesetzt werden sollen, ist der Unterschied zwischen Erinnerung und logischem Denken wichtiger als Schlagzeilen-Benchmark-Zahlen. Modelle, die bei kontaminierten Benchmarks gut abschneiden, könnten mit wirklich neuartigen Codebasen, die sie während des Trainings nicht gesehen haben, Schwierigkeiten haben.

SWE-Bench Pro wurde speziell geschaffen, um dieses Kontaminationsproblem anzugehen, indem Code verwendet wird, der nie öffentlich auf GitHub oder in Trainingsdatensätzen verfügbar war.

📖 Read the full source: r/ClaudeAI

Claude Opus 4.1 erzielt 17,75 % auf dem privaten Datensatz von SWE-Bench Pro und unterstreicht damit die Kluft zwischen Auswendiglernen und logischem Denken.

Benchmark-Ergebnisse zeigen erhebliche Leistungslücke

Trajektorienanalyse zeigt Auswendiglernverhalten

Praktische Auswirkungen für den Einsatz von KI-Codierungstools

👀 Siehe auch

Claude Code System Prompts v2.1.139: Claude-Plattform auf AWS-Dokumenten, Zusammenfassungssicherheit, PowerShell-Tooling

Anthropic sichert sich 300 MW Rechenleistung bei Colossus 1 mit 220.000 NVIDIA GPUs durch SpaceX-Partnerschaft

Ohio setzt Steuervergünstigungen für Rechenzentren aus: KI-Kostendruck für Technologieunternehmen nimmt zu

GitHub Claude-Code v2.1.27 Veröffentlichung: Wichtige Aktualisierungen und Fehlerbehebungen