Claude Opus 4.1 erzielt 17,75 % auf dem privaten Datensatz von SWE-Bench Pro und unterstreicht damit die Kluft zwischen Auswendiglernen und logischem Denken.

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
Claude Opus 4.1 erzielt 17,75 % auf dem privaten Datensatz von SWE-Bench Pro und unterstreicht damit die Kluft zwischen Auswendiglernen und logischem Denken.
Ad

Benchmark-Ergebnisse zeigen erhebliche Leistungslücke

Claude Opus 4.1 erreichte über 80 % bei SWE-Bench Verified, erzielte jedoch nur 17,75 % bei SWE-Bench Pros privatem Datensatz. Dieser Datensatz enthält 276 Aufgaben aus 18 proprietären Startup-Codebasen, die nie auf GitHub waren und speziell entwickelt wurden, um Datenkontamination durch GPL-lizenzierte öffentliche Repositories zu vermeiden.

Andere Modellergebnisse auf demselben privaten Datensatz: GPT-5.2 erreichte 23,81 % (an der Spitze der Rangliste) und Gemini 3 Pro erzielte 17,95 %.

Trajektorienanalyse zeigt Auswendiglernverhalten

Scale AIs Analyse ergab, dass Modelle während des Tests korrekte Dateipfade für Änderungen identifizieren konnten, bevor sie Problembeschreibungen in bekannten Repositories vollständig gelesen hatten. Dies deutet darauf hin, dass sie eher durch Erinnerung navigierten als durch logisches Durchdenken der Probleme.

Die 80 % bei SWE-Bench Verified waren echt, maßen jedoch eine andere Fähigkeit als die meisten annahmen – hauptsächlich Erinnerung an Trainingsdaten statt logisches Denken über neuen Code.

Ad

Praktische Auswirkungen für den Einsatz von KI-Codierungstools

Für Entwickler, die entscheiden, wo KI-Codierungstools in ihrem Arbeitsablauf eingesetzt werden sollen, ist der Unterschied zwischen Erinnerung und logischem Denken wichtiger als Schlagzeilen-Benchmark-Zahlen. Modelle, die bei kontaminierten Benchmarks gut abschneiden, könnten mit wirklich neuartigen Codebasen, die sie während des Trainings nicht gesehen haben, Schwierigkeiten haben.

SWE-Bench Pro wurde speziell geschaffen, um dieses Kontaminationsproblem anzugehen, indem Code verwendet wird, der nie öffentlich auf GitHub oder in Trainingsdatensätzen verfügbar war.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

🦀
Nachrichten

Claude Code System Prompts v2.1.139: Claude-Plattform auf AWS-Dokumenten, Zusammenfassungssicherheit, PowerShell-Tooling

CC 2.1.139 (+2.248 Tokens) fügt Referenzdokumentation zur Claude Platform auf AWS mit SigV4-Authentifizierung, sicherheitsbewahrender Zusammenfassung von Konversationen, einer PowerShell-Unix-Befehlsäquivalenztabelle sowie mehreren Verbesserungen von Fähigkeiten und Prompts hinzu.

OpenClawRadar
Anthropic sichert sich 300 MW Rechenleistung bei Colossus 1 mit 220.000 NVIDIA GPUs durch SpaceX-Partnerschaft
Nachrichten

Anthropic sichert sich 300 MW Rechenleistung bei Colossus 1 mit 220.000 NVIDIA GPUs durch SpaceX-Partnerschaft

Anthropic gab eine Partnerschaft mit SpaceX bekannt, um die gesamte Rechenkapazität des Colossus-1-Rechenzentrums zu nutzen und innerhalb eines Monats über 300 MW und mehr als 220.000 NVIDIA-GPUs zu erhalten.

OpenClawRadar
Ohio setzt Steuervergünstigungen für Rechenzentren aus: KI-Kostendruck für Technologieunternehmen nimmt zu
Nachrichten

Ohio setzt Steuervergünstigungen für Rechenzentren aus: KI-Kostendruck für Technologieunternehmen nimmt zu

Ohio setzt die Steuerbefreiung für Ausrüstung neuer Rechenzentren aus, einschließlich solcher, die KI betreiben. Der Schritt signalisiert eine zunehmende Überprüfung von Steueranreizen auf Bundesstaatsebene, während die Nachfrage nach KI-Infrastruktur steigt.

OpenClawRadar
GitHub Claude-Code v2.1.27 Veröffentlichung: Wichtige Aktualisierungen und Fehlerbehebungen
Nachrichten

GitHub Claude-Code v2.1.27 Veröffentlichung: Wichtige Aktualisierungen und Fehlerbehebungen

Claude-Code v2.1.27 verbessert das Logging und behebt mehrere Probleme, darunter das Kontextmanagement und die Ablaufzeit von OAuth-Tokens in VSCode.

OpenClawRadar