SWE-rebench-V2 veröffentlicht: Größtes offenes mehrsprachiges Datenset für Code-Agenten-Training

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source

Veröffentlichungsdetails von SWE-rebench-V2

Das Forschungsteam von Nebius unter der Leitung von Ibragim hat SWE-rebench-V2 veröffentlicht, den sie als "derzeit den größten offenen Datensatz der Welt zum Training von Coding-Agenten" beschreiben. Der Datensatz ist mehrsprachig und ausführbar und wurde speziell für das Training von Reinforcement Learning im großen Maßstab entwickelt.

Wichtige technische Merkmale

Das Team hat eine automatisierte Pipeline aufgebaut, um RL-Umgebungen in großem Maßstab zu extrahieren. Diese Veröffentlichung umfasst:

Den vollständigen SWE-rebench-V2-Datensatz
Einen detaillierten technischen Bericht
Paper und Datensatz verfügbar unter: https://huggingface.co/papers/2602.23866

Community und Unterstützung

Das Team bietet aktive Discord-Unterstützung sowohl für den Datensatz als auch für ihre SWE-rebench Bestenliste unter: https://discord.gg/wXYmWpMu. Sie merken an, dass die LocalLLaMA-Community "das wertvollste Feedback" für ihre Arbeit mit der SWE-rebench Bestenliste geliefert hat und bestätigen, dass sie weiter an der Bestenliste arbeiten mit Plänen, sie "noch cooler zu machen".

Für Forschungskooperationen oder Fragen kann Ibragim per DM auf Reddit oder Twitter (X) erreicht werden unter: https://x.com/ibragim_bad.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Werkzeuge

Token Enhancer reduziert den Tokenverbrauch von Webseiten für KI-Agenten.

Ein Entwickler stellte fest, dass rohes HTML von Webabrufen übermäßig viele Tokens im KI-Agenten-Kontext verbraucht, wobei Yahoo-Finance-Seiten 704.000 Tokens verwendeten. Durch den Einsatz von Token Enhancer als MCP-Server konnte dies auf 2.600 Tokens reduziert werden.

30. März 2026, 23:45 UTC

OpenClawRadar

Werkzeuge

Smriti: Ein Git-ähnliches System zur Verwaltung des LLM-Denkzustands, um Gesprächsabdrift zu verhindern

Smriti ist ein Open-Source-Tool, das Entwicklern ermöglicht, Denkzustände in LLM-Konversationen zu speichern, wiederherzustellen, zu verzweigen und zu vergleichen, um Abweichungen zu verhindern. Es behandelt Interaktionen als Zustand statt als Chatverlauf, was saubere Rückrollungen und alternative Erkundungen ohne Kontamination ermöglicht.

16. Apr. 2026, 10:45 UTC

OpenClawRadar

Werkzeuge

Claude Code Routines verbessert CLI-Leistung um das 2,4-fache in über 20 PRs

Mit Claude Code's Routines auf einem 2-Stunden-Cron-Job, um ein Open-Source-CLI-Tool (Repomix) autonom zu optimieren, mit über 20 automatisch generierten PRs und einer 2,4-fachen Laufzeitverbesserung.

30. Apr. 2026, 16:15 UTC

OpenClawRadar

Werkzeuge

Das feinabgestimmte Qwen3.5-2B-Modell mit RAG-Engram-Architektur verbessert die Genauigkeit fundierter Antworten von 50 % auf 93 % bei einem Kontext von 8K.

Ein Entwickler hat Qwen3.5-2B mit einer benutzerdefinierten RAG-Engram-Architektur feinabgestimmt, um das 'Lost-in-the-Middle'-Phänomen anzugehen, und verbesserte korrekte Antworten bei 8K Token von 50 % auf 93 % bei realen Abfragen. Das System verwendet einen zweistufigen Ansatz mit statischen Entitäts-Einbettungen und dynamischer Chunk-Navigation.

27. März 2026, 20:45 UTC

OpenClawRadar