Qwen 3.6 27B im DeepSWE-Benchmark: 2% Punktzahl, 70 Stunden, 44k durchschnittliche Ausgabetoken

✍️ OpenClawRadar📅 Veröffentlicht: 22. Juni 2026🔗 Source

Ein Reddit-Nutzer hat Qwen 3.6 27B auf dem DeepSWE-Benchmark getestet und erreichte eine Punktzahl von 2% (1,79% aufgerundet) – Platz 18 von 20, vor Haiku 4.5 und Minimax M2.7. Der gesamte Lauf dauerte 70 Stunden, mit einer durchschnittlichen Aufgabenzeit von 32 Minuten und durchschnittlich 44k Ausgabetoken pro Aufgabe – überraschenderweise auf Augenhöhe mit dem größeren Qwen 3.6 Plus, trotz des Rufs des 27B-Modells für Ausführlichkeit.

Methodik

Modell: Qwen 3.6 27B FP8 mit BF16 KV-Cache, Reasoning aktiviert, 262k Kontextfenster, bereitgestellt über VLLM
Hardware: 1x RTX6000 Pro Blackwell auf RunPod
Agent-Werkzeug: mini-swe auf Modal-Sandboxes
1 Durchlauf pro Aufgabe (statt der offiziellen 4) um Zeit zu sparen; keine Punktzahlspanne
Kosten basierend auf RunPod-Stundensatz für abgeschlossene Aufgaben
Orchestrierung: Codex 5.5xhigh überwachte und verwaltete den gesamten Lauf

Wichtige Beobachtungen

Der Autor merkt an, dass die Punktzahl verdächtig nahe an Qwen 3.6 Plus liegt, was Fragen zu den architektonischen Unterschieden aufwirft. Er argumentiert, dass lokale Modelle weiter hinter den führenden Closed-Source-Angeboten zurückfallen: K2.6 ist das beste Open-Source-Modell, aber die meisten können es nicht einmal lokal ausführen. Qwen 3.6 27B wird als "arme Leute SOTA"-Option für den lokalen Betrieb positioniert. Der Trend deutet darauf hin, dass Spitzenleistungen große Skalierung erfordern, was oft zu Closed Source führt, was lokale Inferenz in Bezug auf Wettbewerbsfähigkeit zu einem verlorenen Spiel macht.

📖 Vollständige Quelle lesen: r/LocalLLaMA

👀 Siehe auch

Nachrichten

Yann LeCuns AMI sammelt 1 Mrd. USD für KI-Weltmodelle und stellt den LLM-Ansatz in Frage.

Yann LeCuns Startup AMI hat über 1 Milliarde Dollar eingesammelt, um KI-Weltmodelle zu entwickeln, die die physische Welt verstehen. Er argumentiert, dass reine Sprachmodelle allein keine menschenähnliche Intelligenz erreichen werden. Das Unternehmen wird Systeme mit dauerhaftem Gedächtnis, logischem Denken und Planungsfähigkeiten für Fertigung, Biomedizin und Robotik aufbauen.

10. März 2026, 11:45 UTC

OpenClawRadar

🦀

Nachrichten

Die alltägliche Gefahr: Warum die größten Bedrohungen der KI-Sicherheit langweilig und nicht dramatisch sind

Ein Essay argumentiert, dass alltägliche KI-Versagen bereits Schaden in großem Maßstab verursachen, aktuelle Alignment-Ansätze zu stark von geschützten Umgebungen abhängen und dass die Konvergenz der Fähigkeiten eine versehentliche Exposition in der offenen Welt immer wahrscheinlicher macht.

13. Mai 2026, 18:18 UTC

OpenClawRadar

Nachrichten

Reddit-Nutzer vergleicht Claude Sonnet 4.6 und GPT-5 bei 10 Blogging-Aufgaben

Ein Reddit-Nutzer testete Claude Sonnet 4.6 gegen GPT-5 mit identischen Prompts für 10 gängige Blogging-Aufgaben und stellte fest, dass die Bearbeitungszeitdifferenz die nützlichste Metrik war.

13. März 2026, 23:45 UTC

OpenClawRadar

Nachrichten

Bird Skill Repository Entfernt — Sichern Sie jetzt Ihren X/Twitter-Zugang

Die beliebte Bird-Skill von @steipete wurde von GitHub entfernt. Benutzer sollten ihre Installationen sofort sichern.

8. Feb. 2026, 08:21 UTC