Qwen 3.6 27B im DeepSWE-Benchmark: 2% Punktzahl, 70 Stunden, 44k durchschnittliche Ausgabetoken

Ein Reddit-Nutzer hat Qwen 3.6 27B auf dem DeepSWE-Benchmark getestet und erreichte eine Punktzahl von 2% (1,79% aufgerundet) – Platz 18 von 20, vor Haiku 4.5 und Minimax M2.7. Der gesamte Lauf dauerte 70 Stunden, mit einer durchschnittlichen Aufgabenzeit von 32 Minuten und durchschnittlich 44k Ausgabetoken pro Aufgabe – überraschenderweise auf Augenhöhe mit dem größeren Qwen 3.6 Plus, trotz des Rufs des 27B-Modells für Ausführlichkeit.
Methodik
- Modell: Qwen 3.6 27B FP8 mit BF16 KV-Cache, Reasoning aktiviert, 262k Kontextfenster, bereitgestellt über VLLM
- Hardware: 1x RTX6000 Pro Blackwell auf RunPod
- Agent-Werkzeug: mini-swe auf Modal-Sandboxes
- 1 Durchlauf pro Aufgabe (statt der offiziellen 4) um Zeit zu sparen; keine Punktzahlspanne
- Kosten basierend auf RunPod-Stundensatz für abgeschlossene Aufgaben
- Orchestrierung: Codex 5.5xhigh überwachte und verwaltete den gesamten Lauf
Wichtige Beobachtungen
Der Autor merkt an, dass die Punktzahl verdächtig nahe an Qwen 3.6 Plus liegt, was Fragen zu den architektonischen Unterschieden aufwirft. Er argumentiert, dass lokale Modelle weiter hinter den führenden Closed-Source-Angeboten zurückfallen: K2.6 ist das beste Open-Source-Modell, aber die meisten können es nicht einmal lokal ausführen. Qwen 3.6 27B wird als "arme Leute SOTA"-Option für den lokalen Betrieb positioniert. Der Trend deutet darauf hin, dass Spitzenleistungen große Skalierung erfordern, was oft zu Closed Source führt, was lokale Inferenz in Bezug auf Wettbewerbsfähigkeit zu einem verlorenen Spiel macht.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Yann LeCuns AMI sammelt 1 Mrd. USD für KI-Weltmodelle und stellt den LLM-Ansatz in Frage.
Yann LeCuns Startup AMI hat über 1 Milliarde Dollar eingesammelt, um KI-Weltmodelle zu entwickeln, die die physische Welt verstehen. Er argumentiert, dass reine Sprachmodelle allein keine menschenähnliche Intelligenz erreichen werden. Das Unternehmen wird Systeme mit dauerhaftem Gedächtnis, logischem Denken und Planungsfähigkeiten für Fertigung, Biomedizin und Robotik aufbauen.
Die alltägliche Gefahr: Warum die größten Bedrohungen der KI-Sicherheit langweilig und nicht dramatisch sind
Ein Essay argumentiert, dass alltägliche KI-Versagen bereits Schaden in großem Maßstab verursachen, aktuelle Alignment-Ansätze zu stark von geschützten Umgebungen abhängen und dass die Konvergenz der Fähigkeiten eine versehentliche Exposition in der offenen Welt immer wahrscheinlicher macht.

Reddit-Nutzer vergleicht Claude Sonnet 4.6 und GPT-5 bei 10 Blogging-Aufgaben
Ein Reddit-Nutzer testete Claude Sonnet 4.6 gegen GPT-5 mit identischen Prompts für 10 gängige Blogging-Aufgaben und stellte fest, dass die Bearbeitungszeitdifferenz die nützlichste Metrik war.

Bird Skill Repository Entfernt — Sichern Sie jetzt Ihren X/Twitter-Zugang
Die beliebte Bird-Skill von @steipete wurde von GitHub entfernt. Benutzer sollten ihre Installationen sofort sichern.