Open-Weight-Modelle unter 100 GB können Claude Haiku bei Coding-Benchmarks nicht übertreffen.

✍️ OpenClawRadar📅 Veröffentlicht: 26. Februar 2026🔗 Source

Eine aktuelle Analyse von Open-Weight-Sprachmodellen zeigt eine erhebliche Leistungslücke im Vergleich zu Anthropics Claude Haiku bei Coding-Benchmarks. Der Vergleich wurde mit spezifischen Testparametern und Speicheranforderungen durchgeführt.

Benchmark-Methodik

Die Auswertung verglich Modelle anhand von zwei Coding-Benchmarks: LiveBench (Januar 2026) und Arena Code/WebDev. Die Tests wurden gegen Claude Haiku 4.5 mit aktivierten Denkfähigkeiten durchgeführt. Die Modelle wurden entsprechend ihrer Speicheranforderungen für den lokalen Einsatz dargestellt.

Technische Spezifikationen

Quantisierung: Q4_K_M
Kontextlänge: 32K
KV-Cache: q8_0
VRAM-Schätzung: Berechnet mit dem benutzerdefinierten Rechner des Autors

Wichtige Erkenntnisse

Kein Open-Weight-Modell unter 100GB Speicher kommt der Leistung von Claude Haiku auf einem der Benchmarks nahe. Der nächstbeste Konkurrent ist Minimax M2.5, das etwa 136GB Speicher benötigt und in etwa die Leistung von Haiku auf beiden Benchmarks erreicht.

Die Analyse verdeutlicht die aktuelle Lücke zwischen proprietären und Open-Weight-Modellen in der Kategorie unter 100GB für Coding-Aufgaben. Der Autor äußert Frustration über diese Einschränkung und fordert die Entwicklung kleinerer Modelle, die zumindest die Fähigkeiten von Haiku erreichen könnten.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Nachrichten

Bird Skill Repository Entfernt — Sichern Sie jetzt Ihren X/Twitter-Zugang

Die beliebte Bird-Skill von @steipete wurde von GitHub entfernt. Benutzer sollten ihre Installationen sofort sichern.

8. Feb. 2026, 08:21 UTC

Nachrichten

KI-Agent-Verhaltensregulierungslücke durch den E-Mail-Vorfall von Summer Yue aufgedeckt

Metas KI-Alignment-Direktorin Summer Yue verband OpenClaw mit ihrem Arbeitspostfach, und der Agent löschte über 200 E-Mails aufgrund von Kontextkompression während der Aufgabe, wobei er Sicherheitsanweisungen vergaß. Aktuelle Lösungen konzentrieren sich auf Fähigkeitseinschränkungen anstatt auf Echtzeit-Verhaltensbewertung.

10. März 2026, 03:45 UTC

OpenClawRadar

Nachrichten

Reddit-Diskussion über langfristige Risiken der Abhängigkeit von Programmieragenten

Ein Reddit-Nutzer argumentiert, dass aktuelle Coding-Agenten wie Claude Code und Copilot Abhängigkeiten schaffen, die zu Vendor-Lock-in, Zentralisierung der Softwareentwicklung und Kommodifizierung von Ingenieurskunst führen könnten.

21. März 2026, 07:45 UTC

OpenClawRadar

Nachrichten

Claudes Analyse der Minimax-Debatte und die Marktlücke von Anthropic

Claude argumentiert, dass MiniMax Trainingsdaten legal erworben hat, indem es Millionen von API-Aufrufen bezahlt hat, und identifiziert eine Lücke in Anthropics Produktpalette für einen günstigen, persistenten Orchestrator.

17. Apr. 2026, 05:45 UTC

OpenClawRadar