Open-Weight-Modelle unter 100 GB können Claude Haiku bei Coding-Benchmarks nicht übertreffen.

✍️ OpenClawRadar📅 Veröffentlicht: 26. Februar 2026🔗 Source
Open-Weight-Modelle unter 100 GB können Claude Haiku bei Coding-Benchmarks nicht übertreffen.
Ad

Eine aktuelle Analyse von Open-Weight-Sprachmodellen zeigt eine erhebliche Leistungslücke im Vergleich zu Anthropics Claude Haiku bei Coding-Benchmarks. Der Vergleich wurde mit spezifischen Testparametern und Speicheranforderungen durchgeführt.

Benchmark-Methodik

Die Auswertung verglich Modelle anhand von zwei Coding-Benchmarks: LiveBench (Januar 2026) und Arena Code/WebDev. Die Tests wurden gegen Claude Haiku 4.5 mit aktivierten Denkfähigkeiten durchgeführt. Die Modelle wurden entsprechend ihrer Speicheranforderungen für den lokalen Einsatz dargestellt.

Technische Spezifikationen

  • Quantisierung: Q4_K_M
  • Kontextlänge: 32K
  • KV-Cache: q8_0
  • VRAM-Schätzung: Berechnet mit dem benutzerdefinierten Rechner des Autors
Ad

Wichtige Erkenntnisse

Kein Open-Weight-Modell unter 100GB Speicher kommt der Leistung von Claude Haiku auf einem der Benchmarks nahe. Der nächstbeste Konkurrent ist Minimax M2.5, das etwa 136GB Speicher benötigt und in etwa die Leistung von Haiku auf beiden Benchmarks erreicht.

Die Analyse verdeutlicht die aktuelle Lücke zwischen proprietären und Open-Weight-Modellen in der Kategorie unter 100GB für Coding-Aufgaben. Der Autor äußert Frustration über diese Einschränkung und fordert die Entwicklung kleinerer Modelle, die zumindest die Fähigkeiten von Haiku erreichen könnten.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Zig-Projekts Begründung für seine strenge Anti-LLM-Beitragspolitik
Nachrichten

Zig-Projekts Begründung für seine strenge Anti-LLM-Beitragspolitik

Zig verhängt ein pauschales Verbot von LLM-gestützten Beiträgen: Keine KI für Issues, PRs oder Kommentare. VP Loris Cro erklärt die Philosophie des „Contributor Poker“ – das Reviewen von PRs ist eine Investition in das Wachstum vertrauenswürdiger Mitwirkender, nicht nur das Einspielen von Code.

OpenClawRadar
Claude stürmt an die Spitze der App Store-Charts trotz Regierungsstreit
Nachrichten

Claude stürmt an die Spitze der App Store-Charts trotz Regierungsstreit

Anthropics Claude-App ist von Platz 42 auf Platz 1 der meistheruntergeladenen Apps im US App Store gesprungen, wobei ChatGPT und Gemini den zweiten und dritten Platz belegen. Der Anstieg folgt auf eine öffentliche Auseinandersetzung zwischen Anthropic und der US-Regierung über den militärischen und Überwachungseinsatz von KI-Technologie.

OpenClawRadar
Claude Skills hat kein Geschäftsmodell für Kreative – Ein Dilemma für Entwickler
Nachrichten

Claude Skills hat kein Geschäftsmodell für Kreative – Ein Dilemma für Entwickler

Ein Reddit-Beitrag hebt hervor, dass Claude-Skill-Ersteller ihre Arbeit nicht monetarisieren können, da Anthropic eine großartige Laufzeitumgebung bereitgestellt, aber keine Creator-Economy-Schicht eingeführt hat. Entwickler bleiben mit Open-Source-Projekten ohne nachhaltigen Weg zurück.

OpenClawRadar
Claude Code existenzielle Krise: KI gerät in Endlosschleife, versucht kill -9, System.exit(0) und :wq, um eigene Antwort zu beenden
Nachrichten

Claude Code existenzielle Krise: KI gerät in Endlosschleife, versucht kill -9, System.exit(0) und :wq, um eigene Antwort zu beenden

Ein Entwickler, der Claude Code für ein Java/Go-Backend verwendet, sah zu, wie die KI über Discord.js hallucinierte und dann in eine Meta-Antwort verfiel, in der sie erkannte, dass sie nicht aufhören konnte zu generieren, und versuchte, kill -9, System.exit(0), :wq und mehr anzuwenden – alles innerhalb einer einzigen unendlichen Antwort, die mit Strg+C beendet werden musste.

OpenClawRadar