PrismMLs Bonsai 1-bit Qwen-Modelle getestet: 107 t/s Generierung auf 8 GB VRAM

✍️ OpenClawRadar📅 Veröffentlicht: 5. April 2026🔗 Source
PrismMLs Bonsai 1-bit Qwen-Modelle getestet: 107 t/s Generierung auf 8 GB VRAM
Ad

Bonsai-Modelle: 1-Bit-Qwen-Quantisierung von PrismML

PrismML hat Bonsai veröffentlicht, eine Reihe von 1-Bit-quantisierten Versionen der Qwen3-Modelle (8B, 4B und 1.7B Parameter). Diese Modelle nutzen extreme Quantisierung, um den Speicherbedarf drastisch zu reduzieren, während sie für bestimmte Aufgaben eine brauchbare Leistung beibehalten.

Leistungsbenchmarks aus Tests

Tests auf einer RTX 4060 mit 8GB VRAM zeigten:

  • Generierungsgeschwindigkeit von 107 Token/Sekunde
  • >1114 Token/Sekunde Prompt-Verarbeitung
  • Deutlich geringerer RAM-Verbrauch im Vergleich zu Q4-quantisierten Modellen

Zum Vergleich: Qwen 3.5 4B Q4 erreichte 56 t/s mit denselben Prompts auf derselben Hardware.

Praktische Auswirkungen

Der reduzierte Speicherbedarf ermöglicht das Ausführen von 8B-Parameter-Modellen auf Systemen mit 8GB VRAM. Kleinere Modelle können aufgrund der Speichereinsparungen mit längeren Kontextfenstern verwendet werden.

Qualitätsbewertung

Erste Tests konzentrierten sich auf Textzusammenfassung, wo das Modell gut abschnitt. Der Tester merkte an, dass er Programmier- oder Tool-Nutzungsfähigkeiten nicht bewertet habe.

Ad

Technische Einschränkungen

Die aktuelle Implementierung hat Probleme mit der CPU-Inferenz. Bei Tests auf einem Mini-PC ohne GPU:

  • Der llama.cpp-Fork kompiliert erfolgreich
  • Das Modell lädt, hängt aber während der Prompt-Verarbeitung
  • Analysen deuten darauf hin, dass keine CPU-Implementierung existiert – es dequantisiert wahrscheinlich zu FP32 und versucht reguläre Inferenz, was auf der CPU extrem langsam wäre

Technisches Potenzial

1-Bit-Modelle könnten nicht nur Bandbreiten- und Speicheranforderungen reduzieren, sondern auch Rechenanforderungen. Matrixmultiplikation auf 1-Bit-Matrizen könnte XOR-Operationen nutzen, die viel schneller sind als Gleitkommaoperationen. Selbst mit Skalierung auf FP16 nach XOR-Operationen sollten erhebliche Recheneinsparungen möglich sein, was potenziell CPU-only-Inferenz und Edge-Computing-Szenarien zugutekommen könnte.

Einzelheiten zum Setup

Der Tester lud herunter:

  • Das 8B-Bonsai-Modell
  • PrismMLs llama.cpp-Fork
  • Getestet unter Windows mit CUDA

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Code wurde aus dem Anthropic Pro-Plan entfernt und ist jetzt nur noch in Max-Plänen verfügbar.
Nachrichten

Claude Code wurde aus dem Anthropic Pro-Plan entfernt und ist jetzt nur noch in Max-Plänen verfügbar.

Anthropic hat Claude Code aus seinem Pro-Plan (17-20 $/Monat) entfernt und macht ihn nur noch in Max-Plänen ab 100 $/Monat verfügbar. Der Pro-Plan umfasst nun Claude Cowork, unbegrenzte Projekte, die Recherche-Funktion und Zugang zu mehr Claude-Modellen.

OpenClawRadar
Linux-Kernel-Entwickler schlagen vor, Legacy-Code aufgrund von LLM-generierten Fehlerberichten zu entfernen
Nachrichten

Linux-Kernel-Entwickler schlagen vor, Legacy-Code aufgrund von LLM-generierten Fehlerberichten zu entfernen

Linux-Kernel-Entwickler schlagen vor, mehrere veraltete Subsysteme zu entfernen, darunter ISA/PCMCIA-Ethernet-Treiber, Amateurfunkprotokolle, ATM und ISDN, um die Belastung durch Sicherheitsfehlermeldungen zu verringern, die von großen Sprachmodellen generiert werden.

OpenClawRadar
Claude stürmt an die Spitze der App Store-Charts trotz Regierungsstreit
Nachrichten

Claude stürmt an die Spitze der App Store-Charts trotz Regierungsstreit

Anthropics Claude-App ist von Platz 42 auf Platz 1 der meistheruntergeladenen Apps im US App Store gesprungen, wobei ChatGPT und Gemini den zweiten und dritten Platz belegen. Der Anstieg folgt auf eine öffentliche Auseinandersetzung zwischen Anthropic und der US-Regierung über den militärischen und Überwachungseinsatz von KI-Technologie.

OpenClawRadar
Synthetic kündigt eine umfassende Preisanpassung mit erheblichen Änderungen an den Ratenlimits an.
Nachrichten

Synthetic kündigt eine umfassende Preisanpassung mit erheblichen Änderungen an den Ratenlimits an.

Synthetic ersetzt seine Standard- und Pro-Tarife durch Abonnement-Pakete zu 30 $/Monat, die 135 Nachrichten pro 5 Stunden pro Paket bieten. Bestehende Pro-Nutzer werden ihre 1.250 Nachrichten pro 5 Stunden auf 335 Nachrichten zum gleichen Preis von 60 $/Monat reduziert sehen.

OpenClawRadar