Bonsai 1-Bit Qwen-Modelle: 107 t/s auf 8 GB VRAM Getestet

Bonsai-Modelle: 1-Bit-Qwen-Quantisierung von PrismML

PrismML hat Bonsai veröffentlicht, eine Reihe von 1-Bit-quantisierten Versionen der Qwen3-Modelle (8B, 4B und 1.7B Parameter). Diese Modelle nutzen extreme Quantisierung, um den Speicherbedarf drastisch zu reduzieren, während sie für bestimmte Aufgaben eine brauchbare Leistung beibehalten.

Leistungsbenchmarks aus Tests

Tests auf einer RTX 4060 mit 8GB VRAM zeigten:

Generierungsgeschwindigkeit von 107 Token/Sekunde
>1114 Token/Sekunde Prompt-Verarbeitung
Deutlich geringerer RAM-Verbrauch im Vergleich zu Q4-quantisierten Modellen

Zum Vergleich: Qwen 3.5 4B Q4 erreichte 56 t/s mit denselben Prompts auf derselben Hardware.

Praktische Auswirkungen

Der reduzierte Speicherbedarf ermöglicht das Ausführen von 8B-Parameter-Modellen auf Systemen mit 8GB VRAM. Kleinere Modelle können aufgrund der Speichereinsparungen mit längeren Kontextfenstern verwendet werden.

Qualitätsbewertung

Erste Tests konzentrierten sich auf Textzusammenfassung, wo das Modell gut abschnitt. Der Tester merkte an, dass er Programmier- oder Tool-Nutzungsfähigkeiten nicht bewertet habe.

Technische Einschränkungen

Die aktuelle Implementierung hat Probleme mit der CPU-Inferenz. Bei Tests auf einem Mini-PC ohne GPU:

Der llama.cpp-Fork kompiliert erfolgreich
Das Modell lädt, hängt aber während der Prompt-Verarbeitung
Analysen deuten darauf hin, dass keine CPU-Implementierung existiert – es dequantisiert wahrscheinlich zu FP32 und versucht reguläre Inferenz, was auf der CPU extrem langsam wäre

Technisches Potenzial

1-Bit-Modelle könnten nicht nur Bandbreiten- und Speicheranforderungen reduzieren, sondern auch Rechenanforderungen. Matrixmultiplikation auf 1-Bit-Matrizen könnte XOR-Operationen nutzen, die viel schneller sind als Gleitkommaoperationen. Selbst mit Skalierung auf FP16 nach XOR-Operationen sollten erhebliche Recheneinsparungen möglich sein, was potenziell CPU-only-Inferenz und Edge-Computing-Szenarien zugutekommen könnte.