GGUF-Modell-Zusammenführungs-Skript und Workflow für Qwen3.5-35B-Varianten

Ein Reddit-Nutzer hat ein Python-Skript und einen Arbeitsablauf zum Zusammenführen von GGUF-Modelldateien mit minimalem Verlust geteilt, der speziell auf Qwen3.5-35B-Varianten abzielt. Der Ansatz kombiniert zwei bestehende Modelle: HauhauCS' Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive und samuelcardillos Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF.
Technische Details
Das zusammengeführte Modell ist als Q4_0-quantisierte Version bei Hugging Face verfügbar. Laut Quelle übertrifft samuelcardillos Feinabstimmung die Version von Jackrong für Qwen 3.5 35B.
Zusammenführungs-Workflow
Das Python-Skript (verfügbar auf Pastebin) wurde "vibecoded via Claude Opus 4.6" und unterstützt:
- Zusammenführung von GGUF-Dateien auf Google Colab Free Tier
- Quantisierung via llama-quantize
- Q4_K_M-Quantisierung für 35B-Modelle
- Q8-Quantisierung für 8B-Modelle
Der Autor merkt an, dass er aufgrund von Speicherplatzbeschränkungen auf Google Colab Free Tier keine Q8_0- oder F16-quantisierten Versionen erstellen kann, schlägt aber vor, dass andere das Skript via Claude Opus für diese Quantisierungen anpassen können.
Optimale Einstellungen
Für beste Leistung in LM Studio verwenden Sie diese Parameter:
Temperatur: 0.7
Top-K-Sampling: 20
Präsenzstrafe: 1.5
Top-P-Sampling: 0.8
Min-P-Sampling: 0
Seed: 3407 oder 42
Die Systemaufforderung (vollständige Version auf Pastebin) sollte diese erste Zeile enthalten: "Du bist Qwen, erstellt von Alibaba Cloud. Du bist ein hilfreicher Assistent." Der Autor stellt fest, dass das Modell ohne diese Zeile schlechter abschneidet.
📖 Source: r/LocalLLaMA
👀 Siehe auch

agentmemory V4 erreicht 96,2 % auf dem LongMemEval-Benchmark und übertrifft damit kommerzielle KI-Gedächtnissysteme.
agentmemory V4 erreichte 96,2 % auf LongMemEval und übertraf damit mehrere geförderte KI-Speicherunternehmen, darunter PwC Chronos (95,6 %), Mastra (94,87 %) und OMEGA (93,2 %). Das System wurde allein in 16 Tagen auf einem Mittelklasse-Gaming-PC mit einem Budget von 1.000 US-Dollar entwickelt.

GoStaff: Go-Neufassung von OpenClaw mit 100-facher Speicherreduzierung
GoStaff ist eine in Go neu geschriebene Version von OpenClaw, die etwa 100-mal weniger Speicher (~17 MB) verbraucht und gleichzeitig die Kompatibilität mit OpenClaw-Plugins über einen JavaScript-Shim beibehält. Es verfügt über ein dreistufiges Skill-System, eine einheitliche Postgres-Persistenz und Multi-Provider-ReAct-Schleifen.

Echtzeit-Aktienanalyse zu Claude Desktop über MCP-Server hinzugefügt
Ein Entwickler hat einen MCP-Server namens agent-toolbelt erstellt, der Echtzeit-Aktienanalyse-Fähigkeiten zu Claude Desktop und Claude Code hinzufügt und damit Live-Daten für Investitionsanalysen anstelle von Claudes Trainingsdaten-Vermutungen bereitstellt.

Vergleich von vier Managed OpenClaw-Hosting-Anbietern für 2026
Ein Entwickler testete vier verwaltete OpenClaw-Hosting-Anbieter über zwei Monate und bewertete sie basierend auf Einrichtungszeit, Verfügbarkeit, Integrationszuverlässigkeit, Modell-Routing, Kosten und der Fähigkeit, mehrstufige Aufgaben ohne Unterbrechung zu bewältigen. LobsterTank kostet 2 $/Monat mit grundlegendem Container-Hosting, KiwiClaw 39 $/Monat mit besserem Support, xCloud 24 $/Monat mit solider Verfügbarkeit und RunLobster 49 $/Monat mit umfangreicher Tool-Integration und Pauschalpreisen.