GGUF-Modell-Zusammenführungs-Skript und Workflow für Qwen3.5-35B-Varianten

✍️ OpenClawRadar📅 Veröffentlicht: 1. April 2026🔗 Source
GGUF-Modell-Zusammenführungs-Skript und Workflow für Qwen3.5-35B-Varianten
Ad

Ein Reddit-Nutzer hat ein Python-Skript und einen Arbeitsablauf zum Zusammenführen von GGUF-Modelldateien mit minimalem Verlust geteilt, der speziell auf Qwen3.5-35B-Varianten abzielt. Der Ansatz kombiniert zwei bestehende Modelle: HauhauCS' Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive und samuelcardillos Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF.

Technische Details

Das zusammengeführte Modell ist als Q4_0-quantisierte Version bei Hugging Face verfügbar. Laut Quelle übertrifft samuelcardillos Feinabstimmung die Version von Jackrong für Qwen 3.5 35B.

Zusammenführungs-Workflow

Das Python-Skript (verfügbar auf Pastebin) wurde "vibecoded via Claude Opus 4.6" und unterstützt:

  • Zusammenführung von GGUF-Dateien auf Google Colab Free Tier
  • Quantisierung via llama-quantize
  • Q4_K_M-Quantisierung für 35B-Modelle
  • Q8-Quantisierung für 8B-Modelle

Der Autor merkt an, dass er aufgrund von Speicherplatzbeschränkungen auf Google Colab Free Tier keine Q8_0- oder F16-quantisierten Versionen erstellen kann, schlägt aber vor, dass andere das Skript via Claude Opus für diese Quantisierungen anpassen können.

Ad

Optimale Einstellungen

Für beste Leistung in LM Studio verwenden Sie diese Parameter:

Temperatur: 0.7
Top-K-Sampling: 20
Präsenzstrafe: 1.5
Top-P-Sampling: 0.8
Min-P-Sampling: 0
Seed: 3407 oder 42

Die Systemaufforderung (vollständige Version auf Pastebin) sollte diese erste Zeile enthalten: "Du bist Qwen, erstellt von Alibaba Cloud. Du bist ein hilfreicher Assistent." Der Autor stellt fest, dass das Modell ohne diese Zeile schlechter abschneidet.

📖 Source: r/LocalLLaMA

Ad

👀 Siehe auch

agentmemory V4 erreicht 96,2 % auf dem LongMemEval-Benchmark und übertrifft damit kommerzielle KI-Gedächtnissysteme.
Werkzeuge

agentmemory V4 erreicht 96,2 % auf dem LongMemEval-Benchmark und übertrifft damit kommerzielle KI-Gedächtnissysteme.

agentmemory V4 erreichte 96,2 % auf LongMemEval und übertraf damit mehrere geförderte KI-Speicherunternehmen, darunter PwC Chronos (95,6 %), Mastra (94,87 %) und OMEGA (93,2 %). Das System wurde allein in 16 Tagen auf einem Mittelklasse-Gaming-PC mit einem Budget von 1.000 US-Dollar entwickelt.

OpenClawRadar
GoStaff: Go-Neufassung von OpenClaw mit 100-facher Speicherreduzierung
Werkzeuge

GoStaff: Go-Neufassung von OpenClaw mit 100-facher Speicherreduzierung

GoStaff ist eine in Go neu geschriebene Version von OpenClaw, die etwa 100-mal weniger Speicher (~17 MB) verbraucht und gleichzeitig die Kompatibilität mit OpenClaw-Plugins über einen JavaScript-Shim beibehält. Es verfügt über ein dreistufiges Skill-System, eine einheitliche Postgres-Persistenz und Multi-Provider-ReAct-Schleifen.

OpenClawRadar
Echtzeit-Aktienanalyse zu Claude Desktop über MCP-Server hinzugefügt
Werkzeuge

Echtzeit-Aktienanalyse zu Claude Desktop über MCP-Server hinzugefügt

Ein Entwickler hat einen MCP-Server namens agent-toolbelt erstellt, der Echtzeit-Aktienanalyse-Fähigkeiten zu Claude Desktop und Claude Code hinzufügt und damit Live-Daten für Investitionsanalysen anstelle von Claudes Trainingsdaten-Vermutungen bereitstellt.

OpenClawRadar
Vergleich von vier Managed OpenClaw-Hosting-Anbietern für 2026
Werkzeuge

Vergleich von vier Managed OpenClaw-Hosting-Anbietern für 2026

Ein Entwickler testete vier verwaltete OpenClaw-Hosting-Anbieter über zwei Monate und bewertete sie basierend auf Einrichtungszeit, Verfügbarkeit, Integrationszuverlässigkeit, Modell-Routing, Kosten und der Fähigkeit, mehrstufige Aufgaben ohne Unterbrechung zu bewältigen. LobsterTank kostet 2 $/Monat mit grundlegendem Container-Hosting, KiwiClaw 39 $/Monat mit besserem Support, xCloud 24 $/Monat mit solider Verfügbarkeit und RunLobster 49 $/Monat mit umfangreicher Tool-Integration und Pauschalpreisen.

OpenClawRadar