Qwen3.6:27b + Custom Go-Agent: Eine lokale Alternative zu Claude Code

Ein Entwickler (codehamr), der ein Geschäft mit lokalen LLM-Integrationen betreibt, beschreibt Experimente mit lokalen Modellen als Fallback für Claude Code. Er berichtet, dass Qwen3.6:27b bei Q8 auf einer RTX 6000 mit 96 GB und 128k Kontext eine ähnliche Programmiererfahrung wie Claude Code bietet, und stellt fest, dass eine Consumer-RTX 5090 mit 32 GB bei Q4_M vergleichbare Ergebnisse erzielen kann.
Für die Agentenebene hat er ein minimales, einzelnes Go-Binary namens codehamr (MIT Open Source) erstellt – keine Plugins, kein MCP, keine Themes. Der Agent erledigt Suche, Abhängigkeiten und Dateiarbeiten über Bash bei Bedarf. Das Repository ist verfügbar unter: https://github.com/codehamr/codehamr
Wichtige Details
- Modell: Qwen3.6:27b bei Q8-Quantisierung, läuft auf RTX 6000 (96 GB) mit 128k Kontext – überdimensioniert für ein 30B-Modell.
- Consumer-Alternative: RTX 5090 (32 GB) bei Q4_M sollte mit guter Prompt-Disziplin eine ähnliche Programmiererfahrung bieten.
- Agent-Build: Benutzerdefiniertes Go-Binary – minimal, keine Plugins, kein MCP. Verwendet Bash für Suche, Abhängigkeiten, Dateioperationen.
- Lizenz: MIT Open Source, zum Forken oder Ignorieren verfügbar.
Der Entwickler betont, dass jeder Schritt in Richtung lokaler LLMs die Abhängigkeit von Cloud-Tools reduziert. Dieses Setup ist in Kombination mit disziplinierter Prompt-Gestaltung die erste lokale Konfiguration, bei der er Claude Code nicht vermisst.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

VSCode-Perplexity-MCP: Nutzen Sie Ihr Perplexity-Konto für kostenlose KI-Suche in VS Code
Ein Open-Source-MCP-Server, der es ermöglicht, Ihr Perplexity.ai-Konto mit VS Code zu verbinden und Clawbot Such-, Reasoning- und Compute-Funktionen bereitzustellen, ohne pro API-Anfrage zu bezahlen.

Flash-MOE-Benchmark auf dem M5 Max: 12.99 Tok/s mit Qwen3.5-397B
Ein Benchmark des 397-Milliarden-Parameter-Modells Qwen3.5, das lokal auf einem MacBook Pro M5 Max mit 128 GB RAM läuft, erreichte 12,99 Token pro Sekunde mit 4-Bit-Quantisierung und Cache-IO-Split 4, was dreimal schneller ist als der ursprüngliche Benchmark mit 48 GB.

EvalShift: Open-Source-CLI zur Erkennung von LLM-Regressionen bei der Modellmigration
EvalShift ist ein MIT-lizenziertes Python-CLI, das Ausgaben von Quell- vs. Ziel-LLMs über Prompts, Agents und Tool-Calling-Workflows vergleicht und einen lokalen HTML-Regressionsbericht erstellt.

HolyCode: Docker-Container für persistente Claude AI-Codierungsumgebungen
HolyCode ist ein Docker-Container, der den Zustand der KI-Codierungsumgebung bei Maschinenwechseln und Neuerstellungen beibehält. Er enthält über 30 vorinstallierte Tools, Browser-Automatisierung mit Chromium + xvfb + Playwright und bewahrt den Kontext in ./data/opencode.