Configurer Claude Code avec Qwen3.5 27B localement

Configuration Locale de Claude Code

Un développeur a documenté son installation pour exécuter Claude Code entièrement hors ligne en utilisant un LLM local avec llama.cpp. Le système utilise Qwen3.5 27B quantifié avec unsloth/UD-Q4_K_XL sur Arch Linux avec du matériel Strix Halo.

Configuration de l'Environnement

Pour désactiver la télémétrie et rendre Claude Code complètement hors ligne, les variables d'environnement suivantes ont été définies dans ~/.bashrc :

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768

Le développeur a noté que l'utilisation de claude/settings.json est plus stable et contrôlable que les variables d'environnement.

Configuration du Serveur llama.cpp

Le serveur llama.cpp a été lancé avec ces paramètres :

ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0

Le drapeau ROCBLAS_USE_HIPBLASLT=1 était requis pour le matériel Strix Halo, et le développeur a souligné l'importance de rechercher le matériel spécifique pour spécialiser la configuration de llama.cpp.

Benchmarks de Performance

Sept exécutions ont été réalisées avec les résultats suivants :

Exécution 1 (Opérations sur fichiers) : 1m44s, 9,71 tokens/seconde, 23K de contexte, sortie correcte
Exécution 2 (Git clone + lecture de code) : 2m31s, 9,56 t/s, 32,5K de contexte, excellente qualité
Exécution 3 (Plan sur 7 jours + guide) : 4m57s, 8,37 t/s, 37,9K de contexte, excellente qualité
Exécution 4 (Évaluation des compétences) : 4m36s, 8,46 t/s, 40K de contexte, très bonne qualité (recherche web cassée)
Exécution 5 (Écriture d'un script Python) : 10m25s, 7,54 t/s, 60,4K de contexte, bonne qualité (7/10)
Exécution 6 (Revue de code + correction) : 9m29s, 7,42 t/s, 65 535 de contexte (PLANTAGE), très bonne qualité (8,5/10)
Exécution 7 (commande /compact) : ~10m, ~8,07 t/s, 66 680 de contexte (échec), qualité N/A

Principales Constatations

La vitesse de génération a diminué d'environ 24 % sur la plage de contexte : de 9,71 t/s à 23K de contexte à 7,42 t/s à 65K de contexte
L'invite système de Claude Code consomme 22 870 tokens (35 % du budget de 65K)
La compaction automatique était complètement cassée : Claude Code supposait un contexte de 200K, donc le seuil de 95 % était de 190K, mais la limite de 65K a été atteinte à 33 % de ce que Claude Code pensait être la fenêtre
La commande /compact nécessite une marge de sortie : avec 4096 tokens de sortie maximum, le résumé de compaction ne pouvait pas tenir, nécessitant 16K+ tokens
La fonctionnalité de recherche web est cassée sans connectivité Anthropic ; des solutions potentielles incluent SearXNG via MCP

📖 Read the full source: r/LocalLLaMA