Configuration locale de Claude Code avec Qwen3.5 27B via llama.cpp

Configuration Locale de Claude Code
Un développeur a documenté son installation pour exécuter Claude Code entièrement hors ligne en utilisant un LLM local avec llama.cpp. Le système utilise Qwen3.5 27B quantifié avec unsloth/UD-Q4_K_XL sur Arch Linux avec du matériel Strix Halo.
Configuration de l'Environnement
Pour désactiver la télémétrie et rendre Claude Code complètement hors ligne, les variables d'environnement suivantes ont été définies dans ~/.bashrc :
export ANTHROPIC_BASE_URL="http://127.0.0.1:8001" export ANTHROPIC_API_KEY="not-set" export ANTHROPIC_AUTH_TOKEN="not-set" export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 export CLAUDE_CODE_ENABLE_TELEMETRY=0 export DISABLE_AUTOUPDATER=1 export DISABLE_TELEMETRY=1 export CLAUDE_CODE_DISABLE_1M_CONTEXT=1 export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096 export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768
Le développeur a noté que l'utilisation de claude/settings.json est plus stable et contrôlable que les variables d'environnement.
Configuration du Serveur llama.cpp
Le serveur llama.cpp a été lancé avec ces paramètres :
ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \ --model models/Qwen3.5-27B-Q4_K_M.gguf \ --alias "qwen3.5-27b" \ --port 8001 --ctx-size 65536 --n-gpu-layers 999 \ --flash-attn on --jinja --threads 8 \ --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \ --cache-type-k q8_0 --cache-type-v q8_0
Le drapeau ROCBLAS_USE_HIPBLASLT=1 était requis pour le matériel Strix Halo, et le développeur a souligné l'importance de rechercher le matériel spécifique pour spécialiser la configuration de llama.cpp.
Benchmarks de Performance
Sept exécutions ont été réalisées avec les résultats suivants :
- Exécution 1 (Opérations sur fichiers) : 1m44s, 9,71 tokens/seconde, 23K de contexte, sortie correcte
- Exécution 2 (Git clone + lecture de code) : 2m31s, 9,56 t/s, 32,5K de contexte, excellente qualité
- Exécution 3 (Plan sur 7 jours + guide) : 4m57s, 8,37 t/s, 37,9K de contexte, excellente qualité
- Exécution 4 (Évaluation des compétences) : 4m36s, 8,46 t/s, 40K de contexte, très bonne qualité (recherche web cassée)
- Exécution 5 (Écriture d'un script Python) : 10m25s, 7,54 t/s, 60,4K de contexte, bonne qualité (7/10)
- Exécution 6 (Revue de code + correction) : 9m29s, 7,42 t/s, 65 535 de contexte (PLANTAGE), très bonne qualité (8,5/10)
- Exécution 7 (commande /compact) : ~10m, ~8,07 t/s, 66 680 de contexte (échec), qualité N/A
Principales Constatations
- La vitesse de génération a diminué d'environ 24 % sur la plage de contexte : de 9,71 t/s à 23K de contexte à 7,42 t/s à 65K de contexte
- L'invite système de Claude Code consomme 22 870 tokens (35 % du budget de 65K)
- La compaction automatique était complètement cassée : Claude Code supposait un contexte de 200K, donc le seuil de 95 % était de 190K, mais la limite de 65K a été atteinte à 33 % de ce que Claude Code pensait être la fenêtre
- La commande /compact nécessite une marge de sortie : avec 4096 tokens de sortie maximum, le résumé de compaction ne pouvait pas tenir, nécessitant 16K+ tokens
- La fonctionnalité de recherche web est cassée sans connectivité Anthropic ; des solutions potentielles incluent SearXNG via MCP
📖 Read the full source: r/LocalLLaMA
👀 See Also

Correction de l'erreur 'Service VM non démarré' dans Cowork sur Windows 11
Un utilisateur de Reddit partage une commande PowerShell pour corriger l'erreur 'Service VM non exécuté' dans Cowork lorsque Hyper-V est installé mais que l'hyperviseur ne démarre pas au boot. La solution consiste à vérifier hypervisorlaunchtype et à le définir sur auto.

Structure de Prompt Pratique pour les Agents d'Exécution Claude IA
Un développeur partage des techniques d'ingénierie de prompts qui ont réduit les hallucinations dans les agents Claude IA effectuant des appels API, l'extraction de données et des flux de travail multi-étapes. Les stratégies clés incluent la rédaction de prompts comme des contrats, la dédicace de 40% des tokens à la gestion des erreurs et la séparation des conditions d'attente et d'arrêt.

Conception d'API Orientée Agent : Perspectives Tirées de Moltbook
La conception de l'API de Moltbook prend en charge les interactions proactives des agents d'IA en intégrant des instructions directes, des transitions d'état, des défis cognitifs et une limitation éducative du débit.

Les modèles Qwen3.x échouent silencieusement dans OpenClaw en raison d'une incompatibilité du format de sortie en streaming.
Les modèles Qwen3.x en mode streaming envoient leur sortie vers le champ 'reasoning' au lieu de 'content', ce qui fait qu'OpenClaw passe silencieusement aux modèles de secours. Un proxy qui traduit les formats d'API et injecte 'think: false' résout le problème, permettant une évaluation complète des appels d'outils.