Les modèles Qwen3.x échouent silencieusement dans OpenClaw en raison d'une incompatibilité du format de sortie en streaming.

Le Problème
Lors de l'exécution locale des modèles Qwen3.x avec OpenClaw en mode streaming, ces modèles envoient leurs réponses vers le champ reasoning au lieu du champ content attendu. OpenClaw interprète un contenu vide comme un échec et passe silencieusement au modèle suivant dans votre chaîne de secours sans générer d'erreur. Cela entraîne l'utilisation d'un modèle incorrect pour répondre aux requêtes.
La Solution
La correction implique la mise en place d'un petit proxy positionné entre OpenClaw et Ollama. Ce proxy remplit deux fonctions clés :
- Traduit le format d'API entre les deux systèmes
- Injecte
think: falseà l'emplacement approprié
Une fois correctement configuré, les modèles Qwen3.x réussissent l'évaluation complète des appels d'outils avec un score parfait (15/15), incluant l'exécution, la lecture de fichiers, la recherche web, l'intégration Sheets, l'intégration Slack et les opérations de mémoire.
Détails d'Implémentation
La source fournit un compte-rendu complet couvrant :
- Les instructions de configuration du proxy
- Six paramètres de configuration spécifiques qui doivent tous être corrects
- Les approches de surveillance
- Ce qui ne fonctionne pas (pièges courants à éviter)
Les détails techniques complets, y compris des extraits de code et des exemples de configuration, sont disponibles dans le gist lié.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Cartes de flux : Apprendre l'intégrale d'un modèle de diffusion pour un échantillonnage plus rapide
Sander Dieleman explique les flow maps — des réseaux de neurones qui prédisent directement l'intégrale de l'ODE d'un modèle de diffusion, permettant un échantillonnage plus rapide, un apprentissage basé sur les récompenses et une orientabilité.

Comment configurer Qwen 3.6 Plus Preview sur OpenRouter pour une utilisation gratuite d'OpenClaw
Qwen 3.6 Plus Preview est actuellement gratuit sur OpenRouter avec une fenêtre de contexte d'un million de tokens, adapté pour le travail d'agent IA. La configuration implique de créer un compte OpenRouter, d'ajouter le fournisseur à OpenClaw et de configurer le modèle.

Configuration et tests de vLLM sur un serveur équipé de 10x NVIDIA V100 avec 320 Go de VRAM
Un avocat construisant un serveur IA local pour le travail juridique partage les résultats de tests vLLM sur 10 GPU Tesla V100 SXM2 32 Go, détaillant ce qui fonctionne (FP16 non quantifié, bitsandbytes 4 bits) et ce qui ne fonctionne pas (GPTQ, AWQ, FlashAttention2) sur l'architecture Volta.

Configuration Multi-Agent OpenClaw Rentable à l'Aide de Modèles d'Abonnement
Un utilisateur de Reddit décrit comment il achemine toutes les opérations multi-agents d'OpenClaw via des abonnements existants à Anthropic Pro Max à 200 $ et à ChatGPT OpenAI Codex à 200 $, plutôt que d'utiliser des appels API directs, en utilisant des modèles Anthropic moins chers pour les agents simples et des modèles plus complexes pour les autres.