Correction de la limite maxTokens du modèle Ollama Cloud : le maximum est de 16K, pas la valeur de configuration

✍️ OpenClawRadar📅 Publié: June 3, 2026🔗 Source
Correction de la limite maxTokens du modèle Ollama Cloud : le maximum est de 16K, pas la valeur de configuration
Ad

Avis à tous ceux qui voient unexpected EOF d'agents en production : si votre openclaw.json contient des entrées de modèle cloud comme { "id": "deepseek-v4-pro:cloud", "maxTokens": 500000 }, ce maxTokens n'est pas réel. Ollama cloud limite la sortie à 16 384 jetons côté serveur, peu importe votre configuration. Lorsqu'un agent tente d'émettre quelque chose au-delà, le serveur amont coupe la socket en plein flux et vous obtenez une erreur de transport depuis ollama.com:443. OpenClaw traite cela comme un basculement lié à un délai d'attente, donc il tentera votre solution de repli si configurée — mais si le repli est aussi un modèle :cloud, même mur.

Ad

Ce qui a aidé

  • Corrigez maxTokens sur les entrées cloud pour qu'OpenClaw ne demande pas des budgets de sortie que le service n'honorera pas :
    { "id": "deepseek-v4-pro:cloud", "maxTokens": 14000 }
    { "id": "kimi-k2.6:cloud", "maxTokens": 14000 }
    14k pas 16k — laisse un peu de marge car les modèles deviennent parfois étranges juste à la limite absolue.
  • Restructurez les sorties structurées volumineuses (long JSON, contenu multi-section) pour émettre une section par tour au lieu de tout regrouper. Reste en dessous de la limite et les tentatives sont plus propres.
  • Aiguillez les agents lourds vers un fournisseur direct via la surcharge de modèle par agent dans agents.list[] plutôt que de passer par :cloud. Laissez les agents à faible sortie sur Ollama cloud. Configuration unique :
    openclaw onboard --auth-choice deepseek-api-key
    Ensuite dans agents.list, surchargez ceux qui en ont besoin :
    "list": [ { "id": "your-agent", "model": "deepseek/deepseek-v4-pro" } ]
    Compromis : facturation par jeton au lieu d'un forfait, mais limité aux agents qui ont besoin de marge.

À retenir

Si vos agents échouent en cours de route sur des sorties longues et que vous avez vérifié les bases, examinez la limite de sortie réelle de votre fournisseur avant de vous lancer dans une chasse aux bogues OpenClaw. Le message d'erreur est inutile et le champ de configuration ne vous dit pas qu'il est écrasé côté serveur.

📖 Lire la source complète : r/openclaw

Ad

👀 See Also

Gonflement des tokens dans les cadres d'agents : un ratio entrée-sortie de 500:1 est normal
Tips

Gonflement des tokens dans les cadres d'agents : un ratio entrée-sortie de 500:1 est normal

Un utilisateur d'un framework d'agents auto-hébergé rapporte environ 21k tokens d'entrée par message et un ratio entrée/sortie de 500:1 dû aux définitions d'outils, au prompt système et à la mémoire. La communauté confirme qu'un contexte de base de 15 à 25k tokens est courant pour les agents utilisant des outils.

OpenClawRadar
11 astuces avancées pour Claude après 18 mois d'utilisation quotidienne
Tips

11 astuces avancées pour Claude après 18 mois d'utilisation quotidienne

Un développeur senior partage 11 astuces non évidentes sur Claude après 18 mois d'utilisation quotidienne, notamment Projects, Custom Styles, Memory, Sonnet 4.6 vs Opus 4.7, Haiku 4.5 pour le travail par lots, les sous-agents Claude Code et les Artifacts appelant l'API.

OpenClawRadar
Correcteur de proxy Discord OpenClaw pour les problèmes de délai d'expiration de l'API REST
Tips

Correcteur de proxy Discord OpenClaw pour les problèmes de délai d'expiration de l'API REST

Un utilisateur signale avoir résolu des problèmes de connexion Discord avec OpenClaw où le WebSocket se connecte mais les appels d'API REST échouent avec des erreurs "fetch failed UND_ERR_CONNECT_TIMEOUT". La solution implique la création d'un fichier proxy-preload.cjs et la configuration des paramètres de proxy global undici.

OpenClawRadar
Les agents travailleurs ne devraient pas écrire directement la mémoire : un modèle Curateur-Agent
Tips

Les agents travailleurs ne devraient pas écrire directement la mémoire : un modèle Curateur-Agent

Un post Reddit détaille un pattern Memory Curator qui empêche les agents workers d'écrire directement dans la mémoire partagée, en routant les événements via une couche de validation et de cadrage.

OpenClawRadar