Ollama Cloud maxTokens 한계: 실제 상한은 16,384

프로덕션에서 에이전트가 unexpected EOF 오류를 발생시키는 경우 주의하세요. openclaw.json에 { "id": "deepseek-v4-pro:cloud", "maxTokens": 500000 } 같은 클라우드 모델 항목이 있다면, 그 maxTokens는 실제가 아닙니다. Ollama 클라우드는 설정과 관계없이 서버 측에서 출력을 16,384 토큰으로 제한합니다. 에이전트가 그 이상을 출력하려고 하면 상위 서버가 스트림 중간에 소켓을 끊어버리고, ollama.com:443에서 전송 오류가 발생합니다. OpenClaw는 이를 타임아웃 형태의 장애 조치로 간주하여 설정된 대체 모델을 시도하지만, 대체 모델도 :cloud 모델이면 같은 문제가 발생합니다.

도움이 된 조치

클라우드 항목의 maxTokens 수정 — OpenClaw가 서비스가 제공하지 못할 출력 예산을 요청하지 않도록 함:
{ "id": "deepseek-v4-pro:cloud", "maxTokens": 14000 }
{ "id": "kimi-k2.6:cloud", "maxTokens": 14000 }
16k가 아닌 14k — 모델이 절대 상한에서 이상해질 수 있으므로 약간의 여유를 둠.
대규모 구조적 출력 재구성 (긴 JSON, 여러 섹션 콘텐츠) — 모든 것을 한 번에 처리하는 대신 턴당 하나의 섹션을 출력하도록 함. 상한을 넘지 않으며 재시도가 더 깔끔함.
대규모 에이전트를 직접 제공업체로 라우팅 — :cloud를 거치지 않고 agents.list[]에서 에이전트별 모델 오버라이드를 사용. 소규모 출력 에이전트는 Ollama 클라우드에 그대로 둠. 일회성 설정:
openclaw onboard --auth-choice deepseek-api-key
그런 다음 agents.list에서 필요한 에이전트를 오버라이드:
"list": [ { "id": "your-agent", "model": "deepseek/deepseek-v4-pro" } ]
트레이드오프: 정액제 대신 토큰당 과금이지만, 여유 공간이 필요한 에이전트에 한정됨.