Ollama Cloud 모델 maxTokens 수정: 상한선은 16K, 구성 값 아님

프로덕션에서 에이전트가 unexpected EOF 오류를 발생시키는 경우 주의하세요. openclaw.json에 { "id": "deepseek-v4-pro:cloud", "maxTokens": 500000 } 같은 클라우드 모델 항목이 있다면, 그 maxTokens는 실제가 아닙니다. Ollama 클라우드는 설정과 관계없이 서버 측에서 출력을 16,384 토큰으로 제한합니다. 에이전트가 그 이상을 출력하려고 하면 상위 서버가 스트림 중간에 소켓을 끊어버리고, ollama.com:443에서 전송 오류가 발생합니다. OpenClaw는 이를 타임아웃 형태의 장애 조치로 간주하여 설정된 대체 모델을 시도하지만, 대체 모델도 :cloud 모델이면 같은 문제가 발생합니다.
도움이 된 조치
- 클라우드 항목의 maxTokens 수정 — OpenClaw가 서비스가 제공하지 못할 출력 예산을 요청하지 않도록 함:
{ "id": "deepseek-v4-pro:cloud", "maxTokens": 14000 }
{ "id": "kimi-k2.6:cloud", "maxTokens": 14000 }
16k가 아닌 14k — 모델이 절대 상한에서 이상해질 수 있으므로 약간의 여유를 둠. - 대규모 구조적 출력 재구성 (긴 JSON, 여러 섹션 콘텐츠) — 모든 것을 한 번에 처리하는 대신 턴당 하나의 섹션을 출력하도록 함. 상한을 넘지 않으며 재시도가 더 깔끔함.
- 대규모 에이전트를 직접 제공업체로 라우팅 —
:cloud를 거치지 않고agents.list[]에서 에이전트별 모델 오버라이드를 사용. 소규모 출력 에이전트는 Ollama 클라우드에 그대로 둠. 일회성 설정:
openclaw onboard --auth-choice deepseek-api-key
그런 다음 agents.list에서 필요한 에이전트를 오버라이드:
"list": [ { "id": "your-agent", "model": "deepseek/deepseek-v4-pro" } ]
트레이드오프: 정액제 대신 토큰당 과금이지만, 여유 공간이 필요한 에이전트에 한정됨.
결론
에이전트가 긴 출력 도중 실패하고 명백한 문제를 확인했는데도 원인을 모르겠다면, OpenClaw 버그를 의심하기 전에 제공업체의 실제 출력 제한을 확인하세요. 오류 메시지는 도움이 되지 않으며, 설정 필드는 서버 측에서 재정의되고 있다는 사실을 알려주지 않습니다.
📖 전체 출처 읽기: r/openclaw
👀 See Also

클로드의 /btw 명령어는 작업 중에 병렬적으로 의사소통할 수 있게 해줍니다.
클로드 AI가 이제 /btw 명령어를 지원하여, AI가 작업을 진행 중일 때도 사용자가 질문, 추가 지시 또는 설명을 할 수 있게 되었습니다. 이로써 현재 워크플로우를 중단하지 않고도 상호작용이 가능해졌습니다.

모델 전환으로 OpenClaw Agent 비용 80% 절감하는 방법
한 사용자가 14일 동안 토큰 사용량을 추적한 결과, 지출의 67%가 저렴한 Flash 모델이 Opus와 동일한 품질을 제공하는 작업에 사용되었습니다. 기본 모드를 Flash로 전환하고 세션 중간에 /model 명령어를 사용하면 월 비용이 약 $170에서 $35로 절감됩니다.

AI 코딩 에이전트를 위한 Bite vs Nibble 접근법
한 NLP 연구자가 AI 코딩 에이전트 작업을 위한 두 가지 멘탈 모델을 설명합니다: claude.md와 같은 포괄적인 지침 파일을 사용하는 '한입(bite)' 접근법과, 여러 번의 반복을 통한 점진적 개선을 사용하는 '조금씩(nibble)' 접근법입니다.

비용 효율적인 OpenClaw 자동화: 필요할 때만 LLM 활용
한 개발자가 OpenClaw를 사용해 결정론적 작업을 수행하면서 지속적인 LLM 호출을 피하는 실용적인 접근법을 공유합니다. Python 스크립트를 cron 작업으로 만들어 오류가 발생해 분석과 수정이 필요할 때만 LLM을 호출합니다.