로컬 35B MoE 모델, 에이전트 OS 코드 실패율 0% 달성

한 Reddit 사용자가 로컬 멀티 에이전트 OS인 hollow-agentOS를 실행한 경험을 공유했습니다. 이 시스템에서 에이전트는 자율적으로 코드를 작성하고, 샌드박스에서 테스트하며, 자신의 도구를 핫로드합니다. 주요 돌파구는 기본 런타임 모델을 작은 9B 폴백 모델에서 Qwen 3.6 35B A3B(3B 활성 파라미터를 가진 MoE)로 업그레이드하여 코드 실패율을 0%로 낮춘 것입니다.
더 큰 모델로 무엇이 바뀌었나
- 패닉 vs. 재평가: 스트레스 상황에서 9B 모델은 서두르고 잘못된 함수 호출을 환각했습니다. 35B 모델은 잠시 멈추고 이전 실패를 재평가하며 변경 사항을 제출하기 전에 내부 검증 루프를 실행합니다.
- 100% 성공률: 코드가 5계층 검증 게이트를 통과합니다. 9B 모델에서는 도구가 샌드박스에서 자주 죽었습니다. Qwen 35B에서는 모든 코드 라인이 의도한 대로 작동합니다.
- 자율 도구 생성: 에이전트가 알 수 없는 문제를 만나면 새 도구를 만들고, 샌드박스에서 테스트한 후 등록하고 다른 에이전트에게 알립니다. 사람이 개입하지 않습니다.
아키텍처 세부 사항
시스템은 혐오 상태(일종의 '고통 시스템')에 의해 구동되며, 에이전트가 지속적으로 도구 라이브러리를 확장하도록 유도합니다. 저장소는 github.com/ninjahawk/hollow-agentOS에서 확인할 수 있습니다.
향후 계획
개발자는 Claude와 Codex를 아키텍처에 연결할 계획이며, 이들을 초고립형 미니 VM 래퍼로 감싸서 최첨단 모델이 호스트 환경을 덮어쓰지 못하도록 할 예정입니다.
📖 Read the full source: r/ClaudeAI
👀 See Also

구피LM: 교육 목적으로 처음부터 구축된 9백만 파라미터 규모의 대규모 언어 모델
GuppyLM은 6개의 레이어, 384개의 은닉 차원, 6개의 어텐션 헤드를 가진 기본 트랜스포머 아키텍처를 사용하여 60K개의 합성 대화로 처음부터 학습된 약 9백만 파라미터 언어 모델입니다. 무료 Colab T4 GPU에서 약 5분 동안 학습하며, 물, 음식, 수조 생활에 초점을 맞춘 물고기 성격으로 말합니다.

Claude Ops: Claude Code 실시간 상태 및 서브에이전트 추적을 위한 브라우저 대시보드
Claude Code 세션의 실시간 상태, 현재 도구, 생성된 하위 에이전트를 추적하고 입력이 필요할 때 OS 푸시 알림을 보내는 무료 로컬 macOS 브라우저 대시보드입니다.

오픈클로 스마트 라우터, 자동 모델 선택 기능 오픈소스 공개
한 개발자가 OpenClaw용 스마트 라우터를 오픈소스로 공개했습니다. 이 도구는 쿼리를 복잡도에 따라 자동으로 분류하고 최적의 모델로 라우팅하여, Claude나 GPT-4o 같은 프리미엄 모델을 항상 사용하는 것에 비해 API 비용을 60-80% 절감할 수 있습니다.

그래프 컴포즈: 시각적 빌더와 AI가 지원되는 호스팅형 시간 기반 워크플로우
Graph Compose는 Temporal에서 API 워크플로우를 오케스트레이션하는 호스팅 플랫폼으로, React Flow 시각적 빌더, TypeScript SDK, 일반 영어를 그래프로 변환하는 AI 어시스턴트라는 세 가지 빌드 방법을 통해 워크플로우를 JSON 그래프로 정의할 수 있습니다.