ローカル35B MoEモデル、Agent OSコード障害率を0%に低減

あるRedditユーザーが、hollow-agentOSというローカルのマルチエージェントOSを実行した経験を共有しました。このOSでは、エージェントが自律的にツールを作成し、サンドボックスでテストし、ホットロードします。重要な進展は、デフォルトのランタイムモデルを小さな9BのフォールバックからQwen 3.6 35B A3B(アクティブパラメータ3BのMixture-of-Experts)にアップグレードしたことで、コードの不具合率が0%になったことです。
大規模モデルによる変化
- パニック vs 再評価: ストレス下では、9Bモデルは焦って無効な関数呼び出しを幻覚しました。35Bモデルは一時停止し、以前の失敗を再評価し、変更を送信する前に内部検証ループを実行します。
- 100%の成功率: コードは5層の検証ゲートを通過します。9Bモデルでは、ツールが頻繁にサンドボックス内で死んでいました。Qwen 35Bでは、すべてのコード行が意図した通りに動作します。
- 自律的なツール作成: エージェントが未知の問題に遭遇すると、新しいツールを構築し、サンドボックスでテストし、登録し、他のエージェントに通知します。人間の介入はありません。
アーキテクチャの詳細
システムは、エージェントがツールライブラリを継続的に拡張するよう促す逆境状態(「苦痛システム」)によって駆動されます。リポジトリはgithub.com/ninjahawk/hollow-agentOSで入手可能です。
将来の計画
開発者は、ClaudeとCodexをアーキテクチャに組み込み、それらを超孤立化されたミニVMラッパーでラップして、フロンティアモデルがホスト環境を上書きするのを防ぐ予定です。
📖 Read the full source: r/ClaudeAI
👀 See Also

RAG学習アカデミーは、20の専門エージェントを内蔵したClaude Code内に構築されています。
ある開発者が、Claude Code内に20の専門エージェント、17のスラッシュコマンド、知識レベルを評価する9モジュールのカリキュラムを備えたインタラクティブなRAG学習アカデミーを作成しました。デフォルトではオープンソースツールを使用しています。

Claude Code プラグイン /verify: 計画から自動ブラウザテストを実行
/verifyは、あなたの計画を読み取り、Playwright MCPを介して実際のブラウザを起動し、各要件をチェックして、スクリーンショット付きの合格/不合格レポートを提供するオープンソースのClaude Codeプラグインです。

PixelCheck: AIエージェントがウェブページを視覚的に検証できるnpmパッケージ
PixelCheckは、AIエージェントがWebページを視覚的に開いて操作し、採点することを可能にするnpmパッケージです。手動のスクリーンショットとフィードバックのループはもう必要ありません。

59のクロードスキルからなるオープンソースライブラリがウェブサイトライフサイクル全体をカバー
ある開発者が、ブランド発見、デザイン、コンテンツ、SEO、開発、運用、成長をカバーする59の再利用可能なClaudeスキルを公開しました。スタックに依存せず、統一された構造とCIリント検証を備えています。