デュアルモデルアーキテクチャでトークン消費量を半減する方法

AIエージェントのためのコンテキスト圧縮システム

r/ClaudeAIの開発者が、会話圧縮後にAIエージェントがコンテキストを失う問題に対する解決策を共有しました。このシステムは、安価な小さなモデル（「潜在意識」と呼ばれる）がバックグラウンドで継続的に会話履歴を圧縮する二重モデルアーキテクチャを使用しています。

このシステムは4つの層で構成されています：

メインモデル（「意識」）は、通常は120Kトークンの生の履歴が必要となる情報密度を維持しながら、精選された約35Kトークンのコンテキストを受け取ります。メインモデルは一貫したタイムラインを読み取り、メモリシステムの存在を知りません。

開発者は、異なる会話タイプにわたる260ターンをシミュレーションしました。継続的なプロジェクト作業（重い調査から始まり、モデルがドメインを学習するにつれて迅速なやり取りに移行する）では、このシステムはトークン消費量を約半分に削減します。

このシステムは、シミュレーション用にClaude Code、コンサルティングおよび研究段階でClaude.aiを使用して構築されました。開発者は、小さなモデルをルーティングして大きなモデルのコンテキストを管理しようとしたり、圧縮問題に対する他の回避策を見つけたりした他の人々を探しています。

📖 完全なソースを読む： r/ClaudeAI