Qwen3-0.6B INT8: ローカルAI埋め込みバックボーン実装

ある開発者が、Claude Code内で動作するAIメモリライフサイクルシステムの基盤として、ONNX RuntimeでINT8に量子化したQwen3-0.6Bを使用したローカル埋め込みシステムの実装を共有しました。

課題と要件

このシステムは、埋め込みAPIのスケーリング問題に対処します：一般的なAIコーディングアシスタントは1日あたり数百回のAPI呼び出し（15〜25セッション）を行い、書き込みごとに遅延が発生し、価格変動のある外部サービスへの依存が生じます。要件には、1024次元ベクトル、真の意味的関連性を示す0.75以上のコサイン類似度、20エントリ以上のバッチ処理、およびAPI呼び出しゼロが含まれていました。

モデル選択と実装

複数のモデルをテストした後、1024次元のQwen3-0.6Bは、sentence-transformersモデルと比較して、真に関連するエントリと構造的ノイズ（トピックは共有しないが形式を共有するセッションログ）の間でより良い分離を提供しました。

実装では、INT8量子化を施したONNX Runtimeを使用しています。コールドスタート問題（3秒のモデル読み込み）は、システム起動時に一度だけモデルを読み込むlocalhost:52525上の永続的な埋め込みサーバーによって解決されました。ウォーム推論ではバッチあたり約12msを達成し、コールドスタートと比べて約250倍高速です。

システムアーキテクチャ

サーバーはスタートアップフックを介して自動的に起動
サーバーがダウンした場合、システムは直接ONNX読み込みにフォールバック（低速だが機能する）
すべてCPUベース、GPU不要
単一のPythonスクリプト、約2,900行、SQLite + ONNX

メモリライフサイクルのフェーズ

このシステムは知識を5つのフェーズで処理し、埋め込みがフェーズ2から4を駆動します：

バッファ
接続：新しいエントリは、コサイン類似度0.75以上の既存エントリにリンクされます。孤立したエントリは時間とともにフェードアウトし、接続されたエントリは存続します。有効期限は時間ではなく、孤立度に基づきます。
統合：3つ以上の接続されたエントリのグループが、LLM（Gemini Flash無料ティア）によって確立された知識に統合されます
ルーティング：確立された知識は、既存コンテンツへの埋め込み距離に基づいて適切な設定ファイルにルーティングされます
経年化