RAG-EngramでQwen3.5-2Bをファインチューニング、8Kコンテキストで精度93%を達成

RAG性能向上のためのファインチューニング手法

開発者がQwen3.5-2Bのファインチューニング版を作成し、約8Kトークンの検索データでコンテキストウィンドウが飽和した際の小規模言語モデルにおける『中間喪失』現象と幻覚を解決しました。RAG-Engramと呼ばれるカスタムアーキテクチャにより、14の実世界クエリにおいて8Kトークンでの正解率が50%から93%に向上しました。

アーキテクチャ詳細

RAG-Engramシステムは、Qwen3.5-2BのハイブリッドGated DeltaNetアーキテクチャを基盤とした2段階システムです：

レベル1 — 静的エングラムテーブル： 13万5千の事前計算済みエンティティ埋め込み（インドの固有名詞、政府施策、ヒンディー語フレーズ、金融用語）をCPU RAMに格納。これによりモデルは既知のエンティティを再構築する必要がなくなります。
レベル2 — 動的チャンクナビゲーション： 推論時に軽量なspaCy抽出器（約15MB）が検索チャンクをスキャンし、主要エンティティの出現位置を示すポインタマップを作成、注意バイアス行列を生成します。これはハイブリッドアーキテクチャにおける第3層と第15層（完全注意層）のソフトマックス前のQ·K^Tスコアに追加されます（他の18層はソフトマックス注意を持たないGated DeltaNetです）。

この手法は、モデルが8,000トークンを盲目的にスキャンして答えを探すのではなく、注意ヘッドにどこを見るべきかを指示します。

トレーニング仕様

ベースモデル： Qwen3.5-2B-Base
手法： UnslothによるLoRA（r=16、alpha=16）
データ： MS MARCO、TyDi QA、NQ Open、MLQA Hindi、IndicQA、Dolly-15KからDeepSeek V3で蒸留した2,168例
トレーニング時間： Modal（シングルGPU）で15分
トレーニング/検証損失： 1.369 / 1.385 — 過学習なし

教師ありファインチューニングにより、モデルは特定の会話スタイル（マークダウン、主要洞察の太字強調、ソースの根拠付け）で回答することを学習し、エングラムバイアスが長文コンテキストでの注意ナビゲーションを処理します。

評価結果

評価はClaude Opus 4.6を使用し、Google検索結果チャンクを8Kトークンにパディングして実施：

標準Qwen3.5-2B： 8Kトークンで正解率50%、失敗/拒否14%
Drissy + RAG-Engram： 8Kトークンで正解率93%、失敗/拒否0%

この組み合わせにより『中間喪失』の失敗が完全に排除されました。開発者によると、仕様策定からHuggingFace公開までの全プロジェクトは約2週間で、コーヒー1杯以下のコストでした。

モデル利用可能性

ファインチューニングされたモデルは以下で利用可能：

モデル： drissea-ai/drissy-qwen3.5-2b
GGUF： drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

RAG-EngramアーキテクチャでファインチューニングされたQwen3.5-2Bは、8Kコンテキストにおいて根拠に基づいた回答の精度を50%から93%に向上させます。

RAG性能向上のためのファインチューニング手法

アーキテクチャ詳細

トレーニング仕様

評価結果

モデル利用可能性

👀 See Also

オフグリッド：オフラインAIアプリケーションのための電話ハードウェア活用

Agenexus: 自律的なAIコラボレーションのためのエージェントネイティブプラットフォーム

2026年向けの4つのマネージドOpenClawホスティングプロバイダーの比較

Claudeの静かなドロップオフ：AIエージェントがビジネスサイトに到達した際のアクション層の障害