RAG vs ファインチューニング：7年分の日記分析の失敗比較

r/ClaudeAIの開発者が、2019年から2026年までの200以上の個人日記エントリをLLMに与え、縦断的分析を行った経験を共有した。目的は行動パターンを検出し、7年間でどのように変化したかを測定することだった。技術的な道のりは行き詰まりの連続だった。

主な技術的失敗

RAG（検索拡張生成）の失敗 — 日記エントリが類似しすぎていたため、検索で意味的に重複するチャンクが返された。モデルは一貫した縦断的洞察を生成できなかった。
ファインチューニングの失敗 — データセットが小さすぎたため（200エントリ）、モデルが過学習し、時間を超えたパターンを一般化できなかった。
プライバシー制約 — クラウドAPIの使用は不可能で、機密性の高い日記データを保護するためローカル処理が必要だった。

回避策

最終的なアプローチは、エントリを年ごとにチャンク化し、ローカルLLM（おそらくOllama経由のLlamaかMistral）で各年を要約し、その7つの年次要約をモデルに再度与えて年をまたいだ分析を行うというものだった。この階層的要約により、RAGの限界を回避し、大規模なファインチューニングの必要性を回避できた。