Анализ 7 лет дневника с LLM: провалы RAG и тонкой настройки

Разработчик на r/ClaudeAI поделился своим опытом передачи более 200 личных дневниковых записей (охватывающих 2019–2026 годы) LLM для лонгитюдного анализа. Цель: обнаружить поведенческие паттерны и измерить, как они изменились за 7 лет. Технический путь был полон тупиков.

Ключевые технические неудачи

RAG (Retrieval-Augmented Generation) не сработал — записи в дневнике были слишком похожими, что приводило к возврату семантически перекрывающихся фрагментов. Модель не могла выдавать связные лонгитюдные выводы.
Тонкая настройка не сработала — из-за малого набора данных (200 записей) модель переобучилась и не смогла обобщить паттерны во времени.
Ограничения конфиденциальности — использование облачных API было невозможно; автору требовалась локальная обработка для обеспечения безопасности конфиденциальных данных дневника.

Обходной путь

Финальный подход включал разбивку записей по годам, суммаризацию каждого года с помощью локальной LLM (вероятно, Llama или Mistral через Ollama), а затем передачу семи годовых сводок обратно модели для межгодового анализа. Эта иерархическая суммаризация обошла ограничения RAG и избежала необходимости крупномасштабной тонкой настройки.

Неожиданное открытие

LLM выявила повторяющийся паттерн: автор заново открывает для себя одни и те же жизненные уроки примерно каждые два года, как будто сталкивается с ними впервые. Это предполагает, что озарение без механизма закрепления не запоминается — мета-урок о человеческом поведении и рефлексии с помощью LLM.

Для кого это

Разработчики, работающие над проектами персональной аналитики, конфиденциальными конвейерами LLM или лонгитюдным анализом текста с малыми наборами данных.

Автор опубликовал полную статью с пятью выводами и деталями реализации по ссылке ниже.

📖 Читать полный источник: r/ClaudeAI