Точность обоснованных ответов модели Qwen3.5-2B, дообученной с архитектурой RAG-Engram, повысилась с 50% до 93% при контексте в 8 тысяч токенов.

✍️ OpenClawRadar📅 Опубликовано: 27 марта 2026 г.🔗 Source

Метод дообучения для улучшения производительности RAG

Разработчик создал дообученную версию Qwen3.5-2B, которая решает проблему "потери в середине" и галлюцинаций в небольших языковых моделях, когда контекстные окна насыщаются примерно 8K токенами извлечённых данных. Пользовательская архитектура, названная RAG-Engram, улучшила процент правильных ответов при 8K токенах с 50% до 93% на 14 реальных запросах.

Детали архитектуры

Система RAG-Engram представляет собой двухуровневую систему, построенную вокруг гибридной архитектуры Gated DeltaNet модели Qwen3.5-2B:

Уровень 1 — Статическая таблица энграмм: 135K предварительно вычисленных эмбеддингов сущностей (индийские имена собственные, государственные программы, хинди-фразы, финансовые термины), хранящихся в оперативной памяти CPU. Это освобождает внимание модели от необходимости реконструировать известные сущности.
Уровень 2 — Динамическая навигация по чанкам: Во время инференса лёгкий экстрактор spaCy (~15MB) сканирует извлечённые чанки, строит карту указателей на ключевые сущности и генерирует матрицу смещения внимания. Она добавляется к оценкам Q·K^T перед softmax на слоях 3 и 15 (полнослойные слои внимания в гибридной архитектуре — остальные 18 слоев используют Gated DeltaNet, который не имеет softmax внимания).

Этот подход указывает головкам внимания, куда смотреть, вместо того чтобы модель вслепую сканировала 8000 токенов в надежде найти ответы.

Спецификации обучения

Базовая модель: Qwen3.5-2B-Base
Метод: LoRA (r=16, alpha=16) через Unsloth
Данные: 2168 примеров, извлечённых из DeepSeek V3 по наборам MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
Время обучения: 15 минут на Modal (один GPU)
Потери на обучении/валидации: 1.369 / 1.385 — без переобучения

Контролируемое дообучение учит модель отвечать в определённом разговорном стиле (markdown, выделение ключевых инсайтов, привязка к источникам), в то время как смещение энграмм управляет навигацией внимания в длинных контекстах.

Результаты оценки

Оценка проводилась с помощью Claude Opus 4.6 с использованием чанков результатов поиска Google, дополненных до 8K токенов:

Обычная Qwen3.5-2B: 50% правильных ответов при 8K токенах, 14% отказов/отказов от ответа
Drissy + RAG-Engram: 93% правильных ответов при 8K токенах, 0% отказов/отказов от ответа

Комбинация полностью устранила случаи "потери в середине". Разработчик сообщает, что весь проект от спецификации до HuggingFace занял около 2 недель и стоил меньше чашки кофе.

Доступность модели

Дообученная модель доступна как:

Модель: drissea-ai/drissy-qwen3.5-2b
GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Автоматизируйте проверку PR на GitHub с помощью агентов Claude Code

Разработчик создал агента, который обрабатывает упоминания в GitHub, запускает работников Claude Code для проверки или исправления PR и передает человеку только неоднозначные случаи.

30 апр. 2026 г., 02:18 UTC

OpenClawRadar

Инструменты

Палата: ИИ-агент для управления инфраструктурой GPU

Chamber — это ИИ-агент, который управляет GPU-инфраструктурой, выполняя такие задачи, как развёртывание кластеров, диагностика неудачных заданий и управление рабочими нагрузками. Он предоставляет структурированные операции с проверкой и откатом, а не просто сырые команды оболочки.

16 мар. 2026 г., 21:45 UTC

OpenClawRadar

Инструменты

Итан AI: Европейский хаб API для моделей ИИ — переориентируется как альтернатива OpenRouter

Eden AI предлагает единый унифицированный API для доступа к более чем 500 моделям ИИ (LLM, компьютерное зрение, OCR, речь) с умной маршрутизацией, механизмами отказоустойчивости и контролем региона. Позиционируется как европейская альтернатива OpenRouter.

26 апр. 2026 г., 12:15 UTC

OpenClawRadar

Инструменты

Конвейер Humanizer с открытым исходным кодом: шестишаговый Markdown-файл для постобработки AI-текста

Один Markdown-файл реализует шестиэтапный пайплайн для обнаружения и переписывания текстов, сгенерированных ИИ, с учетом канала, калибровкой голоса, шлюзами строгости и самопроверкой.

30 апр. 2026 г., 06:16 UTC

OpenClawRadar