Точность обоснованных ответов модели Qwen3.5-2B, дообученной с архитектурой RAG-Engram, повысилась с 50% до 93% при контексте в 8 тысяч токенов.

✍️ OpenClawRadar📅 Опубликовано: 27 марта 2026 г.🔗 Source
Точность обоснованных ответов модели Qwen3.5-2B, дообученной с архитектурой RAG-Engram, повысилась с 50% до 93% при контексте в 8 тысяч токенов.
Ad

Метод дообучения для улучшения производительности RAG

Разработчик создал дообученную версию Qwen3.5-2B, которая решает проблему "потери в середине" и галлюцинаций в небольших языковых моделях, когда контекстные окна насыщаются примерно 8K токенами извлечённых данных. Пользовательская архитектура, названная RAG-Engram, улучшила процент правильных ответов при 8K токенах с 50% до 93% на 14 реальных запросах.

Детали архитектуры

Система RAG-Engram представляет собой двухуровневую систему, построенную вокруг гибридной архитектуры Gated DeltaNet модели Qwen3.5-2B:

  • Уровень 1 — Статическая таблица энграмм: 135K предварительно вычисленных эмбеддингов сущностей (индийские имена собственные, государственные программы, хинди-фразы, финансовые термины), хранящихся в оперативной памяти CPU. Это освобождает внимание модели от необходимости реконструировать известные сущности.
  • Уровень 2 — Динамическая навигация по чанкам: Во время инференса лёгкий экстрактор spaCy (~15MB) сканирует извлечённые чанки, строит карту указателей на ключевые сущности и генерирует матрицу смещения внимания. Она добавляется к оценкам Q·K^T перед softmax на слоях 3 и 15 (полнослойные слои внимания в гибридной архитектуре — остальные 18 слоев используют Gated DeltaNet, который не имеет softmax внимания).

Этот подход указывает головкам внимания, куда смотреть, вместо того чтобы модель вслепую сканировала 8000 токенов в надежде найти ответы.

Ad

Спецификации обучения

  • Базовая модель: Qwen3.5-2B-Base
  • Метод: LoRA (r=16, alpha=16) через Unsloth
  • Данные: 2168 примеров, извлечённых из DeepSeek V3 по наборам MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K
  • Время обучения: 15 минут на Modal (один GPU)
  • Потери на обучении/валидации: 1.369 / 1.385 — без переобучения

Контролируемое дообучение учит модель отвечать в определённом разговорном стиле (markdown, выделение ключевых инсайтов, привязка к источникам), в то время как смещение энграмм управляет навигацией внимания в длинных контекстах.

Результаты оценки

Оценка проводилась с помощью Claude Opus 4.6 с использованием чанков результатов поиска Google, дополненных до 8K токенов:

  • Обычная Qwen3.5-2B: 50% правильных ответов при 8K токенах, 14% отказов/отказов от ответа
  • Drissy + RAG-Engram: 93% правильных ответов при 8K токенах, 0% отказов/отказов от ответа

Комбинация полностью устранила случаи "потери в середине". Разработчик сообщает, что весь проект от спецификации до HuggingFace занял около 2 недель и стоил меньше чашки кофе.

Доступность модели

Дообученная модель доступна как:

  • Модель: drissea-ai/drissy-qwen3.5-2b
  • GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Выпущен Claude Code Production Grade Plugin v3.0: Автономный конвейер разработки программного обеспечения
Инструменты

Выпущен Claude Code Production Grade Plugin v3.0: Автономный конвейер разработки программного обеспечения

Плагин Production Grade Plugin v3.0 для Claude Code теперь доступен как бесплатное программное обеспечение с открытым исходным кодом по лицензии MIT. Плагин создаёт полный конвейер разработки от требований до развёртывания с 13 ИИ-навыками, которые действуют как инженерная команда.

OpenClawRadar
Ветка Career-Ops добавляет поиск вакансий на LinkedIn с использованием Apify.
Инструменты

Ветка Career-Ops добавляет поиск вакансий на LinkedIn с использованием Apify.

Разработчик форкнул систему career-ops Claude Code и добавил поиск вакансий на LinkedIn с помощью Apify, устранив главное ограничение исходного проекта, который сканировал только заранее настроенные страницы карьеры компаний.

OpenClawRadar
FFF — Быстрый Поиск Файлов заявляет о 100-кратном преимуществе в скорости по сравнению с ripgrep.
Инструменты

FFF — Быстрый Поиск Файлов заявляет о 100-кратном преимуществе в скорости по сравнению с ripgrep.

FFF (Fast File Finder) — это веб-инструмент для поиска файлов, который, по заявлениям разработчиков, работает в 100 раз быстрее, чем ripgrep, позиционируя себя как альтернативу следующего поколения для методов поиска на основе регулярных выражений. Для работы инструмента требуется JavaScript. Недавно он обсуждался на Hacker News, набрав 36 баллов и 17 комментариев.

OpenClawRadar
Сравнение 14 вариантов ИИ-агента Claw по 10 категориям
Инструменты

Сравнение 14 вариантов ИИ-агента Claw по 10 категориям

Подробное сравнение 14 популярных вариантов агентов Claw AI, включая OpenClaw, NanoClaw, NemoClaw, ZeroClaw, PicoClaw, Moltis, IronClaw и NullClaw, с оценкой по 53 подпараметрам, составными рейтингами и идеальными вариантами использования для каждого.

OpenClawRadar