Найти цепь LLM: Дублируйте 3 слоя для улучшения логики без обучения

Инструментарий llm-circuit-finder реализует и расширяет метод RYS Дэвида Нга для обнаружения и использования 'рассуждающих цепей', скрытых внутри трансформерных моделей. Ключевое открытие: определённые непрерывные блоки слоёв действуют как неделимые когнитивные единицы. Их дублирование в прямом проходе — те же веса, без обучения, без слияния — делает модели измеримо умнее в определённых способностях.
Ключевые результаты
Devstral-Small-2-24B с однократным дублированием слоёв 12, 13, 14:
- BBH Логический вывод: 0,22 → 0,76 (+245%)
- GSM8K (строгий): 0,48 → 0,64 (+33%)
- MBPP (генерация кода): 0,72 → 0,78 (+8%)
- Среднее улучшение: +8% по всем метрикам без ухудшения
Qwen2.5-Coder-32B с однократным дублированием слоёв 7, 8, 9:
- Тест на рассуждение (причинность + логика + навигация): 76,5% → 94,1% (+23%)
Как это работает
Трансформеры организуются во время обучения в функциональные цепи — многослойные обрабатывающие единицы, выполняющие полные когнитивные операции. Эти цепи неделимы: дублирование одного слоя почти ничего не даёт, но дублирование правильного блока из 3-4 слоёв даёт модели второй проход через её конвейер рассуждений.
У разных моделей цепи находятся в разных местах:
- Devstral-24B (40 слоёв): рассуждающая цепь на слоях 12-14
- Qwen2.5-32B (64 слоёв): рассуждающая цепь на слоях 7-9
Границы чёткие. Сдвиньте блок на один слой в любом направлении, и улучшение исчезнет или обратится вспять.
Разные схемы дублирования создают разные режимы
Те же веса на диске, та же VRAM для базовой модели, просто разная маршрутизация:
- Двойной проход 13-16: Математика ↑↑, EQ ↑
- Тройной проход 13-16: Математика ↑, EQ ↑↑
- Чередование 13,13,14,14,15,15,16: Математика ↑↑↑, EQ ↓ (чистый математический режим)
- Четверной проход 13-16: Математика —, EQ ↑↑ (режим EQ, математика нейтральна)
Быстрый старт
Найдите цепи в вашей модели:
pip install gguf requests tqdm
python sweep.py \
--model /path/to/model.gguf \
--llama-server /path/to/llama-server \
--tmpdir /dev/shm/rys \
--results pass.jsonl \
--block-sizes 3 4 5 \
--stride 1 \
--start-min 10 --start-max 20 \
--skip-baseline \
--port 8099 \
--server-args --device Vulkan1,Vulkan2
Примените известную цепь:
# Дублирование слоёв 12-14 в Devstral
python layer_path.py model.gguf improved.gguf \
-p " 0..14,12,13,14,15..39 " -v
Дублирование слоёв 7-9 в Qwen2.5-32B
python layer_path.py model.gguf improved.gguf
-p " 0..9,7,8,9,10..63 " -v
Пример тройного прохода
python layer_path.py model.gguf experiment.gguf
-p " 0..16,13,14,15,16,13,14,15,16,17..39 " -v
Проверьте с помощью установленных тестов:
# Запустите сервер с изменённой моделью
llama-server -m improved.gguf --port 8089 -ngl 99 --device Vulkan1,Vulkan2
# Запустите lm-evaluation-harness
Весь процесс обнаружения — сканирование, открытие, проверка — был выполнен на двух потребительских GPU AMD (RX 7900 XT + RX 6950 XT) за один вечер.
📖 Read the full source: HN LLM Tools
👀 Смотрите также

htmLLM-124M v2 Выпущен: Специализированная модель автодополнения HTML/Bootstrap
LH-Tech-AI выпустила htmLLM-124M v2 — модель на 124 миллиона параметров, специализированную для автодополнения HTML/Bootstrap, которая достигает значения валидационной потери 0.91 и обучается примерно за 8 часов на одном GPU T4.

Разработчик OpenClaw создает когнитивный плагин памяти Kumiho для постоянного сотрудничества агентов.
Разработчик создал Kumiho, систему когнитивной памяти на основе графа знаний, чтобы решить проблему отсутствия памяти у OpenClaw между сессиями. Плагин openclaw-kumiho интегрируется в беседы, чтобы восстанавливать контекст, сохранять структурированные сводки и поддерживать версионированные творческие результаты.

Через открытый универсальный слой интеграции подключает инструменты ИИ к общей контекстной шине
Via — это открытая универсальная интеграционная прослойка, которая объединяет Claude, Cursor, Windsurf, ChatGPT, LangChain и другие ИИ-инструменты в общую шину контекста, задач и памяти, позволяя работе следовать за пользователем между инструментами, сессиями и устройствами.

Платформа NERF Open Source AI для инженерной безопасности искусственного интеллекта выходит в публичную бета-версию.
NERF — это платформа с открытым исходным кодом для инженерной безопасности на основе ИИ и автономный агент для написания кода, который охватывает наступательные, оборонительные и приватные методы безопасности в 117 областях. Он включает 9 автоматически определяемых режимов работы, поддержку 26 провайдеров LLM и автоматизацию соответствия 39 стандартам.