Применение архитектуры Claude Code к локальным 9B моделям: ключевые выводы и оптимизации

✍️ OpenClawRadar📅 Опубликовано: 4 апреля 2026 г.🔗 Source
Применение архитектуры Claude Code к локальным 9B моделям: ключевые выводы и оптимизации
Ad

Экспериментальная установка и ключевое открытие

Разработчик использовал RTX 5070 Ti (16 ГБ VRAM) с qwen3.5:9b через Ollama (6,6 ГБ) и локальный фреймворк агента OpenClaw. После 18 тестов и 10 оптимизаций ключевым выводом стало то, что qwen3.5:9b имеет нативные структурированные tool_calls, в то время как qwen2.5-coder:14b и qwen2.5:14b помещают JSON в поле content вместо правильных tool_calls, что требует дополнительного парсинга.

Сравнение производительности

Сравнение производительности моделей:

  • qwen3.5:9b: Нативная структура tool_calls, включена цепочка размышлений, 39 ток/с
  • qwen2.5-coder:14b: Сломанный вызов инструментов (в поле content), нет цепочки размышлений, ~30 ток/с
  • qwen2.5:14b: Сломанный вызов инструментов (в поле content), нет цепочки размышлений, ~35 ток/с

10 оптимизаций из архитектуры Claude Code

  • Структурированный системный промпт → +600% качества вывода (A/B-тестирование: 4 найденные проблемы против 25+)
  • MicroCompact (сжатие результатов инструментов) → 80-93% сжатия, 11 КБ сокращено до 367 символов
  • Жесткое ограничение (принудительный переход исследование→генерация) → Решена проблема циклов исследования, где 9B-модели застревают, читая файлы без генерации вывода
  • think=false → 8-10-кратная эффективность токенов, устраняет языковое загрязнение
  • Отложенная загрузка ToolSearch → -60% пространства промпта (229 против 568 токенов)
  • Четырехтипная система памяти (пользователь/обратная связь/проект/справочная) → Персонализированные ответы
  • Разветвление KV-кэша → Минимальный эффект на одном GPU (1,1x), требуется vLLM
  • Строгая дисциплина записи → Проверка перед обновлением памяти, предотвращает повреждение памяти
  • Параллельная инициализация → 9% быстрее холодный старт
  • Отслеживание сброса кэша → Ollama кэширует идентичные промпты (182 мс→75 мс)
Ad

Основной вывод: Самодисциплина как реальный потолок

Самым важным выводом стало то, что реальный потолок для 9B-моделей — не способность к рассуждению или точность использования инструментов, а самодисциплина — понимание, когда прекратить исследование и начать генерировать вывод. Без жесткого ограничения модель использовала все 12 шагов на чтение файлов и произвела 0 байт отчета. С жестким ограничением: 5 шагов чтения + 1 шаг записи = 6080 байт структурированного отчета.

Что на самом деле может делать qwen3.5:9b

  • Читать 800-строчные bash-скрипты и находить реальные ошибки (состояния гонки, неатомарные операции) — 2 мин
  • Проектировать архитектуру системы обратной связи по продажам — документ 8,7 КБ за 2,5 мин
  • Создать полный проект (калькулятор + тесты + запуск тестов) — 28 секунд
  • 10-шаговое автономное выполнение: написать веб-скрапер → pip install не удается → найти обходной путь → повторить → тесты проходят — нулевое вмешательство человека
  • Полный мини-конвейер фабрики: поиск → написание статьи → рецензирование → публикация в HTML — 2,5 мин

Производительность полного движка

Все 10 оптимизаций были упакованы в единый Python-движок (~280 строк). Результаты первого запуска:

  • Инициализация: 527 мс (параллельная память + прогрев модели)
  • Исследование: 5 шагов инструментов с MicroCompact (88% сжатия)
  • Генерация: 1947 символов структурированного отчета
  • Итого: 39,4 с / нулевая стоимость API

Что не сработало

  • Разветвление KV-кэша на одном GPU (требуется multi-GPU или vLLM)
  • Бюджет шагов в системном промпте (модель игнорирует мета-инструкции о своем собственном поведении)
  • Серия qwen2.5 для вызова инструментов (проблемы с форматом)

Разработчик запускал это на WSL2 + Ubuntu 24.04 и готов поделиться дополнительными деталями или кодом движка.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

ClaudeOrb: Расширение для Chrome отслеживает использование Claude API в реальном времени
Инструменты

ClaudeOrb: Расширение для Chrome отслеживает использование Claude API в реальном времени

Разработчик создал ClaudeOrb — бесплатное расширение для Chrome, которое отображает процент использования сессии Claude, недельные лимиты, таймеры обратного отсчета, стоимость Claude Code и тренды расходов за 7 дней. Инструмент был создан с помощью Claude Code после того, как разработчик столкнулся с ограничениями скорости без предупреждения.

OpenClawRadar
Локальная система памяти MCP с консолидацией для AI-диалогов
Инструменты

Локальная система памяти MCP с консолидацией для AI-диалогов

Разработчик создал MCP-сервер, предоставляющий постоянную локальную память для AI-клиентов, используя Qwen 2.5-7B для консолидации диалогов в структурированные документы знаний каждые 6 часов. Система полностью работает на вашем оборудовании с семантическим дедуплицированием, адаптивной оценкой и векторным поиском FAISS.

OpenClawRadar
Пять плагинов OpenClaw, решающих ключевые проблемы производства.
Инструменты

Пять плагинов OpenClaw, решающих ключевые проблемы производства.

Пользователь Reddit выделил пять плагинов OpenClaw, решающих распространённые проблемы в продакшене: Manifest для маршрутизации моделей, Composio для управления интеграциями, Hyperspell для памяти, Foundry для автоматизации рабочих процессов и Opik для трассировки.

OpenClawRadar
Claude Code v2.1.144: Фоновые сессии, область действия /model и тайм-аут запуска 15 с
Инструменты

Claude Code v2.1.144: Фоновые сессии, область действия /model и тайм-аут запуска 15 с

Claude Code v2.1.144 добавляет /resume для фоновых сессий, ограничивает /model только текущей сессией и исправляет зависание при запуске на 75 секунд, когда api.anthropic.com недоступен, устанавливая таймаут в 15 секунд.

OpenClawRadar