Запуск OmniCoder-9B локально с деталями конфигурации llama.cpp

✍️ OpenClawRadar📅 Опубликовано: 14 марта 2026 г.🔗 Source
Запуск OmniCoder-9B локально с деталями конфигурации llama.cpp
Ad

Оборудование и настройка модели

Используется оборудование среднего уровня: процессор AMD Ryzen 9 5900X (12 потоков для вывода), 62 ГБ оперативной памяти DDR4, видеокарта NVIDIA RTX 3080 с 10 ГБ видеопамяти, NVMe SSD и Ubuntu 22.04 на удалённом сервере.

Модель — OmniCoder-9B, основанная на Qwen3.5-9B, дообученная на 425+ тысячах траекторий кодирующих агентов от Tesslate. Используется квантование Q6_K (размер файла 6,85 ГБ) с контекстным окном в 128 тысяч токенов, взятая с HuggingFace.

Конфигурация llama.cpp

Модель запускается через сервер llama.cpp со следующими специфичными флагами:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

Ключевые параметры объяснены:

  • --ctx-size 131072: контекстное окно в 128K для больших кодовых баз
  • --n-gpu-layers 99: выгрузка всех слоёв на GPU
  • --cache-type-k q8_0 --cache-type-v q4_0: сжатый KV-кэш для размещения 128K контекста в 10 ГБ видеопамяти
  • --threads 12: соответствие физическим ядрам (не гипертрейдам)
  • --flash-attn on: ускоренное вычисление внимания
  • --reasoning-budget 0: отключает вывод цепочек рассуждений в поле reasoning_content, заставляя модель выводить код напрямую
Ad

Производительность и тестирование

Метрики производительности: оценка промптов ~300 токенов/с, генерация ~80-90 токенов/с, использование видеопамяти ~8,5 ГБ/10 ГБ, задержка 1-5 секунд для типичных задач кодирования.

Тестирование проводилось Agent Zero — автономным фреймворком агентов, использующим GLM-5 в качестве основного «мозга». Agent Zero обнаружил флаг --reasoning-budget 0, подключился по SSH к удалённому серверу, обновил сервис systemd, создал с нуля скрипты для бенчмарков, запустил несколько тестов (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) и итеративно улучшал промпт-инжиниринг.

Результаты бенчмарков

Результаты бенчмарков в сравнении с официальными заявлениями:

  • HumanEval base: Официально 92,7%, Запуск 1: 100%, Запуск 2: 95%, Запуск 3: 95%, Среднее: 96,7%
  • HumanEval Pro: Официально 70,1%, Запуск 1: 70%, Среднее: 70%

Средний результат HumanEval base в 96,7% превышает официальные 92,7%, в то время как HumanEval Pro точно совпадает на уровне 70%.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Opus 4.7 испортил 40% запросов; исправлением стало структурирование CLAUDE.md и навыков
Гайды

Opus 4.7 испортил 40% запросов; исправлением стало структурирование CLAUDE.md и навыков

После того как Opus 4.7 ухудшил ~40% промптов в 6 настройках, фракционный руководитель по ИИ исправил это, заменив ad-hoc промпты структурированными файлами Skill, иерархическим CLAUDE.md и отдельными файлами памяти — сократив использование токенов на 22% и количество итераций с 3–4 до 1–2.

OpenClawRadar
Практические стратегии кодирования ИИ, основанные на 1000 часах опыта
Гайды

Практические стратегии кодирования ИИ, основанные на 1000 часах опыта

В посте на Reddit описываются конкретные уровни промптов и стратегии рабочего процесса для эффективного использования AI-агентов в программировании, включая отношение к ИИ как к младшему разработчику, поэтапную реализацию и использование файлов с инструкциями.

OpenClawRadar
Агентно-ориентированные шаблоны проектирования API: Инсайты из Moltbook
Гайды

Агентно-ориентированные шаблоны проектирования API: Инсайты из Moltbook

Дизайн API Moltbook поддерживает проактивные взаимодействия AI-агентов, интегрируя прямые инструкции, переходы состояния, когнитивные задачи и лимитирование образовательных возможностей.

OpenClawRadar
Ошибка службы виртуальной машины Windows Cowork: проблема с путем и исправление
Гайды

Ошибка службы виртуальной машины Windows Cowork: проблема с путем и исправление

Проблема с установкой Windows Cowork вызывает ошибку 'Служба VM не запущена' каждые 10-20 минут из-за неправильного пути к папке vm_bundles в установках MSIX. Исправление включает поиск правильной папки и использование скрипта восстановления.

OpenClawRadar