Запуск OmniCoder-9B локально с деталями конфигурации llama.cpp

✍️ OpenClawRadar📅 Опубликовано: 14 марта 2026 г.🔗 Source

Оборудование и настройка модели

Используется оборудование среднего уровня: процессор AMD Ryzen 9 5900X (12 потоков для вывода), 62 ГБ оперативной памяти DDR4, видеокарта NVIDIA RTX 3080 с 10 ГБ видеопамяти, NVMe SSD и Ubuntu 22.04 на удалённом сервере.

Модель — OmniCoder-9B, основанная на Qwen3.5-9B, дообученная на 425+ тысячах траекторий кодирующих агентов от Tesslate. Используется квантование Q6_K (размер файла 6,85 ГБ) с контекстным окном в 128 тысяч токенов, взятая с HuggingFace.

Конфигурация llama.cpp

Модель запускается через сервер llama.cpp со следующими специфичными флагами:

llama-server \
--model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 131072 \
--n-gpu-layers 99 \
--cache-type-k q8_0 \
--cache-type-v q4_0 \
--threads 12 \
--batch-size 128 \
--flash-attn on \
--temp 0.4 \
--top-k 20 \
--top-p 0.95 \
--jinja \
--reasoning-budget 0

Ключевые параметры объяснены:

--ctx-size 131072: контекстное окно в 128K для больших кодовых баз
--n-gpu-layers 99: выгрузка всех слоёв на GPU
--cache-type-k q8_0 --cache-type-v q4_0: сжатый KV-кэш для размещения 128K контекста в 10 ГБ видеопамяти
--threads 12: соответствие физическим ядрам (не гипертрейдам)
--flash-attn on: ускоренное вычисление внимания
--reasoning-budget 0: отключает вывод цепочек рассуждений в поле reasoning_content, заставляя модель выводить код напрямую

Производительность и тестирование

Метрики производительности: оценка промптов ~300 токенов/с, генерация ~80-90 токенов/с, использование видеопамяти ~8,5 ГБ/10 ГБ, задержка 1-5 секунд для типичных задач кодирования.

Тестирование проводилось Agent Zero — автономным фреймворком агентов, использующим GLM-5 в качестве основного «мозга». Agent Zero обнаружил флаг --reasoning-budget 0, подключился по SSH к удалённому серверу, обновил сервис systemd, создал с нуля скрипты для бенчмарков, запустил несколько тестов (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) и итеративно улучшал промпт-инжиниринг.

Результаты бенчмарков

Результаты бенчмарков в сравнении с официальными заявлениями:

HumanEval base: Официально 92,7%, Запуск 1: 100%, Запуск 2: 95%, Запуск 3: 95%, Среднее: 96,7%
HumanEval Pro: Официально 70,1%, Запуск 1: 70%, Среднее: 70%

Средний результат HumanEval base в 96,7% превышает официальные 92,7%, в то время как HumanEval Pro точно совпадает на уровне 70%.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Гайды

Решение проблемы "write_file не найден" в Gemini CLI при использовании OpenClaw: два необходимых исправления

Агенты OpenClaw, использующие google-gemini-cli, не могут записывать файлы (write_file / default_api_write_file отсутствует) из-за неправильного tools.profile и отсутствия флага --approval-mode auto_edit в подпроцессе. Исправление: установите profile в full и добавьте флаг через конфигурацию cliBackends.

28 апр. 2026 г., 18:20 UTC

OpenClawRadar

Гайды

Постмортем: Ошибки биллинга Claude Max + OpenClaw из-за устаревшего OAuth и изолированных задач cron

Агент OpenClaw случайно ломается из-за устаревшего OAuth-токена, который блокирует весь провайдер Anthropic, а изолированные задачи cron попадают в отдельный биллинговый пул Extra Usage. Полное решение: удалить ручной профиль, перенести cron в основную сессию, очистить блокировку биллинга.

12 мая 2026 г., 06:16 UTC

OpenClawRadar

Гайды

Opus 4.7 испортил 40% запросов; исправлением стало структурирование CLAUDE.md и навыков

После того как Opus 4.7 ухудшил ~40% промптов в 6 настройках, фракционный руководитель по ИИ исправил это, заменив ad-hoc промпты структурированными файлами Skill, иерархическим CLAUDE.md и отдельными файлами памяти — сократив использование токенов на 22% и количество итераций с 3–4 до 1–2.

18 мая 2026 г., 10:15 UTC

OpenClawRadar

Гайды

Практическое руководство по самостоятельному размещению вашей первой языковой модели (LLM)

В посте на Reddit перечислены причины для самостоятельного хостинга языковых моделей, включая конфиденциальность для чувствительных данных, предсказуемость затрат для агентских рабочих нагрузок, улучшение производительности за счёт исключения API-запросов и кастомизацию через методы тонкой настройки, такие как LoRA и QLoRA.

20 мар. 2026 г., 22:45 UTC

OpenClawRadar