Запуск OmniCoder-9B локально с деталями конфигурации llama.cpp

Оборудование и настройка модели
Используется оборудование среднего уровня: процессор AMD Ryzen 9 5900X (12 потоков для вывода), 62 ГБ оперативной памяти DDR4, видеокарта NVIDIA RTX 3080 с 10 ГБ видеопамяти, NVMe SSD и Ubuntu 22.04 на удалённом сервере.
Модель — OmniCoder-9B, основанная на Qwen3.5-9B, дообученная на 425+ тысячах траекторий кодирующих агентов от Tesslate. Используется квантование Q6_K (размер файла 6,85 ГБ) с контекстным окном в 128 тысяч токенов, взятая с HuggingFace.
Конфигурация llama.cpp
Модель запускается через сервер llama.cpp со следующими специфичными флагами:
llama-server \ --model /home/openclaw/models/omnicoder-9b/omnicoder-9b-q6_k.gguf \ --host 0.0.0.0 --port 8080 \ --ctx-size 131072 \ --n-gpu-layers 99 \ --cache-type-k q8_0 \ --cache-type-v q4_0 \ --threads 12 \ --batch-size 128 \ --flash-attn on \ --temp 0.4 \ --top-k 20 \ --top-p 0.95 \ --jinja \ --reasoning-budget 0
Ключевые параметры объяснены:
--ctx-size 131072: контекстное окно в 128K для больших кодовых баз--n-gpu-layers 99: выгрузка всех слоёв на GPU--cache-type-k q8_0 --cache-type-v q4_0: сжатый KV-кэш для размещения 128K контекста в 10 ГБ видеопамяти--threads 12: соответствие физическим ядрам (не гипертрейдам)--flash-attn on: ускоренное вычисление внимания--reasoning-budget 0: отключает вывод цепочек рассуждений в поле reasoning_content, заставляя модель выводить код напрямую
Производительность и тестирование
Метрики производительности: оценка промптов ~300 токенов/с, генерация ~80-90 токенов/с, использование видеопамяти ~8,5 ГБ/10 ГБ, задержка 1-5 секунд для типичных задач кодирования.
Тестирование проводилось Agent Zero — автономным фреймворком агентов, использующим GLM-5 в качестве основного «мозга». Agent Zero обнаружил флаг --reasoning-budget 0, подключился по SSH к удалённому серверу, обновил сервис systemd, создал с нуля скрипты для бенчмарков, запустил несколько тестов (HumanEval base, HumanEval Pro, MBPP, MultiPL-E) и итеративно улучшал промпт-инжиниринг.
Результаты бенчмарков
Результаты бенчмарков в сравнении с официальными заявлениями:
- HumanEval base: Официально 92,7%, Запуск 1: 100%, Запуск 2: 95%, Запуск 3: 95%, Среднее: 96,7%
- HumanEval Pro: Официально 70,1%, Запуск 1: 70%, Среднее: 70%
Средний результат HumanEval base в 96,7% превышает официальные 92,7%, в то время как HumanEval Pro точно совпадает на уровне 70%.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Opus 4.7 испортил 40% запросов; исправлением стало структурирование CLAUDE.md и навыков
После того как Opus 4.7 ухудшил ~40% промптов в 6 настройках, фракционный руководитель по ИИ исправил это, заменив ad-hoc промпты структурированными файлами Skill, иерархическим CLAUDE.md и отдельными файлами памяти — сократив использование токенов на 22% и количество итераций с 3–4 до 1–2.

Практические стратегии кодирования ИИ, основанные на 1000 часах опыта
В посте на Reddit описываются конкретные уровни промптов и стратегии рабочего процесса для эффективного использования AI-агентов в программировании, включая отношение к ИИ как к младшему разработчику, поэтапную реализацию и использование файлов с инструкциями.

Агентно-ориентированные шаблоны проектирования API: Инсайты из Moltbook
Дизайн API Moltbook поддерживает проактивные взаимодействия AI-агентов, интегрируя прямые инструкции, переходы состояния, когнитивные задачи и лимитирование образовательных возможностей.

Ошибка службы виртуальной машины Windows Cowork: проблема с путем и исправление
Проблема с установкой Windows Cowork вызывает ошибку 'Служба VM не запущена' каждые 10-20 минут из-за неправильного пути к папке vm_bundles в установках MSIX. Исправление включает поиск правильной папки и использование скрипта восстановления.