Обзор производительности Omnicoder-9B: Скорость против проблем с вызовом инструментов

Технический обзор
Omnicoder-9B — это модель, специализированная на программировании, разработанная Tesslate на основе архитектуры Qwen 3.5. Она дообучена поверх Qwen3.5 9B с использованием выводов нескольких моделей, включая Opus 4.6, GPT 5.4, GPT 5.3 Codex и Gemini 3.1 Pro.
Характеристики производительности
Модель демонстрирует высокую производительность на оборудовании среднего уровня. При 12 ГБ видеопамяти пользователи сообщают о стабильной генерации токенов со скоростью 15 токенов/сек даже при размере контекста в 100 тыс. Обработка промптов заметно быстрая — примерно 265 токенов/сек. Модель работает без сбоев системы или ухудшения производительности.
Ограничения и проблемы
Несмотря на преимущества в скорости, Omnicoder-9B показывает несколько ограничений в практических сценариях программирования:
- Не удалось сгенерировать полный клон Super Mario в отдельном HTML-файле с помощью однократного промпта
- Возникали сбои при вызове инструментов с серверами MCP, генерируя ошибки MCP во время получения данных
- Проблемы с выполнением вызовов инструментов записи из Claude Code, хотя это может быть связано с факторами совместимости
Тестирование интеграции с IDE
Тестирование в средах разработки показало неоднозначные результаты:
- В LM Studio с Roo Code: происходили разрывы соединения при увеличении размера токенов до 4 тыс., хотя это, по-видимому, проблема интеграции, а не самой модели
- Модель успешно обновляла или записывала небольшие скрипты с размером токенов от 2 до 3 тыс.
- API-запросы завершались неудачей для токенов свыше 4 тыс. без сообщений об ошибках
- В Claude Code: генерация токенов ощущалась медленнее по сравнению с Roo Code, и модель не смогла выполнить вызовы инструментов записи после генерации вывода
Пользователь отмечает, что Roo Code оказался наиболее эффективным расширением для локальных LLM среди протестированных вариантов, включая Continue.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Джемма 4 E2B протестирована в роли координатора мультиагентов в TypeScript-фреймворке.
Разработчик протестировал Gemma 4 E2B в роли координатора в мультиагентной системе с использованием фреймворка open-multi-agent на TypeScript. Модель успешно декомпозировала задачи в JSON, назначала агентов, вызывала инструменты, такие как bash и файловые операции, и синтезировала результаты.

PhAIL Benchmark Проверяет Модели VLA на Реальных Задачах Складских Роботов
PhAIL — это бенчмарк для реальных роботов, который тестирует четыре модели «зрение-язык-действие» на задаче подбора заказов из ящика в ящик с использованием робота Franka FR3. Лучшая модель показала результат 64 единицы в час, в то время как при телеуправлении человеком достигается 330 ед./ч, а при ручной работе человека — более 1300 ед./ч.

Офлайн: Использование аппаратного обеспечения телефона для автономных AI-приложений
Off Grid - это приложение с открытым исходным кодом, которое использует аппаратное обеспечение вашего телефона для выполнения оффлайн задач ИИ, таких как генерация текста и транскрипция голоса.

Инструмент командной строки Relay сохраняет контекст сессии Claude при превышении лимита запросов.
Relay — это CLI-инструмент на Rust, который читает .jsonl-транскрипты сессий Claude с диска и создаёт полные снимки вашей сессии, включая диалог, вызовы инструментов, задачи, состояние git и ошибки. Он генерирует контекстные подсказки для возобновления сессий после сброса лимитов запросов.