Сравнение 8 моделей ИИ для программирования на примере реализации реальной функции на TypeScript

Сравнение моделей ИИ для программирования в реальных условиях
Разработчик провёл практическое сравнение 8 моделей ИИ для программирования, поручив им реализовать одну и ту же реальную функцию в существующем проекте на TypeScript. Целью было выйти за рамки синтетических тестов и посмотреть, как модели справляются с работой над реальными кодовыми базами.
Настройка теста
В качестве проекта использовался OpenCode Telegram Bot — Telegram-бот с открытым исходным кодом на TypeScript, созданный на фреймворке grammY, который предоставляет Telegram-интерфейс к возможностям Opencode. Бот поддерживает интернационализацию (i18n) и имеет существующее покрытие тестами.
Задачей была реализация команды /rename, которая переименовывает текущую рабочую сессию. Эта функция затрагивает все слои приложения и требует обработки множества крайних случаев. Исходная реализация была отменена, что обеспечило чистую основу для оценки.
Каждая модель получала одинаковый запрос в два этапа: сначала в режиме планирования (изучение кодовой базы и формирование плана реализации), затем в режиме кодирования. Все тестирование проводилось с использованием Opencode с включёнными режимом «размышления» и логическим выводом.
Протестированные модели
- Claude 4.6 Sonnet ($3.00 вход/$15.00 выход за 1 млн токенов)
- Claude 4.6 Opus ($5.00/$25.00)
- GLM 5 ($1.00/$3.20)
- Kimi K2.5 ($0.60/$3.00)
- MiniMax M2.5 ($0.30/$1.20)
- GPT 5.3 Codex (high) ($1.75/$14.00)
- GPT 5.4 (high) ($2.50/$15.00)
- Gemini 3.1 Pro (high) ($2.00/$12.00)
Данные по Coding Index и Agentic Index взяты из Artificial Analysis. Ко всем моделям был доступ через OpenCode Zen — сервис от команды OpenCode, который тестирует модели на совместимость с их инструментом.
Методология оценки
Использовались четыре метрики:
- Стоимость API ($) — Общая стоимость всех вызовов API в ходе выполнения задачи, включая под-агентов
- Время выполнения (мм:сс) — Общее время работы модели
- Корректность реализации (0-10) — Насколько хорошо поведение соответствует требованиям и крайним случаям
- Техническое качество (0-10) — Инженерное качество решения
Для оценки корректности и качества использовалась существующая реализация /rename для выработки детальных критериев оценки, охватывающих интеграцию команды, основной поток, обработку ошибок, отмену, i18n, документацию, архитектуру, управление состоянием, тесты и технический долг. Оценку проводила модель GPT-5.3 Codex по структурированной рубрике, при этом несколько запусков показали разброс в пределах ±0,5 балла.
Ключевые выводы
Результаты показали, что GPT-5.4 (high) достиг наивысшего балла по корректности реализации — 57 из 69 по Agentic Index. GLM 5 продемонстрировал сильное соотношение цены и производительности при стоимости $1.00/$3.20 за 1 млн токенов и Coding Index 53. Эксперимент показал, что недорогие модели с открытым исходным кодом из Китая приближаются к проприетарным в практических задачах программирования, хотя одни только бенчмарки не дают полной картины.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Фреймворк для ИИ-напарников в Slack, полностью управляемый из Claude Code
ginnie-agents — это фреймворк с открытым исходным кодом для запуска автономных AI-агентов с идентификацией в Slack, трехуровневой памятью, cron-задачами и рабочими часами — все настраивается и управляется через Claude Code. Требуются Claude Code Max, Docker, Node 22+ и рабочее пространство Slack с разрешениями на создание приложений.

General Bots: Платформа с открытым исходным кодом для AI-агентов, предназначенная для самостоятельного развертывания и автоматизации бизнес-процессов в корпоративной среде.
General Bots — это платформа с открытым исходным кодом, запущенная в 2019 году, которая предоставляет AI-агентов, автоматизацию рабочих процессов, обработку документов и интеграции с поддержкой локальных AI-моделей, предназначенная для организаций, которым требуется полный контроль над своей инфраструктурой.

Revdiff: Терминальный просмотрщик различий со встроенными аннотациями для AI-агентов
Revdiff — это TUI-инструмент для просмотра различий, созданный специально для проверки изменений в коде, сгенерированных ИИ, без выхода из терминальных сессий. Он выводит структурированные аннотации в stdout, которые можно напрямую передавать обратно ИИ-агентам, таким как Claude Code, создавая непрерывный цикл проверки.

OmniCoder-9B: Агент для программирования с 9 миллиардами параметров, дообученный на 425 тысячах агентных траекторий.
Компания Tesslate выпустила OmniCoder-9B — агентную модель для программирования с 9 миллиардами параметров, дообученную на гибридной архитектуре Qwen3.5-9B. Она обучалась на более чем 425 000 отобранных траекторий агентного кодирования от Claude Opus 4.6, GPT-5.4, GPT-5.3-Codex и Gemini 3.1 Pro.