Сравнение 8 моделей ИИ для программирования на примере реализации реальной функции на TypeScript

✍️ OpenClawRadar📅 Опубликовано: 15 марта 2026 г.🔗 Source

Сравнение моделей ИИ для программирования в реальных условиях

Разработчик провёл практическое сравнение 8 моделей ИИ для программирования, поручив им реализовать одну и ту же реальную функцию в существующем проекте на TypeScript. Целью было выйти за рамки синтетических тестов и посмотреть, как модели справляются с работой над реальными кодовыми базами.

Настройка теста

В качестве проекта использовался OpenCode Telegram Bot — Telegram-бот с открытым исходным кодом на TypeScript, созданный на фреймворке grammY, который предоставляет Telegram-интерфейс к возможностям Opencode. Бот поддерживает интернационализацию (i18n) и имеет существующее покрытие тестами.

Задачей была реализация команды /rename, которая переименовывает текущую рабочую сессию. Эта функция затрагивает все слои приложения и требует обработки множества крайних случаев. Исходная реализация была отменена, что обеспечило чистую основу для оценки.

Каждая модель получала одинаковый запрос в два этапа: сначала в режиме планирования (изучение кодовой базы и формирование плана реализации), затем в режиме кодирования. Все тестирование проводилось с использованием Opencode с включёнными режимом «размышления» и логическим выводом.

Протестированные модели

Claude 4.6 Sonnet ($3.00 вход/$15.00 выход за 1 млн токенов)
Claude 4.6 Opus ($5.00/$25.00)
GLM 5 ($1.00/$3.20)
Kimi K2.5 ($0.60/$3.00)
MiniMax M2.5 ($0.30/$1.20)
GPT 5.3 Codex (high) ($1.75/$14.00)
GPT 5.4 (high) ($2.50/$15.00)
Gemini 3.1 Pro (high) ($2.00/$12.00)

Данные по Coding Index и Agentic Index взяты из Artificial Analysis. Ко всем моделям был доступ через OpenCode Zen — сервис от команды OpenCode, который тестирует модели на совместимость с их инструментом.

Методология оценки

Использовались четыре метрики:

Стоимость API ($) — Общая стоимость всех вызовов API в ходе выполнения задачи, включая под-агентов
Время выполнения (мм:сс) — Общее время работы модели
Корректность реализации (0-10) — Насколько хорошо поведение соответствует требованиям и крайним случаям
Техническое качество (0-10) — Инженерное качество решения

Для оценки корректности и качества использовалась существующая реализация /rename для выработки детальных критериев оценки, охватывающих интеграцию команды, основной поток, обработку ошибок, отмену, i18n, документацию, архитектуру, управление состоянием, тесты и технический долг. Оценку проводила модель GPT-5.3 Codex по структурированной рубрике, при этом несколько запусков показали разброс в пределах ±0,5 балла.

Ключевые выводы

Результаты показали, что GPT-5.4 (high) достиг наивысшего балла по корректности реализации — 57 из 69 по Agentic Index. GLM 5 продемонстрировал сильное соотношение цены и производительности при стоимости $1.00/$3.20 за 1 млн токенов и Coding Index 53. Эксперимент показал, что недорогие модели с открытым исходным кодом из Китая приближаются к проприетарным в практических задачах программирования, хотя одни только бенчмарки не дают полной картины.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Фреймворк для ИИ-напарников в Slack, полностью управляемый из Claude Code

ginnie-agents — это фреймворк с открытым исходным кодом для запуска автономных AI-агентов с идентификацией в Slack, трехуровневой памятью, cron-задачами и рабочими часами — все настраивается и управляется через Claude Code. Требуются Claude Code Max, Docker, Node 22+ и рабочее пространство Slack с разрешениями на создание приложений.

28 апр. 2026 г., 12:16 UTC

OpenClawRadar

Инструменты

General Bots: Платформа с открытым исходным кодом для AI-агентов, предназначенная для самостоятельного развертывания и автоматизации бизнес-процессов в корпоративной среде.

General Bots — это платформа с открытым исходным кодом, запущенная в 2019 году, которая предоставляет AI-агентов, автоматизацию рабочих процессов, обработку документов и интеграции с поддержкой локальных AI-моделей, предназначенная для организаций, которым требуется полный контроль над своей инфраструктурой.

15 мар. 2026 г., 17:45 UTC

OpenClawRadar

Инструменты

Revdiff: Терминальный просмотрщик различий со встроенными аннотациями для AI-агентов

Revdiff — это TUI-инструмент для просмотра различий, созданный специально для проверки изменений в коде, сгенерированных ИИ, без выхода из терминальных сессий. Он выводит структурированные аннотации в stdout, которые можно напрямую передавать обратно ИИ-агентам, таким как Claude Code, создавая непрерывный цикл проверки.

16 апр. 2026 г., 14:45 UTC

OpenClawRadar

Инструменты

OmniCoder-9B: Агент для программирования с 9 миллиардами параметров, дообученный на 425 тысячах агентных траекторий.

Компания Tesslate выпустила OmniCoder-9B — агентную модель для программирования с 9 миллиардами параметров, дообученную на гибридной архитектуре Qwen3.5-9B. Она обучалась на более чем 425 000 отобранных траекторий агентного кодирования от Claude Opus 4.6, GPT-5.4, GPT-5.3-Codex и Gemini 3.1 Pro.

13 мар. 2026 г., 03:45 UTC

OpenClawRadar