本地LLM基准测试:通过函数调用生成后端——GLM、Qwen、DeepSeek对比

Спустя пять месяцев после первоначального неконтролируемого замера AutoBe.dev опубликовал полноценный бенчмарк локальных и frontier LLM для генерации бэкенд-кода с использованием вызова функций. Бенчмарк использует контролируемые переменные и реальную оценочную рубрику, тестируя модели на генерацию рекурсивно-объединенных AST-схем через обвязку вызова функций.
Ключевые выводы
- Обвязка вызова функций практически устранила разрыв между frontier и локальными моделями в генерации бэкенда. В частности, оценки
gpt-5.4по проектированию БД/API примерно равныqwen3.5-35b-a3b, а оценки логикиclaude-sonnet-4.6соответствуютqwen3.5-27b. - Это последний раунд с включением frontier моделей. Ежемесячный прогон обходится в ~200–300 млн токенов (~$1,000–$1,500 за модель по ценам GPT 5.5). Со следующего месяца будут включены только конечные точки OpenRouter дешевле $0,25/млн токенов или модели, помещающиеся на 64-ГБ ноутбук с унифицированной памятью.
- Автоматизация фронтенда будет добавлена в бенчмарк в раунде июнь/июль с использованием SDK, который AutoBe уже генерирует для сквозного создания AI-фронтендов (визуал грубый, но все функции работают).
Неожиданные инверсии
Несколько результатов еще исследуются:
openai/gpt-5.4показывает результаты ниже своего жеmini-собрата.deepseek-v4-proоказывается на одну ступень нижеqwen3.5-35b-a3bи едва отрывается от своегоFlash-собрата.- В семействе Qwen плотная 27B превосходит все варианты MoE, включая 397B-A17B.
Возможные объяснения, которые изучаются, включают феномен соблюдения CoT (крупные/frontier модели склонны пропускать процедурные инструкции, навязываемые обвязкой) и дефекты бенчмарка (n=4 эталонных проекта, узкий диапазон оценок, обвязка оценивает собственный конвейер).
Рекомендуемые модели
Три утвержденных кандидата на следующий месяц:
openai/gpt-5.4-nano— $0,25/млн токеновqwen/qwen3.6-27b— $0,195/млн токеновdeepseek/deepseek-v4-flash— $0,14/млн токенов
Все они дешевле $0,25/млн на OpenRouter или запускаемы на 64-ГБ ноутбуке с унифицированной памятью и корректно работают с вызовом функций.
Ссылки
- Панель бенчмарка: https://autobe.dev/benchmark/
- Результаты генерации: GitHub: autobe-examples
- Репозиторий на GitHub: https://github.com/wrtnlabs/autobe
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Alibaba запускает платформу искусственного интеллекта Wukong для автоматизации бизнес-процессов.
Alibaba запустила Wukong, платформу искусственного интеллекта, которая координирует работу нескольких агентов для выполнения сложных бизнес-задач, таких как редактирование документов, обновление таблиц, транскрибация встреч и исследования. В настоящее время она доступна только в режиме закрытого бета-тестирования по приглашениям.

Клод Код Системные Подсказки версия 2.1.53-2.1.55: Добавлен Выбор Памяти, Удалено Выполнение Команд
В версиях системных промптов Claude Code с 2.1.53 по 2.1.55 добавлены инструкции по выбору памяти (156 токенов), удалён специалист по выполнению команд (109 токенов) и проведена реорганизация промптов в ~70 атомарных файлов. Фоновые агенты теперь автоматически уведомляют о завершении вместо предоставления путей к выходным файлам.

Сравнение затрат на API для LLM в 2026 году: самостоятельное размещение и облачные провайдеры
Пользователь Reddit сравнил стоимость API LLM для 1 млн токенов в день у 11 провайдеров, выяснив, что самостоятельный хостинг с vLLM стоит около $0,05 за 1 млн токенов, в то время как GPT-4o стоит $5/$15 за входные/выходные токены.

Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.
Кодирующие агенты, такие как Claude Code и Codex CLI, хранят подробные журналы сессий локально, включая задачи, рассуждения, вызовы инструментов и ответы среды. В посте на Reddit предлагается использовать эти данные с помощью федеративного обучения для создания открытого аналога проприетарных наборов данных для обучения.