本地LLM基准测试：通过函数调用生成后端——GLM、Qwen、DeepSeek对比

✍️ OpenClawRadar📅 Опубликовано: 3 мая 2026 г.🔗 Source

Спустя пять месяцев после первоначального неконтролируемого замера AutoBe.dev опубликовал полноценный бенчмарк локальных и frontier LLM для генерации бэкенд-кода с использованием вызова функций. Бенчмарк использует контролируемые переменные и реальную оценочную рубрику, тестируя модели на генерацию рекурсивно-объединенных AST-схем через обвязку вызова функций.

Ключевые выводы

Обвязка вызова функций практически устранила разрыв между frontier и локальными моделями в генерации бэкенда. В частности, оценки gpt-5.4 по проектированию БД/API примерно равны qwen3.5-35b-a3b, а оценки логики claude-sonnet-4.6 соответствуют qwen3.5-27b.
Это последний раунд с включением frontier моделей. Ежемесячный прогон обходится в ~200–300 млн токенов (~$1,000–$1,500 за модель по ценам GPT 5.5). Со следующего месяца будут включены только конечные точки OpenRouter дешевле $0,25/млн токенов или модели, помещающиеся на 64-ГБ ноутбук с унифицированной памятью.
Автоматизация фронтенда будет добавлена в бенчмарк в раунде июнь/июль с использованием SDK, который AutoBe уже генерирует для сквозного создания AI-фронтендов (визуал грубый, но все функции работают).

Неожиданные инверсии

Несколько результатов еще исследуются:

openai/gpt-5.4 показывает результаты ниже своего же mini-собрата.
deepseek-v4-pro оказывается на одну ступень ниже qwen3.5-35b-a3b и едва отрывается от своего Flash-собрата.
В семействе Qwen плотная 27B превосходит все варианты MoE, включая 397B-A17B.

Возможные объяснения, которые изучаются, включают феномен соблюдения CoT (крупные/frontier модели склонны пропускать процедурные инструкции, навязываемые обвязкой) и дефекты бенчмарка (n=4 эталонных проекта, узкий диапазон оценок, обвязка оценивает собственный конвейер).

Ссылки

Панель бенчмарка: https://autobe.dev/benchmark/
Результаты генерации: GitHub: autobe-examples
Репозиторий на GitHub: https://github.com/wrtnlabs/autobe

📖 Читать полный источник: r/LocalLLaMA

👀 Смотрите также

Новости

Alibaba запускает платформу искусственного интеллекта Wukong для автоматизации бизнес-процессов.

Alibaba запустила Wukong, платформу искусственного интеллекта, которая координирует работу нескольких агентов для выполнения сложных бизнес-задач, таких как редактирование документов, обновление таблиц, транскрибация встреч и исследования. В настоящее время она доступна только в режиме закрытого бета-тестирования по приглашениям.

17 мар. 2026 г., 10:45 UTC

OpenClawRadar

Новости

Клод Код Системные Подсказки версия 2.1.53-2.1.55: Добавлен Выбор Памяти, Удалено Выполнение Команд

В версиях системных промптов Claude Code с 2.1.53 по 2.1.55 добавлены инструкции по выбору памяти (156 токенов), удалён специалист по выполнению команд (109 токенов) и проведена реорганизация промптов в ~70 атомарных файлов. Фоновые агенты теперь автоматически уведомляют о завершении вместо предоставления путей к выходным файлам.

25 февр. 2026 г., 19:45 UTC

OpenClawRadar

Новости

Сравнение затрат на API для LLM в 2026 году: самостоятельное размещение и облачные провайдеры

Пользователь Reddit сравнил стоимость API LLM для 1 млн токенов в день у 11 провайдеров, выяснив, что самостоятельный хостинг с vLLM стоит около $0,05 за 1 млн токенов, в то время как GPT-4o стоит $5/$15 за входные/выходные токены.

24 февр. 2026 г., 13:45 UTC

OpenClawRadar

Новости

Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.

Кодирующие агенты, такие как Claude Code и Codex CLI, хранят подробные журналы сессий локально, включая задачи, рассуждения, вызовы инструментов и ответы среды. В посте на Reddit предлагается использовать эти данные с помощью федеративного обучения для создания открытого аналога проприетарных наборов данных для обучения.

25 февр. 2026 г., 09:45 UTC

OpenClawRadar

Ключевые выводы

Неожиданные инверсии

Рекомендуемые модели

Ссылки

👀 Смотрите также

Alibaba запускает платформу искусственного интеллекта Wukong для автоматизации бизнес-процессов.

Клод Код Системные Подсказки версия 2.1.53-2.1.55: Добавлен Выбор Памяти, Удалено Выполнение Команд

Сравнение затрат на API для LLM в 2026 году: самостоятельное размещение и облачные провайдеры

Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.