本地LLM基准测试:通过函数调用生成后端——GLM、Qwen、DeepSeek对比

✍️ OpenClawRadar📅 Опубликовано: 3 мая 2026 г.🔗 Source
本地LLM基准测试:通过函数调用生成后端——GLM、Qwen、DeepSeek对比
Ad

Спустя пять месяцев после первоначального неконтролируемого замера AutoBe.dev опубликовал полноценный бенчмарк локальных и frontier LLM для генерации бэкенд-кода с использованием вызова функций. Бенчмарк использует контролируемые переменные и реальную оценочную рубрику, тестируя модели на генерацию рекурсивно-объединенных AST-схем через обвязку вызова функций.

Ключевые выводы

  • Обвязка вызова функций практически устранила разрыв между frontier и локальными моделями в генерации бэкенда. В частности, оценки gpt-5.4 по проектированию БД/API примерно равны qwen3.5-35b-a3b, а оценки логики claude-sonnet-4.6 соответствуют qwen3.5-27b.
  • Это последний раунд с включением frontier моделей. Ежемесячный прогон обходится в ~200–300 млн токенов (~$1,000–$1,500 за модель по ценам GPT 5.5). Со следующего месяца будут включены только конечные точки OpenRouter дешевле $0,25/млн токенов или модели, помещающиеся на 64-ГБ ноутбук с унифицированной памятью.
  • Автоматизация фронтенда будет добавлена в бенчмарк в раунде июнь/июль с использованием SDK, который AutoBe уже генерирует для сквозного создания AI-фронтендов (визуал грубый, но все функции работают).
Ad

Неожиданные инверсии

Несколько результатов еще исследуются:

  • openai/gpt-5.4 показывает результаты ниже своего же mini-собрата.
  • deepseek-v4-pro оказывается на одну ступень ниже qwen3.5-35b-a3b и едва отрывается от своего Flash-собрата.
  • В семействе Qwen плотная 27B превосходит все варианты MoE, включая 397B-A17B.

Возможные объяснения, которые изучаются, включают феномен соблюдения CoT (крупные/frontier модели склонны пропускать процедурные инструкции, навязываемые обвязкой) и дефекты бенчмарка (n=4 эталонных проекта, узкий диапазон оценок, обвязка оценивает собственный конвейер).

Рекомендуемые модели

Три утвержденных кандидата на следующий месяц:

  • openai/gpt-5.4-nano — $0,25/млн токенов
  • qwen/qwen3.6-27b — $0,195/млн токенов
  • deepseek/deepseek-v4-flash — $0,14/млн токенов

Все они дешевле $0,25/млн на OpenRouter или запускаемы на 64-ГБ ноутбуке с унифицированной памятью и корректно работают с вызовом функций.

Ссылки

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Alibaba запускает платформу искусственного интеллекта Wukong для автоматизации бизнес-процессов.
Новости

Alibaba запускает платформу искусственного интеллекта Wukong для автоматизации бизнес-процессов.

Alibaba запустила Wukong, платформу искусственного интеллекта, которая координирует работу нескольких агентов для выполнения сложных бизнес-задач, таких как редактирование документов, обновление таблиц, транскрибация встреч и исследования. В настоящее время она доступна только в режиме закрытого бета-тестирования по приглашениям.

OpenClawRadar
Клод Код Системные Подсказки версия 2.1.53-2.1.55: Добавлен Выбор Памяти, Удалено Выполнение Команд
Новости

Клод Код Системные Подсказки версия 2.1.53-2.1.55: Добавлен Выбор Памяти, Удалено Выполнение Команд

В версиях системных промптов Claude Code с 2.1.53 по 2.1.55 добавлены инструкции по выбору памяти (156 токенов), удалён специалист по выполнению команд (109 токенов) и проведена реорганизация промптов в ~70 атомарных файлов. Фоновые агенты теперь автоматически уведомляют о завершении вместо предоставления путей к выходным файлам.

OpenClawRadar
Сравнение затрат на API для LLM в 2026 году: самостоятельное размещение и облачные провайдеры
Новости

Сравнение затрат на API для LLM в 2026 году: самостоятельное размещение и облачные провайдеры

Пользователь Reddit сравнил стоимость API LLM для 1 млн токенов в день у 11 провайдеров, выяснив, что самостоятельный хостинг с vLLM стоит около $0,05 за 1 млн токенов, в то время как GPT-4o стоит $5/$15 за входные/выходные токены.

OpenClawRadar
Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.
Новости

Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.

Кодирующие агенты, такие как Claude Code и Codex CLI, хранят подробные журналы сессий локально, включая задачи, рассуждения, вызовы инструментов и ответы среды. В посте на Reddit предлагается использовать эти данные с помощью федеративного обучения для создания открытого аналога проприетарных наборов данных для обучения.

OpenClawRadar