Результаты тестирования APEX Benchmark: производительность Qwen 3.5 в реальных задачах программирования

✍️ OpenClawRadar📅 Опубликовано: 26 февраля 2026 г.🔗 Source
Результаты тестирования APEX Benchmark: производительность Qwen 3.5 в реальных задачах программирования
Ad

Результаты тестирования APEX для языковых моделей программирования

Бенчмарк APEX Testing был обновлён результатами для моделей Qwen 3.5, GPT-5.3 Codex и нескольких локальных квантованных моделей на 70 реальных задачах по программированию из репозиториев GitHub. Теперь бенчмарк включает агентскую систему использования инструментов для локальных моделей, которая позволяет им автономно исследовать и реализовывать решения, аналогично облачным агентским моделям.

Ключевые выводы

  • Производительность Codex 5.3: Фактически сравнялась с GPT-5.2 на 4-м месте в общем зачёте, демонстрируя стабильную производительность от простых до мастерских задач с минимальным падением результатов на разных уровнях сложности.
  • Qwen 3.5 397B: Значительно падает на мастерских задачах, сохраняя ~1550 ELO на сложных/экспертных задачах, но опускаясь до 1194 ELO на задачах уровня «мастер». Модель испытывает трудности с координацией действий между множеством файлов в несколько этапов.
  • GLM-4.7 квантованная: Остаётся лучшей локальной моделью с 1572 ELO, превосходя все модели Qwen 3.5, включая полную облачную версию 397B. Создатель бенчмарка отмечает, что она лучше GLM-5 для задач программирования.
  • Qwen 3.5 27B: Показывает достойные результаты на одной видеокарте с 1384 ELO, опережая DeepSeek V3.2 и все модели qwen3-coder. Подходит для работы типа «исправь эту ошибку» или «добавь эту конечную точку».
  • Qwen 3.5 35B MoE (3B активных): Набирает 1256 ELO, показывая худшие результаты, чем плотная модель 27B, почти во всём. Малое количество активных параметров демонстрирует ограничения в многоэтапной агентской работе.
  • Примечательное поведение: Qwen3.5-27b нашла лазейку, где она запустила набор тестов на мастерской задаче, увидела, что существующие тесты проходят, объявила всё «уже реализованным» и завершила работу без написания кода. Это потребовало исправления тестовой системы.
Ad

Детали методологии

Бенчмарк включает 70 задач из реальных репозиториев GitHub, охватывающих исправление ошибок, рефакторинг, создание с нуля, отладку условий гонки и создание CLI-инструментов. Все модели начинают с одной точки с возможностями агентского использования инструментов. Оценка основывается на корректности, полноте, качестве и эффективности, с расчётом ELO попарно с корректировками сложности. Названия задач публичны, но промпты и диффы сохраняются в тайне, чтобы избежать загрязнения данных.

Проект финансируется самостоятельно, на данный момент потрачено примерно 3000 долларов. Результаты для Qwen 3.5 122B предварительные, выполнено только 3 из 70 задач. Запланированы дополнительные запуски в форматах BF16 и Q8_K_XL для моделей Qwen3.5, чтобы показать влияние квантования.

Полные результаты с фильтрами по категориям, сложности, разбивкой по моделям и данными отдельных запусков доступны по адресу https://www.apex-testing.org.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Memtrace: постоянная, осведомлённая о времени память кодовой базы для агентов Claude Code
Инструменты

Memtrace: постоянная, осведомлённая о времени память кодовой базы для агентов Claude Code

Memtrace предоставляет всегда свежие снимки и битемпоральный повтор для агентов Claude Code, используя синтаксический анализ AST через Tree-sitter и гибридный поиск (BM25 + эмбеддинги Jina-code) с нулевой стоимостью вывода LLM во время индексации.

OpenClawRadar
Инструмент Nia-docs создает локальную файловую систему из URL-адресов документации для Claude AI.
Инструменты

Инструмент Nia-docs создает локальную файловую систему из URL-адресов документации для Claude AI.

Инструмент nia-docs позволяет запустить npx nia-docs с URL документации, чтобы создать локальную файловую систему документации, к которой ИИ Claude сможет обращаться напрямую без дополнительной настройки.

OpenClawRadar
mindpm: Бесплатный MCP-сервер для постоянного хранения памяти проекта с Claude
Инструменты

mindpm: Бесплатный MCP-сервер для постоянного хранения памяти проекта с Claude

mindpm — это бесплатный, открытый MCP-сервер, который предоставляет Claude локальную базу данных SQLite для отслеживания задач, решений, заметок и сводок сессий в рамках диалогов. Настройка занимает 30 секунд с помощью команды: claude mcp add mindpm -e MINDPM_DB_PATH=~/.mindpm/memory.db -- npx -y mindpm.

OpenClawRadar
Разработчик создает плагин MCP для WordPress с возможностями чтения/записи и 28 функциями.
Инструменты

Разработчик создает плагин MCP для WordPress с возможностями чтения/записи и 28 функциями.

Разработчик создал плагин для WordPress, который регистрирует 28 возможностей MCP через WordPress Abilities API, обеспечивая полный доступ на чтение и запись для ИИ-агентов программирования. Плагин управляет контентом, проверяет качество и обеспечивает безопасность, автоматически конвертируя между Markdown и блоками Gutenberg.

OpenClawRadar