Qwen3.5:27B vs 7 LLM: OpenClaw Benchmark Shows 59.4% Agent Task Win

Настройка бенчмарка и результаты

Пользователь протестировал 7 локальных моделей на 22 реальных задачах агента с использованием OpenClaw на Raspberry Pi 5 с RTX 3090 под управлением Ollama. Задачи включали чтение электронной почты, планирование встреч, создание задач, обнаружение фишинга, обработку ошибок и автоматизацию браузера.

Победителем с огромным отрывом стала модель qwen3.5:27b-q4_K_M с результатом 59,4%. Занявшая второе место модель (qwen3.5:35b) набрала всего 23,2%. Все остальные модели показали результат ниже 5%.

Ключевые выводы

Квантованная 27B модель превзошла более крупную 35B версию в 2,5 раза
Модель 30B заняла последнее место с результатом 1,6%
Средний уровень размышлений оказался наиболее эффективным — слишком долгие размышления фактически снижали производительность
Ни одна модель не смогла выполнить задачи по автоматизации браузера
Основным различием между победителями и аутсайдерами была способность модели находить и использовать инструменты командной строки
Большинство моделей не смогли найти даже базовые инструменты, такие как функция электронной почты

Этот бенчмарк предоставляет конкретные данные о том, как различные локальные LLM работают в качестве ИИ-агентов в практических сценариях. Значительный разрыв в производительности между лучшей моделью и остальными указывает на то, что способность находить инструменты является критическим узким местом для локальных LLM-агентов.

📖 Read the full source: r/LocalLLaMA

Бенчмарк OpenClaw демонстрирует, что Qwen3.5:27B превосходит другие локальные LLM в задачах агентов.

Настройка бенчмарка и результаты

Ключевые выводы

👀 Смотрите также

Vyra: Интеллектуальный веб-видеоредактор для агентов Claude через MCP

Agent MCP Studio: Создавайте мультиагентные MCP-системы полностью в браузере через WASM

Навык Claude Code создает скриншоты для App Store с использованием искусственного интеллекта Gemini.

Сторожевая башня: Локальный прокси для мониторинга трафика Claude Code API