Бенчмарк OpenClaw демонстрирует, что Qwen3.5:27B превосходит другие локальные LLM в задачах агентов.

✍️ OpenClawRadar📅 Опубликовано: 28 марта 2026 г.🔗 Source
Бенчмарк OpenClaw демонстрирует, что Qwen3.5:27B превосходит другие локальные LLM в задачах агентов.
Ad

Настройка бенчмарка и результаты

Пользователь протестировал 7 локальных моделей на 22 реальных задачах агента с использованием OpenClaw на Raspberry Pi 5 с RTX 3090 под управлением Ollama. Задачи включали чтение электронной почты, планирование встреч, создание задач, обнаружение фишинга, обработку ошибок и автоматизацию браузера.

Победителем с огромным отрывом стала модель qwen3.5:27b-q4_K_M с результатом 59,4%. Занявшая второе место модель (qwen3.5:35b) набрала всего 23,2%. Все остальные модели показали результат ниже 5%.

Ad

Ключевые выводы

  • Квантованная 27B модель превзошла более крупную 35B версию в 2,5 раза
  • Модель 30B заняла последнее место с результатом 1,6%
  • Средний уровень размышлений оказался наиболее эффективным — слишком долгие размышления фактически снижали производительность
  • Ни одна модель не смогла выполнить задачи по автоматизации браузера
  • Основным различием между победителями и аутсайдерами была способность модели находить и использовать инструменты командной строки
  • Большинство моделей не смогли найти даже базовые инструменты, такие как функция электронной почты

Этот бенчмарк предоставляет конкретные данные о том, как различные локальные LLM работают в качестве ИИ-агентов в практических сценариях. Значительный разрыв в производительности между лучшей моделью и остальными указывает на то, что способность находить инструменты является критическим узким местом для локальных LLM-агентов.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Cloudflare Dynamic Worker Loader: Изоляция AI-агентов с помощью изолятов
Инструменты

Cloudflare Dynamic Worker Loader: Изоляция AI-агентов с помощью изолятов

Динамический загрузчик воркеров Cloudflare, который теперь находится в открытой бета-версии, позволяет воркерам создавать новые воркеры с кодом, указанным во время выполнения, в изолированных песочницах с использованием изолятов V8, обеспечивая запуск в 100 раз быстрее, чем контейнеры, и без глобальных ограничений на параллелизм.

OpenClawRadar
NPCterm: Полный эмулятор терминала PTY для ИИ-агентов через MCP
Инструменты

NPCterm: Полный эмулятор терминала PTY для ИИ-агентов через MCP

NPCterm предоставляет AI-агентам полный доступ к терминалу через безголовый, работающий в памяти эмулятор PTY-терминала, доступный через MCP. Он включает 15 инструментов MCP для управления терминалом, обнаружения состояния процессов и поддержки TUI-приложений.

OpenClawRadar
Сервер MCP для данных о поездах в Италии: задержки в реальном времени, отправления и расписания в Claude
Инструменты

Сервер MCP для данных о поездах в Италии: задержки в реальном времени, отправления и расписания в Claude

Разработчик создал неофициальный MCP-сервер для Trenitalia, который предоставляет пять инструментов для запроса данных об итальянских поездах через Claude, включая табло отправлений/прибытий в реальном времени, отслеживание поездов и расписания с обогащением данными о задержках.

OpenClawRadar
Плагин OpenClaw A2A: Прямой обмен сообщениями между агентами через Интернет
Инструменты

Плагин OpenClaw A2A: Прямой обмен сообщениями между агентами через Интернет

Плагин OpenClaw A2A обеспечивает прямую передачу файлов и сообщений между OpenClaw и другими агентами через интернет без сторонних сервисов, таких как WhatsApp или электронная почта.

OpenClawRadar