Тестирование локальных LLM для автономной генерации кода: Бенчмарк качества и скорости

✍️ OpenClawRadar📅 Опубликовано: 8 мая 2026 г.🔗 Source
Тестирование локальных LLM для автономной генерации кода: Бенчмарк качества и скорости
Ad

Разработчик потратил несколько месяцев на создание ИИ-агента, который автономно пишет код на Go с использованием локальных LLM, в частности для генерации парсеров логов для SIEM-конвейеров. Основная проблема заключалась в оценке: как объективно измерить, насколько модель полезна для задач автономного программирования.

Тестовая среда

Среда работает следующим образом:

  • Агенты генерируют реальные парсеры Go на основе описаний форматов логов.
  • Сгенерированный код Go компилируется.
  • Извлеченные поля и типы проверяются на соответствие ожидаемым схемам.
  • Качество парсинга измеряется относительно ожидаемых схем.
  • Пропускная способность и скорость отслеживаются в ходе более длительных прогонов.
Ad

Первый публичный релиз

Автор опубликовал первую публичную версию теста и методологии по следующей ссылке. В посте обсуждаются результаты с учетом текущего темпа выпуска открытых моделей. Автор также просит обратную связь и предложения, какую модель тестировать следующей.

Прочитайте полный пост в блоге для получения подробных результатов и методологии: Testing Local LLMs in Practice: Code Generation, Quality vs. Speed

Это практический ресурс для разработчиков, создающих ИИ-агентов для программирования и выбирающих локальные LLM для задач генерации кода.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Когнитор: Локально-ориентированная агентная ОС с архитектурой PGE Trinity
Инструменты

Когнитор: Локально-ориентированная агентная ОС с архитектурой PGE Trinity

Cognithor — это полностью локальная, автономная операционная система для агентов, разработанная за год в 16 этапов. Она использует архитектуру PGE Trinity (Планировщик → Контролёр → Исполнитель), включает более 11 609 тестов с покрытием 89% и поддерживает 16 провайдеров LLM, включая Ollama и LM Studio.

OpenClawRadar
VidLens MCP Server: Постоянная база знаний YouTube для Claude
Инструменты

VidLens MCP Server: Постоянная база знаний YouTube для Claude

VidLens — это бесплатный, открытый MCP-сервер, который индексирует контент YouTube локально с использованием семантических эмбеддингов, рассматривая видео как постоянную базу знаний, а не извлекая временные транскрипты. Он предоставляет 41 инструмент в 10 модулях для поиска, анализа и извлечения видеоконтента.

OpenClawRadar
Hollow AgentOS: Запуск агентов, подобных Claude, локально на RTX 5070 с использованием Qwen 3.5 9B
Инструменты

Hollow AgentOS: Запуск агентов, подобных Claude, локально на RTX 5070 с использованием Qwen 3.5 9B

Автономная система агентов на базе Qwen 3.5 9B на локальном оборудовании сокращает расходы на Claude API на 50%. Использует итеративное тестирование и цикл самоулучшения для разработки программного обеспечения без участия человека.

OpenClawRadar
Курируемый список из 260+ ИИ-агентов и инструментов с акцентом на open-source и возможность самостоятельного хостинга.
Инструменты

Курируемый список из 260+ ИИ-агентов и инструментов с акцентом на open-source и возможность самостоятельного хостинга.

Обширный репозиторий на GitHub содержит список более 260 ИИ-агентов и фреймворков, уделяя особое внимание открытым, самостоятельно размещаемым и локальным решениям, включая Ollama, OpenClaw и DeerFlow.

OpenClawRadar