Тестирование локальных LLM для автономной генерации кода: Бенчмарк качества и скорости

Разработчик потратил несколько месяцев на создание ИИ-агента, который автономно пишет код на Go с использованием локальных LLM, в частности для генерации парсеров логов для SIEM-конвейеров. Основная проблема заключалась в оценке: как объективно измерить, насколько модель полезна для задач автономного программирования.
Тестовая среда
Среда работает следующим образом:
- Агенты генерируют реальные парсеры Go на основе описаний форматов логов.
- Сгенерированный код Go компилируется.
- Извлеченные поля и типы проверяются на соответствие ожидаемым схемам.
- Качество парсинга измеряется относительно ожидаемых схем.
- Пропускная способность и скорость отслеживаются в ходе более длительных прогонов.
Первый публичный релиз
Автор опубликовал первую публичную версию теста и методологии по следующей ссылке. В посте обсуждаются результаты с учетом текущего темпа выпуска открытых моделей. Автор также просит обратную связь и предложения, какую модель тестировать следующей.
Прочитайте полный пост в блоге для получения подробных результатов и методологии: Testing Local LLMs in Practice: Code Generation, Quality vs. Speed
Это практический ресурс для разработчиков, создающих ИИ-агентов для программирования и выбирающих локальные LLM для задач генерации кода.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Когнитор: Локально-ориентированная агентная ОС с архитектурой PGE Trinity
Cognithor — это полностью локальная, автономная операционная система для агентов, разработанная за год в 16 этапов. Она использует архитектуру PGE Trinity (Планировщик → Контролёр → Исполнитель), включает более 11 609 тестов с покрытием 89% и поддерживает 16 провайдеров LLM, включая Ollama и LM Studio.

VidLens MCP Server: Постоянная база знаний YouTube для Claude
VidLens — это бесплатный, открытый MCP-сервер, который индексирует контент YouTube локально с использованием семантических эмбеддингов, рассматривая видео как постоянную базу знаний, а не извлекая временные транскрипты. Он предоставляет 41 инструмент в 10 модулях для поиска, анализа и извлечения видеоконтента.

Hollow AgentOS: Запуск агентов, подобных Claude, локально на RTX 5070 с использованием Qwen 3.5 9B
Автономная система агентов на базе Qwen 3.5 9B на локальном оборудовании сокращает расходы на Claude API на 50%. Использует итеративное тестирование и цикл самоулучшения для разработки программного обеспечения без участия человека.

Курируемый список из 260+ ИИ-агентов и инструментов с акцентом на open-source и возможность самостоятельного хостинга.
Обширный репозиторий на GitHub содержит список более 260 ИИ-агентов и фреймворков, уделяя особое внимание открытым, самостоятельно размещаемым и локальным решениям, включая Ollama, OpenClaw и DeerFlow.