Разработчик Homelab проверил 19 локальных LLM с помощью 45 практических тестов на AMD Strix Halo

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source

Практическое тестирование для реальных сценариев использования LLM

Разработчик с домашней лабораторной установкой провёл обширное тестирование локальных LLM с использованием собственного набора из 45 тестов, разработанного на основе реальных сценариев использования, а не общих академических тестов. Тесты проводились на системе AMD Strix Halo с процессором Ryzen AI MAX+ 395, 128 ГБ ОЗУ и 96 ГБ общей видеопамяти с использованием Vulkan/RADV и llama-server (образ Docker kyuz0).

Почему важны пользовательские тесты

Разработчик использует Claude Opus для интерактивного программирования, но нуждается в локальных моделях для круглосуточных сервисов, включая:

Классификацию электронной почты, выполняемую каждые 15 минут для сортировки 50+ писем
Уведомления с камер с использованием моделей компьютерного зрения для описания оповещений о движении
Планирование питания с учётом диетических ограничений
Финансовый анализ для налоговых сценариев и прогнозов портфеля
Создание и проверку автоматизации Home Assistant

Эти задачи требуют быстрых, надёжных моделей с хорошими возможностями структурированного вывода, которые общие тесты, такие как оценки MMLU, не могут адекватно измерить.

Набор из 45 тестов

Тесты охватывают 12 категорий, каждая из которых оценивается от 0 до 10 моделью Claude Opus 4.6 по определённым критериям:

Программирование (4 теста): Docker Compose, службы systemd, скрипты Python, ревью кода
Операции в домашней лаборатории (6 тестов): Анализ памяти, отладка OOM, диагностика дисков, отладка сети, парсинг логов
Вызов инструментов (5 тестов): Команды Proxmox pct/qm, SSH-цепочки, операции Docker, рабочие процессы git
Планирование питания (6 тестов): JSON-планы питания, графики подготовки, масштабирование рецептов, списки покупок, питательность
Финансы (5 тестов): Налоговые расчёты, анализ портфеля, прогнозы FIRE, налоговый сбор убытков
Классификация электронной почты (3 теста): Назначение категорий, неоднозначные случаи, решения об отписке
Home Assistant (3 теста): Автоматизация YAML, шаблонные сенсоры, условия
Математика (4 теста): Погашение ипотеки, вероятность, теория чисел, оптимизация налогов
Логическое мышление (3 теста): Счета за коммунальные услуги, статистика, логические ограничения
Следование инструкциям (3 теста): Соблюдение формата, JSON-вывод, негативные ограничения
Длинный контекст (1 тест): Извлечение фактов из документа по инфраструктуре на 8 тысяч токенов
Скорость (2 теста): Время до первого токена, устойчивая генерация

Девять тестов имеют двойной вес как «критические» для наиболее частых сценариев использования разработчика, с максимально возможным баллом 540.

Методология тестирования

Каждый тест имеет конкретные критерии, определяющие, что считается хорошим ответом. Например, тест анализа памяти требует правильного определения, что «доступная» память (22 ГБ) является реальным свободным показателем, а не «свободная» (5,7 ГБ), и что использование свопа некритично. Тест налогового расчёта проверяет правильность AGI, налогооблагаемого дохода и расчётов по налоговым категориям. Все исходные ответы и критерии сохраняются для перекрёстной проверки.

Протестированные модели

Разработчик протестировал 19 конфигураций моделей из 6 семейств на Vulkan с llama-server, включая:

Семейство Qwen: Qwen3.5-122B-A10B (10B активных MoE) — ранее использовалась в продакшене, Qwen3-Coder-Next 80B-A3B (3B активных)
Gemma 4 26B-A4B — в итоге оказалась на первом месте после исправления двух отдельных ошибок, из-за которых изначально казалась нерабочей

Разработчик отмечает, что это не строгая академическая методология, а практическое тестирование для определения того, какие модели лучше всего работают для конкретных задач домашней лаборатории.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Кейсы

OpenCLAW для VPS против Mac Mini: почему VPS за $5 побеждает Mac Mini за $599 для продакшн-агентов

Создатель OpenCLAW Питер Штайнбергер призвал пользователей не покупать Mac Mini, а вместо этого спонсировать разработчиков. VPS за €5 с 2 vCPU и 4 ГБ ОЗУ справляется с непрерывными нагрузками OpenCLAW при 3-8% CPU, в то время как Mac Mini стоит от $599 плюс $10-15 в месяц за электричество.

8 мая 2026 г., 08:23 UTC

OpenClawRadar

Кейсы

Использование Claude с MCP для автоматизации исходящих B2B-кампаний

Пользователь Reddit делится своим рабочим процессом, в котором он использует Claude с серверами Model Context Protocol (MCP) для автоматизации B2B исходящих кампаний, заменяя Clay на собственные API-интеграции для поиска лидов, их обогащения, верификации и отправки электронных писем.

31 мар. 2026 г., 17:45 UTC

OpenClawRadar

Кейсы

Как координаторы Клода управляют код-агентами в продакшене: взгляд изнутри

Команда, управляющая шестью специализированными агентами Claude Code (кодер, дизайнер, маркетинг, QA, безопасность, операции), которые ежедневно автономно выпускают функции, дизайны и социальный контент, подробно описывает свою систему-оркестратор. Они рассматривают диспетчеризацию задач, передачу работы между агентами, сценарии сбоев и объясняют, почему конечные автоматы превосходят очереди сообщений для координации.

1 мар. 2026 г., 17:45 UTC

OpenClawRadar

Кейсы

Пользователь Reddit запустил на Mac более 25 запланированных ИИ-агентов в качестве личных персон: полезно или просто усложнение?

Разработчик делится своей личной AI-установкой с более чем 25 запланированными агентами на Mac, организованными в четыре персоны (Жена, Дочь, Сын и монитор), которые автоматизируют работу, open-source проекты, любительские сборки и GitHub PR — и спрашивает сообщество, действительно ли это полезно или это сложность ради сложности.

9 мая 2026 г., 02:16 UTC

OpenClawRadar