Разработчик Homelab проверил 19 локальных LLM с помощью 45 практических тестов на AMD Strix Halo

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source
Разработчик Homelab проверил 19 локальных LLM с помощью 45 практических тестов на AMD Strix Halo
Ad

Практическое тестирование для реальных сценариев использования LLM

Разработчик с домашней лабораторной установкой провёл обширное тестирование локальных LLM с использованием собственного набора из 45 тестов, разработанного на основе реальных сценариев использования, а не общих академических тестов. Тесты проводились на системе AMD Strix Halo с процессором Ryzen AI MAX+ 395, 128 ГБ ОЗУ и 96 ГБ общей видеопамяти с использованием Vulkan/RADV и llama-server (образ Docker kyuz0).

Почему важны пользовательские тесты

Разработчик использует Claude Opus для интерактивного программирования, но нуждается в локальных моделях для круглосуточных сервисов, включая:

  • Классификацию электронной почты, выполняемую каждые 15 минут для сортировки 50+ писем
  • Уведомления с камер с использованием моделей компьютерного зрения для описания оповещений о движении
  • Планирование питания с учётом диетических ограничений
  • Финансовый анализ для налоговых сценариев и прогнозов портфеля
  • Создание и проверку автоматизации Home Assistant

Эти задачи требуют быстрых, надёжных моделей с хорошими возможностями структурированного вывода, которые общие тесты, такие как оценки MMLU, не могут адекватно измерить.

Набор из 45 тестов

Тесты охватывают 12 категорий, каждая из которых оценивается от 0 до 10 моделью Claude Opus 4.6 по определённым критериям:

  • Программирование (4 теста): Docker Compose, службы systemd, скрипты Python, ревью кода
  • Операции в домашней лаборатории (6 тестов): Анализ памяти, отладка OOM, диагностика дисков, отладка сети, парсинг логов
  • Вызов инструментов (5 тестов): Команды Proxmox pct/qm, SSH-цепочки, операции Docker, рабочие процессы git
  • Планирование питания (6 тестов): JSON-планы питания, графики подготовки, масштабирование рецептов, списки покупок, питательность
  • Финансы (5 тестов): Налоговые расчёты, анализ портфеля, прогнозы FIRE, налоговый сбор убытков
  • Классификация электронной почты (3 теста): Назначение категорий, неоднозначные случаи, решения об отписке
  • Home Assistant (3 теста): Автоматизация YAML, шаблонные сенсоры, условия
  • Математика (4 теста): Погашение ипотеки, вероятность, теория чисел, оптимизация налогов
  • Логическое мышление (3 теста): Счета за коммунальные услуги, статистика, логические ограничения
  • Следование инструкциям (3 теста): Соблюдение формата, JSON-вывод, негативные ограничения
  • Длинный контекст (1 тест): Извлечение фактов из документа по инфраструктуре на 8 тысяч токенов
  • Скорость (2 теста): Время до первого токена, устойчивая генерация

Девять тестов имеют двойной вес как «критические» для наиболее частых сценариев использования разработчика, с максимально возможным баллом 540.

Ad

Методология тестирования

Каждый тест имеет конкретные критерии, определяющие, что считается хорошим ответом. Например, тест анализа памяти требует правильного определения, что «доступная» память (22 ГБ) является реальным свободным показателем, а не «свободная» (5,7 ГБ), и что использование свопа некритично. Тест налогового расчёта проверяет правильность AGI, налогооблагаемого дохода и расчётов по налоговым категориям. Все исходные ответы и критерии сохраняются для перекрёстной проверки.

Протестированные модели

Разработчик протестировал 19 конфигураций моделей из 6 семейств на Vulkan с llama-server, включая:

  • Семейство Qwen: Qwen3.5-122B-A10B (10B активных MoE) — ранее использовалась в продакшене, Qwen3-Coder-Next 80B-A3B (3B активных)
  • Gemma 4 26B-A4B — в итоге оказалась на первом месте после исправления двух отдельных ошибок, из-за которых изначально казалась нерабочей

Разработчик отмечает, что это не строгая академическая методология, а практическое тестирование для определения того, какие модели лучше всего работают для конкретных задач домашней лаборатории.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

34-дневный проект кода Клода от старшего разработчика: прочная инженерия, критические пробелы в видении
Кейсы

34-дневный проект кода Клода от старшего разработчика: прочная инженерия, критические пробелы в видении

Технический руководитель с более чем 35-летним опытом использовал Claude Code для создания конвейера преобразования документов за 34 дня, сгенерировав более 300 коммитов, 272 теста и чистую архитектуру. Проект выявил критические пробелы в знаниях о существующих библиотеках и обратной связи пользователей.

OpenClawRadar
Непрограммист создал полный стек поиска с помощью Claude Code и API
Кейсы

Непрограммист создал полный стек поиска с помощью Claude Code и API

Пользователь Reddit без опыта программирования за выходные создал полную систему исходящего поиска клиентов, используя Claude Code, Crustdata для поиска компаний и людей, FullEnrich для обогащения контактов и Instantly для отправки писем.

OpenClawRadar
Создание Drivesidekick: приложения для водителей с использованием Claude Code.
Кейсы

Создание Drivesidekick: приложения для водителей с использованием Claude Code.

Разработчики используют Claude Code для создания мобильных приложений без опыта работы с фронтендом. Один из бэкенд-разработчиков применил Claude Code для создания Drivesidekick, приложения для уроков вождения, использующего React Native/Expo.

OpenClawRadar
Автоматизация процессов найма с помощью Claude Desktop: Пример из практики
Кейсы

Автоматизация процессов найма с помощью Claude Desktop: Пример из практики

Разработчик автоматизировал первый этап рекрутинга с помощью Claude Desktop, Chrome с расширением браузера и интеграцией Google Calendar, обрабатывая отбор резюме и планирование собеседований каждые два часа на рабочей станции Windows.

OpenClawRadar