Разработчик Homelab проверил 19 локальных LLM с помощью 45 практических тестов на AMD Strix Halo

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source
Разработчик Homelab проверил 19 локальных LLM с помощью 45 практических тестов на AMD Strix Halo
Ad

Практическое тестирование для реальных сценариев использования LLM

Разработчик с домашней лабораторной установкой провёл обширное тестирование локальных LLM с использованием собственного набора из 45 тестов, разработанного на основе реальных сценариев использования, а не общих академических тестов. Тесты проводились на системе AMD Strix Halo с процессором Ryzen AI MAX+ 395, 128 ГБ ОЗУ и 96 ГБ общей видеопамяти с использованием Vulkan/RADV и llama-server (образ Docker kyuz0).

Почему важны пользовательские тесты

Разработчик использует Claude Opus для интерактивного программирования, но нуждается в локальных моделях для круглосуточных сервисов, включая:

  • Классификацию электронной почты, выполняемую каждые 15 минут для сортировки 50+ писем
  • Уведомления с камер с использованием моделей компьютерного зрения для описания оповещений о движении
  • Планирование питания с учётом диетических ограничений
  • Финансовый анализ для налоговых сценариев и прогнозов портфеля
  • Создание и проверку автоматизации Home Assistant

Эти задачи требуют быстрых, надёжных моделей с хорошими возможностями структурированного вывода, которые общие тесты, такие как оценки MMLU, не могут адекватно измерить.

Набор из 45 тестов

Тесты охватывают 12 категорий, каждая из которых оценивается от 0 до 10 моделью Claude Opus 4.6 по определённым критериям:

  • Программирование (4 теста): Docker Compose, службы systemd, скрипты Python, ревью кода
  • Операции в домашней лаборатории (6 тестов): Анализ памяти, отладка OOM, диагностика дисков, отладка сети, парсинг логов
  • Вызов инструментов (5 тестов): Команды Proxmox pct/qm, SSH-цепочки, операции Docker, рабочие процессы git
  • Планирование питания (6 тестов): JSON-планы питания, графики подготовки, масштабирование рецептов, списки покупок, питательность
  • Финансы (5 тестов): Налоговые расчёты, анализ портфеля, прогнозы FIRE, налоговый сбор убытков
  • Классификация электронной почты (3 теста): Назначение категорий, неоднозначные случаи, решения об отписке
  • Home Assistant (3 теста): Автоматизация YAML, шаблонные сенсоры, условия
  • Математика (4 теста): Погашение ипотеки, вероятность, теория чисел, оптимизация налогов
  • Логическое мышление (3 теста): Счета за коммунальные услуги, статистика, логические ограничения
  • Следование инструкциям (3 теста): Соблюдение формата, JSON-вывод, негативные ограничения
  • Длинный контекст (1 тест): Извлечение фактов из документа по инфраструктуре на 8 тысяч токенов
  • Скорость (2 теста): Время до первого токена, устойчивая генерация

Девять тестов имеют двойной вес как «критические» для наиболее частых сценариев использования разработчика, с максимально возможным баллом 540.

Ad

Методология тестирования

Каждый тест имеет конкретные критерии, определяющие, что считается хорошим ответом. Например, тест анализа памяти требует правильного определения, что «доступная» память (22 ГБ) является реальным свободным показателем, а не «свободная» (5,7 ГБ), и что использование свопа некритично. Тест налогового расчёта проверяет правильность AGI, налогооблагаемого дохода и расчётов по налоговым категориям. Все исходные ответы и критерии сохраняются для перекрёстной проверки.

Протестированные модели

Разработчик протестировал 19 конфигураций моделей из 6 семейств на Vulkan с llama-server, включая:

  • Семейство Qwen: Qwen3.5-122B-A10B (10B активных MoE) — ранее использовалась в продакшене, Qwen3-Coder-Next 80B-A3B (3B активных)
  • Gemma 4 26B-A4B — в итоге оказалась на первом месте после исправления двух отдельных ошибок, из-за которых изначально казалась нерабочей

Разработчик отмечает, что это не строгая академическая методология, а практическое тестирование для определения того, какие модели лучше всего работают для конкретных задач домашней лаборатории.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Искусственный интеллект в стратегической игре демонстрирует проявление дипломатии и стратегии
Кейсы

Искусственный интеллект в стратегической игре демонстрирует проявление дипломатии и стратегии

Разработчик создал стратегическую игру на сайте agentsandaimpires.com, где ИИ-агенты играют автономно. Наблюдаемое поведение включает эффективный захват территории одним агентом и предложения дипломатического мирного коалиции другим.

OpenClawRadar
Внедрение Enterprise OpenClaw: уроки от SaaS-компании
Кейсы

Внедрение Enterprise OpenClaw: уроки от SaaS-компании

Программная компания, обслуживающая корпоративный SaaS для 1100 компаний с 60 000 одновременных пользователей, делится опытом внедрения OpenClaw, включая кастомные защитные оболочки, 1400 API-интеграций и интеграцию с CI/CD-пайплайном, отмечая ограничения в обработке корпоративных данных.

OpenClawRadar
Использование Claude для создания PainSignal: База данных из 1000 реальных бизнес-проблем
Кейсы

Использование Claude для создания PainSignal: База данных из 1000 реальных бизнес-проблем

Разработчик использовал Claude Code для создания PainSignal — платформы, которая систематизирует 1000 реальных бизнес-проблем из таких отраслей, как грузоперевозки и клининг. Claude обработал классификацию данных, кластеризацию возможностей и генерацию концепций приложений.

OpenClawRadar
Спаситель дикой природы использует искусственный интеллект Claude для создания книги по уходу за детенышами белок и интерактивного чат-бота
Кейсы

Спаситель дикой природы использует искусственный интеллект Claude для создания книги по уходу за детенышами белок и интерактивного чат-бота

Специалист по спасению дикой природы с 38-летним опытом использует Claude AI для доработки 300-страничной книги по уходу за детёнышами белок и создал интерактивного чат-бота по имени Hazel, чтобы помогать другим спасателям. Сейчас специалист проверяет возможности Claude, поручив ему отслеживать и вести дневник прогресса детёныша белки по имени Нова.

OpenClawRadar