Gemma3:4B обходит модели 24B: бенчмарк 8 LLM

Результаты бенчмарка чата с телефона на домашний компьютер

Недавний бенчмарк оценил 8 локальных LLM для приложений чата с телефона на домашний компьютер, где вывод выполняется на домашнем компьютере. Тест включал 640 оценок (8 моделей × 8 наборов данных × 10 образцов) на оборудовании Mac mini M4 Pro 24Gb.

Формула и веса показателя пригодности

Комплексная формула пригодности взвешивала три фактора: 50% UX чата, 30% скорость и 20% качество коротких ответов. Такое взвешивание отдаёт приоритет пользовательскому опыту для мобильных приложений, где задержка имеет наибольшее значение.

Ключевые выводы

Gemma3:4B победила с комплексным показателем пригодности 88.7, несмотря на то что это самая маленькая протестированная модель
Она достигла самого низкого TTFT (11.2с), самой высокой пропускной способности (89.3 ток/с) и самых низких температур (45°C)
Более крупные модели, такие как GPT-OSS:20B, прошли 70% задач, но заняли 6-е место из-за среднего TTFT 25.4с
Тепловые характеристики значительно различались: Qwen3:14B достигла пика 83°C, DeepSeek-R1:14B — 81°C
Magistral:24B была исключена из финального рейтинга после запуска циклов таймаута и достижения температуры GPU 97°C

Почему меньшие модели показали лучшие результаты

Бенчмарк показал, что для приложений чата с телефона более быстрое время до первого токена (TTFT) и меньшая тепловая нагрузка важнее, чем чистая точность. Модель с точностью 77.5%, но требующая 25с ожидания первого токена, проигрывает той, которая отвечает с точностью 72.5%, но отвечает за 11с. Тепловой разрыв значителен для надёжности и долговечности личного оборудования.

Независимый анализ

Независимый анализ с использованием Claude на том же наборе из 640 оценок более агрессивно взвесил надёжность и TTFT и пришёл к немного другому порядку топ-4, подтвердив, что взвешивание KPI является выбором, а не абсолютной истиной.

Соображения по вариантам использования

Автор отмечает, что для других вариантов использования, таких как программирование или написание длинных текстов, формула взвешивания полностью изменилась бы, отдавая приоритет качеству над скоростью и UX чата.

📖 Read the full source: r/LocalLLaMA