Тестирование показывает, что компактная 4B-модель превосходит более крупные языковые модели в приложениях для обмена сообщениями между телефоном и домашними устройствами.

✍️ OpenClawRadar📅 Опубликовано: 20 апреля 2026 г.🔗 Source
Тестирование показывает, что компактная 4B-модель превосходит более крупные языковые модели в приложениях для обмена сообщениями между телефоном и домашними устройствами.
Ad

Результаты бенчмарка чата с телефона на домашний компьютер

Недавний бенчмарк оценил 8 локальных LLM для приложений чата с телефона на домашний компьютер, где вывод выполняется на домашнем компьютере. Тест включал 640 оценок (8 моделей × 8 наборов данных × 10 образцов) на оборудовании Mac mini M4 Pro 24Gb.

Формула и веса показателя пригодности

Комплексная формула пригодности взвешивала три фактора: 50% UX чата, 30% скорость и 20% качество коротких ответов. Такое взвешивание отдаёт приоритет пользовательскому опыту для мобильных приложений, где задержка имеет наибольшее значение.

Ключевые выводы

  • Gemma3:4B победила с комплексным показателем пригодности 88.7, несмотря на то что это самая маленькая протестированная модель
  • Она достигла самого низкого TTFT (11.2с), самой высокой пропускной способности (89.3 ток/с) и самых низких температур (45°C)
  • Более крупные модели, такие как GPT-OSS:20B, прошли 70% задач, но заняли 6-е место из-за среднего TTFT 25.4с
  • Тепловые характеристики значительно различались: Qwen3:14B достигла пика 83°C, DeepSeek-R1:14B — 81°C
  • Magistral:24B была исключена из финального рейтинга после запуска циклов таймаута и достижения температуры GPU 97°C
Ad

Почему меньшие модели показали лучшие результаты

Бенчмарк показал, что для приложений чата с телефона более быстрое время до первого токена (TTFT) и меньшая тепловая нагрузка важнее, чем чистая точность. Модель с точностью 77.5%, но требующая 25с ожидания первого токена, проигрывает той, которая отвечает с точностью 72.5%, но отвечает за 11с. Тепловой разрыв значителен для надёжности и долговечности личного оборудования.

Независимый анализ

Независимый анализ с использованием Claude на том же наборе из 640 оценок более агрессивно взвесил надёжность и TTFT и пришёл к немного другому порядку топ-4, подтвердив, что взвешивание KPI является выбором, а не абсолютной истиной.

Соображения по вариантам использования

Автор отмечает, что для других вариантов использования, таких как программирование или написание длинных текстов, формула взвешивания полностью изменилась бы, отдавая приоритет качеству над скоростью и UX чата.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Релиз CC 2.1.128: Новый встроенный фоновый агент, бета-поддержка C# и устаревшие модели
Новости

Релиз CC 2.1.128: Новый встроенный фоновый агент, бета-поддержка C# и устаревшие модели

CC 2.1.128 (+1406 токенов) добавляет встроенные инструкции для фоновых агентов, бета-поддержку C# tool-runner/Managed Agents, объявляет устаревшими Sonnet 4 и Opus 4, рекомендуя Opus 4.7/Sonnet 4.6, и удаляет шаблоны памяти сессий.

OpenClawRadar
Локальный Qwen 3.6 против передовых моделей на задаче программирования: одиночный HTML-файл для анимации на Canvas
Новости

Локальный Qwen 3.6 против передовых моделей на задаче программирования: одиночный HTML-файл для анимации на Canvas

Пользователь Reddit сравнил локальные квантифицированные версии Qwen 3.6 с ведущими моделями (Claude, Gemini, GPT, Kimi) в задаче создания плотного однофайлового HTML-документа с анимацией вождения на canvas. Локальная модель Qwen 3.6-27B Q4_K_M показала более естественное движение и наслоение, чем некоторые ведущие модели.

OpenClawRadar
Разработчик признал себя виновным в схеме мошенничества с потоковой передачей музыки с использованием ИИ на сумму 8 миллионов долларов.
Новости

Разработчик признал себя виновным в схеме мошенничества с потоковой передачей музыки с использованием ИИ на сумму 8 миллионов долларов.

54-летний Майкл Смит признался в использовании тысяч бот-аккаунтов и песен, созданных искусственным интеллектом, для получения 8 миллионов долларов роялти со стриминговых платформ, включая Spotify, Apple Music и YouTube Music, в период с 2017 по 2024 год.

OpenClawRadar
Claude-Code v2.1.41 Выпуск: Основные обновления и исправления
Новости

Claude-Code v2.1.41 Выпуск: Основные обновления и исправления

Claude-Code v2.1.41 представляет улучшения обновления AWS auth, поддержку Windows ARM64 и исправления различных инструментов и элементов пользовательского интерфейса.

OpenClawRadar