Тестирование показывает, что компактная 4B-модель превосходит более крупные языковые модели в приложениях для обмена сообщениями между телефоном и домашними устройствами.

Результаты бенчмарка чата с телефона на домашний компьютер
Недавний бенчмарк оценил 8 локальных LLM для приложений чата с телефона на домашний компьютер, где вывод выполняется на домашнем компьютере. Тест включал 640 оценок (8 моделей × 8 наборов данных × 10 образцов) на оборудовании Mac mini M4 Pro 24Gb.
Формула и веса показателя пригодности
Комплексная формула пригодности взвешивала три фактора: 50% UX чата, 30% скорость и 20% качество коротких ответов. Такое взвешивание отдаёт приоритет пользовательскому опыту для мобильных приложений, где задержка имеет наибольшее значение.
Ключевые выводы
- Gemma3:4B победила с комплексным показателем пригодности 88.7, несмотря на то что это самая маленькая протестированная модель
- Она достигла самого низкого TTFT (11.2с), самой высокой пропускной способности (89.3 ток/с) и самых низких температур (45°C)
- Более крупные модели, такие как GPT-OSS:20B, прошли 70% задач, но заняли 6-е место из-за среднего TTFT 25.4с
- Тепловые характеристики значительно различались: Qwen3:14B достигла пика 83°C, DeepSeek-R1:14B — 81°C
- Magistral:24B была исключена из финального рейтинга после запуска циклов таймаута и достижения температуры GPU 97°C
Почему меньшие модели показали лучшие результаты
Бенчмарк показал, что для приложений чата с телефона более быстрое время до первого токена (TTFT) и меньшая тепловая нагрузка важнее, чем чистая точность. Модель с точностью 77.5%, но требующая 25с ожидания первого токена, проигрывает той, которая отвечает с точностью 72.5%, но отвечает за 11с. Тепловой разрыв значителен для надёжности и долговечности личного оборудования.
Независимый анализ
Независимый анализ с использованием Claude на том же наборе из 640 оценок более агрессивно взвесил надёжность и TTFT и пришёл к немного другому порядку топ-4, подтвердив, что взвешивание KPI является выбором, а не абсолютной истиной.
Соображения по вариантам использования
Автор отмечает, что для других вариантов использования, таких как программирование или написание длинных текстов, формула взвешивания полностью изменилась бы, отдавая приоритет качеству над скоростью и UX чата.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Релиз CC 2.1.128: Новый встроенный фоновый агент, бета-поддержка C# и устаревшие модели
CC 2.1.128 (+1406 токенов) добавляет встроенные инструкции для фоновых агентов, бета-поддержку C# tool-runner/Managed Agents, объявляет устаревшими Sonnet 4 и Opus 4, рекомендуя Opus 4.7/Sonnet 4.6, и удаляет шаблоны памяти сессий.

Локальный Qwen 3.6 против передовых моделей на задаче программирования: одиночный HTML-файл для анимации на Canvas
Пользователь Reddit сравнил локальные квантифицированные версии Qwen 3.6 с ведущими моделями (Claude, Gemini, GPT, Kimi) в задаче создания плотного однофайлового HTML-документа с анимацией вождения на canvas. Локальная модель Qwen 3.6-27B Q4_K_M показала более естественное движение и наслоение, чем некоторые ведущие модели.

Разработчик признал себя виновным в схеме мошенничества с потоковой передачей музыки с использованием ИИ на сумму 8 миллионов долларов.
54-летний Майкл Смит признался в использовании тысяч бот-аккаунтов и песен, созданных искусственным интеллектом, для получения 8 миллионов долларов роялти со стриминговых платформ, включая Spotify, Apple Music и YouTube Music, в период с 2017 по 2024 год.

Claude-Code v2.1.41 Выпуск: Основные обновления и исправления
Claude-Code v2.1.41 представляет улучшения обновления AWS auth, поддержку Windows ARM64 и исправления различных инструментов и элементов пользовательского интерфейса.