Тесты локальных LLM на RTX 5060 Ti 16 ГБ: Модели на 30 млрд параметров по-прежнему лидируют в программировании.

✍️ OpenClawRadar📅 Опубликовано: 19 апреля 2026 г.🔗 Source

Результаты производительности локальных LLM на RTX 5060 Ti 16GB

Тестирование на RTX 5060 Ti 16GB с 32 ГБ оперативной памяти DDR4 с использованием llama-server b8373 (46dba9fce) выявляет практические характеристики производительности для локальных рабочих процессов LLM-кодирования. В настройке использовался llama.cpp со специфичными параметрами запуска: быстрый путь с fa=on, ngl=auto, threads=8 и настройками KV -ctk q8_0 -ctv q8_0.

Результаты производительности моделей

Бенчмарк сравнил несколько квантованных моделей с такими ключевыми выводами:

Лучшая модель для кодирования по умолчанию: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
Лучший вариант для кодирования с большим контекстом: Та же модель Unsloth 30B с контекстом 96k
Лучший быстрый вариант для кодирования 35B: Unsloth Qwen3.5-35B UD-Q2_K_XL

Метрики производительности

Скорости генерации токенов из локального тестирования:

Jackrong Qwen 3.5 4B Q5_K_M: 88 ток/с
LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 ток/с
Jackrong Qwen 3.5 27B Q3_K_S: ~20 ток/с
Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 ток/с
Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 ток/с

Сравнение на разных платформах

Сопоставимые тесты с 20 вопросами, контекстом 32k и max_tokens=800 показали:

Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 ток/с, качество 7.94 | Ubuntu: 76.3 ток/с, качество 8.14
Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 ток/с, качество 7.40 | Ubuntu: 80.1 ток/с, качество 7.39
Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 ток/с, качество 8.85 | Ubuntu: ~20.0 ток/с, качество 8.21

Примечания по конфигурации

Путь для 30B кодера использовал: jinja, reasoning-budget 0, reasoning-format none. Путь для 35B UD использовал: c=262144, n-cpu-moe=8. Для стабильной настройки 35B Q4_K_M использовались параметры: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Примечательно, что для модели 35B Q4_K_M потребовалась специфичная настройка для стабильной работы на этой карте, но на практике она всё равно не превзошла старый путь UD-Q2_K_XL. Автор обнаружил, что меньшие модели (маршрут 9B) и более тяжёлые эксперименты (35B Q4_K_M) не оказались самыми сильными вариантами в реальных условиях, несмотря на ожидания.

Тестирование производительности на Ubuntu

Дополнительное целенаправленное тестирование на Ubuntu с моделью Jackrong 27B показало минимальные вариации:

-fa on, авто-параллелизация: 19.95 ток/с
-fa auto, авто-параллелизация: 19.56 ток/с
-fa on, --parallel 1: 19.26 ток/с

Настройки flash-attention и параметры параллельной обработки оказали незначительное влияние на производительность этой конкретной модели.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Создание альтернативы OpenClaw своими руками с использованием кода Claude в безголовом режиме

Разработчик создал сервер на Python, который отправляет запросы к Claude Code в безголовом режиме, с доступом через Telegram-бота, автоматизацией Hammerspoon и локальным хранением данных в файлах Markdown для задач, расписаний и заметок.

29 мар. 2026 г., 17:45 UTC

OpenClawRadar

Инструменты

开发者用每千次提示中的咒骂次数指标追踪沮丧情绪，涉及44,212条Claude Code日志

Разработчик отслеживал 'fpk' (f-бомбы на тысячу промптов) по 44 212 промптам Claude Code за 5 месяцев и обнаружил, что уровень разочарования снизился в 3,4 раза с Claude Opus 4-5 до 4-7, причем большая часть ругательств была направлена на инструменты окружения, а не на модель.

5 мая 2026 г., 20:15 UTC

OpenClawRadar

Инструменты

Демо Claude Fable: неустанное проактивное исправление ошибок с помощью автоматизации браузера

Саймон Уиллисон описывает, как Claude Fable 5 автоматически отладил проблему с горизонтальной полосой прокрутки без инструкций. Он использовал автоматизацию браузера, инъекцию JavaScript и собственный CORS-веб-сервер.

13 июн. 2026 г., 00:15 UTC

OpenClawRadar

Инструменты

Пользовательский бэкенд llama.cpp переносит матричное умножение LLM на NPU AMD XDNA2 в процессорах Ryzen AI MAX 385

Разработчик создал пользовательский бэкенд llama.cpp, который отправляет операции GEMM напрямую на NPU AMD XDNA2 в Ryzen AI MAX 385 (Strix Halo), достигая скорости декодирования 43,7 t/s при энергопотреблении 0,947 Дж/токен с моделью Meta-Llama-3.1-8B-Instruct Q4_K_M. Путь декодирования через NPU экономит около 10 Вт по сравнению с использованием только Vulkan, при этом сохраняя ту же пропускную способность декодирования.

26 мар. 2026 г., 20:45 UTC

OpenClawRadar