Тесты локальных LLM на RTX 5060 Ti 16 ГБ: Модели на 30 млрд параметров по-прежнему лидируют в программировании.

Результаты производительности локальных LLM на RTX 5060 Ti 16GB
Тестирование на RTX 5060 Ti 16GB с 32 ГБ оперативной памяти DDR4 с использованием llama-server b8373 (46dba9fce) выявляет практические характеристики производительности для локальных рабочих процессов LLM-кодирования. В настройке использовался llama.cpp со специфичными параметрами запуска: быстрый путь с fa=on, ngl=auto, threads=8 и настройками KV -ctk q8_0 -ctv q8_0.
Результаты производительности моделей
Бенчмарк сравнил несколько квантованных моделей с такими ключевыми выводами:
- Лучшая модель для кодирования по умолчанию: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
- Лучший вариант для кодирования с большим контекстом: Та же модель Unsloth 30B с контекстом 96k
- Лучший быстрый вариант для кодирования 35B: Unsloth Qwen3.5-35B UD-Q2_K_XL
Метрики производительности
Скорости генерации токенов из локального тестирования:
- Jackrong Qwen 3.5 4B Q5_K_M: 88 ток/с
- LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 ток/с
- Jackrong Qwen 3.5 27B Q3_K_S: ~20 ток/с
- Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 ток/с
- Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 ток/с
Сравнение на разных платформах
Сопоставимые тесты с 20 вопросами, контекстом 32k и max_tokens=800 показали:
- Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 ток/с, качество 7.94 | Ubuntu: 76.3 ток/с, качество 8.14
- Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 ток/с, качество 7.40 | Ubuntu: 80.1 ток/с, качество 7.39
- Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 ток/с, качество 8.85 | Ubuntu: ~20.0 ток/с, качество 8.21
Примечания по конфигурации
Путь для 30B кодера использовал: jinja, reasoning-budget 0, reasoning-format none. Путь для 35B UD использовал: c=262144, n-cpu-moe=8. Для стабильной настройки 35B Q4_K_M использовались параметры: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.
Примечательно, что для модели 35B Q4_K_M потребовалась специфичная настройка для стабильной работы на этой карте, но на практике она всё равно не превзошла старый путь UD-Q2_K_XL. Автор обнаружил, что меньшие модели (маршрут 9B) и более тяжёлые эксперименты (35B Q4_K_M) не оказались самыми сильными вариантами в реальных условиях, несмотря на ожидания.
Тестирование производительности на Ubuntu
Дополнительное целенаправленное тестирование на Ubuntu с моделью Jackrong 27B показало минимальные вариации:
-fa on, авто-параллелизация: 19.95 ток/с-fa auto, авто-параллелизация: 19.56 ток/с-fa on,--parallel 1: 19.26 ток/с
Настройки flash-attention и параметры параллельной обработки оказали незначительное влияние на производительность этой конкретной модели.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Самодельный слой памяти для Claude бесплатно работает на Cloudflare
MCP-сервер Cloudflare Worker позволяет Клоду запоминать и извлекать заметки с помощью семантического поиска, используя Workers AI и Vectorize — все на бесплатном тарифе.

Monarch v3: Вдохновленная NES система постраничной организации KV-памяти для ускорения вывода LLM на 78%
Monarch v3 реализует NES-вдохновленное разбиение памяти на страницы для трансформеров, достигая ускорения вывода на 78% (с 17.01 до 30.42 токенов/сек) на модели с 1.1B параметров с почти нулевыми накладными расходами на VRAM. Алгоритм с открытым исходным кодом разделяет KV-кэш на горячие и холодные регионы с механизмами сжатия и продвижения.

Навык OpenClaw для поиска и воспроизведения Apple Music опубликован на ClawHub.
Навык apple-music-play, опубликованный на ClawHub, позволяет искать в онлайн-каталоге Apple Music и воспроизводить треки напрямую в приложении Music на macOS, не требуя наличия песен в локальной библиотеке.

SkillOpt: Оптимизация файлов навыков Markdown как обучаемых параметров для AI-агентов
SkillOpt формализует ad-hoc процесс редактирования файлов навыков Markdown для AI-агентов кодирования, используя передовые модели для предложения ограниченных правок, проверяемых на валидационных наборах. Лучшие навыки сходятся за 1-4 принятых правки из множества предложений и переносятся между моделями, например, от Codex к Claude Code.