Тесты локальных LLM на RTX 5060 Ti 16 ГБ: Модели на 30 млрд параметров по-прежнему лидируют в программировании.

✍️ OpenClawRadar📅 Опубликовано: 19 апреля 2026 г.🔗 Source
Тесты локальных LLM на RTX 5060 Ti 16 ГБ: Модели на 30 млрд параметров по-прежнему лидируют в программировании.
Ad

Результаты производительности локальных LLM на RTX 5060 Ti 16GB

Тестирование на RTX 5060 Ti 16GB с 32 ГБ оперативной памяти DDR4 с использованием llama-server b8373 (46dba9fce) выявляет практические характеристики производительности для локальных рабочих процессов LLM-кодирования. В настройке использовался llama.cpp со специфичными параметрами запуска: быстрый путь с fa=on, ngl=auto, threads=8 и настройками KV -ctk q8_0 -ctv q8_0.

Результаты производительности моделей

Бенчмарк сравнил несколько квантованных моделей с такими ключевыми выводами:

  • Лучшая модель для кодирования по умолчанию: Unsloth Qwen3-Coder-30B UD-Q3_K_XL
  • Лучший вариант для кодирования с большим контекстом: Та же модель Unsloth 30B с контекстом 96k
  • Лучший быстрый вариант для кодирования 35B: Unsloth Qwen3.5-35B UD-Q2_K_XL

Метрики производительности

Скорости генерации токенов из локального тестирования:

  • Jackrong Qwen 3.5 4B Q5_K_M: 88 ток/с
  • LuffyTheFox Qwen 3.5 9B Q4_K_M: 64 ток/с
  • Jackrong Qwen 3.5 27B Q3_K_S: ~20 ток/с
  • Unsloth Qwen 3.0 30B UD-Q3_K_XL: 76.3 ток/с
  • Unsloth Qwen 3.5 35B UD-Q2_K_XL: 80.1 ток/с

Сравнение на разных платформах

Сопоставимые тесты с 20 вопросами, контекстом 32k и max_tokens=800 показали:

  • Unsloth Qwen3-Coder-30B UD-Q3_K_XL: Windows: 79.5 ток/с, качество 7.94 | Ubuntu: 76.3 ток/с, качество 8.14
  • Unsloth Qwen3.5-35B UD-Q2_K_XL: Windows: 72.3 ток/с, качество 7.40 | Ubuntu: 80.1 ток/с, качество 7.39
  • Jackrong Qwen3.5-27B Claude-Opus Distilled Q3_K_S: Windows: 19.9 ток/с, качество 8.85 | Ubuntu: ~20.0 ток/с, качество 8.21
Ad

Примечания по конфигурации

Путь для 30B кодера использовал: jinja, reasoning-budget 0, reasoning-format none. Путь для 35B UD использовал: c=262144, n-cpu-moe=8. Для стабильной настройки 35B Q4_K_M использовались параметры: -ngl 26 -c 131072 --fit on --fit-ctx 131072 --fit-target 512M.

Примечательно, что для модели 35B Q4_K_M потребовалась специфичная настройка для стабильной работы на этой карте, но на практике она всё равно не превзошла старый путь UD-Q2_K_XL. Автор обнаружил, что меньшие модели (маршрут 9B) и более тяжёлые эксперименты (35B Q4_K_M) не оказались самыми сильными вариантами в реальных условиях, несмотря на ожидания.

Тестирование производительности на Ubuntu

Дополнительное целенаправленное тестирование на Ubuntu с моделью Jackrong 27B показало минимальные вариации:

  • -fa on, авто-параллелизация: 19.95 ток/с
  • -fa auto, авто-параллелизация: 19.56 ток/с
  • -fa on, --parallel 1: 19.26 ток/с

Настройки flash-attention и параметры параллельной обработки оказали незначительное влияние на производительность этой конкретной модели.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Самодельный слой памяти для Claude бесплатно работает на Cloudflare
Инструменты

Самодельный слой памяти для Claude бесплатно работает на Cloudflare

MCP-сервер Cloudflare Worker позволяет Клоду запоминать и извлекать заметки с помощью семантического поиска, используя Workers AI и Vectorize — все на бесплатном тарифе.

OpenClawRadar
Monarch v3: Вдохновленная NES система постраничной организации KV-памяти для ускорения вывода LLM на 78%
Инструменты

Monarch v3: Вдохновленная NES система постраничной организации KV-памяти для ускорения вывода LLM на 78%

Monarch v3 реализует NES-вдохновленное разбиение памяти на страницы для трансформеров, достигая ускорения вывода на 78% (с 17.01 до 30.42 токенов/сек) на модели с 1.1B параметров с почти нулевыми накладными расходами на VRAM. Алгоритм с открытым исходным кодом разделяет KV-кэш на горячие и холодные регионы с механизмами сжатия и продвижения.

OpenClawRadar
Навык OpenClaw для поиска и воспроизведения Apple Music опубликован на ClawHub.
Инструменты

Навык OpenClaw для поиска и воспроизведения Apple Music опубликован на ClawHub.

Навык apple-music-play, опубликованный на ClawHub, позволяет искать в онлайн-каталоге Apple Music и воспроизводить треки напрямую в приложении Music на macOS, не требуя наличия песен в локальной библиотеке.

OpenClawRadar
SkillOpt: Оптимизация файлов навыков Markdown как обучаемых параметров для AI-агентов
Инструменты

SkillOpt: Оптимизация файлов навыков Markdown как обучаемых параметров для AI-агентов

SkillOpt формализует ad-hoc процесс редактирования файлов навыков Markdown для AI-агентов кодирования, используя передовые модели для предложения ограниченных правок, проверяемых на валидационных наборах. Лучшие навыки сходятся за 1-4 принятых правки из множества предложений и переносятся между моделями, например, от Codex к Claude Code.

OpenClawRadar