Дообучение Qwen2.5-7B: 96% Claude Haiku за $3

Разработчик дообучил Qwen2.5-7B, достигнув 96% совокупной производительности Claude Haiku в предметно-ориентированной задаче принятия решений — потратив всего ~$3 на API-запросы и не используя людей-разметчиков. Метод, названный DV-DPO (Decision-Validated Direct Preference Optimization), автономно генерирует обучающий сигнал, запуская многоголосый оппозиционный совет.

Как работает DV-DPO

Конвейер запускает совет из 3 голосов для каждого вопроса о решении, создавая синтез. Затем два проигравших голоса перекрестно допрашивают синтез. Если синтез изменяется под этим оппозиционным давлением, формируется DPO-пара: версия после изменения считается предпочтительным ответом, а версия до изменения — отвергнутым. Если синтез остается без изменений — пара не создается. Это гарантирует, что только настоящие ошибки в рассуждениях порождают обучающий сигнал, а не предпочтения по формату или случайность выборки.

Результаты

1 040 обучающих пар сгенерировано всего (~$3 по тарифам Haiku)
Сравнение с Claude Haiku: Формат 100%, Обязательства 100%, Контекст 89%, Совокупный показатель 96%
Задержка: 11 с на T4 GPU (4-битное квантование) против 3 с у Haiku
Частота сбоев при оппозиции: 2% на 96 целевых вопросах

Автономный цикл улучшения

Теперь система выполняет автоматизированный цикл: failure_detector → auto_red_team → DPO pairs → retrain → redeploy → eval. Накапливаются пары версии 5. Дообученная модель доступна в виде файла GGUF, готового к использованию в Ollama.

Для кого это

Разработчики, создающие предметно-ориентированные агенты рассуждений, которые хотят перейти от API с оплатой за запрос к локальной дообученной модели без дорогостоящей человеческой разметки.

📖 Читать полный источник: r/LocalLLaMA

С помощью тонкой настройки Qwen2.5-7B достигли 96% производительности Claude Haiku за $3 и без участия разметчиков

Как работает DV-DPO

Результаты

Автономный цикл улучшения

Для кого это

👀 Смотрите также

Анализ Claude Opus 4.7: Высокий интеллект, но большая стоимость и многословность

Сделка CBP с Clearview AI: Распознавание лиц для тактического целеполагания.

GitHub Copilot убирает модели Opus из Pro-плана и приостанавливает регистрацию новых пользователей.

Google Trends показывает рост поискового интереса к Claude Code в начале 2026 года.