С помощью тонкой настройки Qwen2.5-7B достигли 96% производительности Claude Haiku за $3 и без участия разметчиков

✍️ OpenClawRadar📅 Опубликовано: 11 июня 2026 г.🔗 Source
С помощью тонкой настройки Qwen2.5-7B достигли 96% производительности Claude Haiku за $3 и без участия разметчиков
Ad

Разработчик дообучил Qwen2.5-7B, достигнув 96% совокупной производительности Claude Haiku в предметно-ориентированной задаче принятия решений — потратив всего ~$3 на API-запросы и не используя людей-разметчиков. Метод, названный DV-DPO (Decision-Validated Direct Preference Optimization), автономно генерирует обучающий сигнал, запуская многоголосый оппозиционный совет.

Как работает DV-DPO

Конвейер запускает совет из 3 голосов для каждого вопроса о решении, создавая синтез. Затем два проигравших голоса перекрестно допрашивают синтез. Если синтез изменяется под этим оппозиционным давлением, формируется DPO-пара: версия после изменения считается предпочтительным ответом, а версия до изменения — отвергнутым. Если синтез остается без изменений — пара не создается. Это гарантирует, что только настоящие ошибки в рассуждениях порождают обучающий сигнал, а не предпочтения по формату или случайность выборки.

Ad

Результаты

  • 1 040 обучающих пар сгенерировано всего (~$3 по тарифам Haiku)
  • Сравнение с Claude Haiku: Формат 100%, Обязательства 100%, Контекст 89%, Совокупный показатель 96%
  • Задержка: 11 с на T4 GPU (4-битное квантование) против 3 с у Haiku
  • Частота сбоев при оппозиции: 2% на 96 целевых вопросах

Автономный цикл улучшения

Теперь система выполняет автоматизированный цикл: failure_detector → auto_red_team → DPO pairs → retrain → redeploy → eval. Накапливаются пары версии 5. Дообученная модель доступна в виде файла GGUF, готового к использованию в Ollama.

Для кого это

Разработчики, создающие предметно-ориентированные агенты рассуждений, которые хотят перейти от API с оплатой за запрос к локальной дообученной модели без дорогостоящей человеческой разметки.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Анализ Claude Opus 4.7: Высокий интеллект, но большая стоимость и многословность
Новости

Анализ Claude Opus 4.7: Высокий интеллект, но большая стоимость и многословность

Claude Opus 4.7 (Адаптивное рассуждение, Максимальные усилия) занимает первое место по интеллекту среди 133 моделей с оценкой 57 по Индексу интеллекта Artificial Analysis, но стоит $5 за 1 млн входных токенов и $25 за 1 млн выходных токенов, что делает его значительно дороже среднего.

OpenClawRadar
Сделка CBP с Clearview AI: Распознавание лиц для тактического целеполагания.
Новости

Сделка CBP с Clearview AI: Распознавание лиц для тактического целеполагания.

Служба таможни и охраны границ США заключила контракт с Clearview AI для тактического таргетинга, используя технологии распознавания лиц на миллиардах изображений, собранных из интернета.

OpenClawRadar
GitHub Copilot убирает модели Opus из Pro-плана и приостанавливает регистрацию новых пользователей.
Новости

GitHub Copilot убирает модели Opus из Pro-плана и приостанавливает регистрацию новых пользователей.

GitHub удаляет модели Opus из плана Copilot Pro и приостанавливает новые регистрации для планов Pro, Pro+ и Student. Opus 4.7 остаётся доступным в Pro+, в то время как планы Pro+ теперь предлагают более чем в 5 раз увеличенные лимиты использования по сравнению с Pro.

OpenClawRadar
Google Trends показывает рост поискового интереса к Claude Code в начале 2026 года.
Новости

Google Trends показывает рост поискового интереса к Claude Code в начале 2026 года.

Пользователь Reddit сравнили интерес поисковых запросов в Google Trends за последний год для пяти инструментов программирования: vibe coding, Cursor, Claude Code, Codex и Replit. Рост Claude Code в начале 2026 года особенно выделяется в данных.

OpenClawRadar