Тонкая настройка Qwen 14B для автозаполнения в Discord

Разработчик поделился своим опытом о том, как он настроил модель Qwen 14B для работы в качестве инструмента автозаполнения, используя свои сообщения из Discord. Эта настройка напоминает инструменты вроде GitHub Copilot, где предложения появляются по мере ввода.
Разработчик использовал примерно 250 бесед, полученных из Discord с помощью инструмента для парсинга, в качестве своего набора данных. Каждая беседа была отформатирована как обучающие образцы chat-ml, с особым акцентом на сообщения, в которых пользователь что-то сказал последним, без кодовых блоков или ссылок. Этот выбор указывает на акцент на разговорном тоне, а не на техническом содержании.
Модель Qwen 14B была настроена с использованием платформы unsloth.ai и QLoRA на GPU Kaggle, при этом весь процесс обучения занял примерно 15 минут из-за небольшого размера набора данных. Затем они объединили настроенную модель в формат .gguf для локального использования через ollama.com.
Интерфейс этого инструмента автозаполнения реализован как расширение для Chrome. Он захватывает последние несколько сообщений и текущий ввод пользователя, чтобы создать подсказку chat-ml с соответствующим контекстом, которая затем используется для генерации завершения на основе модели, предоставленной Ollama. Умный символ Юникода нулевой ширины используется для указания начала предложения, в то время как нажатие shift+tab примет предложение.
Текущая настройка функционирует в Discord, с потенциальными будущими расширениями для поддержки других сайтов. Разработчик также предлагает поэкспериментировать с разными размерами моделей, так как текущая модель 14B практически максимально использует доступную память. Они предполагают, что модели 4B или 8B могут быть жизнеспособными альтернативами, хотя могут столкнуться с потенциальными ограничениями данных.
Исходный код и дополнительные детали доступны на GitHub разработчика по адресу github.com/b44ken/finetune.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

A2P: MCP-сервер, обеспечивающий соблюдение инженерной дисциплины для AI-агентов программирования
A2P (Architect-to-Product) — это инженерная AI-платформа, упакованная как MCP-сервер, которая обеспечивает контролируемый рабочий процесс: Архитектура → План → Сборка → Аудит → Безопасность → Развертывание, где каждый функциональный срез требует прохождения этапов RED → GREEN → REFACTOR → SAST → DONE.

ClankerRank: Бенчмарк для оценки навыков программирования с помощью ИИ на основе Claude Haiku
Разработчик создал ClankerRank для оценки навыков программирования с помощью ИИ, используя модель Claude Haiku 4.5. Платформа предлагает пользователям одинаковые баги, оценивает результаты с помощью скрытых тестов и выявила явные различия в навыках среди сотен участников.

AGI в md: 11 уровней когнитивного сжатия для системных промптов Claude
Репозиторий на GitHub документирует 11 уровней когнитивного сжатия, которые можно закодировать в системных промптах Claude, при этом Уровень 8 переходит от анализа к конструированию и улучшает производительность Haiku с 0/3 до 4/4. Проект включает 28 промптов, 299 сырых выводов и полные журналы экспериментов по 19 доменам.

Phalanx CLI координирует работу нескольких ИИ-агентов для автоматизации циклов ревью кода.
Разработчик создал Phalanx — инструмент командной строки, который координирует работу ИИ-агентов от разных провайдеров: Codex занимается написанием кода, Claude Opus выполняет код-ревью, а Claude Sonnet управляет циклом. Вспомогательный инструмент Codebones сжимает репозитории в структурные карты для снижения расхода токенов.