Qwen 14B 미세 조정으로 디스코드 자동완성 구현하기

한 개발자가 자신의 디스코드 메시지를 활용해 Qwen 14B 모델을 미세 조정하여 자동 완성 도구로 만든 경험을 공유했습니다. 이 설정은 GitHub Copilot과 유사하게 타이핑 중에 제안을 제공하는 방식입니다.

개발자는 스크래핑 도구를 통해 수집한 약 250개의 디스코드 대화를 데이터셋으로 사용했습니다. 각 대화는 chat-ml 훈련 샘플로 형식화되었으며, 특히 코드 블록이나 링크 없이 사용자가 마지막으로 말한 메시지에 초점을 맞췄습니다. 이 선택은 기술적 내용보다 대화적 어조에 중점을 둔 것을 나타냅니다.

Qwen 14B 모델은 unsloth.ai 플랫폼과 QLoRA를 사용해 Kaggle GPU에서 미세 조정되었으며, 작은 데이터셋 크기로 인해 전체 훈련 과정은 약 15분 동안 지속되었습니다. 그런 다음 미세 조정된 모델을 .gguf 형식으로 병합하여 ollama.com을 통해 로컬에서 사용할 수 있게 했습니다.

이 자동 완성 도구의 프론트엔드는 Chrome 확장 프로그램으로 구현되었습니다. 마지막 몇 개의 메시지와 사용자의 현재 입력을 캡처하여 적절한 컨텍스트를 가진 chat-ml 프롬프트를 구성한 다음, Ollama에서 제공하는 모델을 사용해 완성문을 생성합니다. 제안이 시작되는 위치를 표시하기 위해 제로 너비 유니코드 문자가 교묘하게 사용되며, shift+tab을 누르면 제안을 수락합니다.

현재 설정은 디스코드에서 작동 중이며, 향후 다른 사이트도 지원할 수 있는 확장 가능성이 있습니다. 개발자는 현재 14B 모델이 사용 가능한 메모리를 거의 최대한 사용하고 있기 때문에 다른 모델 크기도 실험해 볼 것을 제안합니다. 4B나 8B 모델이 데이터 제한이 있을 수 있지만 실행 가능한 대안이 될 수 있다고 제안합니다.

소스 코드와 자세한 내용은 개발자의 GitHub github.com/b44ken/finetune에서 확인할 수 있습니다.

📖 전체 출처 읽기: r/LocalLLaMA

디스코드 자동완성을 위한 Qwen 14B 미세 조정

👀 See Also

미미르: 21가지 신경과학 메커니즘을 기반으로 구축된 파이썬 메모리 시스템

마이크로소프트 DebugMCP VS Code 확장 프로그램, AI 에이전트에 디버깅 기능 부여

개발자가 Claude AI가 50개 한도를 초과하는 규칙을 무시하는 문제에 대한 해결책을 공유합니다.

종이 등 MCP 서버, 클로드 코드와 연구 논문 연결