디스코드 자동완성을 위한 Qwen 14B 미세 조정

한 개발자가 자신의 디스코드 메시지를 활용해 Qwen 14B 모델을 미세 조정하여 자동 완성 도구로 만든 경험을 공유했습니다. 이 설정은 GitHub Copilot과 유사하게 타이핑 중에 제안을 제공하는 방식입니다.
개발자는 스크래핑 도구를 통해 수집한 약 250개의 디스코드 대화를 데이터셋으로 사용했습니다. 각 대화는 chat-ml 훈련 샘플로 형식화되었으며, 특히 코드 블록이나 링크 없이 사용자가 마지막으로 말한 메시지에 초점을 맞췄습니다. 이 선택은 기술적 내용보다 대화적 어조에 중점을 둔 것을 나타냅니다.
Qwen 14B 모델은 unsloth.ai 플랫폼과 QLoRA를 사용해 Kaggle GPU에서 미세 조정되었으며, 작은 데이터셋 크기로 인해 전체 훈련 과정은 약 15분 동안 지속되었습니다. 그런 다음 미세 조정된 모델을 .gguf 형식으로 병합하여 ollama.com을 통해 로컬에서 사용할 수 있게 했습니다.
이 자동 완성 도구의 프론트엔드는 Chrome 확장 프로그램으로 구현되었습니다. 마지막 몇 개의 메시지와 사용자의 현재 입력을 캡처하여 적절한 컨텍스트를 가진 chat-ml 프롬프트를 구성한 다음, Ollama에서 제공하는 모델을 사용해 완성문을 생성합니다. 제안이 시작되는 위치를 표시하기 위해 제로 너비 유니코드 문자가 교묘하게 사용되며, shift+tab을 누르면 제안을 수락합니다.
현재 설정은 디스코드에서 작동 중이며, 향후 다른 사이트도 지원할 수 있는 확장 가능성이 있습니다. 개발자는 현재 14B 모델이 사용 가능한 메모리를 거의 최대한 사용하고 있기 때문에 다른 모델 크기도 실험해 볼 것을 제안합니다. 4B나 8B 모델이 데이터 제한이 있을 수 있지만 실행 가능한 대안이 될 수 있다고 제안합니다.
소스 코드와 자세한 내용은 개발자의 GitHub github.com/b44ken/finetune에서 확인할 수 있습니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

JetBrains, AI 에이전트 Junie와 Claude Code로 현대적인 Go 코드를 위한 플러그인 출시
JetBrains가 AI 에이전트 Junie와 Claude Code를 위한 플러그인을 출시하여, 최신 Go 기능과 모범 사례를 준수함으로써 현대적인 Go 코드 생성 능력을 향상시켰습니다.

에이전트 팩토리: 지속적인 AI 서브 에이전트 팀을 위한 Claude 코드 플러그인
Agent-factory는 Claude Code 플러그인으로, 고유한 성격과 파일 기반 메모리를 가진 지속적인 하위 에이전트 팀을 생성합니다. 대화형 인터뷰 과정을 통해 프로젝트당 2~5명의 에이전트를 구성하며, 각 에이전트는 코드 리뷰, 기술 부채 추적, 전략 수립과 같은 특정 역할을 담당합니다.

토탈 리콜: 클로드 코드 대화 기록을 위한 로컬 지식 그래프
토탈 리콜은 Claude Code의 JSONL 대화 기록을 SQLite 데이터베이스에 수집하여 전체 텍스트 검색과 벡터 임베딩을 제공하는 오픈소스 시스템으로, 세션 간 대화 기록을 검색 가능하게 만듭니다. 이 시스템은 DAG 인식 컨텍스트로 실제 대화 발췌문을 검색하며 ChatGPT 가져오기 기능을 포함합니다.

로컬 Qwen 3.6 27B를 Codex 검증 공동 에이전트로 벤치마킹하기
한 개발자가 Qwen 3.6 27B GGUF 프로파일(llama.cpp)을 Codex의 사이드카 검증기로 테스트하기 위해 재현 가능한 평가 스위트를 구축했으며, 긴 컨텍스트 작업에는 128k 컨텍스트 프로파일이 필요하고 q8 KV 캐시에서는 정확도 손실이 거의 없음을 발견했습니다.