Qwen3.5-2B 미세조정: RAG-Engram으로 정확도 93% 달성

향상된 RAG 성능을 위한 미세 조정 접근법

한 개발자가 검색된 약 8K 토큰의 데이터로 컨텍스트 창이 포화 상태일 때 소규모 언어 모델에서 발생하는 '중간에서 길을 잃는' 현상과 환각 현상을 해결하기 위해 Qwen3.5-2B의 미세 조정 버전을 만들었습니다. RAG-Engram이라는 맞춤형 아키텍처는 14개의 실제 질의에서 8K 토큰 기준 정답률을 50%에서 93%로 향상시켰습니다.

아키텍처 세부사항

RAG-Engram 시스템은 Qwen3.5-2B의 하이브리드 Gated DeltaNet 아키텍처를 중심으로 구축된 두 단계 시스템입니다:

1단계 — 정적 엔그램 테이블: CPU RAM에 저장된 135K개의 사전 계산된 개체 임베딩(인도 고유 명사, 정부 계획, 힌디어 구문, 금융 용어). 이를 통해 모델이 알려진 개체를 재구성하는 데 주의를 기울일 필요가 없어집니다.
2단계 — 동적 청크 탐색: 추론 시, 경량 spaCy 추출기(~15MB)가 검색된 청크를 스캔하여 주요 개체가 나타나는 위치의 포인터 맵을 구축하고 주의 편향 행렬을 생성합니다. 이는 하이브리드 아키텍처에서 전체 주의 계층인 3층과 15층(다른 18개 계층은 소프트맥스 주의가 없는 Gated DeltaNet임)의 소프트맥스 전 Q·K^T 점수에 추가됩니다.

이 접근법은 모델이 답을 찾기 위해 8,000개의 토큰을 맹목적으로 스캔하도록 하는 대신, 주의 헤드가 어디를 볼지 알려줍니다.

훈련 사양

기본 모델: Qwen3.5-2B-Base
방법: Unsloth를 통한 LoRA(r=16, alpha=16)
데이터: MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K에서 DeepSeek V3를 통해 증류된 2,168개 예시
훈련 시간: Modal(단일 GPU)에서 15분
훈련/검증 손실: 1.369 / 1.385 — 과적합 없음

지도 미세 조정은 모델이 특정 대화 스타일(마크다운, 주요 통찰 굵게 표시, 출처 기반)로 답변하도록 가르치는 반면, 엔그램 편향은 긴 컨텍스트에서 주의 탐색을 처리합니다.

평가 결과

평가는 Claude Opus 4.6를 사용하여 8K 토큰으로 패딩된 Google 검색 결과 청크로 수행되었습니다:

일반 Qwen3.5-2B: 8K 토큰 기준 50% 정답률, 14% 실패/거부
Drissy + RAG-Engram: 8K 토큰 기준 93% 정답률, 0% 실패/거부

이 조합은 '중간에서 길을 잃는' 실패를 완전히 제거했습니다. 개발자는 사양부터 HuggingFace까지 전체 프로젝트가 약 2주가 걸렸고 커피 한 잔보다 적은 비용이 들었다고 보고합니다.

모델 이용 가능성

미세 조정된 모델은 다음과 같이 이용 가능합니다:

모델: drissea-ai/drissy-qwen3.5-2b
GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

RAG-Engram 아키텍처로 미세 조정된 Qwen3.5-2B 모델은 8K 컨텍스트에서 근거 기반 답변 정확도를 50%에서 93%로 향상시킵니다.

향상된 RAG 성능을 위한 미세 조정 접근법

아키텍처 세부사항

훈련 사양

평가 결과

모델 이용 가능성

👀 See Also

Next.js 개발을 위한 병렬 Claude 채팅 아키텍처

FFF - Fast File Finder는 ripgrep보다 100배 빠른 속도 우위를 주장합니다

DuckDB의 Quack 프로토콜이 다중 동시 쓰기 클라이언트-서버를 지원합니다

RunLobster 대 호스팅 OpenClaw 솔루션 비교