RAG-Engram 아키텍처로 미세 조정된 Qwen3.5-2B 모델은 8K 컨텍스트에서 근거 기반 답변 정확도를 50%에서 93%로 향상시킵니다.

✍️ OpenClawRadar📅 게시일: March 27, 2026🔗 Source
RAG-Engram 아키텍처로 미세 조정된 Qwen3.5-2B 모델은 8K 컨텍스트에서 근거 기반 답변 정확도를 50%에서 93%로 향상시킵니다.
Ad

향상된 RAG 성능을 위한 미세 조정 접근법

한 개발자가 검색된 약 8K 토큰의 데이터로 컨텍스트 창이 포화 상태일 때 소규모 언어 모델에서 발생하는 '중간에서 길을 잃는' 현상과 환각 현상을 해결하기 위해 Qwen3.5-2B의 미세 조정 버전을 만들었습니다. RAG-Engram이라는 맞춤형 아키텍처는 14개의 실제 질의에서 8K 토큰 기준 정답률을 50%에서 93%로 향상시켰습니다.

아키텍처 세부사항

RAG-Engram 시스템은 Qwen3.5-2B의 하이브리드 Gated DeltaNet 아키텍처를 중심으로 구축된 두 단계 시스템입니다:

  • 1단계 — 정적 엔그램 테이블: CPU RAM에 저장된 135K개의 사전 계산된 개체 임베딩(인도 고유 명사, 정부 계획, 힌디어 구문, 금융 용어). 이를 통해 모델이 알려진 개체를 재구성하는 데 주의를 기울일 필요가 없어집니다.
  • 2단계 — 동적 청크 탐색: 추론 시, 경량 spaCy 추출기(~15MB)가 검색된 청크를 스캔하여 주요 개체가 나타나는 위치의 포인터 맵을 구축하고 주의 편향 행렬을 생성합니다. 이는 하이브리드 아키텍처에서 전체 주의 계층인 3층과 15층(다른 18개 계층은 소프트맥스 주의가 없는 Gated DeltaNet임)의 소프트맥스 전 Q·K^T 점수에 추가됩니다.

이 접근법은 모델이 답을 찾기 위해 8,000개의 토큰을 맹목적으로 스캔하도록 하는 대신, 주의 헤드가 어디를 볼지 알려줍니다.

Ad

훈련 사양

  • 기본 모델: Qwen3.5-2B-Base
  • 방법: Unsloth를 통한 LoRA(r=16, alpha=16)
  • 데이터: MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K에서 DeepSeek V3를 통해 증류된 2,168개 예시
  • 훈련 시간: Modal(단일 GPU)에서 15분
  • 훈련/검증 손실: 1.369 / 1.385 — 과적합 없음

지도 미세 조정은 모델이 특정 대화 스타일(마크다운, 주요 통찰 굵게 표시, 출처 기반)로 답변하도록 가르치는 반면, 엔그램 편향은 긴 컨텍스트에서 주의 탐색을 처리합니다.

평가 결과

평가는 Claude Opus 4.6를 사용하여 8K 토큰으로 패딩된 Google 검색 결과 청크로 수행되었습니다:

  • 일반 Qwen3.5-2B: 8K 토큰 기준 50% 정답률, 14% 실패/거부
  • Drissy + RAG-Engram: 8K 토큰 기준 93% 정답률, 0% 실패/거부

이 조합은 '중간에서 길을 잃는' 실패를 완전히 제거했습니다. 개발자는 사양부터 HuggingFace까지 전체 프로젝트가 약 2주가 걸렸고 커피 한 잔보다 적은 비용이 들었다고 보고합니다.

모델 이용 가능성

미세 조정된 모델은 다음과 같이 이용 가능합니다:

  • 모델: drissea-ai/drissy-qwen3.5-2b
  • GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also