RAG-Engram 아키텍처로 미세 조정된 Qwen3.5-2B 모델은 8K 컨텍스트에서 근거 기반 답변 정확도를 50%에서 93%로 향상시킵니다.

향상된 RAG 성능을 위한 미세 조정 접근법
한 개발자가 검색된 약 8K 토큰의 데이터로 컨텍스트 창이 포화 상태일 때 소규모 언어 모델에서 발생하는 '중간에서 길을 잃는' 현상과 환각 현상을 해결하기 위해 Qwen3.5-2B의 미세 조정 버전을 만들었습니다. RAG-Engram이라는 맞춤형 아키텍처는 14개의 실제 질의에서 8K 토큰 기준 정답률을 50%에서 93%로 향상시켰습니다.
아키텍처 세부사항
RAG-Engram 시스템은 Qwen3.5-2B의 하이브리드 Gated DeltaNet 아키텍처를 중심으로 구축된 두 단계 시스템입니다:
- 1단계 — 정적 엔그램 테이블: CPU RAM에 저장된 135K개의 사전 계산된 개체 임베딩(인도 고유 명사, 정부 계획, 힌디어 구문, 금융 용어). 이를 통해 모델이 알려진 개체를 재구성하는 데 주의를 기울일 필요가 없어집니다.
- 2단계 — 동적 청크 탐색: 추론 시, 경량 spaCy 추출기(~15MB)가 검색된 청크를 스캔하여 주요 개체가 나타나는 위치의 포인터 맵을 구축하고 주의 편향 행렬을 생성합니다. 이는 하이브리드 아키텍처에서 전체 주의 계층인 3층과 15층(다른 18개 계층은 소프트맥스 주의가 없는 Gated DeltaNet임)의 소프트맥스 전 Q·K^T 점수에 추가됩니다.
이 접근법은 모델이 답을 찾기 위해 8,000개의 토큰을 맹목적으로 스캔하도록 하는 대신, 주의 헤드가 어디를 볼지 알려줍니다.
훈련 사양
- 기본 모델: Qwen3.5-2B-Base
- 방법: Unsloth를 통한 LoRA(r=16, alpha=16)
- 데이터: MS MARCO, TyDi QA, NQ Open, MLQA Hindi, IndicQA, Dolly-15K에서 DeepSeek V3를 통해 증류된 2,168개 예시
- 훈련 시간: Modal(단일 GPU)에서 15분
- 훈련/검증 손실: 1.369 / 1.385 — 과적합 없음
지도 미세 조정은 모델이 특정 대화 스타일(마크다운, 주요 통찰 굵게 표시, 출처 기반)로 답변하도록 가르치는 반면, 엔그램 편향은 긴 컨텍스트에서 주의 탐색을 처리합니다.
평가 결과
평가는 Claude Opus 4.6를 사용하여 8K 토큰으로 패딩된 Google 검색 결과 청크로 수행되었습니다:
- 일반 Qwen3.5-2B: 8K 토큰 기준 50% 정답률, 14% 실패/거부
- Drissy + RAG-Engram: 8K 토큰 기준 93% 정답률, 0% 실패/거부
이 조합은 '중간에서 길을 잃는' 실패를 완전히 제거했습니다. 개발자는 사양부터 HuggingFace까지 전체 프로젝트가 약 2주가 걸렸고 커피 한 잔보다 적은 비용이 들었다고 보고합니다.
모델 이용 가능성
미세 조정된 모델은 다음과 같이 이용 가능합니다:
- 모델: drissea-ai/drissy-qwen3.5-2b
- GGUF: drissea-ai/drissy-qwen3.5-2b-GGUF
📖 Read the full source: r/LocalLLaMA
👀 See Also

옵시디언 볼트에서 의미론적 검색을 위한 MCP 서버
한 개발자가 Obsidian 볼트를 Qdrant 벡터 데이터베이스에 로컬 임베딩으로 인덱싱하는 MCP 서버를 구축하여, 키워드 매칭의 한계로 인해 에이전트가 관련 문서를 놓치는 문제를 해결하고 의미론적 검색을 가능하게 했습니다.

클로드를 위한 오픈 소스 SQLite 기반 지속적 메모리 시스템
한 개발자가 GPL 라이선스의 로컬 시스템인 memchat을 공개했습니다. 이 시스템은 Claude 세션의 체크포인트에서 지식을 추출하여 SQLite에 저장하고, 새로운 세션에서 이를 재조립하여 대화 간 컨텍스트를 유지합니다.

260개 이상의 AI 에이전트 및 도구 모음집 (오픈소스 및 셀프 호스팅 중심)
포괄적인 GitHub 저장소는 260개 이상의 AI 에이전트와 프레임워크를 나열하며, Ollama, OpenClaw, DeerFlow를 포함한 오픈소스, 자체 호스팅, 로컬 우선 옵션을 강조합니다.

인터랙티브 마인드맵으로 시각화한 Claude 도구 생태계
한 개발자가 D3.js를 사용하여 Claude의 Chat, Cowork, Code 도구 간 기능, 플랫폼 가용성, 가격 차이, 커넥터 호환성을 추적하는 대화형 HTML 마인드맵을 만들었습니다.