로컬 Qwen3-0.6B INT8을 AI 메모리 시스템의 임베딩 백본으로 활용하기

✍️ OpenClawRadar📅 게시일: March 20, 2026🔗 Source
로컬 Qwen3-0.6B INT8을 AI 메모리 시스템의 임베딩 백본으로 활용하기
Ad

한 개발자가 Claude Code 내에서 실행되는 AI 메모리 생명주기 시스템의 백본으로 ONNX Runtime을 통해 INT8로 양자화된 Qwen3-0.6B를 사용하는 로컬 임베딩 시스템 구현을 공유했습니다.

문제점과 요구사항

이 시스템은 임베딩 API의 확장성 문제를 해결합니다: 일반적인 AI 코딩 어시스턴트는 하루에 수백 번의 API 호출(15-25회 세션)을 수행하여 모든 쓰기 작업에 지연을 발생시키고 가변적인 가격 정책을 가진 외부 서비스에 의존하게 만듭니다. 요구사항에는 1024차원 벡터, 진정한 의미적 관련성을 나타내는 0.75 이상의 코사인 유사도, 20개 이상 항목에 대한 배치 처리, 그리고 제로 API 호출이 포함되었습니다.

모델 선택과 구현

여러 모델을 테스트한 후, 1024차원의 Qwen3-0.6B가 sentence-transformers 모델들에 비해 진정으로 관련된 항목과 구조적 노이즈(주제는 다르지만 형식을 공유하는 세션 로그) 사이에서 더 나은 분리를 제공했습니다.

구현은 INT8 양자화와 함께 ONNX Runtime을 사용합니다. 콜드 스타트 문제(3초 모델 로딩)는 시스템 부팅 시 한 번 모델을 로드하는 localhost:52525의 지속적 임베딩 서버로 해결되었습니다. 웜 추론은 배치당 약 12ms를 달성하며, 콜드 스타트보다 약 250배 빠릅니다.

시스템 아키텍처

  • 서버는 시작 훅을 통해 자동으로 시작됩니다
  • 서버가 다운되면 시스템은 직접 ONNX 로딩으로 폴백합니다(느리지만 기능적)
  • 모두 CPU 기반, GPU 불필요
  • 단일 Python 스크립트, ~2,900줄, SQLite + ONNX
Ad

메모리 생명주기 단계

시스템은 5단계를 통해 지식을 처리하며, 임베딩은 2단계부터 4단계까지를 주도합니다:

  1. 버퍼
  2. 연결: 새 항목은 0.75 코사인 유사도 이상의 기존 항목에 연결됩니다. 고립된 항목은 시간이 지남에 따라 사라지지만 연결된 항목은 유지됩니다. 만료는 시간이 아닌 고립도를 기준으로 합니다.
  3. 통합: 3개 이상의 연결된 항목 그룹이 LLM(Gemini Flash 무료 티어)에 의해 검증된 지식으로 병합됩니다
  4. 라우팅: 검증된 지식은 기존 콘텐츠와의 임베딩 거리를 기반으로 올바른 구성 파일로 라우팅됩니다
  5. 노화

기술적 세부사항

  • 모델: INT8로 양자화된 Qwen3-0.6B
  • 벡터 차원: 1024
  • 유사도 임계값: 진정한 의미적 관련성을 위한 0.75 코사인 유사도
  • 성능: 웜 추론 시 배치당 약 12ms
  • 하드웨어: CPU만 있는 모든 최신 머신에서 실행 가능

이 프로젝트는 github.com/living0tribunal-dev/claude-memory-lifecycle에서 오픈 소스로 제공되며, 3,874개의 메모리를 처리한 후 임계값 결정과 실패 모드에 대한 상세한 엔지니어링 스토리를 다루고 있습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

클로드 코드를 사용하여 12시간 동안 AI 연구 실험 자동화하기
Use Cases

클로드 코드를 사용하여 12시간 동안 AI 연구 실험 자동화하기

한 개발자가 Claude Code를 사용해 12시간 동안 자동화된 AI 연구 실험을 실행하며, 지속 학습 프레임워크를 튜닝해 모델의 선호 검증기 준수율을 최대화했습니다. 이 시스템은 9개의 실험을 실행하고 모델 붕괴 버그를 수정하며 준수율을 0%에서 100%로 향상시켰습니다.

OpenClawRadar
Claude Haiku를 게이트키퍼로 활용하여 Sonnet API 비용을 80% 절감하기
Use Cases

Claude Haiku를 게이트키퍼로 활용하여 Sonnet API 비용을 80% 절감하기

한 개발자가 Claude Haiku를 사용해 비정형 텍스트의 85%를 걸러내는 2단계 파이프라인을 구축했습니다. 이로 인해 관련 콘텐츠만 Claude Sonnet으로 전송되어 수천 개의 댓글을 처리할 때 API 비용이 약 80% 절감되었습니다.

OpenClawRadar
사용자가 4일 만에 OpenClaw와 AI로 체스 코칭 웹사이트를 구축합니다
Use Cases

사용자가 4일 만에 OpenClaw와 AI로 체스 코칭 웹사이트를 구축합니다

코딩 경험이 없는 사용자가 OpenClaw와 Loveable을 사용해 4일 만에 ElucidateChess라는 체스 코칭 웹사이트를 만들었습니다. 이 사이트는 학생들이 수에 대한 사고 과정을 설명하도록 요구하며, AI가 그들의 답변을 평가합니다.

OpenClawRadar
개발자가 디자인 도구 없이 Claude AI로 앱 아이콘 디자인
Use Cases

개발자가 디자인 도구 없이 Claude AI로 앱 아이콘 디자인

한 개발자가 macOS 프로세스 관리자 'PIDKill'을 만들고, 그 앱 아이콘을 Claude AI, 특히 Claude Code와 Claude 웹만을 사용해 디자인했습니다. 최종 디자인은 프로세스 종료를 나타내기 위해 SF Mono 폰트에 글리치 효과와 빨간색 취소선을 사용합니다.

OpenClawRadar