6GB RTX 3060 회의 요약: qwen3.5:0.8B 57초 vs Granite 4 350M 환각

VoiceFlow는 오픈소스(MIT) 받아쓰기 및 전사 도구로, 완전히 로컬에서 실행됩니다. 유일한 네트워크 호출은 선택적 LLM 요약 엔드포인트(Ollama, llama.cpp, Groq, OpenAI)입니다. 오늘 출시된 v1.6.0에는 회의 녹음기가 추가되었습니다. 마이크와 시스템 오디오를 스테레오 파일로 혼합하고, faster-whisper로 전사한 후, 설정한 모든 엔드포인트로 요약합니다.

벤치마크: 실제 회의록에서 10억 미만 모델

RTX 3060 Laptop 6GB(Whisper 로드 후 약 4.3GB 여유, Ollama 0.23, Arch Linux)에서 실제 4분 회의록(~2900자) 기준:

qwen3.5:0.8B(873M, Q8_0) — 기본 num_ctx(4096)가 thinking 토큰에 의해 소모됨. 수정:
```
FROM qwen3.5:0.8b
PARAMETER num_ctx 16384
```
수정 후: 1562자 구조화된 요약(TL;DR, 결정, 액션 아이템, 미해결 질문)을 57초에 생성, 2.2GB VRAM 사용. 작동함.
Granite 4.0 350M — 더 빠르고(요약당 0.6~2.8초), 출력 구조는 적절하지만 심각한 환각: Anthropic이 Bun을 인수한다는 회의록에서 "Anthropic의 Anthropic 인수"를 반환하고 Binance를 지어냄. 다른 회의에서는 "Starship Cassiopeia" 스타트렉 함교 로그를 생성. 키워드는 존재했지만 관계가 뒤섞였음.

결론: qwen3.5:0.8B가 로컬 회의 요약의 실용적 최소 기준이며, 5억 미만 모델은 실제 대화 데이터에서 일관된 출력을 아직 생성하지 못했습니다.

무료 클라우드 옵션: Groq의 llama-3.3-70B

Groq의 무료 티어 llama-3.3-70B는 약 2초 만에 요약을 생성하며, 로컬 0.8B보다 "더 타이트한" 출력을 제공합니다. 유일한 실패는 4시간 회의록이 컨텍스트 창을 초과한 경우였습니다. 대부분의 회의 길이에서는 견고한 무료 대안입니다.

미해결 질문: 낮은 VRAM에서 긴 컨텍스트 요약

저자는 커뮤니티에 묻습니다: 6-8GB GPU에서 1-2시간 회의록(~3만~6만 토큰)에 어떤 방법이 효과적일까요? 옵션: 더 넓은 컨텍스트(VRAM 소모), 청크 기반 map-reduce, 또는 긴 입력에서 구조를 유지하면서 24GB가 필요하지 않은 다른 소형 모델.

VoiceFlow는 단일 .exe(Windows) 또는 .AppImage(Linux)로 제공되며, Pyloid + React + faster-whisper + SQLite로 제작되었습니다. CUDA 자동 감지 및 CPU 대체 지원. 설정(모델, 마이크, 단축키)에 약 1분 소요됩니다.

📖 전체 출처 읽기: r/LocalLLaMA

6GB GPU에서 회의 요약: qwen3.5:0.8B는 57초 작동, Granite 4 350M은 환각 발생

벤치마크: 실제 회의록에서 10억 미만 모델

무료 클라우드 옵션: Groq의 llama-3.3-70B

미해결 질문: 낮은 VRAM에서 긴 컨텍스트 요약

👀 See Also

Cowork vs. Claude Chat: 문서 추출 정확도 비교

AI 에이전트 메모리 부패 방지를 위한 두 가지 패턴: AutoDream과 Skeptical Retrieval

향상된 클로드 코드 텔레그램 플러그인, 음성·스티커·스레딩 기능 추가

클로드 코드에서의 오프태스크 토큰 사용량 측정: '선언되지 않은 의도' 지표