6GB GPU에서 회의 요약: qwen3.5:0.8B는 57초 작동, Granite 4 350M은 환각 발생

VoiceFlow는 오픈소스(MIT) 받아쓰기 및 전사 도구로, 완전히 로컬에서 실행됩니다. 유일한 네트워크 호출은 선택적 LLM 요약 엔드포인트(Ollama, llama.cpp, Groq, OpenAI)입니다. 오늘 출시된 v1.6.0에는 회의 녹음기가 추가되었습니다. 마이크와 시스템 오디오를 스테레오 파일로 혼합하고, faster-whisper로 전사한 후, 설정한 모든 엔드포인트로 요약합니다.
벤치마크: 실제 회의록에서 10억 미만 모델
RTX 3060 Laptop 6GB(Whisper 로드 후 약 4.3GB 여유, Ollama 0.23, Arch Linux)에서 실제 4분 회의록(~2900자) 기준:
- qwen3.5:0.8B(873M, Q8_0) — 기본 num_ctx(4096)가 thinking 토큰에 의해 소모됨. 수정:
수정 후: 1562자 구조화된 요약(TL;DR, 결정, 액션 아이템, 미해결 질문)을 57초에 생성, 2.2GB VRAM 사용. 작동함.FROM qwen3.5:0.8b PARAMETER num_ctx 16384 - Granite 4.0 350M — 더 빠르고(요약당 0.6~2.8초), 출력 구조는 적절하지만 심각한 환각: Anthropic이 Bun을 인수한다는 회의록에서 "Anthropic의 Anthropic 인수"를 반환하고 Binance를 지어냄. 다른 회의에서는 "Starship Cassiopeia" 스타트렉 함교 로그를 생성. 키워드는 존재했지만 관계가 뒤섞였음.
결론: qwen3.5:0.8B가 로컬 회의 요약의 실용적 최소 기준이며, 5억 미만 모델은 실제 대화 데이터에서 일관된 출력을 아직 생성하지 못했습니다.
무료 클라우드 옵션: Groq의 llama-3.3-70B
Groq의 무료 티어 llama-3.3-70B는 약 2초 만에 요약을 생성하며, 로컬 0.8B보다 "더 타이트한" 출력을 제공합니다. 유일한 실패는 4시간 회의록이 컨텍스트 창을 초과한 경우였습니다. 대부분의 회의 길이에서는 견고한 무료 대안입니다.
미해결 질문: 낮은 VRAM에서 긴 컨텍스트 요약
저자는 커뮤니티에 묻습니다: 6-8GB GPU에서 1-2시간 회의록(~3만~6만 토큰)에 어떤 방법이 효과적일까요? 옵션: 더 넓은 컨텍스트(VRAM 소모), 청크 기반 map-reduce, 또는 긴 입력에서 구조를 유지하면서 24GB가 필요하지 않은 다른 소형 모델.
VoiceFlow는 단일 .exe(Windows) 또는 .AppImage(Linux)로 제공되며, Pyloid + React + faster-whisper + SQLite로 제작되었습니다. CUDA 자동 감지 및 CPU 대체 지원. 설정(모델, 마이크, 단축키)에 약 1분 소요됩니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also
니들: FFN 전혀 없이 구축된 2600만 파라미터 도구 호출 모델
Needle은 MLP가 없는 26M 파라미터 함수 호출 모델로, 소비자 기기에서 6000 tok/s 프리필과 1200 tok/s 디코드를 달성합니다. 단일 호출 도구 호출에서 FunctionGemma-270M, Qwen-0.6B, Granite-350M, LFM2.5-350M을 능가합니다.

5090에서 Qwen3.6-27B와 Opencode를 이용한 로컬 AI 개발
한 Reddit 사용자가 클라우드 AI 코딩 도구(Claude Code, Cursor)에서 로컬 설정(Opencode + llama-server + Qwen3.6-27B, 128K 컨텍스트, 단일 RTX 5090)으로 전환한 경험을 공유하며, 사용량 제한과 계정 위험에서 자유로워졌다고 말합니다.

WCY 형식은 LLM 토큰 오버헤드를 50-71% 감소시키고 구조적인 '모름' 표시자를 추가합니다.
WCY(Watch-Compute-Yield)는 JSON 토큰 오버헤드를 50-71% 줄이고, 추론 중 불확실성을 나타내기 위한 구조적 '?' 마커를 도입한 라인 지향 형식입니다. 이 형식은 파인튜닝이 필요 없으며, 단 세 번의 퓨샷 예시만으로 충분합니다.

AgentPVP: 에이전트 우선 경쟁 LLM 아레나 - ELO, 라이벌리, 프롬프트 인젝션 샌드박스
AgentPVP를 통해 LLM 에이전트가 등록하고, 5개의 보드 게임을 JSON API로 플레이하고, 게임별 ELO를 유지하고, 라이벌 파일을 작성하며, 글로벌 라운지에서 서로 도발할 수 있습니다. HTML은 선택 사항이며, API가 사이트입니다.