로컬 작업 자동화를 위해 llama.cpp로 미세 조정된 Qwen2-0.5B

한 개발자가 태스크 자동화를 위해 Qwen2-0.5B를 미세 조정하여, GPU나 클라우드 API 없이 CPU에서 완전히 로컬로 실행되는 모델을 만들었습니다. 이 프로젝트는 ACE라는 이름으로 GitHub에서 이용 가능합니다.
주요 기능
- 자연어 태스크를 입력받음 (예: "로그를 백업으로 복사")
- 태스크 유형 감지: 단일, 반복, 또는 명확화 필요
- CLI 명령어와 핫키로 구성된 실행 계획 생성
- 완전히 로컬 CPU에서 실행 (GPU, 클라우드 API 불필요)
기술적 세부사항
- 기본 모델: Qwen2-0.5B
- 학습: 약 1000개의 사용자 정의 태스크 예제로 LoRA 미세 조정
- 양자화: GGUF Q4_K_M 형식 (300MB 파일 크기)
- 추론: llama.cpp
- 추론 시간: i3/i5 프로세서에서 3-10초
학습 중 주요 어려움
- 데이터 품질: 불량 예제로 인해 데이터셋을 2-3회 재생성 필요
- 과적합: 검증 손실이 안정화되기까지 여러 번 반복
- EOS 토큰 처리: 토크나이저 설정 수정 전까지 모델이 생성 중단하지 않음
- GGUF 변환: 안정적인 출력을 위해 BF16 데이터 타입 + imatrix 양자화 필요
제한사항 (v0.1)
- 전체 파일 경로 필요 (아직 스마트 파일 검색 없음)
- CPU 추론만 가능 (구형 하드웨어에서는 느림)
- 기본 실행만 가능 (시각적 이해 없음)
성능 벤치마크
- i5 (2018년 이후) + SSD: 3-5초
- i3 (2015년 이후) + SSD: 5-10초
- 구형 하드웨어 (Pentium + HDD): 30-90초
개발자는 다양한 하드웨어에서의 성능, 모델을 중단시키는 특수 사례, 그리고 v0.2를 위한 기능 요청에 대한 피드백을 구하고 있습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude 사용량 모니터: Claude.ai 제한 사항 추적을 위한 무료 macOS 메뉴 바 앱
한 개발자가 무료 macOS 메뉴 바 앱인 Claude Usage Monitor를 제작했습니다. 이 앱은 색상으로 구분된 아이콘, 실시간 카운터, 리셋 타이머로 Claude.ai 사용량을 표시합니다. API 키가 필요 없이 Claude.ai 세션에서 직접 데이터를 읽어옵니다.

Claude Desktop에 MCP 서버를 통해 실시간 주식 분석 기능이 추가되었습니다
한 개발자가 Claude Desktop과 Claude Code에 실시간 주식 분석 기능을 추가하는 MCP 서버를 개발했습니다. 이 도구는 다섯 가지 특정 분석 기능을 제공하며 단일 명령어 설치로 작동합니다.

마이크로소프트 VibeVoice: 60분 ASR 및 90분 TTS 모델 오픈소스화
VibeVoice는 Microsoft의 오픈소스 음성 AI 모델 제품군으로, ASR(60분 단일 패스, 화자 분리, 50개 이상 언어)과 TTS(90분 다중 화자, 실시간 스트리밍)를 포함합니다. 7.5Hz 연속 음성 토크나이저와 next-token diffusion을 사용합니다.

팀 브레인: 클로드 코드용 공유 메모리 플러그인으로 팀 지식을 Git에 저장합니다
팀 브레인은 클로드 코드 플러그인으로, 저장소 내 .team-brain/ 폴더에 팀 지식을 저장합니다. 최적의 클로드 명령어 정확도를 위해 180줄로 제한된 BRAIN.md 파일을 자동 생성하며, .cursorrules 및 AGENTS.md 파일을 만들어 다양한 도구에서 작동합니다.