미세 조정된 Qwen2.5-7B, 3달러와 제로 인간 레이블러로 클로드 하이쿠의 96% 성능 달성

한 개발자가 Qwen2.5-7B를 미세 조정하여 특정 도메인 의사결정 추론 작업에서 Claude Haiku의 종합 성능의 96%를 달성했습니다. 단 ~$3의 API 호출 비용과 인간 레이블러 0명을 사용했습니다. 이 방법은 DV-DPO(Decision-Validated Direct Preference Optimization)라고 불리며, 다중 음성 적대 위원회를 실행하여 학습 신호를 자동으로 생성합니다.
DV-DPO 작동 방식
파이프라인은 각 결정 질문에 대해 3음성 위원회를 실행하여 종합을 생성합니다. 그런 다음 두 패배한 음성이 종합을 심문합니다. 종합이 이 적대적 압력 하에 수정되면 DPO 쌍이 형성됩니다: 수정 후 버전이 선택 응답이고, 수정 전 버전이 거부 응답입니다. 종합이 유지되면 쌍이 생성되지 않습니다. 이렇게 하면 형식 선호도나 샘플링 분산이 아닌 실제 추론 오류만 학습 신호를 생성합니다.
결과
- 1,040개의 학습 쌍 생성 (Haiku 요금으로 ~$3)
- Claude Haiku 대비: 형식 100%, 커밋 100%, 컨텍스트 89%, 종합 96%
- 지연 시간: 11초 (T4 GPU, 4비트 양자화) vs Haiku의 3초
- 적대적 실패율: 2% (96개 표적 질문 기준)
자율 개선 루프
시스템은 이제 자동화된 주기를 실행합니다: failure_detector → auto_red_team → DPO pairs → retrain → redeploy → eval. 버전 5 쌍이 축적되고 있습니다. 미세 조정된 모델은 GGUF 파일로 제공되며 Ollama에서 바로 사용할 수 있습니다.
대상
호출당 비용을 지불하는 API에서 비싼 인간 주석 없이 로컬 미세 조정 모델로 전환하려는 도메인 특화 추론 에이전트를 구축하는 개발자.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

llama.cpp의 Q8_0 양자화가 SYCL 재정렬 수정으로 인텔 Arc GPU에서 3.1배 속도 향상을 달성했습니다
llama.cpp의 SYCL 백엔드에 대한 수정으로 Intel Arc GPU에서의 Q8_0 양자화 성능이 이론적 메모리 대역폭의 21%에서 66%로 향상되었으며, Arc Pro B70에서 Qwen3.5-27B 모델로 이전 4.88 토큰/초 대비 15.24 토큰/초를 달성했습니다.

GitHub, 개발자들의 반발로 인해 Copilot이 풀 리퀘스트에 광고를 삽입하는 기능을 비활성화했습니다.
GitHub이 개발자들이 Raycast와 같은 도구에 대한 광고를 추가하고 있다는 사실을 발견한 후, Copilot이 풀 리퀘스트에 홍보성 '팁'을 삽입하는 기능을 제거했습니다. 언급되었을 때 Copilot이 생성하지 않은 PR을 편집할 수 있도록 했던 이 기능은 커뮤니티 피드백에 따라 비활성화되었습니다.

레딧 토론에서 인프라 변경을 통해 AI 에이전트의 토큰 사용량을 68% 감소시켰다는 점이 부각되었습니다.
레딧 사용자가 표준 인프라에서 에이전트 네이티브 OS와 JSON 네이티브 상태 접근 방식으로 전환하여 AI 에이전트 토큰 사용량을 68.5% 절감했다고 보고합니다. 상태 확인 작업이 약 9개의 셸 명령어에서 1개의 구조화된 호출로 줄었습니다.

유지보수 비용을 줄이지 못하는 AI 에이전트가 팀을 망칠 것입니다
James Shore는 AI 코딩 속도를 두 배로 높여도 유지보수 비용이 절반으로 줄지 않으면 몇 달 안에 순 생산성이 손실된다고 주장합니다. 모델은 코드 출력이 2배이고 라인당 유지보수 비용이 2배일 때 생산성이 약 5개월 후에 시작점보다 나빠진다는 것을 보여줍니다.