로컬 Qwen 3.6 27B를 Codex 검증 공동 에이전트로 벤치마킹하기

r/LocalLLaMA의 한 개발자가 OpenAI의 Codex 옆에서 로컬 Qwen 모델을 검증기이자 도전자로 실행하고 있으며, 이 역할에 가장 적합한 GGUF 양자화 프로파일을 정량화하기 위해 작은 재현 가능한 평가 스위트를 구축했습니다. 워크플로우: Codex는 주요 저장소 작업을 처리하고, 로컬 Qwen은 계획에 도전하며 과잉 빌드, 놓친 하드 지시사항, UI/디자인 문제, 잘못된 가정, 긴 컨텍스트 누락을 확인합니다. 작성자는 각 상호작용을 검토한 후 진행합니다.
평가 스위트 설정
이 스위트는 llama.cpp를 통해 Qwen 3.6 27B GGUF 프로파일을 테스트하며, 다양한 컨텍스트 크기와 KV 캐시 형식(q8, f16)의 Bartowski 및 Unsloth 변형을 포함합니다. 초점은 실제 실패 사례에 맞춰져 있습니다: 놓친 지시사항, 잘못된 도전 행동, 과잉 빌드, UI 판단, 긴 컨텍스트 누락.
주요 발견 사항
- 이 스위트에서 최고 성능 프로파일은
bartowski-128k-f16,bartowski-128k-q8,unsloth-128k-q8였습니다. 세 가지 모두 정확도가 동일했습니다. - q8 KV 캐시는 이 특정 스위트에서 측정 가능한 정확도 손실을 보이지 않았습니다.
- 이 워크플로우에서는 컨텍스트 크기가 f16 대 q8 KV보다 더 중요했습니다. 65k 프로파일은 스위트가 65k 토큰 이상을 필요로 할 때 실패했습니다.
unsloth-128k-f16는 로드되었지만 RTX 5090에서 긴 컨텍스트 케이스에 대해 메모리/처리량 압박을 받았습니다.
실용적 관찰
작성자는 Qwen이 Codex의 조용한 우회, 과잉 빌드, 완료까지의 코딩 지름길을 잡는 데 매우 뛰어나다고 보고합니다. UI 관련 작업의 경우 Qwen이 설계를 주도하고 Codex가 구현합니다. 역할이 바뀝니다: Qwen이 계획에 도전하고, 인간이 각 단계 전에 검토합니다.
리소스
- 프로젝트 페이지: https://robert896r1.github.io/qwen-realworld-accuracy-evals/
- 저장소: https://github.com/robert896r1/qwen-realworld-accuracy-evals
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

오픈소스 클로드 코드 스킬: 후속 문의를 80% 줄인 /do 파이프라인
한 개발자가 100개 이상의 프리랜스 프로젝트를 진행하며 만든 15개의 Claude Code 스킬을 오픈소스로 공개했습니다. /do 명령어는 5단계 파이프라인(/todo → /dev → /verify-dev → /build → /test → push)을 실행하며, 자동 수정 루프를 통해 2000개 이상의 커밋에서 후속 작업이 80% 줄어들고 코드 품질이 60-65% 향상되었습니다.

59가지 클로드 스킬을 포함한 오픈소스 라이브러리, 웹사이트 전체 수명주기 포괄
한 개발자가 브랜드 발견, 디자인, 콘텐츠, SEO, 개발, 운영, 성장을 아우르는 59개의 재사용 가능한 Claude 스킬을 공개했습니다. 스택에 구애받지 않으며, 균일한 구조와 CI 린트 검증을 갖추고 있습니다.

AI 생성 코드의 품질과 보안을 향상시키기 위해 pre-commit 사용하기
한 개발자가 Go와 Java 프로젝트를 위한 pre-commit 설정을 공유합니다. golangci-lint, govulncheck, checkov와 같은 도구를 사용하여 AI 생성 코드의 취약점과 품질 문제를 커밋 전에 포착합니다.

Zerostack 1.0.0: 순수 Rust로 구현된 유닉스 스타일 코딩 에이전트
Zerostack은 순수 Rust로 작성된 코딩 에이전트로, 유닉스 철학(작고 조합 가능한 도구들이 stdin/stdout으로 파이프 연결됨)을 모델로 했습니다.