Qwen 3.6 27B 벤치마크: Codex 공동 에이전트로 사용하기

r/LocalLLaMA의 한 개발자가 OpenAI의 Codex 옆에서 로컬 Qwen 모델을 검증기이자 도전자로 실행하고 있으며, 이 역할에 가장 적합한 GGUF 양자화 프로파일을 정량화하기 위해 작은 재현 가능한 평가 스위트를 구축했습니다. 워크플로우: Codex는 주요 저장소 작업을 처리하고, 로컬 Qwen은 계획에 도전하며 과잉 빌드, 놓친 하드 지시사항, UI/디자인 문제, 잘못된 가정, 긴 컨텍스트 누락을 확인합니다. 작성자는 각 상호작용을 검토한 후 진행합니다.

평가 스위트 설정

이 스위트는 llama.cpp를 통해 Qwen 3.6 27B GGUF 프로파일을 테스트하며, 다양한 컨텍스트 크기와 KV 캐시 형식(q8, f16)의 Bartowski 및 Unsloth 변형을 포함합니다. 초점은 실제 실패 사례에 맞춰져 있습니다: 놓친 지시사항, 잘못된 도전 행동, 과잉 빌드, UI 판단, 긴 컨텍스트 누락.

주요 발견 사항

이 스위트에서 최고 성능 프로파일은 bartowski-128k-f16, bartowski-128k-q8, unsloth-128k-q8였습니다. 세 가지 모두 정확도가 동일했습니다.
q8 KV 캐시는 이 특정 스위트에서 측정 가능한 정확도 손실을 보이지 않았습니다.
이 워크플로우에서는 컨텍스트 크기가 f16 대 q8 KV보다 더 중요했습니다. 65k 프로파일은 스위트가 65k 토큰 이상을 필요로 할 때 실패했습니다.
unsloth-128k-f16는 로드되었지만 RTX 5090에서 긴 컨텍스트 케이스에 대해 메모리/처리량 압박을 받았습니다.

실용적 관찰

작성자는 Qwen이 Codex의 조용한 우회, 과잉 빌드, 완료까지의 코딩 지름길을 잡는 데 매우 뛰어나다고 보고합니다. UI 관련 작업의 경우 Qwen이 설계를 주도하고 Codex가 구현합니다. 역할이 바뀝니다: Qwen이 계획에 도전하고, 인간이 각 단계 전에 검토합니다.