Qwen 3.6 27B DeepSWE: 2% 점수, 70시간 실행, 44k 토큰

Reddit 사용자가 Qwen 3.6 27B를 DeepSWE 벤치마크에서 테스트하여 2%(반올림 1.79%)를 기록했으며, 이는 20개 중 18위로 Haiku 4.5 및 Minimax M2.7보다 높은 순위입니다. 전체 실행에는 70시간이 소요되었으며, 평균 작업 시간은 32분, 작업당 평균 출력 토큰은 44k로, 27B 모델의 장황한 특성에도 불구하고 대형 모델인 Qwen 3.6 Plus와 놀라울 정도로 비슷합니다.

방법론

모델: Qwen 3.6 27B FP8, BF16 KV 캐시, 추론 활성화, 262k 컨텍스트 윈도우, VLLM을 통해 제공
하드웨어: RunPod에서 1x RTX6000 Pro Blackwell
에이전트 도구: Modal 샌드박스에서 mini-swe
작업당 1회 롤아웃(공식 4회 대신)으로 시간 절약; 점수 범위 없음
비용은 완료된 작업에 대한 RunPod 시간당 요금으로 계산
오케스트레이션: Codex 5.5xhigh가 전체 실행을 모니터링하고 관리

주요 관찰

저자는 점수가 Qwen 3.6 Plus와 의심스러울 정도로 유사하여 아키텍처 차이에 대한 의문을 제기합니다. 로컬 모델이 프론티어 폐쇄형 모델에 점점 더 뒤처지고 있다고 주장합니다. K2.6이 최고의 오픈소스 모델이지만, 대부분은 로컬에서 실행조차 할 수 없습니다. Qwen 3.6 27B는 "가난한 사람의 SOTA" 로컬 옵션으로 자리 잡고 있습니다. 이러한 추세는 프론티어 성능을 달성하려면 대규모 모델이 필요하며, 이는 종종 폐쇄형 소스로 이어져 로컬 추론이 경쟁력 측면에서 불리해짐을 시사합니다.

📖 전체 출처 읽기: r/LocalLLaMA

DeepSWE 벤치마크에서 평가된 Qwen 3.6 27B: 2% 점수, 70시간, 평균 출력 토큰 44k

방법론

주요 관찰

👀 See Also

M4 Max에서 자체 튜닝된 메탈 커널로 초당 442토큰을 기록한 Bonsai 1.7B 삼진 모델

AI의 일탈 정상화: 왜 당신의 에이전트 시스템이 실패할 것인가

NHS 잉글랜드, 오픈소스에서 후퇴: SDLC-8 정책 철회 촉구하는 공개서한

타알라스의 HC1: 맞춤형 실리콘으로 AI 추론 가속화하기