DeepSWE 벤치마크에서 평가된 Qwen 3.6 27B: 2% 점수, 70시간, 평균 출력 토큰 44k

Reddit 사용자가 Qwen 3.6 27B를 DeepSWE 벤치마크에서 테스트하여 2%(반올림 1.79%)를 기록했으며, 이는 20개 중 18위로 Haiku 4.5 및 Minimax M2.7보다 높은 순위입니다. 전체 실행에는 70시간이 소요되었으며, 평균 작업 시간은 32분, 작업당 평균 출력 토큰은 44k로, 27B 모델의 장황한 특성에도 불구하고 대형 모델인 Qwen 3.6 Plus와 놀라울 정도로 비슷합니다.
방법론
- 모델: Qwen 3.6 27B FP8, BF16 KV 캐시, 추론 활성화, 262k 컨텍스트 윈도우, VLLM을 통해 제공
- 하드웨어: RunPod에서 1x RTX6000 Pro Blackwell
- 에이전트 도구: Modal 샌드박스에서 mini-swe
- 작업당 1회 롤아웃(공식 4회 대신)으로 시간 절약; 점수 범위 없음
- 비용은 완료된 작업에 대한 RunPod 시간당 요금으로 계산
- 오케스트레이션: Codex 5.5xhigh가 전체 실행을 모니터링하고 관리
주요 관찰
저자는 점수가 Qwen 3.6 Plus와 의심스러울 정도로 유사하여 아키텍처 차이에 대한 의문을 제기합니다. 로컬 모델이 프론티어 폐쇄형 모델에 점점 더 뒤처지고 있다고 주장합니다. K2.6이 최고의 오픈소스 모델이지만, 대부분은 로컬에서 실행조차 할 수 없습니다. Qwen 3.6 27B는 "가난한 사람의 SOTA" 로컬 옵션으로 자리 잡고 있습니다. 이러한 추세는 프론티어 성능을 달성하려면 대규모 모델이 필요하며, 이는 종종 폐쇄형 소스로 이어져 로컬 추론이 경쟁력 측면에서 불리해짐을 시사합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

M4 Max에서 자체 튜닝된 메탈 커널로 초당 442토큰을 기록한 Bonsai 1.7B 삼진 모델
자율 에이전트 ata가 Bonsai 1.7B Q2_0 모델에 최적화된 Metal 커널을 조정하여 M4 Max에서 수정되지 않은 llama.cpp 대비 디코드 442 t/s (+42%), 프리필 4622 t/s (+9%)를 달성했습니다.

AI의 일탈 정상화: 왜 당신의 에이전트 시스템이 실패할 것인가
AI 업계는 챌린저호 참사와 유사한 문화적 실패를 반복하고 있습니다. 아직 나쁜 일이 발생하지 않았다는 이유로 신뢰할 수 없는 LLM 출력을 안전하다고 간주하는 것입니다. 에이전트가 하드 드라이브를 포맷하고, 데이터베이스를 삭제하며, GitHub 이슈를 생성한 실제 사례가 있습니다.

NHS 잉글랜드, 오픈소스에서 후퇴: SDLC-8 정책 철회 촉구하는 공개서한
74명의 서명이 포함된 공개 서한은 NHS 잉글랜드가 모든 NHS 소스 코드를 숨기는 정책인 SDLC-8을 철회하고 NHS 서비스 표준의 원칙 12인 '새 소스 코드를 공개하라'를 재확인할 것을 촉구합니다.

타알라스의 HC1: 맞춤형 실리콘으로 AI 추론 가속화하기
Taalas는 모델 특화 하드웨어 설계를 활용해 세계에서 가장 빠르고 저렴한 AI 추론을 제공하는 HC1 플랫폼을 공개했습니다. Llama 3.1 8B에서 초당 17,000 토큰을 처리합니다.