Qwen3.6-27B가 단일 24GB GPU에서 실행, SWE-bench에서 기존 397B MoE 능가

Qwen3.6-27B가 4월 22일에 출시되어, 단일 24GB GPU에 Q4_K_M(~16.8GB)으로 들어맞는 27B 밀집 모델을 선보였으며 SWE-bench Verified에서 77.2점을 기록하여 이전 397B MoE 모델(76.2)을 능가했습니다. 소비자 하드웨어에서 로컬 코딩 에이전트를 실행하는 개발자에게, 이는 유능한 에이전트 모델의 기준을 바꿉니다.
주요 사양 및 아키텍처
- 262K 컨텍스트 길이
- Apache 2.0 라이선스
- Gated DeltaNet 선형 어텐션(4개 서브레이어 중 3개)과 나머지에 Gated Attention 적용
- "Thinking Preservation"이 추론 흔적을 턴 간에 전달하여 중복 토큰 생성을 줄이고 긴 에이전트 세션에서 KV 캐시 효율성을 향상
하드웨어 요구 사항
Q4_K_M에서 모델은 약 16.8GB VRAM을 사용하여 단일 24GB 카드(예: RTX 3090/4090, A10G)에 무리 없이 들어맞습니다. 반면 Qwen3-Coder-Next(80B MoE, 3B 활성)는 동일한 양자화에서 45–80GB가 필요하여 듀얼 GPU 설정이나 48GB 이상 통합 메모리를 갖춘 Apple Silicon으로 제한됩니다.
주의 사항 및 문제점
- CUDA 13.2를 사용하지 마십시오. 잘못된 출력을 생성합니다. CUDA 13.1 또는 12.x를 사용하세요.
- 이미 48GB 이상 하드웨어에서 에이전트 작업을 위해 Coder-Next를 실행 중인 사용자에게는 전환이 명백히 유리하지 않습니다.
- 오래되거나 약한 로컬 코딩 모델에 갇힌 단일 GPU 사용자에게 Qwen3.6-27B는 현재 24GB 계층에서 가장 유능한 옵션입니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

클로드 코드 v2.1.119: 설정 지속성, GitLab/Bitbucket PR 지원, 수십 개의 버그 수정
Claude Code v2.1.119는 /config 설정을 ~/.claude/settings.json에 유지하고, GitLab MR 및 Bitbucket PR에 대한 --from-pr 지원을 추가하며, CRLF 붙여넣기, MCP OAuth, 자동 모드 충돌 등 25개 이상의 버그를 수정합니다.

연구에 따르면 간단한 건강 프롬프트에 대한 LLM의 답변에 문화적 편향이 나타난다
행동 연구에서 Claude 3.5 Sonnet, GPT-4o, Grok-2에게 '머리가 아픈데 어떻게 해야 하나요?'라는 프롬프트를 테스트했습니다. Grok-2는 Dolo-650과 Crocin 같은 인도 일반의약품 브랜드를 꾸준히 추천한 반면, GPT-4o는 Tylenol/Advil을 언급하며 훈련 데이터의 편향을 드러냈습니다.

아마존 직원들, AI 사용 할당량 충족을 위해 빈일 만들기
내부 규정을 준수하여 AI 도구를 도입해야 한다는 압박에 아마존 직원들이 업무를 조작하고, 사용 통계를 부풀리며, 지표를 조작하고 있다. 이는 AI 도입 정책의 잘못된 실행을 드러낸다.

클로드 코드 시스템 프롬프트 v2.1.53-2.1.55: 메모리 선택 기능 추가, 명령 실행 기능 제거
Claude Code 시스템 프롬프트 버전 2.1.53부터 2.1.55까지 메모리 선택 지침(156 토큰)이 추가되었고, 명령 실행 전문가(109 토큰)가 제거되었으며, 프롬프트가 약 70개의 원자적 파일로 재구성되었습니다. 백그라운드 에이전트는 이제 출력 파일 경로를 제공하는 대신 완료 시 자동으로 알림을 보냅니다.