Qwen-3.6-27B vs Gemma-4-31B vs Claude Haiku vs Codex-Spark: Code Generation Benchmarks

레딧 사용자가 로컬에서 실행한 Qwen-3.6-27B(GGUF q4_k_m)를 API 기반 모델인 OpenRouter의 Qwen-3.6-27B, OpenRouter의 Gemma-4-31B, Claude Haiku 4.5, GPT-Codex-Spark와 비교했습니다. 테스트는 설계 문서를 바탕으로 자동 연구 루프를 구현하는 작업으로, 성공률이 아닌 실패의 명확성을 평가하기 위해 의도적으로 어렵게 설정되었습니다.

하드웨어 설정

CPU: Ryzen 7 7800X3D
RAM: 64 GB DDR5-6400
GPU: RTX 5080 (16 GB VRAM)
로컬 모델: Qwen-3.6-27B q4_k_m (GGUF) — 양자화를 통해 16 GB VRAM에 적합

결과

Gemma-4-31B (API): 완전히 실패했습니다. 모의 객체로 스켈레톤 코드만 작성되었으며, 테스트나 설정 파일(__init__.py, requirements.txt, pyproject.toml)이 없었습니다. 비용: $0.112, 컨텍스트 토큰 803k 소모, 21k 생성.
Codex-Spark (API): 아름다운 폴더 구조와 코드를 생성했지만, 가져오기(import)가 거짓으로 생성되었습니다. 단위 테스트는 없었습니다. $100/월 Spark 한도의 1%를 사용했습니다.
Claude Haiku 4.5 (API): 상세한 구현을 제공했지만 정확성 측면에서 실패했습니다. (추가 세부사항은 원문에서 생략됨.)
Qwen-3.6-27B (로컬 q4_k_m): 명시적으로 점수가 매겨지지 않았지만, 사용자는 양자화된 추론이 전체 정밀도 API 버전에 비해 품질이 저하된다고 지적했습니다.

배경

사용자는 일반적인 로컬 모델 평가가 HTML로 Snake 게임 만들기와 같은 쉬운 작업을 사용하여 로컬 모델과 최첨단 모델 모두 성공하기 때문에 로컬 모델이 실제보다 더 좋아 보인다고 주장합니다. 이 테스트는 설계 문서가 포함된 실제 작업 프로젝트를 사용했으며, Codex-Spark만이 완전히 작성된(그러나 문제가 있는) 코드를 생성했습니다. 핵심은 로컬 모델이 상당한 수정 없이는 복잡한 코드 생성에 아직 준비되지 않았다는 점입니다.

📖 전체 원문 보기: r/LocalLLaMA

로컬 vs 클라우드 모델: 하드 코드 생성에서 Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark 비교

하드웨어 설정

결과

배경

👀 See Also

칸 영화 제작비 50만 달러, 그중 40만 달러는 AI 컴퓨팅 비용

구조화된 워크플로가 AI DES 벤치마크에서 플랜 모드와 슈퍼파워를 능가하다

Claude Code v2.1.83은 관리형 설정 조각, 대화 기록 검색 및 보안 개선 사항을 추가합니다.

OpenAI, 미디어텍/퀄컴 칩 탑재 AI 스마트폰 개발 중, 양산 목표 2028년