Qwen3.5 vs 클로드 소넷 4.6: 버그 리포트 등급 평가

버그 리포트 생성을 위한 로컬 모델 테스트

Sonnet/Haiku에서 32GB M5 MacBook Air의 로컬 모델로 전환한 개발자가 버그 리포트 작성 능력을 평가하기 위해 4가지 Qwen3.5 변형 모델을 테스트했습니다. LM Studio를 서버로, opencode CLI를 모델 호출에 사용하여 각 모델에게 장비를 해제한 후 테두리 색상이 제대로 재설정되지 않는 iOS 게임 문제를 연구하고 버그 리포트를 작성하도록 요청했습니다.

테스트된 모델

Tesslate/OmniCoder-9B-GGUF Q8_0
lmstudio-community/Qwen3.5-27B-GGUF Q4_K_M
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Q4_K_M
lmstudio-community/Qwen3.5-35B-A3B-GGUF Q4_K_M

버그 확인

핵심 버그는 소스 파일에서 확인되었습니다. EquipmentSlotNode.swift에서 setEquipment 메서드의 if let c = borderColor 가드는 nil이 전달될 때 할당을 조용히 건너뜁니다. EquipmentNode.swift에서 updateEquipment(from:)은 빈 슬롯에 대해 borderColor: nil을 전달하므로 테두리 색상이 절대 재설정되지 않습니다. setEquipment에 대한 문서는 "현재 색상을 유지하려면 nil을 전달하세요"라고 설명하며, 고장난 동작을 의도적인 설계로 문서화하고 있습니다.

Claude Sonnet 4.6의 리포트 평가

bug_report_9b_omnicoder — A−

네 가지 중 최고입니다. 가장 깔끔하고 관용적인 Swift 수정안을 제안합니다: borderShape.strokeColor = borderColor ?? theme.textDisabledColor.skColor — 불필요한 분기 없이 if let 블록을 단일 라인으로 대체합니다. 트리거 흐름의 일부인 추가 컨텍스트 파일(GameScene.swift, BackpackManager.swift)을 언급한 유일한 리포트입니다.

부족한 점: 다른 네 리포트와 마찬가지로 테스트 코드가 컴파일되지 않습니다. borderShape은 EquipmentSlotNode에서 private let으로 선언되어 있으며 — @testable import는 internal만 노출하고 private은 노출하지 않습니다. 문서 주석 업데이트 필요성을 언급하지 않습니다.

bug_report_27b_lmstudiocommunity — B+

정확한 진단입니다. 깔끔한 두 분기 수정안을 제안합니다: if id != nil { borderShape.strokeColor = borderColor ?? theme.textDisabledColor.skColor } else { borderShape.strokeColor = theme.textDisabledColor.skColor } — 필요 이상으로 장황하지만 정확합니다. EquipmentNode.updateEquipment을 호출자로 정확히 식별하고 통합 테스트 제안을 포함합니다.

부족한 점: LogicTests/EquipmentNodeTests.swift에서 테스트를 제안합니다 — 이 파일은 이미 존재하며 EquipmentNode를 다루지 EquipmentSlotNode를 다루지 않습니다. 테스트 코드에서 동일한 private 접근 문제가 있습니다.

bug_report_27b_jackrong — B−

정확한 진단이지만 가장 약한 수정안을 제안합니다. else 블록 내부에 재설정을 추가합니다: borderShape.strokeColor = theme.textDisabledColor.skColor // 테두리 초기화 — 특정 해제 사례에 대해 기술적으로 정확하지만 전체 메서드를 혼란스러운 상태로 남깁니다. else 블록의 테두리 재설정은 누군가가 id: nil, borderColor: someColor를 전달하면 아래의 if let 블록에 의해 즉시 재정의될 수 있습니다. 이 수정안은 중복성을 정리하지 않고 특정 실패만 패치합니다.

개발자는 RAM에 최대한 맞추기 위해 컨텍스트 창 크기를 제외한 기본 매개변수를 사용했으며, 일부 조정이 개선을 제공할 수 있다고 언급했습니다. 일부 unsloth 모델을 시도했지만 제한된 성공만 거두었습니다.

📖 전체 소스 읽기: r/LocalLLaMA