Kimi K2.6 대 Claude Opus 4.7: Minetest 현상금 게시판 모드 실제 테스트

두 모델을 이상한 코딩 작업(Minetest/Luanti 현상금 보드 게임 모드를 TypeScript 백엔드로 구축한 후 Composio를 통해 Google Sheets 로깅으로 확장)에서 비교한 흥미로운 실제 사례입니다. 두 모델 모두 동일한 프롬프트를 받았습니다. 자세한 내용은 원본 게시물에서 확인하세요.
설정
- Claude Opus 4.7: Claude Code 사용
- Kimi K2.6: OpenRouter의 OpenCode 사용
- 작업: 플레이어가 월드에 접속하여
/bounty를 실행하고, 작업을 받아 완료한 후 보상을 받고, 백엔드가 완료를 기록합니다. 두 번째 테스트: Composio를 통해 Google Sheets에 완료 기록을 로깅합니다.
가격
- Opus 4.7: 입력 $5/M, 출력 $25/M
- Kimi K2.6: 입력 $0.95/M, 출력 $4/M (캐시된 입력 $0.16/M)
테스트 1: 로컬 현상금 보드
Opus 4.7: 깔끔한 MVP. Express/Zod/Vitest 백엔드, Lua 모드, /bounty 흐름, 보상, 리더보드, 테스트 통과. 통계:
- 비용: ~$3.59
- 시간: API 12분, 실제 23분
- 코드: +1,688 / -0
- 출력 토큰: 54.8k
- 캐시 읽기: 2.8M
Kimi K2.6: 로컬 보드도 작동했지만 더 지저분했습니다. Opus의 1,688줄에 비해 4,671줄의 코드를 작성했습니다(+4,671 / -0). 비용: ~$0.39. 시간: ~9분 27초. 짜증난 부분은 Minetest 설정입니다. 전역 설정에 secure.http_mods = bountykimi를 썼지만, 다른 모드 이름으로 월드 레벨 설정을 만들어 실행 중인 모드에 HTTP API가 활성화되지 않았습니다. 테스터가 디버깅하는 데 30분 이상 걸렸습니다.
테스트 2: Composio + Google Sheets
Opus 4.7: Google Sheets 동기화가 작동했습니다. tsx watch와 환경 변수 로딩에 대한 몇 차례 시행착오 끝에 백엔드가 현상금을 완료하고 Sheets에 추가할 수 있었습니다. 통계:
- 비용: $16.03
- 시간: API 28분, 실제 1시간 17분
- 코드: +1,848 / -507
- 캐시 읽기: 22.3M
- 출력: 123.3k 토큰
Kimi K2.6: 실패했습니다. 개발 서버 문제, 테스트, 빌드 문제에 막혔습니다. Composio 통합을 작동 상태로 만들지 못했습니다. 약 25분과 135k+ 토큰 후 테스터가 중단했습니다. 비용: ~$5.03.
결론
- 최고의 로컬 MVP: Opus, 하지만 Kimi가 훨씬 더 가성비가 좋음
- 최고의 실제 통합: Opus가 월등히 앞섬
- 더 깔끔한 코드: Opus
- 더 저렴한 실험 모델: Kimi
테스트 결과 Kimi K2.6은 저렴한 로컬 코딩 작업에 흥미롭습니다. $0.39로 작동하는 Lua+TypeScript 모드를 얻는 것은 나쁘지 않습니다. 하지만 외부 도구, 설정 문제 및 실제 통합 작업이 포함되자 Opus 4.7이 확실히 앞섰습니다.
커밋, 스크린샷, 데모, 비용이 포함된 전체 분석은 원본 링크에서 확인하세요.
📖 전체 소스 읽기: r/ClaudeAI
👀 See Also

클로드 서비스 장애: 모든 플랫폼에서 오류 증가
2026년 3월 2일, Claude는 claude.ai, 콘솔, Claude Code 플랫폼 전반에서 오류가 증가했으며, 로그인/로그아웃 경로와 일부 API 메서드에 영향을 미쳤습니다. 이 사고는 약 4시간 후에 해결되었습니다.

Codestrap 창립자들, AI 코딩 지표 비판하며 품질 문제 경고
Codestrap 창립자들은 AI 코딩 도구가 코드 라인 수나 풀 리퀘스트 같은 지표로 잘못 평가받고 있다고 주장하며, 품질 지표는 SQLite를 Rust로 재작성한 사례에서 코드베이스가 3.7배 더 크면서 성능은 2,000배나 떨어지는 문제를 보여준다고 말합니다.

Claude-Code v2.1.92는 Bedrock 설정 마법사, 비용 세부 내역, 그리고 여러 가지 수정 사항을 추가했습니다.
Claude-Code v2.1.92는 대화형 AWS Bedrock 설정 마법사, 구독자를 위한 모델별 비용 상세 내역, 하위 에이전트 생성, 프롬프트 훅 및 터미널 표시 문제 수정을 도입합니다. 이번 릴리스에서는 /tag 및 /vim 명령어도 제거되었습니다.
Opus 4.7의 주의력 저하: 256k 컨텍스트에서 MRCR 점수 92%에서 59%로 하락
Opus 4.7은 MRCR v2 8-니들 테스트에서 상당한 재현율 하락을 보입니다: 256k 맥락에서 91.9%에서 59.2%로, 1M에서는 78.3%에서 32.2%로 떨어졌습니다. Anthropic은 MRCR을 폐기하고 Graphwalks로 전환 중이지만, 이러한 성능 저하는 사용자 보고와 일치합니다.