Kimi K2.6 vs Claude Opus 4.7: Minetest 현상금 모드 실제 테스트

두 모델을 이상한 코딩 작업(Minetest/Luanti 현상금 보드 게임 모드를 TypeScript 백엔드로 구축한 후 Composio를 통해 Google Sheets 로깅으로 확장)에서 비교한 흥미로운 실제 사례입니다. 두 모델 모두 동일한 프롬프트를 받았습니다. 자세한 내용은 원본 게시물에서 확인하세요.

설정

Claude Opus 4.7: Claude Code 사용
Kimi K2.6: OpenRouter의 OpenCode 사용
작업: 플레이어가 월드에 접속하여 /bounty를 실행하고, 작업을 받아 완료한 후 보상을 받고, 백엔드가 완료를 기록합니다. 두 번째 테스트: Composio를 통해 Google Sheets에 완료 기록을 로깅합니다.

가격

Opus 4.7: 입력 $5/M, 출력 $25/M
Kimi K2.6: 입력 $0.95/M, 출력 $4/M (캐시된 입력 $0.16/M)

테스트 1: 로컬 현상금 보드

Opus 4.7: 깔끔한 MVP. Express/Zod/Vitest 백엔드, Lua 모드, /bounty 흐름, 보상, 리더보드, 테스트 통과. 통계:

비용: ~$3.59
시간: API 12분, 실제 23분
코드: +1,688 / -0
출력 토큰: 54.8k
캐시 읽기: 2.8M

Kimi K2.6: 로컬 보드도 작동했지만 더 지저분했습니다. Opus의 1,688줄에 비해 4,671줄의 코드를 작성했습니다(+4,671 / -0). 비용: ~$0.39. 시간: ~9분 27초. 짜증난 부분은 Minetest 설정입니다. 전역 설정에 secure.http_mods = bountykimi를 썼지만, 다른 모드 이름으로 월드 레벨 설정을 만들어 실행 중인 모드에 HTTP API가 활성화되지 않았습니다. 테스터가 디버깅하는 데 30분 이상 걸렸습니다.

테스트 2: Composio + Google Sheets

Opus 4.7: Google Sheets 동기화가 작동했습니다. tsx watch와 환경 변수 로딩에 대한 몇 차례 시행착오 끝에 백엔드가 현상금을 완료하고 Sheets에 추가할 수 있었습니다. 통계:

비용: $16.03
시간: API 28분, 실제 1시간 17분
코드: +1,848 / -507
캐시 읽기: 22.3M
출력: 123.3k 토큰

Kimi K2.6: 실패했습니다. 개발 서버 문제, 테스트, 빌드 문제에 막혔습니다. Composio 통합을 작동 상태로 만들지 못했습니다. 약 25분과 135k+ 토큰 후 테스터가 중단했습니다. 비용: ~$5.03.

결론

최고의 로컬 MVP: Opus, 하지만 Kimi가 훨씬 더 가성비가 좋음
최고의 실제 통합: Opus가 월등히 앞섬
더 깔끔한 코드: Opus
더 저렴한 실험 모델: Kimi

테스트 결과 Kimi K2.6은 저렴한 로컬 코딩 작업에 흥미롭습니다. $0.39로 작동하는 Lua+TypeScript 모드를 얻는 것은 나쁘지 않습니다. 하지만 외부 도구, 설정 문제 및 실제 통합 작업이 포함되자 Opus 4.7이 확실히 앞섰습니다.

커밋, 스크린샷, 데모, 비용이 포함된 전체 분석은 원본 링크에서 확인하세요.

📖 전체 소스 읽기: r/ClaudeAI

Kimi K2.6 대 Claude Opus 4.7: Minetest 현상금 게시판 모드 실제 테스트

설정

가격

테스트 1: 로컬 현상금 보드

테스트 2: Composio + Google Sheets

결론

👀 See Also

IPO 앞두고 AI 일자리 종말 예측 거둬들이는 알트만과 아모데이

Linux 사운드 서브시스템, AI 지원 수정으로 넘쳐나: IRQ, UAF 및 Quirks

영국 AI 투자 주장 검증 중: 가상 데이터센터와 확인되지 않은 자금

로컬 LLM, 언리얼 엔진 솔리테어에서 고전: Qwen 3.6-27B가 한 카드에 68만 7천 토큰 소모