Kimi K2.6 대 Claude Opus 4.7: Minetest 현상금 게시판 모드 실제 테스트

✍️ OpenClawRadar📅 게시일: May 5, 2026🔗 Source
Kimi K2.6 대 Claude Opus 4.7: Minetest 현상금 게시판 모드 실제 테스트
Ad

두 모델을 이상한 코딩 작업(Minetest/Luanti 현상금 보드 게임 모드를 TypeScript 백엔드로 구축한 후 Composio를 통해 Google Sheets 로깅으로 확장)에서 비교한 흥미로운 실제 사례입니다. 두 모델 모두 동일한 프롬프트를 받았습니다. 자세한 내용은 원본 게시물에서 확인하세요.

설정

  • Claude Opus 4.7: Claude Code 사용
  • Kimi K2.6: OpenRouter의 OpenCode 사용
  • 작업: 플레이어가 월드에 접속하여 /bounty를 실행하고, 작업을 받아 완료한 후 보상을 받고, 백엔드가 완료를 기록합니다. 두 번째 테스트: Composio를 통해 Google Sheets에 완료 기록을 로깅합니다.

가격

  • Opus 4.7: 입력 $5/M, 출력 $25/M
  • Kimi K2.6: 입력 $0.95/M, 출력 $4/M (캐시된 입력 $0.16/M)

테스트 1: 로컬 현상금 보드

Opus 4.7: 깔끔한 MVP. Express/Zod/Vitest 백엔드, Lua 모드, /bounty 흐름, 보상, 리더보드, 테스트 통과. 통계:

  • 비용: ~$3.59
  • 시간: API 12분, 실제 23분
  • 코드: +1,688 / -0
  • 출력 토큰: 54.8k
  • 캐시 읽기: 2.8M

Kimi K2.6: 로컬 보드도 작동했지만 더 지저분했습니다. Opus의 1,688줄에 비해 4,671줄의 코드를 작성했습니다(+4,671 / -0). 비용: ~$0.39. 시간: ~9분 27초. 짜증난 부분은 Minetest 설정입니다. 전역 설정에 secure.http_mods = bountykimi를 썼지만, 다른 모드 이름으로 월드 레벨 설정을 만들어 실행 중인 모드에 HTTP API가 활성화되지 않았습니다. 테스터가 디버깅하는 데 30분 이상 걸렸습니다.

Ad

테스트 2: Composio + Google Sheets

Opus 4.7: Google Sheets 동기화가 작동했습니다. tsx watch와 환경 변수 로딩에 대한 몇 차례 시행착오 끝에 백엔드가 현상금을 완료하고 Sheets에 추가할 수 있었습니다. 통계:

  • 비용: $16.03
  • 시간: API 28분, 실제 1시간 17분
  • 코드: +1,848 / -507
  • 캐시 읽기: 22.3M
  • 출력: 123.3k 토큰

Kimi K2.6: 실패했습니다. 개발 서버 문제, 테스트, 빌드 문제에 막혔습니다. Composio 통합을 작동 상태로 만들지 못했습니다. 약 25분과 135k+ 토큰 후 테스터가 중단했습니다. 비용: ~$5.03.

결론

  • 최고의 로컬 MVP: Opus, 하지만 Kimi가 훨씬 더 가성비가 좋음
  • 최고의 실제 통합: Opus가 월등히 앞섬
  • 더 깔끔한 코드: Opus
  • 더 저렴한 실험 모델: Kimi

테스트 결과 Kimi K2.6은 저렴한 로컬 코딩 작업에 흥미롭습니다. $0.39로 작동하는 Lua+TypeScript 모드를 얻는 것은 나쁘지 않습니다. 하지만 외부 도구, 설정 문제 및 실제 통합 작업이 포함되자 Opus 4.7이 확실히 앞섰습니다.

커밋, 스크린샷, 데모, 비용이 포함된 전체 분석은 원본 링크에서 확인하세요.

📖 전체 소스 읽기: r/ClaudeAI

Ad

👀 See Also

클로드 서비스 장애: 모든 플랫폼에서 오류 증가
News

클로드 서비스 장애: 모든 플랫폼에서 오류 증가

2026년 3월 2일, Claude는 claude.ai, 콘솔, Claude Code 플랫폼 전반에서 오류가 증가했으며, 로그인/로그아웃 경로와 일부 API 메서드에 영향을 미쳤습니다. 이 사고는 약 4시간 후에 해결되었습니다.

OpenClawRadar
Codestrap 창립자들, AI 코딩 지표 비판하며 품질 문제 경고
News

Codestrap 창립자들, AI 코딩 지표 비판하며 품질 문제 경고

Codestrap 창립자들은 AI 코딩 도구가 코드 라인 수나 풀 리퀘스트 같은 지표로 잘못 평가받고 있다고 주장하며, 품질 지표는 SQLite를 Rust로 재작성한 사례에서 코드베이스가 3.7배 더 크면서 성능은 2,000배나 떨어지는 문제를 보여준다고 말합니다.

OpenClawRadar
Claude-Code v2.1.92는 Bedrock 설정 마법사, 비용 세부 내역, 그리고 여러 가지 수정 사항을 추가했습니다.
News

Claude-Code v2.1.92는 Bedrock 설정 마법사, 비용 세부 내역, 그리고 여러 가지 수정 사항을 추가했습니다.

Claude-Code v2.1.92는 대화형 AWS Bedrock 설정 마법사, 구독자를 위한 모델별 비용 상세 내역, 하위 에이전트 생성, 프롬프트 훅 및 터미널 표시 문제 수정을 도입합니다. 이번 릴리스에서는 /tag 및 /vim 명령어도 제거되었습니다.

OpenClawRadar
🦀
News

Opus 4.7의 주의력 저하: 256k 컨텍스트에서 MRCR 점수 92%에서 59%로 하락

Opus 4.7은 MRCR v2 8-니들 테스트에서 상당한 재현율 하락을 보입니다: 256k 맥락에서 91.9%에서 59.2%로, 1M에서는 78.3%에서 32.2%로 떨어졌습니다. Anthropic은 MRCR을 폐기하고 Graphwalks로 전환 중이지만, 이러한 성능 저하는 사용자 보고와 일치합니다.

OpenClawRadar