MiniMax M2.7 vs Claude Opus 4.7: 3가지 워크플로우 결과

Andrey Lukyanenko가 MiniMax M2.7을 세 가지 현실적인 ML 및 코딩 워크플로우에 API를 통해 적용했으며, Claude Code를 도구로 사용했습니다. 목표: M2.7이 에이전틱 루프에서 Claude Opus 4.7과 비교하여 어떻게 성능을 발휘하는지 확인하는 것입니다.

설정

테스트 환경은 MiniMax API를 claude-mm 명령어로 래핑하여 Claude Code가 M2.7을 가리키도록 했습니다:

claude-mm () {
  ANTHROPIC_BASE_URL = "https://api.minimax.io/anthropic" \
  ANTHROPIC_AUTH_TOKEN = "$MINIMAX_API_KEY" \
  ANTHROPIC_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_DEFAULT_SONNET_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_DEFAULT_OPUS_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_DEFAULT_HAIKU_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_SMALL_FAST_MODEL = "MiniMax-M2.7" \
  API_TIMEOUT_MS = "3000000" \
  CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC = "1" \
  claude "$@"
}

MiniMax의 Plus 등급(월 $40)을 사용했으며, 컨텍스트 윈도우와 일일 처리량이 다단계 에이전틱 작업에 충분했습니다.

워크플로우 1: PyTorch 프로젝트 리팩터링

작업은 pytorch_tempest 저장소(Hydra + PyTorch Lightning)의 종속성과 코드 품질을 업데이트하는 것이었습니다. 변경 사항은 다음과 같습니다:

CI 버전 및 pre-commit 훅 업데이트.
black + flake8을 ruff로 대체하여 린팅 및 포맷팅.
Lightning 트레이너 설정에서 fsdp_sharding_strategy 활성화.
문서 업데이트.
환경 관리에 uv 추가.
최신 Python 타입 지정(list[X] 대신 List[X], X | None 대신 Optional[X])으로 전환.
중복 코드 경로 제거.

접근 방식은 단계적이었습니다: Lukyanenko가 명시적 요구사항을 제시하고 각 변경을 검토했으며, diff가 범위를 벗어날 때 피드백을 제공했습니다. M2.7은 좁은 프롬프트 내에서 작동하고 라인 단위 검토를 허용했기 때문에 이 작업에 잘 맞았습니다. CI 실패는 에이전트의 도움으로 반복적으로 수정되었습니다.

워크플로우 2: Obsidian 볼트 노트

Obsidian에서 ML 참고 노트를 작성하고 감사하기 위해 Lukyanenko는 M2.7에 맞게 프롬프트를 특별히 조정했습니다. 먼저 M2.7과 Opus 4.7 모두에게 동일한 프롬프트로 노트를 생성하도록 요청한 후, M2.7이 두 출력을 읽고 자신을 위한 개선된 프롬프트를 제안하게 했습니다. 결과 프롬프트(요약):

DSWoK 볼트에서 끊어진 링크 스텁 하나를 채우세요: 주제를 조사하고, DSWoK 스타일로 노트를 초안 작성하고, draft-critic-mm을 실행하고, 적절한 폴더에 저장하세요.

단계: 스타일 가이드 읽기, 스텁 선택, 교차 참조를 위한 grep, 대상 폴더 선택, 초안 작성, 비평.

주요 발견 사항

세 번의 실행 전반에 걸쳐 M2.7은 제약 조건이 명시적이고 출력 형식이 구체적일 때 유용했습니다. 중요한 맥락이 암시적으로 남겨졌을 때 어려움을 겪었지만, Opus 4.7도 때때로 같은 문제를 보였습니다. 개방형 사례의 경우, 사람의 검토 단계가 여전히 권장됩니다. 저자는 모델 품질과 도구 설계를 분리하기 어렵다고 지적합니다. 더 강력한 모델은 누락된 제약 조건을 추론할 수 있는 반면, 더 나은 도구는 이를 명시적으로 만듭니다.

📖 전체 소스 읽기: HN AI Agents