MiniMax M2.7 vs Claude Opus 4.7：3つのワークフロー結果比較

Andrey Lukyanenko氏が、MiniMax M2.7をAPI経由で3つの現実的なMLおよびコーディングワークフローに適用し、Claude Codeをハーネスとして使用しました。目的は、エージェントループにおいてM2.7がClaude Opus 4.7と比較してどのように動作するかを確認することです。

セットアップ

テスト環境では、MiniMax APIをclaude-mmコマンドでラップし、Claude CodeをM2.7に向けました：

claude-mm () {
  ANTHROPIC_BASE_URL = "https://api.minimax.io/anthropic" \
  ANTHROPIC_AUTH_TOKEN = "$MINIMAX_API_KEY" \
  ANTHROPIC_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_DEFAULT_SONNET_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_DEFAULT_OPUS_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_DEFAULT_HAIKU_MODEL = "MiniMax-M2.7" \
  ANTHROPIC_SMALL_FAST_MODEL = "MiniMax-M2.7" \
  API_TIMEOUT_MS = "3000000" \
  CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC = "1" \
  claude "$@"
}

MiniMaxのPlusプラン（月額40ドル）で実行し、コンテキストウィンドウと日次スループットはマルチステップのエージェント作業に十分でした。

ワークフロー1: PyTorchプロジェクトのリファクタリング

タスクは、pytorch_tempestリポジトリ（Hydra + PyTorch Lightning）の依存関係とコード品質を更新することでした。変更内容は以下の通り：

CIバージョンとpre-commitフックの更新。
black + flake8をruffに置き換え、リンティングとフォーマットを実施。
Lightningトレーナー設定でfsdp_sharding_strategyを有効化。
ドキュメントの更新。
環境管理にuvを追加。
最新のPython型付けに移行（List[X]からlist[X]、Optional[X]からX | None）。
重複コードパスの削除。

アプローチは段階的：Lukyanenko氏が明示的な要件を提示し、各変更を確認し、差分が範囲外になった場合はフィードバックを提供しました。M2.7は狭いプロンプトに留まり、行レベルのレビューを可能にするため、このワークフローに適していました。CIの失敗はエージェントの助けを借りて反復的に修正されました。

ワークフロー2: Obsidian Vaultのノート作成

ObsidianでMLリファレンスノートを作成・監査するため、Lukyanenko氏はM2.7用にプロンプトを調整しました。まずM2.7とOpus 4.7の両方に同じプロンプトからノートを生成させ、次にM2.7に両方の出力を読ませ、自身のための改善されたプロンプトを提案させました。結果のプロンプト（要約）は以下の通り：

DSWoK vault内の1つの壊れたリンクスタブを埋める：トピックを調査し、DSWoKのスタイルでノートを下書きし、draft-critic-mmを実行し、適切なフォルダに保存する。

手順：スタイルガイドを読み、スタブを選び、クロスリファレンスをgrepし、保存先フォルダを選択し、下書きし、批評する。

主な所見

3回の実行すべてにおいて、M2.7は制約が明示的で出力形式が具体的な場合に有用でした。重要なコンテキストが暗黙的な場合には苦戦しましたが、Opus 4.7にも同様のギャップが見られることがありました。自由形式のケースでは、人間によるレビューのパスが依然として推奨されます。著者は、モデルの品質とハーネスの設計は分離が難しいと指摘しています。より強力なモデルは欠落した制約を推測できるかもしれませんが、より良いハーネスはそれらを明示的にします。

📖 全文を読む： HN AI Agents