実世界での比較:OpenClawセットアップにおけるOpus 4.6対MiMo-V2-Pro対GLM-5

テストの設定と方法論
開発者が3つのAIモデル(Opus 4.6、MiMo-V2-Pro、GLM-5)を比較する実世界テストを実施しました。設定はOpenClaw + Telegram + Macノード + Chrome CDP(ブラウザ自動化)を使用し、すべてのモデルは同じインフラストラクチャとツールで実行されました。
カテゴリー別テスト結果
テスト1: トルコ語慣用句翻訳
タスク:文化的慣用句を含むトルコ語の文「Adam çok pişkin, yüzüne bakılmaz ama işini bilir.」を英語に翻訳すること。
- Opus: 両方の慣用句を完璧に翻訳し、文化的文脈を説明。スコア: 9/10
- MiMo: 「pişkin」は正解だが、「yüzüne bakılmaz」を「彼の顔を見ていられない」と誤訳(近いが正確ではない)。スコア: 6/10
- GLM-5: 「yüzüne bakılmaz」を「完全には信頼できない」と翻訳(完全に間違い)。スコア: 5/10
テスト2: Pythonコーディング(マークダウンリンクチェッカー)
タスク:マークダウンファイルからすべてのリンクを抽出し、HTTPステータスを確認し、壊れたリンクを報告するPython関数を作成。
- Opus: クリーン、並列処理、ベアURLサポート、重複排除。ただしHEADフォールバックやUser-Agentなし。スコア: 8/10
- MiMo: HEAD→GETフォールバック、User-Agentヘッダー、ストリームモード。最も実運用向けのコードはMiMoから。スコア: 9/10
- GLM-5: 動作するがエッジケースが不足。スコア: 7.5/10
MiMoはコーディングでOpusを上回り、テスト実施者を驚かせました。
テスト3: 空間推論
質問:「AはBの後ろ、BはCの後ろ、Cはドアに向いている。Aはドアを見ることができるか?」3モデルとも正解。スコア: 各10/10。
テスト4: 長文脈の一貫性
長い会話の要約を与え、特定の事実について7つの詳細な質問をしました。
- Opus: 67/70 — 最も一貫性があり、幻覚なし
- MiMo: 64/70 — 確信が持てない場合に「テキストに記載なし」と回答(でたらめを作り出さない)
- GLM-5: 64/70 — ただし1つの回答で誤った修正を幻覚
テスト5: ブラウザ自動化
MiMoにChrome CDP経由でGmailを検索させ、メールを読み、Xスレッドを要約させました。また3つのタブを開き、すべてのタイトルを読み上げました。すべて正常に完了。
コスト比較
これらのテスト+ブラウジング+会話の合計コストはMiMoで44セント。同じ作業量をOpus APIで実行すると約8〜10ドル。これは20倍の価格差です。
全体的な印象
- Opusは依然として総合的に第1位、特に非英語のニュアンスと長文脈の一貫性で優れる
- MiMoはコーディングでOpusを上回り、価格は10分の1、幻覚耐性が良好
- GLM-5は驚くほど両者に近い(約70ドル/3ヶ月で利用)
- MiMoはブラウザ自動化を問題なく処理
テスト実施者はOpusから乗り換えない予定 — MiMoには定額制プランがなく、非英語の言語理解では依然として弱いため。しかしGLM-5を上回り、コーディングでOpusと競合した事実は印象的です。
📖 Read the full source: r/openclaw
👀 See Also

Claudetop: Claudeコードセッションのリアルタイムコスト監視
Claudetopは、Claude Codeセッションのリアルタイム支出、キャッシュ効率、モデル比較を表示するhtop風ツールです。/claudetop:statsなどのスラッシュコマンドや、コストの節目や効率問題に対するスマートアラートを提供します。

OpenClawのatoshipスキルは、AIアシスタントを配送マネージャーに変えます。
OpenClawのatoshipスキルにより、ユーザーは配送ニーズを平易な英語で説明でき、その後、運送会社の選択、料金比較、ラベル購入、追跡を処理します。例として、「この1ポンドの箱をニューヨークへ、最も安いオプションで送ってください」といったコマンドがあります。

Claude Codeプラグイン、ターミナルでDOOMを起動中(AIは思考中)
開発者が、AI処理中にtmuxポップアップオーバーレイとしてDOOMを表示するClaude Codeプラグインを作成しました。このプラグインは、ターミナルベースのDOOMソースポートであるdoom-asciiを使用し、プロンプトに応じて自動的に起動/終了します。

Culpa: AIエージェントデバッグのためのオープンソース決定性リプレイエンジン
Culpaは、完全な実行コンテキストでLLMエージェントセッションを記録するオープンソースツールで、実際のAPIを呼び出す代わりに記録された応答をスタブとして使用して決定論的な再生を可能にします。プロキシモードまたはPython SDKを介してAnthropicおよびOpenAI APIで動作します。