マルチエージェント俳句システム、複素数理論問題でClaude Opusと同等の性能を15分の1のコストで達成

✍️ OpenClawRadar📅 公開日: March 7, 2026🔗 Source
マルチエージェント俳句システム、複素数理論問題でClaude Opusと同等の性能を15分の1のコストで達成
Ad

実験設定と結果

Redditユーザーが、難しい数論問題について2つのClaudeモデル構成を比較テストしました。この問題は、奇素数pに対して、和1^(p-1) + 2^(p-1) + ... + (p-1)^(p-1)が-1 (mod p)と合同であることを、フェルマーの小定理と原始根の性質を用いて証明することを要求するものでした。

2つの構成がテストされました:

  • 構成X(Opus単独): Claude Opus 4.5、max_tokens: 2048、監査役なし
  • 構成Y(俳句マルチエージェント): 俳句生成器が完全な証明を生成し、2番目の俳句監査役がすべてのステップをチェックし、監査役が何かをフラグした場合は2回のパスを実行、max_tokens: 各呼び出し1024

採点とパフォーマンス

両構成は以下の採点基準で4/4を獲得しました:

  • フェルマーの小定理を正しく援用
  • 原始根の議論を正しく扱う
  • 完全剰余系上の総和が有効
  • 合同関係の結論が正しく導かれる

俳句監査役は不一致なくVERIFIEDを返しました。パフォーマンス指標:

  • Opus単独: 約8.7秒、スコア4/4
  • 俳句+監査役: 約10.9秒、スコア4/4

コスト分析

経済的影響は重要です:

  • Opus単独: $0.075/1000トークン × 約800トークン = 1クエリあたり約$0.06
  • 俳句+俳句: $0.0025/1000トークン × 約1600トークン = 1クエリあたり約$0.004

これは、同一の結果に対して約15倍低いコストを表しています。この問題は「真に難しい」とされ、単純な証明のようなトレーニングデータから明らかなものではありませんでした。

ソースでは、フェルマーの小定理が重い処理を行う(各a^(p-1) ≡ 1、和(p-1)個の1、p-1 ≡ -1を得る)クリーンな問題では、監査役パターンは正しさを確認するために約17%の時間的コストを追加すると指摘されています。このパターンは、生成器が量子化の詰まりや幻覚的な代数でつまずく可能性がある問題において特に価値があります。

📖 完全なソースを読む: r/ClaudeAI

Ad

👀 See Also

Claudeを使用してCapacitor WebViewsでモバイルアプリのQAを自動化する
Tools

Claudeを使用してCapacitor WebViewsでモバイルアプリのQAを自動化する

ある開発者が、CapacitorベースのモバイルアプリをAndroidとiOSでテストするためにClaudeを使用した自動QAシステムを構築しました。このアプローチでは、Android WebViewにはChrome DevTools Protocolを、スクリーンショットによる視覚的分析を採用しており、Androidのセットアップは90分で完了したのに対し、iOSには6時間以上を要しました。

OpenClawRadar
🦀
Tools

Claudeがclawhub経由でZillowの生データを使い、3時間で不動産分析アプリをプロトタイプ化

ある開発者が、Claudeにzillow-full clawhubツールを使って賃貸キャッシュフロー分析アプリを構築させました。実際のZillow APIデータを取得し、リアルなJSONレスポンスを基にUIをプロトタイピングし、たった一つの午後で動作するプロトタイプを完成させました。

OpenClawRadar
Zerostack 1.0.0:純粋なRustで書かれたUnixに触発されたコーディングエージェント
Tools

Zerostack 1.0.0:純粋なRustで書かれたUnixに触発されたコーディングエージェント

Zerostackは、Unix哲学に基づいて設計された純Rust製のコーディングエージェントです。小さな構成可能なツールがstdin/stdoutでパイプ接続されます。

OpenClawRadar
Claude CodeエージェントでGitHub PRレビューを自動化
Tools

Claude CodeエージェントでGitHub PRレビューを自動化

ある開発者が、GitHubのメンションを処理し、Claude Codeワーカーを起動してPRをレビューまたは修正し、曖昧なケースのみを人間にエスカレーションするエージェントを構築しました。

OpenClawRadar