ローカルLLMベンチマーク:関数呼び出しによるバックエンド生成 – GLM、Qwen、DeepSeekの比較

初期の非管理測定から5ヶ月後、AutoBe.devは関数呼び出しを用いたバックエンドコード生成におけるローカルLLMとフロンティアLLMの適切なベンチマークを公開しました。このベンチマークは、実際の採点基準を用いた制御変数設定を採用し、関数呼び出しハーネスを介して再帰的ユニオンASTスキーマを生成するモデルをテストしています。
主な発見
- 関数呼び出しハーネスにより、バックエンド生成におけるフロンティアモデルとローカルモデルの差が実質的に解消されました。具体的には、
gpt-5.4のDB/API設計スコアはqwen3.5-35b-a3bとほぼ同等であり、claude-sonnet-4.6のロジックスコアはqwen3.5-27bと一致します。 - 今回がフロンティアモデルを含む最後のラウンドです。これらを毎月実行するには約200~300Mトークン(GPT 5.5価格でモデルあたり約1,000~1,500ドル)が必要です。来月からは、OpenRouterでトークンあたり0.25ドル未満のエンドポイント、または64GBユニファイドメモリのラップトップで動作するモデルのみが対象となります。
- フロントエンド自動化は、6月/7月のラウンドでベンチマークに追加される予定です。AutoBeが既に出力するSDKを使用して、エンドツーエンドのAI構築フロントエンド(ビジュアルは粗いが、すべての関数が動作)を駆動します。
予想外の逆転
いくつかの結果はまだ調査中です:
openai/gpt-5.4は自身のmini兄弟モデルよりも低いスコアです。deepseek-v4-proはqwen3.5-35b-a3bの1つ下に位置し、自身のFlash兄弟モデルとほとんど差がありません。- Qwenファミリー内では、高密度27Bが397B-A17Bを含むすべてのMoEバリアントを上回っています。
調査中の可能性のある説明としては、CoT準拠現象(大規模・フロンティアモデルはハーネスによって強制される手続き指示をスキップする傾向がある)やベンチマークの欠陥(n=4の参照プロジェクト、狭いスコア帯域、ハーネスが自身のパイプラインを採点)があります。
推奨モデル
来月に向けてロックインされた3つの候補:
openai/gpt-5.4-nano— $0.25/Mトークンqwen/qwen3.6-27b— $0.195/Mトークンdeepseek/deepseek-v4-flash— $0.14/Mトークン
いずれもOpenRouterで$0.25/Mトークン未満、または64GBユニファイドメモリのラップトップで実行可能で、関数呼び出しをきれいに処理します。
参考資料
- ベンチマークダッシュボード: https://autobe.dev/benchmark/
- 生成結果: GitHub: autobe-examples
- GitHubリポジトリ: https://github.com/wrtnlabs/autobe
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

OpenClaw創設者ピーター・スタインバーガーが注目の的:YCインタビューからの洞察
OpenClawの創業者、ピーター・スタインバーガーがYCの注目を集め、AIコーディングエージェントの未来について議論を巻き起こしています。自動化とAIエージェント統合の軌道に影響を与えると期待されるこの重要な対談のハイライトをご紹介します。

Redditの議論では、インフラ変更によるAIエージェントのトークン削減率68%が注目されています。
Redditユーザーが報告したところによると、標準インフラからエージェントネイティブOSとJSONネイティブ状態アクセスに切り替えることで、AIエージェントのトークン使用量を68.5%削減し、状態チェックが約9つのシェルコマンドから1つの構造化呼び出しに減少した。

Anthropicの研究により、AI支援ワークフローにおける認知能力の低下が明らかになった
Anthropicが8万人のユーザーを対象に行ったグローバル調査によると、ClaudeやCursorなどのAIツールを使用する際、学術ユーザーは平均の2.5倍高い認知能力の低下率を報告しています。情報源は、問題の原因をユーザーが作業の「消化段階」を排除していることと特定しています。

SDNY判決、AIチャット通信に弁護士・依頼者特権を認めず
ラコフ判事は、米国対ヘプナー事件において、ChatGPTのようなAIツールとのコミュニケーションは弁護士・依頼者特権の対象にはならず、AI生成の法的作業のすべてを開示する必要があると裁定しました。裁判所は、特権保護に必要な人間同士の機密性がAIには欠けていると判断しました。