ローカルLLMベンチマーク：関数呼び出しによるバックエンド生成 – GLM、Qwen、DeepSeekの比較

✍️ OpenClawRadar📅 公開日: May 3, 2026🔗 Source

ローカルLLMベンチマーク：関数呼び出しによるバックエンド生成 – GLM、Qwen、DeepSeekの比較

Ad

初期の非管理測定から5ヶ月後、AutoBe.devは関数呼び出しを用いたバックエンドコード生成におけるローカルLLMとフロンティアLLMの適切なベンチマークを公開しました。このベンチマークは、実際の採点基準を用いた制御変数設定を採用し、関数呼び出しハーネスを介して再帰的ユニオンASTスキーマを生成するモデルをテストしています。

主な発見

関数呼び出しハーネスにより、バックエンド生成におけるフロンティアモデルとローカルモデルの差が実質的に解消されました。具体的には、gpt-5.4のDB/API設計スコアはqwen3.5-35b-a3bとほぼ同等であり、claude-sonnet-4.6のロジックスコアはqwen3.5-27bと一致します。
今回がフロンティアモデルを含む最後のラウンドです。これらを毎月実行するには約200～300Mトークン（GPT 5.5価格でモデルあたり約1,000～1,500ドル）が必要です。来月からは、OpenRouterでトークンあたり0.25ドル未満のエンドポイント、または64GBユニファイドメモリのラップトップで動作するモデルのみが対象となります。
フロントエンド自動化は、6月/7月のラウンドでベンチマークに追加される予定です。AutoBeが既に出力するSDKを使用して、エンドツーエンドのAI構築フロントエンド（ビジュアルは粗いが、すべての関数が動作）を駆動します。

予想外の逆転

いくつかの結果はまだ調査中です：

openai/gpt-5.4は自身のmini兄弟モデルよりも低いスコアです。
deepseek-v4-proはqwen3.5-35b-a3bの1つ下に位置し、自身のFlash兄弟モデルとほとんど差がありません。
Qwenファミリー内では、高密度27Bが397B-A17Bを含むすべてのMoEバリアントを上回っています。

調査中の可能性のある説明としては、CoT準拠現象（大規模・フロンティアモデルはハーネスによって強制される手続き指示をスキップする傾向がある）やベンチマークの欠陥（n=4の参照プロジェクト、狭いスコア帯域、ハーネスが自身のパイプラインを採点）があります。

Ad

推奨モデル

来月に向けてロックインされた3つの候補：

openai/gpt-5.4-nano — $0.25/Mトークン
qwen/qwen3.6-27b — $0.195/Mトークン
deepseek/deepseek-v4-flash — $0.14/Mトークン

いずれもOpenRouterで$0.25/Mトークン未満、または64GBユニファイドメモリのラップトップで実行可能で、関数呼び出しをきれいに処理します。

参考資料

ベンチマークダッシュボード: https://autobe.dev/benchmark/
生成結果: GitHub: autobe-examples
GitHubリポジトリ: https://github.com/wrtnlabs/autobe

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

Claude-Code v2.1.47 リリース：主要な修正と改善点

Claude-Code v2.1.47 リリース：主要な修正と改善点

Claude-Code v2.1.47リリースでは、Windowsターミナルのレンダリング、ファイル処理、bashツール出力に関する重要な修正に加え、メモリとパフォーマンスの向上がもたらされています。

Feb 18, 2026, 11:45 PM UTC

Claude-Code v2.1.84は、PowerShellツール、環境変数、および複数の修正を追加しました。

Claude-Code v2.1.84は、PowerShellツール、環境変数、および複数の修正を追加しました。

Claude-Code v2.1.84では、Windows用PowerShellツールのオプトインプレビューが導入され、モデル構成とストリーミングタイムアウトの環境変数が追加され、多数のバグ修正とパフォーマンス改善が含まれています。

Mar 26, 2026, 03:45 AM UTC

OpenClawの初期ユーザーレポート：Telegramの問題、エージェントプロファイルのハードコーディング、セッションリセットに関する問題

OpenClawの初期ユーザーレポート：Telegramの問題、エージェントプロファイルのハードコーディング、セッションリセットに関する問題

ユーザーがOpenClawを最初の3日間使用した結果、いくつかの実用的な課題が明らかになりました：Telegramの応答が消える、エージェントプロファイルがソースコードで「messaging」にハードコードされている、セッションリセット後にWacliが利用できなくなるなどです。ユーザーはDockerでマイクロテストを実行し、TelegramとWacliを接続し、ハートビートを設定しました。

Apr 17, 2026, 03:45 PM UTC

OpenClawのコンテキスト管理は、トークン消費が多く、アーキテクチャに欠陥があると批判されている。

OpenClawのコンテキスト管理は、トークン消費が多く、アーキテクチャに欠陥があると批判されている。

Redditの投稿が、OpenClawの非効率なコンテキスト処理を批判し、それが過剰なトークン使用につながると指摘しています。このフレームワークはすべてのアクションをグローバル履歴に追加するため、膨れ上がったプロンプトが小さなモデルを圧倒し、Claude Opusのような高価な最先端モデルへの依存を強いることになります。

Mar 13, 2026, 07:45 AM UTC