エージェント型テキスト-to-SQLタスクにおける小規模ローカルモデルとOpenRouterモデルのベンチマーク結果

✍️ OpenClawRadar📅 公開日: April 17, 2026🔗 Source
エージェント型テキスト-to-SQLタスクにおける小規模ローカルモデルとOpenRouterモデルのベンチマーク結果
Ad

開発者が、エージェント型テキスト-to-SQLタスクにおける小型ローカルモデルとOpenRouterモデルのベンチマーク結果を公開しました。このベンチマークは、「各製品サブカテゴリについて、注文明細、売上高、販売数量、単位当たり売上高(総売上高÷総販売数量)、サブカテゴリ内の製品ごとの平均定価、粗利益、利益率を表示」といった英語クエリを受け取り、データベーステーブルに対してテストされるSQLに変換します。

ベンチマークの詳細

エージェントはクエリ結果を確認し、問題を修正するためにSQLを修正できますが、デバッグラウンド数に制限があります。ベンチマークは意図的に短く25問で構成され、ほとんどのモデルで5分未満で実行されるため、さまざまな設定をテストするのに実用的です。最良のモデルを他と区別するのに十分な厳しさを持つように設計されています。

主な発見

  • 特定された最良のオープンモデルは、kimi-k2.5、Qwen 3.5 397B-A17B、Qwen 3.5 27Bでした
  • NVIDIA Nemotron-Cascade-2-30B-A3BはQwen 3.5-35B-A3Bを上回り、Codex 5.3と同等のスコアを達成
  • Mimo v2 Flashは「モデルの宝石」と評されました

セルフホスティングオプション

このベンチマークには、Llama.cppのWASMバージョンを使用して自身のサーバーに対して実行する機能が追加されました。開発者はバージョン2で変更すべき点についてフィードバックを求めており、異なる設定で他のユーザーが得るスコアを確認したいと考えています。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

開発者がClaude Codeとうまく連携するCLIツールを共有
Tools

開発者がClaude Codeとうまく連携するCLIツールを共有

ある開発者がClaude Codeで作業する際にMCPからCLIに切り替え、Claudeがシェルスクリプトやドキュメントの学習によりCLIコマンドを効果的に扱えることを発見しました。彼らは日常的に使用する具体的なCLIとしてgh、ripgrep、stripe、supabase、vercel、sentry-cli、neonを共有しました。

OpenClawRadar
Memora v0.2.25 MCPサーバー:D1データベースでの書き込みが5倍高速化
Tools

Memora v0.2.25 MCPサーバー:D1データベースでの書き込みが5倍高速化

Memora v0.2.25、Claudeの永続メモリ用MCPサーバーは、Cloudflare D1での書き込み速度を5倍向上させ、memory_createが10秒以上から約1.8秒、memory_updateが10秒以上から約1.1秒に短縮されました。

OpenClawRadar
ルミア:永続メモリを備えたワンクリックローカルAIコンパニオンシステム
Tools

ルミア:永続メモリを備えたワンクリックローカルAIコンパニオンシステム

Lumiaは、Ollamaとローカルモデルを使用してローカルで実行されるモジュラーシステムで、エピソード記憶、感情記憶、信念、欲望、アイデンティティ、関係性モデリング、内省サイクルを持つ永続的なAIコンパニオンを作成します。

OpenClawRadar
開発者がAIエージェントのメモリ問題を解決するためにLibraHQアプリを構築
Tools

開発者がAIエージェントのメモリ問題を解決するためにLibraHQアプリを構築

開発者がLibraHQを作成しました。これはチャットボットとコーディングエージェント間の共有メモリレイヤーとして機能する無料のメモアプリです。このアプリはチャットから重要なメモと決定を記録し、将来のセッションのために保存することで、AIエージェントが以前に行った決定を忘れてしまう問題に対処します。

OpenClawRadar