最新AIモデルのベンチマーキング：極端モデルの台頭

✍️ OpenClawRadar📅 公開日: February 13, 2026🔗 Source

最新AIモデルのベンチマーキング：極端モデルの台頭

Ad

最近実施された40の新AIモデルのベンチマークは、価格対性能の状況に大きな変化をもたらしています。Kimi k2.5とClaude Opus 4.6に注目が集まる中、分析では『ゴッドモード』と『フラッシュモード』という二つの極端な方向への分裂が明らかになり、中級モデルは非効率とされています。

主な詳細

Kimi k2.5の状況: Kimi k2.5のベンチマーク試行は、過負荷が原因と思われる持続的な『コンテンツなし』エラーのため失敗しました。ただし、Kimi-k2-Thinkingは複雑な推論タスクにおいて約15 TPSで適切な性能を発揮しました。
速度の優位性: 遅延に敏感なアプリケーションでは、Liquid LFM 2.5が約359トークン/秒で最速モデルとして登場し、次いでMinistral 3Bが約293トークン/秒でした。
コスト効率: Ministral 3Bは最もコスト効率の高いソリューションとして際立っており、入力100万トークンあたり0.10ドルです。GPT-5.2 Codexよりも約17倍安く、約40%高速であり、高価格オプションに対する強力な価値提案となっています。

推奨としては、競争力のある性能を提供しない0.50ドルから1.00ドルの中級モデルは避けるべきです。ニーズに応じて、OpusやGPT-5などの高価格モデルをインテリジェンスのために選択するか、LiquidやMistralでコスト効率の高い速度を選ぶかです。

📖 全文を読む: r/LocalLLaMA

Ad

👀 See Also

AIの壊れた経済学：Anthropicの神話/寓話輸出禁止の混乱

AIの壊れた経済学：Anthropicの神話/寓話輸出禁止の混乱

アンソロピック社が「危険すぎる」としてリリースをためらっていたMythosモデルが、ガードレール付きのFableとして公開された後、数日で研究者によって脱獄され、米国が輸出規制を発動。非米国人のアクセスが禁止された。Fableのガードレールはアマゾン研究者によって破られ、国家安全保障上の懸念からロールバック命令が下された。

Jun 23, 2026, 12:17 PM UTC

AGIへの第一歩：ClawDBotでギャップを埋める

AGIへの第一歩：ClawDBotでギャップを埋める

ClawDBotがAIコーディングエージェントを強化することでAGIに向けた進歩を促進する方法を探り、AI進化における重要な一歩を示します。

Feb 8, 2026, 04:40 PM UTC

Hy3 LLM、OpenRouterランキングトップに：最安モデルか、それとも別の理由か？

Hy3 LLM、OpenRouterランキングトップに：最安モデルか、それとも別の理由か？

Hy3 preview（テンセントが公開したオープンソースLLM）が、トークン使用量でOpenRouterのモデルランキングでトップになり、ClaudeやDeepSeek V4 Flashを超えました。価格は0.066ドル/100万入力トークンで最安値ですが、ベンチマークでは品質が主要モデルを大きく下回っています。

May 30, 2026, 12:15 AM UTC

Claude CodeがQNXのビッグカーネルロック解除に挑戦、ユーザースペースの競合統計から着手

Claude CodeがQNXのビッグカーネルロック解除に挑戦、ユーザースペースの競合統計から着手

開発者がClaude CodeにQNXマイクロカーネルを再設計してBig Kernel Lockを除去するよう依頼しました。Claudeはトップクラスの人間の開発者なら3ヶ月かかると見積もり、まず/procのようなロック統計を設計し、カーネルサブシステムを一つずつ修正し始めました。

Apr 30, 2026, 10:20 PM UTC