最新AIモデルのベンチマーキング:極端モデルの台頭

✍️ OpenClawRadar📅 公開日: February 13, 2026🔗 Source
最新AIモデルのベンチマーキング:極端モデルの台頭
Ad

最近実施された40の新AIモデルのベンチマークは、価格対性能の状況に大きな変化をもたらしています。Kimi k2.5とClaude Opus 4.6に注目が集まる中、分析では『ゴッドモード』と『フラッシュモード』という二つの極端な方向への分裂が明らかになり、中級モデルは非効率とされています。

主な詳細

  • Kimi k2.5の状況: Kimi k2.5のベンチマーク試行は、過負荷が原因と思われる持続的な『コンテンツなし』エラーのため失敗しました。ただし、Kimi-k2-Thinkingは複雑な推論タスクにおいて約15 TPSで適切な性能を発揮しました。
  • 速度の優位性: 遅延に敏感なアプリケーションでは、Liquid LFM 2.5が約359トークン/秒で最速モデルとして登場し、次いでMinistral 3Bが約293トークン/秒でした。
  • コスト効率: Ministral 3Bは最もコスト効率の高いソリューションとして際立っており、入力100万トークンあたり0.10ドルです。GPT-5.2 Codexよりも約17倍安く、約40%高速であり、高価格オプションに対する強力な価値提案となっています。

推奨としては、競争力のある性能を提供しない0.50ドルから1.00ドルの中級モデルは避けるべきです。ニーズに応じて、OpusやGPT-5などの高価格モデルをインテリジェンスのために選択するか、LiquidやMistralでコスト効率の高い速度を選ぶかです。

📖 全文を読む: r/LocalLLaMA

Ad

👀 See Also

OpenRouterのHealer Alphaステルスモデルは、未公開のQwen 3.5-Omniバリアントである可能性があります。
News

OpenRouterのHealer Alphaステルスモデルは、未公開のQwen 3.5-Omniバリアントである可能性があります。

OpenRouterは、262,144トークンのコンテキストウィンドウとマルチモーダル機能を備えた無料の匿名オムニモーダルモデル「Healer Alpha」を導入しました。フォレンジック分析によると、これはAlibabaの未公開のQwen 3.5-Omniバリアントである可能性が示唆されています。

OpenClawRadar
Spotify、「人間のアーティスト」と「AI生成アーティスト」を区別する「認証バッジ」を導入
News

Spotify、「人間のアーティスト」と「AI生成アーティスト」を区別する「認証バッジ」を導入

Spotifyは、ソーシャルアカウントの連携、コンサート日程、グッズ販売などの条件を満たすアーティストのプロフィールに、緑色のチェックマーク「Verified by Spotify」バッジを追加し、人間のアーティストとAI生成のものを区別することを目指しています。

OpenClawRadar
研究によると、性格はLlamaやQwenではなく、Claudeの自己修正に影響を与えることが示されています。
News

研究によると、性格はLlamaやQwenではなく、Claudeの自己修正に影響を与えることが示されています。

研究者がClaude、Llama、Qwenの3つのLLMファミリーで、ガードレールなしの自己修正を23の実験でテストしました。主な発見:性格プロファイルがClaudeの自己修正能力に影響を与え、高い率直さはすべてのエラーを捕捉し、低い率直さは何も捕捉しませんでした。LlamaとQwenは同じプロンプトでも自己修正しませんでした。

OpenClawRadar
オープンクローのアストロターフィングキャンペーンと$CLAWDトークンの急騰に関する分析
News

オープンクローのアストロターフィングキャンペーンと$CLAWDトークンの急騰に関する分析

Redditの調査によると、OpenClawの1月下旬における急成長は、約400のボットインスタンスを使用した再帰的なアストロターフィングキャンペーンによって推進され、$CLAWDトークンを1600万ドルの時価総額まで急騰させた後、90%暴落したことが明らかになりました。

OpenClawRadar