100GB未満のオープンウェイトモデルは、コーディングベンチマークでClaude Haikuに勝てません。

最近のオープンウェイト言語モデルの分析によると、コーディングベンチマークにおいてAnthropicのClaude Haikuと比較して大きな性能差があることが明らかになりました。この比較は特定のテストパラメータとメモリ要件を用いて実施されました。
ベンチマーク手法
評価では、LiveBench(2026年1月)とArena Code/WebDevという2つのコーディングベンチマークでモデルを比較しました。テストは思考機能を有効にしたClaude Haiku 4.5に対して実施されました。モデルはローカルデプロイメントに必要なメモリ要件に応じてプロットされました。
技術仕様
- 量子化:Q4_K_M
- コンテキスト長:32K
- KVキャッシュ:q8_0
- VRAM推定:著者のカスタム計算機を使用して算出
主な発見
100GB未満のメモリを必要とするオープンウェイトモデルでは、いずれのベンチマークでもClaude Haikuの性能に近づくものはありませんでした。最も近い競合モデルはMinimax M2.5で、約136GBのメモリを必要とし、両ベンチマークでHaikuの性能とほぼ同等でした。
この分析は、コーディングタスクにおける100GB未満カテゴリーでのプロプライエタリモデルとオープンウェイトモデルの間の現在のギャップを浮き彫りにしています。著者はこの制限に不満を表明し、少なくともHaikuの能力に匹敵する小型モデルの開発を求めています。
📖 詳細なソースを読む: r/LocalLLaMA
👀 See Also

開発者から報告されたClaude CLIの指示のずれの問題
開発者が報告したところによると、Claude CLIは.claudeフォルダ内のファイルに保存されたプロジェクト指示を一貫して無視し、特に自動圧縮操作後にその傾向が顕著です。このツールは禁止されているバックグラウンドプロセスを実行し、明示的な指示にもかかわらずタスク/セッションデータを削除します。

Claude Opus 4.6 メモリ障害:エージェントがファイル名変更以外すべてを忘れる
開発者がClaude Opus 4.6の228件のログエントリ、95件のエージェントアクション、38件のコード実行を記録。結果としてメモリに保存されたのは「Agent Zero Tune-Up」という文字列のみだった。

Claudeデイリーダイジェスト:/dream機能リリース、利用制限への反発、アクセシビリティツール
AnthropicはClaudeのAuto Memoryシステム向けに/dream機能をリリースしましたが、コミュニティでは利用制限に関する不満が噴出しています。また、耳の不自由な開発者がClaude Code用のターミナルフラッシュ通知プラグインを構築しました。

AMD Ryzen AI NPUがLemonade 10.0とFastFlowLMでLinux LLMサポートを獲得
AMD Ryzen AI NPUは現在、Linux 7.0カーネルまたはAMDXDNAドライバーのバックポートを必要とするFastFlowLMランタイムを搭載したLemonade 10.0サーバーを通じて、Linux上で大規模言語モデルを実行できるようになりました。