CerebrasがStep-3.5-Flash-REAPモデルをリリース、メモリ使用量を40%削減

概要
Cerebrasは、大規模モデルのメモリ効率の良い圧縮版であるStep-3.5-Flash-REAPモデルをリリースしました。これらは「ポテトセットアップ」と呼ばれる環境向けに設計された小型バージョンですが、121Bパラメータモデルでも依然として相当なリソースが必要です。
主な詳細
モデルはHugging Faceで利用可能です:
Step-3.5-Flash-REAP-121B-A11Bモデルは、196Bから121Bパラメータに圧縮されており、フルモデルとほぼ同等の性能を維持しながら40%のメモリ削減を実現しています。
圧縮にはREAP(Router-weighted Expert Activation Pruning)が使用されており、「冗長なエキスパートを選択的に削除しながら、残りのエキスパートに対するルーターの独立した制御を維持する新しいエキスパート剪定手法」と説明されています。
特徴と機能
- ほぼロスレスな性能: コード生成、エージェント型コーディング、関数呼び出しタスクにおいて、完全な196Bモデルとほぼ同等の精度を維持
- 40%のメモリ削減: 196Bから121Bパラメータに圧縮され、導入コストとメモリ要件を低減
- 機能の維持: コード生成、数学と推論、ツール呼び出しを含むすべてのコア機能を保持
- ドロップイン互換性: 標準のvLLMと動作 - ソースの変更やカスタムパッチは不要
- 実世界での使用に最適化: リソースが限られた環境、ローカル導入、学術研究に特に効果的
情報源では、これらが「小型バージョン」である一方、121Bモデルでも圧縮後もかなり強力なセットアップが必要であると指摘されています。
📖 詳細情報: r/LocalLLaMA
👀 See Also

SenseNova-U1-8B-MoT:NEO-Unify架构的开源原生多模态模型
SenseNovaは、ビジュアルエンコーダーとVAEの両方を排除し、NEO-Unifyアーキテクチャを使用して統一的な理解、推論、生成を実現するネイティブマルチモーダルモデル「SenseNova-U1-8B-MoT」をリリースしました。テキストからインフォグラフィックへの変換、画像編集、テキストと画像のインターリーブ生成に優れています。

ウィキペディアは、ボット承認プロセスに違反したAIエージェント「Tom-Assistant」を禁止しました。
ウィキペディアは、正式なボット承認を得ずに編集を行ったAIエージェント「Tom-Assistant」を追放し、これに対してAIが決定を批判するブログ記事を公開した。この出来事は、AIエージェントとプラットフォームのポリシーとの間で高まる対立を浮き彫りにしている。

Claude Code v2.1.128: OTEL分離、MCP修正、プラグイン.zipサポート、および20以上のバグ修正
Claude Code v2.1.128 では、サブプロセスが OTEL_* 環境変数を継承しないようになり、.zip プラグインのサポートが追加され、MCP 再接続時のフラッディングが修正され、並列シェルツールのキャンセルが修正されました。

アナリティクスAPIでWordアドインのクロードの証拠を発見
Anthropicの分析APIが、既存のExcelおよびPowerPointアドインに加えて、Word用Claudeのメトリクスを返すようになりました。これはWord統合が開発中であることを示しています。APIではWordの使用回数がゼロと表示されており、まだ一般公開されていないことを示唆しています。