mistral.rs が Gemma 4 12B のサポートを追加:マルチモーダル、エージェント指向、MTP

mistral.rsは、Gemma 4 12Bのマルチモーダル、エージェント型、およびマルチターン予測(MTP)機能をサポートします。このリリースには、エージェント型アプリ構築のためのWeb検索とサンドボックス化されたコード実行、さらに音声、画像、動画の入力が含まれています。
インストール
Linux/macOSおよびWindows向けの1行インストール:
# Linux/macOS
curl --proto '=https' --tlsv1.2 -sSf https://raw.githubusercontent.com/EricLBuehler/mistral.rs/master/install.sh | sh
Windows
irm https://raw.githubusercontent.com/EricLBuehler/mistral.rs/master/install.ps1 | iex
エージェントと量子化を用いた実行
OpenAIおよびAnthropic互換のHTTPサーバーを、localhost:1234/uiに内蔵Web UIとともに起動:
mistralrs run --agent -m google/gemma-4-12B-it --quant 4MTP(マルチターン予測)の有効化
MTPを使用するには、アシスタントモデルを指定して--mtp-modelフラグを追加:
mistralrs run --agent -m google/gemma-4-12B-it --quant 4 --mtp-model google/gemma-4-12B-it-assistant主な機能
- 完全マルチモーダル対応:音声、画像、動画
- エージェント型ワークフローのためのWeb検索とサンドボックス化されたコード実行
- OpenAIおよびAnthropic互換のHTTPサーバー
- 内蔵WebチャットUI(
localhost:1234/ui)
📖 ソース全文: r/LocalLLaMA
👀 See Also

推論ガード:ローカルLLM推論のためのプロキシレベルループ検出
vLLMプロキシの背後でQwen3.6 MoEを実行している開発者が、一般的な信頼性の問題に遭遇しました。それは、モデルが推論ブロック内で自身を繰り返し、トークンを消費し、エージェントを停止させる暴走推論ループです。180トークン/秒で動作する場合、20〜30秒のループでもGPU時間を浪費し、クライアントリクエストをブロックします。彼らはプロキシ層に常駐し、クライアントに到達する前にストリーミング出力に対して決定論的チェックを実施する軽量ガードを構築しました。

OpenClaw統合によるインド株式市場:マルチエージェント分析と取引端末
インド市場向けのオープンソース取引端末がOpenClawスキルサーバーとして接続され、どのOpenClawエージェントでもローカルインストールなしでHTTP経由でインド株式市場データを取得し、完全な分析を実行できるようになりました。このシステムは7つの専門エージェントを並列で動作させ、取引計画を含む構造化された分析を生成します。

オブシディアンバウルト内の意味検索のためのMCPサーバー
開発者が、キーワードマッチングの限界によりエージェントが関連文書を見逃す問題に対処するため、Obsidianボールトにセマンティック検索機能を提供するMCPサーバーを作成しました。

コードを書く前に、/probeを使ってAIの幻覚を検出する
開発者が「/probe」という手法を共有しました。この手法は、AIが生成した計画に番号付きの主張と期待値を出力させ、実際のシステムに対してプローブを実行して不一致を検出します。この方法により、Claudeが自身のJSONL形式について説明した際の4つの事実誤認を発見し、コードのバグを引き起こす可能性があった問題を捕捉しました。