2600万パラメータの関数呼び出しモデル「Needle」：MLP不要で高速推論

Needleは、単発の関数呼び出しに特化して設計された2600万パラメータのモデルです。ツール呼び出しは推論ではなく、検索と組み立て（クエリをツール名にマッチさせ、引数の値を抽出し、JSONを出力する）であるという洞察に基づき、クロスアテンションとゲーティング層のみで構成され、FFNは一切使用していません。コンシューマデバイス上で6000トークン/秒のプリフィルと1200トークン/秒のデコードを実現します。

トレーニング詳細

16台のTPU v6e上で2000億トークンで事前学習（27時間）
合成された20億トークンの関数呼び出しデータで追加学習（45分）
データはGeminiを使用して、15のツールカテゴリ（タイマー、メッセージング、ナビゲーション、スマートホームなど）で合成

アーキテクチャ：シンプルアテンションネットワーク

モデル全体はアテンションとゲーティングのみで構成され、MLPは一切ありません。著者らは、このスケールのツール呼び出しではFFNパラメータは無駄であり、「FFNなし」という発見は、モデルが外部の構造化知識にアクセスできる任意のタスク（RAG、ツール使用、検索拡張生成）に一般化できると主張しています。入力に事実が提供されていれば、モデルはFFNの重みに事実を記憶する必要はありません。

ベンチマーク

Needleは、単発の関数呼び出しにおいてFunctionGemma-270M、Qwen-0.6B、Granite-350M、LFM2.5-350Mを上回りますが、これらのモデルは会話設定においてより多くのキャパシティを持っています。

使用方法

# プレイグラウンドでモデルをテストするか、Mac/PCでファインチューニング
git clone https://github.com/cactus-compute/needle

GitHub: github.com/cactus-compute/needle
重み: huggingface.co/Cactus-Compute/needle
アーキテクチャ解説: Simple Attention Networks docs
モバイル/ウェアラブル向け推論エンジン（Cactus）: github.com/cactus-compute/cactus

すべてMITライセンスです。

📖 全文ソースを読む: r/LocalLLaMA

針：完全不需要前馈网络构建的2600万参数工具调用模型

トレーニング詳細

アーキテクチャ：シンプルアテンションネットワーク

ベンチマーク

使用方法

👀 See Also

Devvit向けのClaudeスキルにより、コード生成の精度が73%から100%に向上しました。

Claude Code用デザインスタジオプラグイン：9つの役割と16のコマンドを備えた仮想デザインチームを追加

ミーミル：21の神経科学メカニズムに基づいて構築されたPythonメモリシステム

SwiftUIとCSM-1Bを使用したApple Silicon向けローカル音声AIアシスタントの構築