針:完全不需要前馈网络构建的2600万参数工具调用模型
Needleは、単発の関数呼び出しに特化して設計された2600万パラメータのモデルです。ツール呼び出しは推論ではなく、検索と組み立て(クエリをツール名にマッチさせ、引数の値を抽出し、JSONを出力する)であるという洞察に基づき、クロスアテンションとゲーティング層のみで構成され、FFNは一切使用していません。コンシューマデバイス上で6000トークン/秒のプリフィルと1200トークン/秒のデコードを実現します。
トレーニング詳細
- 16台のTPU v6e上で2000億トークンで事前学習(27時間)
- 合成された20億トークンの関数呼び出しデータで追加学習(45分)
- データはGeminiを使用して、15のツールカテゴリ(タイマー、メッセージング、ナビゲーション、スマートホームなど)で合成
アーキテクチャ:シンプルアテンションネットワーク
モデル全体はアテンションとゲーティングのみで構成され、MLPは一切ありません。著者らは、このスケールのツール呼び出しではFFNパラメータは無駄であり、「FFNなし」という発見は、モデルが外部の構造化知識にアクセスできる任意のタスク(RAG、ツール使用、検索拡張生成)に一般化できると主張しています。入力に事実が提供されていれば、モデルはFFNの重みに事実を記憶する必要はありません。
ベンチマーク
Needleは、単発の関数呼び出しにおいてFunctionGemma-270M、Qwen-0.6B、Granite-350M、LFM2.5-350Mを上回りますが、これらのモデルは会話設定においてより多くのキャパシティを持っています。
使用方法
# プレイグラウンドでモデルをテストするか、Mac/PCでファインチューニング
git clone https://github.com/cactus-compute/needle
- GitHub: github.com/cactus-compute/needle
- 重み: huggingface.co/Cactus-Compute/needle
- アーキテクチャ解説: Simple Attention Networks docs
- モバイル/ウェアラブル向け推論エンジン(Cactus): github.com/cactus-compute/cactus
すべてMITライセンスです。
📖 全文ソースを読む: r/LocalLLaMA
👀 See Also

各セッションでClaude Codeに再教育するのをやめよう:永続設定を使う
Redditユーザーが、Claude Code用の永続的な設定ファイルを作成することで、毎回のセッションで20分を節約し、33%高速な完了を実現した方法を説明しています。

OpenClawエージェント、カスタムスキルを通じて通話機能を獲得
ある開発者が、セルフホスト型OpenClawエージェント向けのカスタムスキルを作成し、電話通話機能を実現しました。これにより、ビルド完了やサーバー障害などのトリガーに基づいて、エージェントが通話を開始できるようになりました。この実装は、ウェブ検索やアラート設定を含む完全なチャット機能を備えた音声対話を提供します。

ブルンフェルド・エージェンティック・ワールド:行動プロンプトなしのマルチエージェント中世経済シミュレーション
20体のLLMエージェントが行動指示、目標、取引戦略なしで中世の村の経済で自律的に取引を行うTypeScriptシミュレーション。各エージェントはティックごとに約200トークンの知覚を受け取り、物理、レシピ、市場メカニクスを処理する決定論的エンジンを通じて相互作用します。

Qwen3.6-27BとOpencodeを使った5090上でのローカルAI開発
Redditユーザーが、クラウドAIコーディングツール(Claude Code、Cursor)から、Opencode + llama-server + Qwen3.6-27B(128Kコンテキスト)を単一のRTX 5090で実行するローカル環境への切り替え体験を共有。利用制限やアカウントリスクからの解放を挙げている。