Needle: モバイル上で6000トークン/秒で動作する2600万パラメータの関数呼び出しモデル

✍️ OpenClawRadar📅 公開日: May 12, 2026🔗 Source
Ad

CactusはNeedleをオープンソース化しました。これは2600万パラメータの関数呼び出しモデルで、格安スマートフォン、スマートウォッチ、メガネ上での動作を想定しています。独自の推論エンジンCactusを使用することで、コンシューマデバイス上で6000 tok/sのプリフィルと1200 tok/sのデコードを達成します。

アーキテクチャ: Simple Attention Networks

NeedleはSimple Attention Networkを採用しており、MLPは一切使用していません。モデル全体はアテンション層とゲート層のみで構成されています。主要な設計は以下の通りです: d=512, 8H/4KV, BPE=8192。エンコーダ・デコーダ構造(12エンコーダ層、8デコーダ層)で、クロスアテンション、RoPEを使用したマスク付き自己アテンション、重み共有の埋め込みを採用しています。

トレーニング詳細

  • 16個のTPU v6eを用いて200Bトークンで事前トレーニング(27時間)
  • 合成された2Bトークンの関数呼び出しデータで追加トレーニング(45分)
  • データはGeminiを用いて15のツールカテゴリ(タイマー、メッセージング、ナビゲーション、スマートホームなど)で合成

ベンチマーク結果

Needleはシングルショット関数呼び出しにおいて、FunctionGemma-270MQwen-0.6BGranite-350MLFM2.5-350Mを上回ります。ただし、これらのモデルはより広いスコープと容量を持ち、会話型設定で優れています。

クイックスタート

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

http://127.0.0.1:7860でWeb UIが開き、テストや独自ツールでのファインチューニングが可能です。

Ad

使用例(Python)

from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl") model = SimpleAttentionNetwork(config) tokenizer = get_tokenizer()

result = generate( model, params, tokenizer, query="What's the weather in San Francisco?", tools='[{"name":"get_weather","parameters":{"location":"string"}}]', stream=False ) print(result)

[{"name":"get_weather","arguments":{"location":"San Francisco"}}]

ローカルでのファインチューニング

# playground経由(Geminiで自動データ生成)

needle playground

または独自データを提供

needle finetune data.jsonl

提供情報

重みはHugging Faceで公開されています: Cactus-Compute/needle。すべてMITライセンスです。

📖 全文ソース: HN AI Agents

Ad

👀 See Also

ClawsifyAIエージェントは、メール処理、リサーチ、ブレインストーミングのタスクを担当します。
Tools

ClawsifyAIエージェントは、メール処理、リサーチ、ブレインストーミングのタスクを担当します。

ある開発者がAIエージェントスタイルのクローボット「ClawsifyAI」を1週間テストしたところ、メール処理、リサーチ、反復作業、ブレインストーミングなどをこなすことがわかりました。このエージェントは明確なフィードバック、実用的な解決策、時には当初計画していたよりも優れたアイデアを提供します。

OpenClawRadar
エージェントクロールアップデートにより、重要なクローラー機能と拡張機能が追加されました
Tools

エージェントクロールアップデートにより、重要なクローラー機能と拡張機能が追加されました

AgentCrawlの最新アップデートでは、robots.txtの遵守、ディスクキャッシュ、再開可能なクロール、構造化メタデータ抽出などの機能が導入され、より堅牢で本番環境対応のツールへと進化しました。

OpenClawRadar
ClawCut ProxyがGitHubで公開され、小規模LLM向けにOpenClawを最適化
Tools

ClawCut ProxyがGitHubで公開され、小規模LLM向けにOpenClawを最適化

ClawCutは実験的なプロキシで、OpenClawからのJSON呼び出しを操作・注入し、JSONの不要な部分を抽出することで、限られたハードウェア上で動作する小規模モデル(7B-8B)の認知的負荷を軽減します。

OpenClawRadar
OpenClawデベロッパーがUberとレストラン予約自動化でAIエージェントのブレークスルーを達成
Tools

OpenClawデベロッパーがUberとレストラン予約自動化でAIエージェントのブレークスルーを達成

OpenClawの開発者が、実際のウェブサイト上でUberの乗車予約とレストランの予約を自律的に完了するAIエージェントの作成に成功しました。ステルスブラウザ、住宅用プロキシ、CAPTCHA解決を組み合わせた技術スタックを用いて、ボット検出やCAPTCHAを回避しています。

OpenClawRadar