Needle: 26M-Funktionsaufruf-Modell mit 6000 Tok/s

Cactus hat Needle als Open Source veröffentlicht, ein 26M-Parameter-Modell für Funktionsaufrufe, das auf günstigen Handys, Uhren und Brillen laufen soll. Es erreicht 6000 tok/s Prefill und 1200 tok/s Decodierung auf Verbrauchergeräten mit der eigenen Inferenz-Engine Cactus.

Architektur: Simple Attention Networks

Needle verwendet ein Simple Attention Network – nirgendwo MLPs. Das gesamte Modell besteht aus Attention- und Gating-Schichten. Schlüsseldesign: d=512, 8H/4KV, BPE=8192, mit einer Encoder-Decoder-Struktur (12 Encoder-Layer, 8 Decoder-Layer) unter Verwendung von Cross-Attention, maskiertem Self-Attention mit RoPE und gebundenen Embeddings.

Trainingsdetails

Vortraining auf 200B Tokens auf 16 TPU v6e (27 Stunden)
Nachtraining auf 2B Tokens synthetisierter Funktionsaufrufdaten (45 Minuten)
Daten synthetisiert über Gemini mit 15 Tool-Kategorien (Timer, Messaging, Navigation, Smart Home usw.)

Benchmark-Ergebnisse

Needle schlägt FunctionGemma-270M, Qwen-0.6B, Granite-350M und LFM2.5-350M bei einmaligen Funktionsaufrufen. Diese Modelle haben jedoch mehr Umfang/Kapazität und zeichnen sich in Konversationsumgebungen aus.

Schnellstart

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Öffnet eine Weboberfläche unter http://127.0.0.1:7860 zum Testen und Feintuning mit eigenen Tools.

Verwendung (Python)

from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()
result = generate(
    model, params, tokenizer,
    query="Wie ist das Wetter in San Francisco?",
    tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
    stream=False
)
print(result)
[{"name":"get_weather","arguments":{"location":"San Francisco"}}]

Lokales Feintuning

# über Playground (generiert automatisch Daten via Gemini) needle playground oder eigene Daten bereitstellen

needle finetune data.jsonl

Verfügbarkeit

Gewichte sind auf Hugging Face: Cactus-Compute/needle. Alles ist MIT-lizenziert.

📖 Vollständige Quelle lesen: HN AI Agents

Nadel: Ein 26M-Parameter-Funktionsaufrufmodell mit 6000 Tok/s auf Mobilgeräten

Architektur: Simple Attention Networks

Trainingsdetails

Benchmark-Ergebnisse

Schnellstart

Verwendung (Python)

`[{"name":"get_weather","arguments":{"location":"San Francisco"}}]`

Lokales Feintuning

oder eigene Daten bereitstellen

Verfügbarkeit

👀 Siehe auch

Agents Room: Desktop-App zur Visualisierung von Claude-Code-Agent-Teams

Infracost reduziert Claude-Token-Nutzung um 79% durch Neugestaltung der CLI für KI-Agenten

Anamnese: Eine portable Gedächtnisschicht für Claude und ChatGPT via MCP

Ziel für Claude Code: beständige Aufgaben mit adversarischer Überprüfung