Nadel: Ein 26M-Parameter-Funktionsaufrufmodell mit 6000 Tok/s auf Mobilgeräten
Cactus hat Needle als Open Source veröffentlicht, ein 26M-Parameter-Modell für Funktionsaufrufe, das auf günstigen Handys, Uhren und Brillen laufen soll. Es erreicht 6000 tok/s Prefill und 1200 tok/s Decodierung auf Verbrauchergeräten mit der eigenen Inferenz-Engine Cactus.
Architektur: Simple Attention Networks
Needle verwendet ein Simple Attention Network – nirgendwo MLPs. Das gesamte Modell besteht aus Attention- und Gating-Schichten. Schlüsseldesign: d=512, 8H/4KV, BPE=8192, mit einer Encoder-Decoder-Struktur (12 Encoder-Layer, 8 Decoder-Layer) unter Verwendung von Cross-Attention, maskiertem Self-Attention mit RoPE und gebundenen Embeddings.
Trainingsdetails
- Vortraining auf 200B Tokens auf 16 TPU v6e (27 Stunden)
- Nachtraining auf 2B Tokens synthetisierter Funktionsaufrufdaten (45 Minuten)
- Daten synthetisiert über Gemini mit 15 Tool-Kategorien (Timer, Messaging, Navigation, Smart Home usw.)
Benchmark-Ergebnisse
Needle schlägt FunctionGemma-270M, Qwen-0.6B, Granite-350M und LFM2.5-350M bei einmaligen Funktionsaufrufen. Diese Modelle haben jedoch mehr Umfang/Kapazität und zeichnen sich in Konversationsumgebungen aus.
Schnellstart
git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playgroundÖffnet eine Weboberfläche unter http://127.0.0.1:7860 zum Testen und Feintuning mit eigenen Tools.
Verwendung (Python)
from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer
params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()
result = generate(
model, params, tokenizer,
query="Wie ist das Wetter in San Francisco?",
tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
stream=False
)
print(result)
[{"name":"get_weather","arguments":{"location":"San Francisco"}}]
Lokales Feintuning
# über Playground (generiert automatisch Daten via Gemini)
needle playground
oder eigene Daten bereitstellen
needle finetune data.jsonl
Verfügbarkeit
Gewichte sind auf Hugging Face: Cactus-Compute/needle. Alles ist MIT-lizenziert.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

Claude-Nutzungsmonitor: Schwimmendes CRT-Widget für Windows
Ein Entwickler hat ein Windows-Widget erstellt, das die Claude-API-Nutzung in Echtzeit mit Sitzungs- und Wochenbalken anzeigt und sieben Farbthemen sowie automatisches Pausieren bei gesperrtem Bildschirm oder Vollbildmodus bietet.

NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um
Anthropic veröffentlichte Natural Language Autoencoders (NLA), die den internen Zustand eines Modells in Text dekodieren. Gepaart mit Gemma 3 erklärt der Auto Verbalizer, was das Modell bei jedem generierten Token „dachte". Gewichte gibt es auf Hugging Face; eine Demo auf Neuronpedia.

Reverse-Engineering des UniFi-Inform-Protokolls für Multi-Tenant-Routing
Das UniFi-Inform-Protokoll sendet Gerätedaten über HTTP POST an Controller auf Port 8080 alle 10 Sekunden. Die ersten 40 Bytes jedes Pakets enthalten unverschlüsselte MAC-Adressen der Geräte, was Routing ohne Entschlüsselung ermöglicht.

Canopy: Terminal-Dashboard zur Verwaltung mehrerer Claude-Code-Agents
Canopy ist eine Open-Source-Terminal-UI, die eine einzige Dashboard-Ansicht bietet, um mehrere KI-Coding-Agenten zu verfolgen, die über Git-Worktrees hinweg laufen. Sie zeigt Agentenstatus (laufend, inaktiv, wartend auf Eingabe, fertig, fehlerhaft) und ermöglicht es Ihnen, in Sitzungen zu springen oder Eingaben zu senden, ohne vollständig zu wechseln.