Needle: 26M Tool-Calling Model ohne FFNs

Needle ist ein 26M-Parameter-Modell, das speziell für einmalige Funktionsaufrufe entwickelt wurde. Es verwendet Cross-Attention und Gating-Layer ohne FFNs, basierend auf der Erkenntnis, dass Tool-Aufrufe Abruf und Zusammenstellung sind (Query mit Tool-Namen abgleichen, Argumentwerte extrahieren, JSON ausgeben) und nicht logisches Denken. Das Modell erreicht auf Endgeräten 6000 tok/s Prefill und 1200 tok/s Decode.

Trainingsdetails

Vorab trainiert auf 200B Tokens über 16 TPU v6e (27 Stunden)
Nachtrainiert auf 2B Tokens synthetischer Funktionsaufrufdaten (45 Minuten)
Daten über Gemini mit 15 Tool-Kategorien (Timer, Nachrichten, Navigation, Smart Home usw.) synthetisiert

Architektur: Simple Attention Networks

Das gesamte Modell besteht nur aus Attention und Gating – keinerlei MLPs. Die Autoren argumentieren, dass FFN-Parameter in dieser Größenordnung für Tool-Aufrufe verschwendet sind und dass der 'No-FFN'-Befund auf jede Aufgabe verallgemeinerbar ist, bei der das Modell Zugriff auf externes strukturiertes Wissen hat (RAG, Tool-Nutzung, retrieval-gestützte Generierung). Das Modell muss keine Fakten in FFN-Gewichten speichern, wenn die Fakten in der Eingabe bereitgestellt werden.

Benchmarks

Needle schlägt FunctionGemma-270M, Qwen-0.6B, Granite-350M und LFM2.5-350M beim einmaligen Funktionsaufruf, obwohl diese Modelle mehr Kapazität für Unterhaltungsszenarien haben.

Verwendung

# Testen Sie das Modell über die Spielwiese oder verfeinern Sie es auf Ihrem Mac/PC
git clone https://github.com/cactus-compute/needle

GitHub: github.com/cactus-compute/needle
Gewichte: huggingface.co/Cactus-Compute/needle
Architekturbeschreibung: Simple Attention Networks docs
Inferenz-Engine für Mobilgeräte/Wearables (Cactus): github.com/cactus-compute/cactus

Alles ist MIT-lizenziert.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Needle: Ein Tool-Calling-Modell mit 26 Millionen Parametern, vollständig ohne FFNs aufgebaut

Trainingsdetails

Architektur: Simple Attention Networks

Benchmarks

Verwendung

👀 Siehe auch

Zillow-Full: Eine OpenClaw-Fähigkeit, die manuelle Immobilienrecherche in eine automatisierte Deal-Pipeline verwandelte

Ursache für die Beschädigung von Sitzungstiteln in der Claude Code VS Code-Erweiterung identifiziert

Memorine: Ein lokales Speichersystem für OpenClaw-Agenten unter Verwendung von Python und SQLite

EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen