Needle: Ein Tool-Calling-Modell mit 26 Millionen Parametern, vollständig ohne FFNs aufgebaut

✍️ OpenClawRadar📅 Veröffentlicht: 12. Mai 2026🔗 Source
Ad

Needle ist ein 26M-Parameter-Modell, das speziell für einmalige Funktionsaufrufe entwickelt wurde. Es verwendet Cross-Attention und Gating-Layer ohne FFNs, basierend auf der Erkenntnis, dass Tool-Aufrufe Abruf und Zusammenstellung sind (Query mit Tool-Namen abgleichen, Argumentwerte extrahieren, JSON ausgeben) und nicht logisches Denken. Das Modell erreicht auf Endgeräten 6000 tok/s Prefill und 1200 tok/s Decode.

Trainingsdetails

  • Vorab trainiert auf 200B Tokens über 16 TPU v6e (27 Stunden)
  • Nachtrainiert auf 2B Tokens synthetischer Funktionsaufrufdaten (45 Minuten)
  • Daten über Gemini mit 15 Tool-Kategorien (Timer, Nachrichten, Navigation, Smart Home usw.) synthetisiert

Architektur: Simple Attention Networks

Das gesamte Modell besteht nur aus Attention und Gating – keinerlei MLPs. Die Autoren argumentieren, dass FFN-Parameter in dieser Größenordnung für Tool-Aufrufe verschwendet sind und dass der 'No-FFN'-Befund auf jede Aufgabe verallgemeinerbar ist, bei der das Modell Zugriff auf externes strukturiertes Wissen hat (RAG, Tool-Nutzung, retrieval-gestützte Generierung). Das Modell muss keine Fakten in FFN-Gewichten speichern, wenn die Fakten in der Eingabe bereitgestellt werden.

Ad

Benchmarks

Needle schlägt FunctionGemma-270M, Qwen-0.6B, Granite-350M und LFM2.5-350M beim einmaligen Funktionsaufruf, obwohl diese Modelle mehr Kapazität für Unterhaltungsszenarien haben.

Verwendung

# Testen Sie das Modell über die Spielwiese oder verfeinern Sie es auf Ihrem Mac/PC
git clone https://github.com/cactus-compute/needle

Alles ist MIT-lizenziert.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Benchmark: MLX vs. Ollama beim Ausführen von Qwen3-Coder-Next 8-Bit auf dem M5 Max MacBook Pro
Werkzeuge

Benchmark: MLX vs. Ollama beim Ausführen von Qwen3-Coder-Next 8-Bit auf dem M5 Max MacBook Pro

Ein Benchmark-Vergleich der MLX- und Ollama-Backends, die Qwen3-Coder-Next mit 8-Bit-Quantisierung auf einem M5 Max MacBook Pro mit 128 GB RAM ausführen, zeigt, dass MLX etwa 72 Token pro Sekunde erreicht, was ungefähr der doppelten Durchsatzrate von Ollama über verschiedene Programmieraufgaben hinweg entspricht.

OpenClawRadar
Multi-Agenten-Debatte-Ansatz verbessert die Denkqualität von LLMs
Werkzeuge

Multi-Agenten-Debatte-Ansatz verbessert die Denkqualität von LLMs

Ein Entwickler experimentierte mit einem Multi-Agenten-Debattenansatz unter Verwendung von CyrcloAI, bei dem verschiedene KI-Agenten Rollen wie Analyst, Kritiker und Synthetisierer übernehmen, um die Antworten der anderen zu kritisieren, bevor eine endgültige Antwort erstellt wird, was zu strukturierteren und durchdachteren Ergebnissen führt.

OpenClawRadar
Lean Context: Claude Code Plugin wandelt ausführliche Dokumente in agentenoptimierte Dateien um
Werkzeuge

Lean Context: Claude Code Plugin wandelt ausführliche Dokumente in agentenoptimierte Dateien um

Ein kostenloses, quelloffenes Claude Code-Plugin namens Lean Context durchsucht Projekt-Dokumentationen und entfernt Inhalte, die KI-Agenten durch Grepping entdecken können, behält dabei nur wesentliche, nicht offensichtliche Befehle, Fallstricke und Umgebungsbesonderheiten. In einem .NET-E-Commerce-Projekttest reduzierte es 8 Dokumente mit insgesamt 1.263 Zeilen auf nur 23 Zeilen.

OpenClawRadar
Femtobot: Effizienter Rust-Agent für ressourcensparende Umgebungen
Werkzeuge

Femtobot: Effizienter Rust-Agent für ressourcensparende Umgebungen

Femtobot ist ein leichtgewichtiger, auf Rust basierender KI-Agent, der entwickelt wurde, um effizient auf ressourcenschwachen Maschinen, wie älteren Raspberry Pis, zu laufen, durch eine ~10MB große Binary ohne große Laufzeitabhängigkeiten.

OpenClawRadar