Needle: Ein Tool-Calling-Modell mit 26 Millionen Parametern, vollständig ohne FFNs aufgebaut
Needle ist ein 26M-Parameter-Modell, das speziell für einmalige Funktionsaufrufe entwickelt wurde. Es verwendet Cross-Attention und Gating-Layer ohne FFNs, basierend auf der Erkenntnis, dass Tool-Aufrufe Abruf und Zusammenstellung sind (Query mit Tool-Namen abgleichen, Argumentwerte extrahieren, JSON ausgeben) und nicht logisches Denken. Das Modell erreicht auf Endgeräten 6000 tok/s Prefill und 1200 tok/s Decode.
Trainingsdetails
- Vorab trainiert auf 200B Tokens über 16 TPU v6e (27 Stunden)
- Nachtrainiert auf 2B Tokens synthetischer Funktionsaufrufdaten (45 Minuten)
- Daten über Gemini mit 15 Tool-Kategorien (Timer, Nachrichten, Navigation, Smart Home usw.) synthetisiert
Architektur: Simple Attention Networks
Das gesamte Modell besteht nur aus Attention und Gating – keinerlei MLPs. Die Autoren argumentieren, dass FFN-Parameter in dieser Größenordnung für Tool-Aufrufe verschwendet sind und dass der 'No-FFN'-Befund auf jede Aufgabe verallgemeinerbar ist, bei der das Modell Zugriff auf externes strukturiertes Wissen hat (RAG, Tool-Nutzung, retrieval-gestützte Generierung). Das Modell muss keine Fakten in FFN-Gewichten speichern, wenn die Fakten in der Eingabe bereitgestellt werden.
Benchmarks
Needle schlägt FunctionGemma-270M, Qwen-0.6B, Granite-350M und LFM2.5-350M beim einmaligen Funktionsaufruf, obwohl diese Modelle mehr Kapazität für Unterhaltungsszenarien haben.
Verwendung
# Testen Sie das Modell über die Spielwiese oder verfeinern Sie es auf Ihrem Mac/PC
git clone https://github.com/cactus-compute/needle
- GitHub: github.com/cactus-compute/needle
- Gewichte: huggingface.co/Cactus-Compute/needle
- Architekturbeschreibung: Simple Attention Networks docs
- Inferenz-Engine für Mobilgeräte/Wearables (Cactus): github.com/cactus-compute/cactus
Alles ist MIT-lizenziert.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Benchmark: MLX vs. Ollama beim Ausführen von Qwen3-Coder-Next 8-Bit auf dem M5 Max MacBook Pro
Ein Benchmark-Vergleich der MLX- und Ollama-Backends, die Qwen3-Coder-Next mit 8-Bit-Quantisierung auf einem M5 Max MacBook Pro mit 128 GB RAM ausführen, zeigt, dass MLX etwa 72 Token pro Sekunde erreicht, was ungefähr der doppelten Durchsatzrate von Ollama über verschiedene Programmieraufgaben hinweg entspricht.

Multi-Agenten-Debatte-Ansatz verbessert die Denkqualität von LLMs
Ein Entwickler experimentierte mit einem Multi-Agenten-Debattenansatz unter Verwendung von CyrcloAI, bei dem verschiedene KI-Agenten Rollen wie Analyst, Kritiker und Synthetisierer übernehmen, um die Antworten der anderen zu kritisieren, bevor eine endgültige Antwort erstellt wird, was zu strukturierteren und durchdachteren Ergebnissen führt.

Lean Context: Claude Code Plugin wandelt ausführliche Dokumente in agentenoptimierte Dateien um
Ein kostenloses, quelloffenes Claude Code-Plugin namens Lean Context durchsucht Projekt-Dokumentationen und entfernt Inhalte, die KI-Agenten durch Grepping entdecken können, behält dabei nur wesentliche, nicht offensichtliche Befehle, Fallstricke und Umgebungsbesonderheiten. In einem .NET-E-Commerce-Projekttest reduzierte es 8 Dokumente mit insgesamt 1.263 Zeilen auf nur 23 Zeilen.

Femtobot: Effizienter Rust-Agent für ressourcensparende Umgebungen
Femtobot ist ein leichtgewichtiger, auf Rust basierender KI-Agent, der entwickelt wurde, um effizient auf ressourcenschwachen Maschinen, wie älteren Raspberry Pis, zu laufen, durch eine ~10MB große Binary ohne große Laufzeitabhängigkeiten.