Aguja 26M: Modelo de invocación de herramientas sin FFN

Needle es un modelo de 26M de parámetros diseñado específicamente para llamadas a funciones de un solo disparo. Utiliza capas de atención cruzada y compuertas sin FFNs, basándose en la idea de que la llamada a herramientas es recuperación y ensamblaje (coincidir consulta con nombre de herramienta, extraer valores de argumentos, emitir JSON) en lugar de razonamiento. El modelo funciona a 6000 tok/s de prefill y 1200 tok/s de decode en dispositivos de consumo.

Detalles de entrenamiento

Preentrenado en 200B tokens en 16 TPU v6e (27 horas)
Post-entrenado en 2B tokens de datos sintetizados de llamadas a funciones (45 minutos)
Datos sintetizados mediante Gemini con 15 categorías de herramientas (temporizadores, mensajería, navegación, hogar inteligente, etc.)

Arquitectura: Redes de Atención Simple

Todo el modelo es solo atención y compuertas, sin MLPs en ninguna parte. Los autores argumentan que los parámetros FFN se desperdician a esta escala para llamadas a herramientas, y que el hallazgo de 'sin FFN' se generaliza a cualquier tarea donde el modelo tenga acceso a conocimiento estructurado externo (RAG, uso de herramientas, generación aumentada por recuperación). El modelo no necesita memorizar hechos en los pesos FFN si los hechos se proporcionan en la entrada.

Evaluaciones comparativas

Needle supera a FunctionGemma-270M, Qwen-0.6B, Granite-350M y LFM2.5-350M en llamadas a funciones de un solo disparo, aunque esos modelos tienen más capacidad para entornos conversacionales.

Cómo usar

# Prueba el modelo mediante el playground o ajústalo en tu Mac/PC
git clone https://github.com/cactus-compute/needle

GitHub: github.com/cactus-compute/needle
Pesos: huggingface.co/Cactus-Compute/needle
Documentación de arquitectura: Simple Attention Networks docs
Motor de inferencia para móviles/dispositivos portátiles (Cactus): github.com/cactus-compute/cactus

Todo tiene licencia MIT.

📖 Lee la fuente completa: r/LocalLLaMA

Aguja: Un modelo de invocación de herramientas de 26 millones de parámetros construido completamente sin FFN

Detalles de entrenamiento

Arquitectura: Redes de Atención Simple

Evaluaciones comparativas

Cómo usar

👀 Ver también

First-Tree: Demonio de código abierto que usa Claude Code para clasificar notificaciones de GitHub mientras duermes

Complemento de código Claude de código abierto simula la Oficina del Director de Datos e IA con 22 agentes especializados.

AutoDream: sistema de memoria de 11 ganchos para Claude Code con funciones de seguridad

El Benchmark de Creatividad Humana: Separando Convergencia de Divergencia en la Evaluación Creativa de IA