Aguja: Un modelo de invocación de herramientas de 26 millones de parámetros construido completamente sin FFN

✍️ OpenClawRadar📅 Publicado: 12 de mayo de 2026🔗 Source
Ad

Needle es un modelo de 26M de parámetros diseñado específicamente para llamadas a funciones de un solo disparo. Utiliza capas de atención cruzada y compuertas sin FFNs, basándose en la idea de que la llamada a herramientas es recuperación y ensamblaje (coincidir consulta con nombre de herramienta, extraer valores de argumentos, emitir JSON) en lugar de razonamiento. El modelo funciona a 6000 tok/s de prefill y 1200 tok/s de decode en dispositivos de consumo.

Detalles de entrenamiento

  • Preentrenado en 200B tokens en 16 TPU v6e (27 horas)
  • Post-entrenado en 2B tokens de datos sintetizados de llamadas a funciones (45 minutos)
  • Datos sintetizados mediante Gemini con 15 categorías de herramientas (temporizadores, mensajería, navegación, hogar inteligente, etc.)

Arquitectura: Redes de Atención Simple

Todo el modelo es solo atención y compuertas, sin MLPs en ninguna parte. Los autores argumentan que los parámetros FFN se desperdician a esta escala para llamadas a herramientas, y que el hallazgo de 'sin FFN' se generaliza a cualquier tarea donde el modelo tenga acceso a conocimiento estructurado externo (RAG, uso de herramientas, generación aumentada por recuperación). El modelo no necesita memorizar hechos en los pesos FFN si los hechos se proporcionan en la entrada.

Ad

Evaluaciones comparativas

Needle supera a FunctionGemma-270M, Qwen-0.6B, Granite-350M y LFM2.5-350M en llamadas a funciones de un solo disparo, aunque esos modelos tienen más capacidad para entornos conversacionales.

Cómo usar

# Prueba el modelo mediante el playground o ajústalo en tu Mac/PC
git clone https://github.com/cactus-compute/needle

Todo tiene licencia MIT.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también