Aguja: Un modelo de invocación de herramientas de 26 millones de parámetros construido completamente sin FFN
Needle es un modelo de 26M de parámetros diseñado específicamente para llamadas a funciones de un solo disparo. Utiliza capas de atención cruzada y compuertas sin FFNs, basándose en la idea de que la llamada a herramientas es recuperación y ensamblaje (coincidir consulta con nombre de herramienta, extraer valores de argumentos, emitir JSON) en lugar de razonamiento. El modelo funciona a 6000 tok/s de prefill y 1200 tok/s de decode en dispositivos de consumo.
Detalles de entrenamiento
- Preentrenado en 200B tokens en 16 TPU v6e (27 horas)
- Post-entrenado en 2B tokens de datos sintetizados de llamadas a funciones (45 minutos)
- Datos sintetizados mediante Gemini con 15 categorías de herramientas (temporizadores, mensajería, navegación, hogar inteligente, etc.)
Arquitectura: Redes de Atención Simple
Todo el modelo es solo atención y compuertas, sin MLPs en ninguna parte. Los autores argumentan que los parámetros FFN se desperdician a esta escala para llamadas a herramientas, y que el hallazgo de 'sin FFN' se generaliza a cualquier tarea donde el modelo tenga acceso a conocimiento estructurado externo (RAG, uso de herramientas, generación aumentada por recuperación). El modelo no necesita memorizar hechos en los pesos FFN si los hechos se proporcionan en la entrada.
Evaluaciones comparativas
Needle supera a FunctionGemma-270M, Qwen-0.6B, Granite-350M y LFM2.5-350M en llamadas a funciones de un solo disparo, aunque esos modelos tienen más capacidad para entornos conversacionales.
Cómo usar
# Prueba el modelo mediante el playground o ajústalo en tu Mac/PC
git clone https://github.com/cactus-compute/needle
- GitHub: github.com/cactus-compute/needle
- Pesos: huggingface.co/Cactus-Compute/needle
- Documentación de arquitectura: Simple Attention Networks docs
- Motor de inferencia para móviles/dispositivos portátiles (Cactus): github.com/cactus-compute/cactus
Todo tiene licencia MIT.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

TigrimOS v1.1.0 y Tiger CoWork v0.5.0 lanzados con enjambres de agentes remotos y gobernanza configurable.
TigrimOS v1.1.0 y Tiger CoWork v0.5.0, lanzados hoy, añaden comunicación entre enjambres de instancias remotas y cinco protocolos de gobernanza configurables. Ambos son autohospedados, gratuitos y de código abierto.

Weejur: Una Interfaz de Usuario Sencilla para Publicar en GitHub Pages
Weejur es una herramienta gratuita que proporciona una interfaz de usuario simplificada para publicar sitios web a través de GitHub Pages, permitiendo a los usuarios pegar HTML o subir archivos después de iniciar sesión con OAuth.

Mascota Clawd impresa en 3D con el Bot Mochi impulsado por ESP32
Un desarrollador creó un Clawd físico en 3D inspirado en la mascota de Claude Code, con un robot Mochi impulsado por ESP32 que incluye una pequeña pantalla. Los archivos y el código están disponibles en MakerWorld y GitHub.

Canal de Traducción de Libros Local Utiliza Qwen 32B y Mistral 24B con RAG Contextual
Un desarrollador construyó una canalización completamente automatizada de traducción de libros de PDF a ePub utilizando ocho scripts de Python, Marker para extracción de PDF, Qwen 32B para traducción con un glosario global y Mistral 24B para edición de estilo.