Needle 26M: 6000 tok/s en móvil para llamadas a funciones

Cactus ha publicado como código abierto Needle, un modelo de llamada a funciones de 26 millones de parámetros diseñado para ejecutarse en teléfonos económicos, relojes y gafas. Alcanza 6000 tok/s de prefill y 1200 tok/s de decodificación en dispositivos de consumo utilizando su motor de inferencia personalizado, Cactus.

Arquitectura: Redes de Atención Simple

Needle utiliza una Red de Atención Simple — sin MLPs en ningún lado. El modelo completo consiste en capas de atención y compuerta. Diseño clave: d=512, 8H/4KV, BPE=8192, con una estructura codificador-decodificador (12 capas de codificador, 8 capas de decodificador) que usa atención cruzada, autoatención enmascarada con RoPE y embeddings compartidos.

Detalles de entrenamiento

Preentrenado en 200 mil millones de tokens en 16 TPU v6e (27 horas)
Post-entrenado en 2 mil millones de tokens de datos sintetizados de llamadas a funciones (45 minutos)
Datos sintetizados vía Gemini con 15 categorías de herramientas (temporizadores, mensajería, navegación, hogar inteligente, etc.)

Resultados de benchmark

Needle supera a FunctionGemma-270M, Qwen-0.6B, Granite-350M y LFM2.5-350M en llamadas a funciones de un solo paso. Sin embargo, esos modelos tienen más alcance/capacidad y destacan en entornos conversacionales.

Inicio rápido

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Abre una interfaz web en http://127.0.0.1:7860 para probar y ajustar el modelo con tus propias herramientas.

Uso (Python)

from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()
result = generate(
    model, params, tokenizer,
    query="¿Cómo está el clima en San Francisco?",
    tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
    stream=False
)
print(result)
[{"name":"get_weather","arguments":{"location":"San Francisco"}}]

Ajuste fino local

# vía playground (genera datos automáticamente con Gemini) needle playground o proporciona tus propios datos

needle finetune data.jsonl

Disponibilidad

Los pesos están en Hugging Face: Cactus-Compute/needle. Todo tiene licencia MIT.

📖 Lee la fuente completa: HN AI Agents

Needle: Un modelo de llamada a funciones de 26 millones de parámetros que funciona a 6000 tokens/segundo en móvil

Arquitectura: Redes de Atención Simple

Detalles de entrenamiento

Resultados de benchmark

Inicio rápido

Uso (Python)

`[{"name":"get_weather","arguments":{"location":"San Francisco"}}]`

Ajuste fino local

o proporciona tus propios datos

Disponibilidad

👀 Ver también

Extensión de Chrome Agrega Vista Previa en Vivo a Claude Code Web

Destilería: Un Complemento de Claude Code para Contexto de Equipo Persistente

Las APIs de navegador WebMCP podrían reducir la necesidad de scraping web para agentes de IA.

Flujos de Trabajo Dinámicos de Claude Code: Subagentes Paralelos y Modo UltraCode