Needle: Un modelo de llamada a funciones de 26 millones de parámetros que funciona a 6000 tokens/segundo en móvil

✍️ OpenClawRadar📅 Publicado: 12 de mayo de 2026🔗 Source
Ad

Cactus ha publicado como código abierto Needle, un modelo de llamada a funciones de 26 millones de parámetros diseñado para ejecutarse en teléfonos económicos, relojes y gafas. Alcanza 6000 tok/s de prefill y 1200 tok/s de decodificación en dispositivos de consumo utilizando su motor de inferencia personalizado, Cactus.

Arquitectura: Redes de Atención Simple

Needle utiliza una Red de Atención Simple — sin MLPs en ningún lado. El modelo completo consiste en capas de atención y compuerta. Diseño clave: d=512, 8H/4KV, BPE=8192, con una estructura codificador-decodificador (12 capas de codificador, 8 capas de decodificador) que usa atención cruzada, autoatención enmascarada con RoPE y embeddings compartidos.

Detalles de entrenamiento

  • Preentrenado en 200 mil millones de tokens en 16 TPU v6e (27 horas)
  • Post-entrenado en 2 mil millones de tokens de datos sintetizados de llamadas a funciones (45 minutos)
  • Datos sintetizados vía Gemini con 15 categorías de herramientas (temporizadores, mensajería, navegación, hogar inteligente, etc.)

Resultados de benchmark

Needle supera a FunctionGemma-270M, Qwen-0.6B, Granite-350M y LFM2.5-350M en llamadas a funciones de un solo paso. Sin embargo, esos modelos tienen más alcance/capacidad y destacan en entornos conversacionales.

Ad

Inicio rápido

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Abre una interfaz web en http://127.0.0.1:7860 para probar y ajustar el modelo con tus propias herramientas.

Uso (Python)

from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl") model = SimpleAttentionNetwork(config) tokenizer = get_tokenizer()

result = generate( model, params, tokenizer, query="¿Cómo está el clima en San Francisco?", tools='[{"name":"get_weather","parameters":{"location":"string"}}]', stream=False ) print(result)

[{"name":"get_weather","arguments":{"location":"San Francisco"}}]

Ajuste fino local

# vía playground (genera datos automáticamente con Gemini)

needle playground

o proporciona tus propios datos

needle finetune data.jsonl

Disponibilidad

Los pesos están en Hugging Face: Cactus-Compute/needle. Todo tiene licencia MIT.

📖 Lee la fuente completa: HN AI Agents

Ad

👀 Ver también

Sistema de Memoria Local para Herramientas de Codificación de IA Extrae Más de 2,600 Datos de Registros de Conversación
Herramientas

Sistema de Memoria Local para Herramientas de Codificación de IA Extrae Más de 2,600 Datos de Registros de Conversación

Un desarrollador construyó una capa de memoria local que ingiere registros de conversación de Claude Code, Factory.ai y Codex CLI, extrae hechos estructurados usando un LLM local, e inyecta automáticamente contexto en nuevas sesiones. Después de meses de uso, ha indexado más de 13,000 mensajes y extraído más de 2,600 hechos.

OpenClawRadar
🦀
Herramientas

Integración de TTS de xAI para Home Assistant construida con Claude — Repositorio completo

Un desarrollador usó Claude para construir una integración personalizada de Home Assistant para la API de TTS de xAI (voz Eve) con configuración completa desde la interfaz, cinco voces y etiquetas de expresión.

OpenClawRadar
AIsbf 0.9.8 agrega almacenamiento en caché, mejoras en el enrutamiento y soporte ampliado para servicios de IA.
Herramientas

AIsbf 0.9.8 agrega almacenamiento en caché, mejoras en el enrutamiento y soporte ampliado para servicios de IA.

AIsbf 0.9.8 es un proxy/enrutador de API que expone una interfaz compatible con OpenAI a múltiples servicios de IA. Esta versión añade caché con Redis, SQLite, MySQL y basada en archivos, enrutamiento semántico mejorado y soporte completo de OAuth2 para suscriptores de Claude.ai, Amazon Kiro-cli, OpenAI Codex y Kilo.ai.

OpenClawRadar
Mielina: Extractor y Evaluador MD para la Memoria Procedimental de Código Claude
Herramientas

Mielina: Extractor y Evaluador MD para la Memoria Procedimental de Código Claude

Myelin es un servidor MCP que se conecta a Claude Code mediante PostToolUse para capturar llamadas a herramientas, extrayendo automáticamente archivos de procedimiento .md de sesiones exitosas y rastreando si Claude sigue los procedimientos existentes paso a paso.

OpenClawRadar