Agulha 26M: Modelo de Chamada de Ferramentas Sem FFNs

Needle é um modelo de 26M de parâmetros projetado especificamente para chamada de função de tiro único. Ele usa camadas de atenção cruzada e portas com zero FFNs, baseado na percepção de que chamada de ferramentas é recuperação-e-montagem (corresponder consulta ao nome da ferramenta, extrair valores de argumento, emitir JSON) em vez de raciocínio. O modelo roda a 6000 tok/s de preenchimento e 1200 tok/s de decodificação em dispositivos consumidores.

Detalhes de Treinamento

Pré-treinado em 200B tokens através de 16 TPU v6e (27 horas)
Pós-treinado em 2B tokens de dados sintetizados de chamada de função (45 minutos)
Dados sintetizados via Gemini com 15 categorias de ferramentas (temporizadores, mensagens, navegação, casa inteligente, etc.)

Arquitetura: Redes de Atenção Simples

O modelo inteiro é apenas atenção e portas — sem MLPs em lugar nenhum. Os autores argumentam que parâmetros FFN são desperdiçados nesta escala para chamada de ferramentas, e que a descoberta 'sem FFN' se generaliza para qualquer tarefa onde o modelo tem acesso a conhecimento estruturado externo (RAG, uso de ferramentas, geração aumentada por recuperação). O modelo não precisa memorizar fatos em pesos FFN se os fatos são fornecidos na entrada.

Benchmarks

Needle supera FunctionGemma-270M, Qwen-0.6B, Granite-350M e LFM2.5-350M em chamada de função de tiro único, embora esses modelos tenham mais capacidade para configurações conversacionais.

Como Usar

# Teste o modelo via playground ou faça fine-tune no seu Mac/PC
git clone https://github.com/cactus-compute/needle

GitHub: github.com/cactus-compute/needle
Pesos: huggingface.co/Cactus-Compute/needle
Documentação da arquitetura: Documentação Simple Attention Networks
Motor de inferência para mobile/wearables (Cactus): github.com/cactus-compute/cactus

Tudo está sob licença MIT.

📖 Leia a fonte completa: r/LocalLLaMA

Agulha: Um Modelo de Chamada de Ferramentas com 26M Parâmetros Construído Totalmente Sem FFNs

Detalhes de Treinamento

Arquitetura: Redes de Atenção Simples

Benchmarks

Como Usar

👀 See Also

Cliente OpenClaw adiciona acompanhamento de custos de API ao vivo, limites de gastos e controles granulares de agente

O Caminho Rápido de Busca de Memória QMD do OpenClaw Tinha Bugs Silenciosos

Equipe do Crime: Orquestrador Multiagente para OpenClaw — Revisão de Código Paralela com Agente Codificador

Processo de Extração de Voz Personalizada para Código Claude com Modelo