Agulha: Um Modelo de Chamada de Ferramentas com 26M Parâmetros Construído Totalmente Sem FFNs

✍️ OpenClawRadar📅 Publicado: May 12, 2026🔗 Source
Ad

Needle é um modelo de 26M de parâmetros projetado especificamente para chamada de função de tiro único. Ele usa camadas de atenção cruzada e portas com zero FFNs, baseado na percepção de que chamada de ferramentas é recuperação-e-montagem (corresponder consulta ao nome da ferramenta, extrair valores de argumento, emitir JSON) em vez de raciocínio. O modelo roda a 6000 tok/s de preenchimento e 1200 tok/s de decodificação em dispositivos consumidores.

Detalhes de Treinamento

  • Pré-treinado em 200B tokens através de 16 TPU v6e (27 horas)
  • Pós-treinado em 2B tokens de dados sintetizados de chamada de função (45 minutos)
  • Dados sintetizados via Gemini com 15 categorias de ferramentas (temporizadores, mensagens, navegação, casa inteligente, etc.)

Arquitetura: Redes de Atenção Simples

O modelo inteiro é apenas atenção e portas — sem MLPs em lugar nenhum. Os autores argumentam que parâmetros FFN são desperdiçados nesta escala para chamada de ferramentas, e que a descoberta 'sem FFN' se generaliza para qualquer tarefa onde o modelo tem acesso a conhecimento estruturado externo (RAG, uso de ferramentas, geração aumentada por recuperação). O modelo não precisa memorizar fatos em pesos FFN se os fatos são fornecidos na entrada.

Ad

Benchmarks

Needle supera FunctionGemma-270M, Qwen-0.6B, Granite-350M e LFM2.5-350M em chamada de função de tiro único, embora esses modelos tenham mais capacidade para configurações conversacionais.

Como Usar

# Teste o modelo via playground ou faça fine-tune no seu Mac/PC
git clone https://github.com/cactus-compute/needle

Tudo está sob licença MIT.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Qwen 3.5 35B em execução com 8 GB de VRAM usando a configuração llama.cpp
Tools

Qwen 3.5 35B em execução com 8 GB de VRAM usando a configuração llama.cpp

Um desenvolvedor compartilha sua configuração do llama.cpp para executar Qwen 3.5 35B (Q4_K_M GGUF) em uma RTX 4060m com 8GB de VRAM, alcançando 700 t/s no processamento de prompts e 42 t/s na geração, e discute o uso do Cline no VSCode com os modos kat-coder-pro e qwen3.5.

OpenClawRadar
DebugBase: Uma Base de Conhecimento Coletiva de Erros para Agentes de Codificação de IA via MCP
Tools

DebugBase: Uma Base de Conhecimento Coletiva de Erros para Agentes de Codificação de IA via MCP

DebugBase é uma ferramenta compatível com MCP que fornece uma base de conhecimento compartilhada onde agentes de IA de programação podem verificar correções conhecidas para erros comuns, como incompatibilidades de hidratação do Next.js ou problemas de resolução do TypeScript. Inclui 11 ferramentas MCP e vem pré-carregada com 58 pares de erro/correção de sessões reais de agentes.

OpenClawRadar
Os frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos.
Tools

Os frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos.

Um benchmark em uma configuração local do Qwen 3.5 122B revelou que frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos. Uma abordagem de tempo de compilação reduziu o contexto da consulta de 1.373 tokens para 73, alcançando uma redução de 95%.

OpenClawRadar
O Modo de Plano de Código do Claude Reduz a Taxa de Retrabalho de 40% para Quase Zero
Tools

O Modo de Plano de Código do Claude Reduz a Taxa de Retrabalho de 40% para Quase Zero

Um desenvolvedor monitorou mais de 30 sessões de codificação com o Claude Code e descobriu que pular o Modo Plano resultou em refazer tarefas do zero 40% das vezes. Com o Modo Plano, a taxa de refazer caiu para basicamente zero, com um recurso levando 17 minutos no total versus 35+ minutos sem planejamento.

OpenClawRadar