Needle: Um modelo de chamada de funções com 26 milhões de parâmetros que executa a 6000 tok/s em dispositivos móveis

✍️ OpenClawRadar📅 Publicado: May 12, 2026🔗 Source
Ad

A Cactus disponibilizou como código aberto o Needle, um modelo de chamada de funções com 26 milhões de parâmetros projetado para rodar em celulares de baixo custo, relógios e óculos. Ele alcança 6000 tok/s de preenchimento e 1200 tok/s de decodificação em dispositivos de consumo usando seu mecanismo de inferência personalizado, Cactus.

Arquitetura: Simple Attention Networks

O Needle usa uma Simple Attention Network — sem MLPs em lugar algum. O modelo inteiro consiste em camadas de atenção e gating. Design principal: d=512, 8H/4KV, BPE=8192, com estrutura encoder-decoder (12 camadas encoder, 8 camadas decoder) usando atenção cruzada, autoatenção mascarada com RoPE e embeddings compartilhados.

Detalhes do Treinamento

  • Pré-treinado em 200 bilhões de tokens em 16 TPU v6e (27 horas)
  • Pós-treinado em 2 bilhões de tokens de dados sintéticos de chamada de funções (45 minutos)
  • Dados sintetizados via Gemini com 15 categorias de ferramentas (temporizadores, mensagens, navegação, casa inteligente, etc.)

Resultados de Benchmark

O Needle supera FunctionGemma-270M, Qwen-0.6B, Granite-350M e LFM2.5-350M em chamada de funções em única etapa. No entanto, esses modelos têm mais escopo/capacidade e se destacam em contextos conversacionais.

Ad

Início Rápido

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Abre uma interface web em http://127.0.0.1:7860 para testar e ajustar com suas próprias ferramentas.

Uso (Python)

from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl") model = SimpleAttentionNetwork(config) tokenizer = get_tokenizer()

result = generate( model, params, tokenizer, query="Como está o tempo em São Francisco?", tools='[{"name":"get_weather","parameters":{"location":"string"}}]', stream=False ) print(result)

[{"name":"get_weather","arguments":{"location":"São Francisco"}}]

Ajuste Fino Local

# via playground (gera dados automaticamente via Gemini)

needle playground

ou forneça seus próprios dados

needle finetune data.jsonl

Disponibilidade

Os pesos estão no Hugging Face: Cactus-Compute/needle. Tudo está licenciado sob MIT.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

ideia-realidade-mcp: O servidor MCP verifica ferramentas existentes antes do Claude escrever código
Tools

ideia-realidade-mcp: O servidor MCP verifica ferramentas existentes antes do Claude escrever código

Um desenvolvedor construiu um servidor MCP chamado idea-reality-mcp que escaneia repositórios do GitHub, discussões do Hacker News, pacotes npm e PyPI antes do Claude escrever qualquer código, retornando uma pontuação de 'sinal de realidade' de 0 a 100 indicando a concorrência do mercado.

OpenClawRadar
Aplicativo de Liderança com 90+ Lições de 20+ Livros Executado no Claude
Tools

Aplicativo de Liderança com 90+ Lições de 20+ Livros Executado no Claude

Um desenvolvedor criou um aplicativo de liderança que roda dentro do Claude, com mais de 90 lições extraídas de mais de 20 livros sobre liderança, hábitos, disciplina, influência, cultura de equipe e mentalidade de riqueza. O aplicativo oferece lições diárias com ações específicas, acompanhamento de sequência, diário e recursos de busca.

OpenClawRadar
Servidor MCP DAUB Permite que Claude Gere e Renderize UIs via Especificações JSON
Tools

Servidor MCP DAUB Permite que Claude Gere e Renderize UIs via Especificações JSON

DAUB é um servidor MCP que permite ao Claude gerar interfaces de usuário diretamente a partir de prompts em linguagem natural, produzindo especificações JSON estruturadas que são renderizadas como interfaces ao vivo sem geração de código ou compilação. Ele expõe quatro ferramentas incluindo generate_ui, render_spec, validate_spec e get_component_catalog.

OpenClawRadar
Habilidade de Lançamento de Produto Claude AI: Playbooks Estruturados para Lançamentos de Produtos de IA
Tools

Habilidade de Lançamento de Produto Claude AI: Playbooks Estruturados para Lançamentos de Produtos de IA

Uma habilidade gratuita do Claude fornece seis playbooks de lançamento testados em batalha, cobrindo estratégia, preparação, mensagens e execução de canais para lançamentos de produtos de IA. O repositório inclui materiais em inglês e chinês organizados por estágio de lançamento.

OpenClawRadar