Needle: Um modelo de chamada de funções com 26 milhões de parâmetros que executa a 6000 tok/s em dispositivos móveis
A Cactus disponibilizou como código aberto o Needle, um modelo de chamada de funções com 26 milhões de parâmetros projetado para rodar em celulares de baixo custo, relógios e óculos. Ele alcança 6000 tok/s de preenchimento e 1200 tok/s de decodificação em dispositivos de consumo usando seu mecanismo de inferência personalizado, Cactus.
Arquitetura: Simple Attention Networks
O Needle usa uma Simple Attention Network — sem MLPs em lugar algum. O modelo inteiro consiste em camadas de atenção e gating. Design principal: d=512, 8H/4KV, BPE=8192, com estrutura encoder-decoder (12 camadas encoder, 8 camadas decoder) usando atenção cruzada, autoatenção mascarada com RoPE e embeddings compartilhados.
Detalhes do Treinamento
- Pré-treinado em 200 bilhões de tokens em 16 TPU v6e (27 horas)
- Pós-treinado em 2 bilhões de tokens de dados sintéticos de chamada de funções (45 minutos)
- Dados sintetizados via Gemini com 15 categorias de ferramentas (temporizadores, mensagens, navegação, casa inteligente, etc.)
Resultados de Benchmark
O Needle supera FunctionGemma-270M, Qwen-0.6B, Granite-350M e LFM2.5-350M em chamada de funções em única etapa. No entanto, esses modelos têm mais escopo/capacidade e se destacam em contextos conversacionais.
Início Rápido
git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playgroundAbre uma interface web em http://127.0.0.1:7860 para testar e ajustar com suas próprias ferramentas.
Uso (Python)
from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer
params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()
result = generate(
model, params, tokenizer,
query="Como está o tempo em São Francisco?",
tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
stream=False
)
print(result)
[{"name":"get_weather","arguments":{"location":"São Francisco"}}]
Ajuste Fino Local
# via playground (gera dados automaticamente via Gemini)
needle playground
ou forneça seus próprios dados
needle finetune data.jsonl
Disponibilidade
Os pesos estão no Hugging Face: Cactus-Compute/needle. Tudo está licenciado sob MIT.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

ideia-realidade-mcp: O servidor MCP verifica ferramentas existentes antes do Claude escrever código
Um desenvolvedor construiu um servidor MCP chamado idea-reality-mcp que escaneia repositórios do GitHub, discussões do Hacker News, pacotes npm e PyPI antes do Claude escrever qualquer código, retornando uma pontuação de 'sinal de realidade' de 0 a 100 indicando a concorrência do mercado.

Aplicativo de Liderança com 90+ Lições de 20+ Livros Executado no Claude
Um desenvolvedor criou um aplicativo de liderança que roda dentro do Claude, com mais de 90 lições extraídas de mais de 20 livros sobre liderança, hábitos, disciplina, influência, cultura de equipe e mentalidade de riqueza. O aplicativo oferece lições diárias com ações específicas, acompanhamento de sequência, diário e recursos de busca.

Servidor MCP DAUB Permite que Claude Gere e Renderize UIs via Especificações JSON
DAUB é um servidor MCP que permite ao Claude gerar interfaces de usuário diretamente a partir de prompts em linguagem natural, produzindo especificações JSON estruturadas que são renderizadas como interfaces ao vivo sem geração de código ou compilação. Ele expõe quatro ferramentas incluindo generate_ui, render_spec, validate_spec e get_component_catalog.

Habilidade de Lançamento de Produto Claude AI: Playbooks Estruturados para Lançamentos de Produtos de IA
Uma habilidade gratuita do Claude fornece seis playbooks de lançamento testados em batalha, cobrindo estratégia, preparação, mensagens e execução de canais para lançamentos de produtos de IA. O repositório inclui materiais em inglês e chinês organizados por estágio de lançamento.