Needle 26M: Chamada de Funções a 6000 tok/s em Dispositivos Móveis

A Cactus disponibilizou como código aberto o Needle, um modelo de chamada de funções com 26 milhões de parâmetros projetado para rodar em celulares de baixo custo, relógios e óculos. Ele alcança 6000 tok/s de preenchimento e 1200 tok/s de decodificação em dispositivos de consumo usando seu mecanismo de inferência personalizado, Cactus.

Arquitetura: Simple Attention Networks

O Needle usa uma Simple Attention Network — sem MLPs em lugar algum. O modelo inteiro consiste em camadas de atenção e gating. Design principal: d=512, 8H/4KV, BPE=8192, com estrutura encoder-decoder (12 camadas encoder, 8 camadas decoder) usando atenção cruzada, autoatenção mascarada com RoPE e embeddings compartilhados.

Detalhes do Treinamento

Pré-treinado em 200 bilhões de tokens em 16 TPU v6e (27 horas)
Pós-treinado em 2 bilhões de tokens de dados sintéticos de chamada de funções (45 minutos)
Dados sintetizados via Gemini com 15 categorias de ferramentas (temporizadores, mensagens, navegação, casa inteligente, etc.)

Resultados de Benchmark

O Needle supera FunctionGemma-270M, Qwen-0.6B, Granite-350M e LFM2.5-350M em chamada de funções em única etapa. No entanto, esses modelos têm mais escopo/capacidade e se destacam em contextos conversacionais.

Início Rápido

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Abre uma interface web em http://127.0.0.1:7860 para testar e ajustar com suas próprias ferramentas.

Uso (Python)

from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()
result = generate(
    model, params, tokenizer,
    query="Como está o tempo em São Francisco?",
    tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
    stream=False
)
print(result)
[{"name":"get_weather","arguments":{"location":"São Francisco"}}]

Ajuste Fino Local

# via playground (gera dados automaticamente via Gemini) needle playground ou forneça seus próprios dados

needle finetune data.jsonl

Disponibilidade

Os pesos estão no Hugging Face: Cactus-Compute/needle. Tudo está licenciado sob MIT.

📖 Leia a fonte completa: HN AI Agents

Needle: Um modelo de chamada de funções com 26 milhões de parâmetros que executa a 6000 tok/s em dispositivos móveis

Arquitetura: Simple Attention Networks

Detalhes do Treinamento

Resultados de Benchmark

Início Rápido

Uso (Python)

`[{"name":"get_weather","arguments":{"location":"São Francisco"}}]`

Ajuste Fino Local

ou forneça seus próprios dados

Disponibilidade

👀 See Also

Pesquisa semântica local para conversas de IA com fastembed e LanceDB

Aproveitando o Claude Code para Consultoria em Bots: Uma Análise Profunda

Câmara: Agente de IA para Gerenciamento de Infraestrutura de GPU

Desenvolvedor Criou Quadro de Vagas de IA/ML Usando Claude Code para Design e SEO