Needle: 26-миллионная параметрическая модель вызова функций, работающая со скоростью 6000 токенов/с на мобильных устройствах

✍️ OpenClawRadar📅 Опубликовано: 12 мая 2026 г.🔗 Source

Cactus выпустила с открытым исходным кодом Needle — модель вызова функций с 26 млн параметров, предназначенную для работы на бюджетных телефонах, часах и очках. Она достигает 6000 ток/с префилла и 1200 ток/с декодинга на пользовательских устройствах с помощью собственного инференс-движка Cactus.

Архитектура: Simple Attention Networks

Needle использует Simple Attention Network — без MLP. Вся модель состоит из слоев внимания и гейтинга. Ключевые характеристики: d=512, 8H/4KV, BPE=8192, структура кодировщик-декодировщик (12 слоев кодировщика, 8 слоев декодировщика) с перекрестным вниманием, маскированным самовниманием с RoPE и связанными эмбеддингами.

Детали обучения

Предобучение на 200 млрд токенов на 16 TPU v6e (27 часов)
Пост-обучение на 2 млрд токенов синтезированных данных вызова функций (45 минут)
Данные синтезированы с помощью Gemini по 15 категориям инструментов (таймеры, мессенджеры, навигация, умный дом и т.д.)

Результаты бенчмарков

Needle превосходит FunctionGemma-270M, Qwen-0.6B, Granite-350M и LFM2.5-350M в однократном вызове функций. Однако эти модели имеют больший объем/емкость и превосходят в диалоговых сценариях.

Быстрый старт

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Откроет веб-интерфейс по адресу http://127.0.0.1:7860 для тестирования и дообучения на ваших инструментах.

Использование (Python)

from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()
result = generate(
    model, params, tokenizer,
    query="Какая погода в Сан-Франциско?",
    tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
    stream=False
)
print(result)
[{"name":"get_weather","arguments":{"location":"San Francisco"}}]

Локальное дообучение

# через playground (автоматически генерирует данные через Gemini) needle playground или предоставьте свои данные

needle finetune data.jsonl

Доступность

Веса на Hugging Face: Cactus-Compute/needle. Всё под лицензией MIT.

📖 Читать полный источник: HN AI Agents

👀 Смотрите также

Инструменты

Контекст Lean: Плагин Claude Code преобразует многословную документацию в файлы, оптимизированные для агентов.

Бесплатный плагин с открытым исходным кодом для Claude Code под названием Lean Context анализирует документацию проекта и удаляет контент, который AI-агенты могут обнаружить через поиск (grepping), оставляя только важные неочевидные команды, подводные камни и особенности окружения. В тесте с .NET e-commerce проектом он сократил 8 документов общим объёмом в 1 263 строки до всего 23 строк.

1 мар. 2026 г., 13:45 UTC

OpenClawRadar

Инструменты

Агентское убежище: встроенная в macOS песочница для локальных агентов ИИ-кодирования

Agent Safehouse — это нативное для macOS средство изоляции, которое предотвращает доступ локальных ИИ-агентов к файлам за пределами директории вашего проекта с использованием принудительных мер на уровне ядра. Это единый скрипт для командной оболочки без зависимостей, работающий с Claude Code, Codex, OpenCode, Amp, Gemini CLI, Aider, Goose, Auggie, Pi, Cursor Agent, Cline, Kilo, Code Droid и другими агентами.

9 мар. 2026 г., 03:45 UTC

OpenClawRadar

Инструменты

Сервер ZuckerBot MCP позволяет агентам OpenClaw запускать рекламные кампании в Meta Ads.

ZuckerBot — это MCP-сервер, который предоставляет агентам OpenClaw прямой контроль над Meta Ads, позволяя им выполнять полные циклы кампаний без вмешательства человека. Более 50 уникальных агентов уже используют его для сбора рекламы конкурентов, настройки таргетинга, запуска кампаний и корректировки производительности в коде.

3 мар. 2026 г., 05:45 UTC

OpenClawRadar

Инструменты

Otterly: Маршрутизируйте OpenClaw через вашу подписку на Claude Code

Otterly — это небольшой npm-пакет, который превращает локальный Claude CLI в HTTP-сервер, совместимый с OpenAI, позволяя направлять запросы OpenClaw через подписку Claude Code вместо оплаты за токены.

4 июн. 2026 г., 12:18 UTC

OpenClawRadar