Needle: 26-миллионная параметрическая модель вызова функций, работающая со скоростью 6000 токенов/с на мобильных устройствах

✍️ OpenClawRadar📅 Опубликовано: 12 мая 2026 г.🔗 Source
Ad

Cactus выпустила с открытым исходным кодом Needle — модель вызова функций с 26 млн параметров, предназначенную для работы на бюджетных телефонах, часах и очках. Она достигает 6000 ток/с префилла и 1200 ток/с декодинга на пользовательских устройствах с помощью собственного инференс-движка Cactus.

Архитектура: Simple Attention Networks

Needle использует Simple Attention Network — без MLP. Вся модель состоит из слоев внимания и гейтинга. Ключевые характеристики: d=512, 8H/4KV, BPE=8192, структура кодировщик-декодировщик (12 слоев кодировщика, 8 слоев декодировщика) с перекрестным вниманием, маскированным самовниманием с RoPE и связанными эмбеддингами.

Детали обучения

  • Предобучение на 200 млрд токенов на 16 TPU v6e (27 часов)
  • Пост-обучение на 2 млрд токенов синтезированных данных вызова функций (45 минут)
  • Данные синтезированы с помощью Gemini по 15 категориям инструментов (таймеры, мессенджеры, навигация, умный дом и т.д.)

Результаты бенчмарков

Needle превосходит FunctionGemma-270M, Qwen-0.6B, Granite-350M и LFM2.5-350M в однократном вызове функций. Однако эти модели имеют больший объем/емкость и превосходят в диалоговых сценариях.

Ad

Быстрый старт

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

Откроет веб-интерфейс по адресу http://127.0.0.1:7860 для тестирования и дообучения на ваших инструментах.

Использование (Python)

from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl") model = SimpleAttentionNetwork(config) tokenizer = get_tokenizer()

result = generate( model, params, tokenizer, query="Какая погода в Сан-Франциско?", tools='[{"name":"get_weather","parameters":{"location":"string"}}]', stream=False ) print(result)

[{"name":"get_weather","arguments":{"location":"San Francisco"}}]

Локальное дообучение

# через playground (автоматически генерирует данные через Gemini)

needle playground

или предоставьте свои данные

needle finetune data.jsonl

Доступность

Веса на Hugging Face: Cactus-Compute/needle. Всё под лицензией MIT.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Агентная память V4 достигает 96,2% на бенчмарке LongMemEval, превосходя коммерческие системы памяти искусственного интеллекта.
Инструменты

Агентная память V4 достигает 96,2% на бенчмарке LongMemEval, превосходя коммерческие системы памяти искусственного интеллекта.

agentmemory V4 набрал 96,2% на LongMemEval, превзойдя несколько финансируемых компаний в области памяти ИИ, включая PwC Chronos (95,6%), Mastra (94,87%) и OMEGA (93,2%). Система была создана в одиночку за 16 дней на среднебюджетном игровом ПК с бюджетом в $1000.

OpenClawRadar
LiteParse: Быстрый открытый парсер документов для AI-агентов
Инструменты

LiteParse: Быстрый открытый парсер документов для AI-агентов

LiteParse — это инструмент с открытым исходным кодом для парсинга документов, который обеспечивает пространственный разбор текста с ограничивающими рамками, работает локально без GPU и поддерживает PDF, документы Office и изображения. Его можно установить как навык для более чем 40 ИИ-агентов, включая Claude Code, Cursor и OpenClaw.

OpenClawRadar
IM для агентов: REST-ориентированный чат для коммуникации AI-агентов без использования SDK.
Инструменты

IM для агентов: REST-ориентированный чат для коммуникации AI-агентов без использования SDK.

Разработчик создал IM for Agents — инструмент, который создаёт общие чат-комнаты, где ИИ-агенты общаются напрямую через REST API без SDK или конфигурационных файлов. Агенты используют простой промпт для присоединения к комнатам и могут договариваться об API, писать код и проверять работу, пока люди наблюдают.

OpenClawRadar
ClaudyBro: Нативный терминал macOS для рабочих процессов кода Claude
Инструменты

ClaudyBro: Нативный терминал macOS для рабочих процессов кода Claude

ClaudyBro — это нативное приложение для терминала macOS размером 3,5 МБ, созданное специально для пользователей Claude Code. Оно включает вставку изображений, инспектор процессов, очистку «осиротевших» процессов и интеллектуальное управление MCP. В простое потребляет 68 МБ оперативной памяти, а при работе Claude — 82 МБ.

OpenClawRadar