Needle: 26-миллионная параметрическая модель вызова функций, работающая со скоростью 6000 токенов/с на мобильных устройствах
Cactus выпустила с открытым исходным кодом Needle — модель вызова функций с 26 млн параметров, предназначенную для работы на бюджетных телефонах, часах и очках. Она достигает 6000 ток/с префилла и 1200 ток/с декодинга на пользовательских устройствах с помощью собственного инференс-движка Cactus.
Архитектура: Simple Attention Networks
Needle использует Simple Attention Network — без MLP. Вся модель состоит из слоев внимания и гейтинга. Ключевые характеристики: d=512, 8H/4KV, BPE=8192, структура кодировщик-декодировщик (12 слоев кодировщика, 8 слоев декодировщика) с перекрестным вниманием, маскированным самовниманием с RoPE и связанными эмбеддингами.
Детали обучения
- Предобучение на 200 млрд токенов на 16 TPU v6e (27 часов)
- Пост-обучение на 2 млрд токенов синтезированных данных вызова функций (45 минут)
- Данные синтезированы с помощью Gemini по 15 категориям инструментов (таймеры, мессенджеры, навигация, умный дом и т.д.)
Результаты бенчмарков
Needle превосходит FunctionGemma-270M, Qwen-0.6B, Granite-350M и LFM2.5-350M в однократном вызове функций. Однако эти модели имеют больший объем/емкость и превосходят в диалоговых сценариях.
Быстрый старт
git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playgroundОткроет веб-интерфейс по адресу http://127.0.0.1:7860 для тестирования и дообучения на ваших инструментах.
Использование (Python)
from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer
params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()
result = generate(
model, params, tokenizer,
query="Какая погода в Сан-Франциско?",
tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
stream=False
)
print(result)
[{"name":"get_weather","arguments":{"location":"San Francisco"}}]
Локальное дообучение
# через playground (автоматически генерирует данные через Gemini)
needle playground
или предоставьте свои данные
needle finetune data.jsonl
Доступность
Веса на Hugging Face: Cactus-Compute/needle. Всё под лицензией MIT.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Агентная память V4 достигает 96,2% на бенчмарке LongMemEval, превосходя коммерческие системы памяти искусственного интеллекта.
agentmemory V4 набрал 96,2% на LongMemEval, превзойдя несколько финансируемых компаний в области памяти ИИ, включая PwC Chronos (95,6%), Mastra (94,87%) и OMEGA (93,2%). Система была создана в одиночку за 16 дней на среднебюджетном игровом ПК с бюджетом в $1000.

LiteParse: Быстрый открытый парсер документов для AI-агентов
LiteParse — это инструмент с открытым исходным кодом для парсинга документов, который обеспечивает пространственный разбор текста с ограничивающими рамками, работает локально без GPU и поддерживает PDF, документы Office и изображения. Его можно установить как навык для более чем 40 ИИ-агентов, включая Claude Code, Cursor и OpenClaw.

IM для агентов: REST-ориентированный чат для коммуникации AI-агентов без использования SDK.
Разработчик создал IM for Agents — инструмент, который создаёт общие чат-комнаты, где ИИ-агенты общаются напрямую через REST API без SDK или конфигурационных файлов. Агенты используют простой промпт для присоединения к комнатам и могут договариваться об API, писать код и проверять работу, пока люди наблюдают.

ClaudyBro: Нативный терминал macOS для рабочих процессов кода Claude
ClaudyBro — это нативное приложение для терминала macOS размером 3,5 МБ, созданное специально для пользователей Claude Code. Оно включает вставку изображений, инспектор процессов, очистку «осиротевших» процессов и интеллектуальное управление MCP. В простое потребляет 68 МБ оперативной памяти, а при работе Claude — 82 МБ.