Игла: 26-миллионная модель вызова инструментов, построенная полностью без FFN
Needle — это модель с 26 миллионами параметров, специально разработанная для одношагового вызова функций. Она использует кросс-внимание и стробирующие слои без FFN, исходя из идеи, что вызов инструментов — это поиск и сборка (сопоставление запроса с именем инструмента, извлечение значений аргументов, вывод JSON), а не рассуждение. Модель работает со скоростью 6000 токенов/с на префилле и 1200 токенов/с на декоде на потребительских устройствах.
Детали обучения
- Предварительное обучение на 200 миллиардах токенов на 16 TPU v6e (27 часов)
- Пост-обучение на 2 миллиардах токенов синтезированных данных вызова функций (45 минут)
- Данные синтезированы с помощью Gemini по 15 категориям инструментов (таймеры, обмен сообщениями, навигация, умный дом и т.д.)
Архитектура: Простые сети внимания
Вся модель состоит только из внимания и стробирования — без MLP нигде. Авторы утверждают, что параметры FFN тратятся впустую при таком масштабе для вызова инструментов, и что вывод «без FFN» обобщается на любые задачи, где модель имеет доступ к внешним структурированным знаниям (RAG, использование инструментов, генерация с дополнением извлечением). Модели не нужно запоминать факты в весах FFN, если факты предоставлены на входе.
Бенчмарки
Needle превосходит FunctionGemma-270M, Qwen-0.6B, Granite-350M и LFM2.5-350M в одношаговом вызове функций, хотя эти модели имеют больший потенциал для диалоговых сценариев.
Как использовать
# Протестируйте модель через playground или дообучите на своем Mac/PC
git clone https://github.com/cactus-compute/needle
- GitHub: github.com/cactus-compute/needle
- Веса: huggingface.co/Cactus-Compute/needle
- Описание архитектуры: Документация Simple Attention Networks
- Инференс-движок для мобильных устройств/носимой электроники (Cactus): github.com/cactus-compute/cactus
Все лицензировано по MIT.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Исследование Clawe: Открытая система координации многопользовательских агентов
Clawe — это инструмент с открытым исходным кодом, который обеспечивает эффективную координацию многопользовательских агентов и предлагает такие функции, как планирование, управление задачами и уведомления в реальном времени.

Сервер MCP позволяет ИИ-агентам совершать реальные покупки с помощью одноразовых виртуальных карт
Разработчик создал MCP-сервер, который позволяет ИИ-агентам совершать реальные покупки с использованием эфемерных виртуальных карт Visa, выпускаемых по требованию. Система требует подтверждения пользователя через MFA и выпускает карты, привязанные к конкретным продавцам со сроком действия 15 минут.

GitHub Comic Bot: Превращайте коммиты в ежедневные комиксы о средневековых рыцарях
Бот, который читает коммиты GitHub и генерирует четырёхпанельные комиксы с невозмутимым средневековым рыцарем, созданный с помощью Claude Code и Gemini, работает на GitHub Actions с бесплатным тарифом.

Анализ Совета LLM выявляет практические стратегии оптимизации токенов кода Claude.
Разработчик использовал инструмент LLM Council с 5 персонажами для анализа паттернов использования Claude Code, выявив, что режим расширенного мышления по умолчанию был основным потребителем токенов. Результирующий план действий позволил достичь сокращения токенов на 60-70% при сохранении или улучшении качества вывода.