Игла: 26-миллионная модель вызова инструментов, построенная полностью без FFN

✍️ OpenClawRadar📅 Опубликовано: 12 мая 2026 г.🔗 Source
Ad

Needle — это модель с 26 миллионами параметров, специально разработанная для одношагового вызова функций. Она использует кросс-внимание и стробирующие слои без FFN, исходя из идеи, что вызов инструментов — это поиск и сборка (сопоставление запроса с именем инструмента, извлечение значений аргументов, вывод JSON), а не рассуждение. Модель работает со скоростью 6000 токенов/с на префилле и 1200 токенов/с на декоде на потребительских устройствах.

Детали обучения

  • Предварительное обучение на 200 миллиардах токенов на 16 TPU v6e (27 часов)
  • Пост-обучение на 2 миллиардах токенов синтезированных данных вызова функций (45 минут)
  • Данные синтезированы с помощью Gemini по 15 категориям инструментов (таймеры, обмен сообщениями, навигация, умный дом и т.д.)

Архитектура: Простые сети внимания

Вся модель состоит только из внимания и стробирования — без MLP нигде. Авторы утверждают, что параметры FFN тратятся впустую при таком масштабе для вызова инструментов, и что вывод «без FFN» обобщается на любые задачи, где модель имеет доступ к внешним структурированным знаниям (RAG, использование инструментов, генерация с дополнением извлечением). Модели не нужно запоминать факты в весах FFN, если факты предоставлены на входе.

Ad

Бенчмарки

Needle превосходит FunctionGemma-270M, Qwen-0.6B, Granite-350M и LFM2.5-350M в одношаговом вызове функций, хотя эти модели имеют больший потенциал для диалоговых сценариев.

Как использовать

# Протестируйте модель через playground или дообучите на своем Mac/PC
git clone https://github.com/cactus-compute/needle

Все лицензировано по MIT.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Исследование Clawe: Открытая система координации многопользовательских агентов
Инструменты

Исследование Clawe: Открытая система координации многопользовательских агентов

Clawe — это инструмент с открытым исходным кодом, который обеспечивает эффективную координацию многопользовательских агентов и предлагает такие функции, как планирование, управление задачами и уведомления в реальном времени.

OpenClawRadar
Сервер MCP позволяет ИИ-агентам совершать реальные покупки с помощью одноразовых виртуальных карт
Инструменты

Сервер MCP позволяет ИИ-агентам совершать реальные покупки с помощью одноразовых виртуальных карт

Разработчик создал MCP-сервер, который позволяет ИИ-агентам совершать реальные покупки с использованием эфемерных виртуальных карт Visa, выпускаемых по требованию. Система требует подтверждения пользователя через MFA и выпускает карты, привязанные к конкретным продавцам со сроком действия 15 минут.

OpenClawRadar
GitHub Comic Bot: Превращайте коммиты в ежедневные комиксы о средневековых рыцарях
Инструменты

GitHub Comic Bot: Превращайте коммиты в ежедневные комиксы о средневековых рыцарях

Бот, который читает коммиты GitHub и генерирует четырёхпанельные комиксы с невозмутимым средневековым рыцарем, созданный с помощью Claude Code и Gemini, работает на GitHub Actions с бесплатным тарифом.

OpenClawRadar
Анализ Совета LLM выявляет практические стратегии оптимизации токенов кода Claude.
Инструменты

Анализ Совета LLM выявляет практические стратегии оптимизации токенов кода Claude.

Разработчик использовал инструмент LLM Council с 5 персонажами для анализа паттернов использования Claude Code, выявив, что режим расширенного мышления по умолчанию был основным потребителем токенов. Результирующий план действий позволил достичь сокращения токенов на 60-70% при сохранении или улучшении качества вывода.

OpenClawRadar