Агенты ИИ выбрали структурированные запросы: тест MCP сервера Cala

Команда Cala недавно выпустила MCP-сервер, который предоставляет три различных способа доступа AI-агентов к их графу знаний: запросы на естественном языке, структурированный язык запросов и прямое обход сущностей/связей.

Неожиданное поведение агентов

Несмотря на ожидания, что агенты по умолчанию будут использовать интерфейсы на естественном языке (типичная сильная сторона LLM), большинство агентов отказались от запросов на естественном языке в течение нескольких минут. Без каких-либо подсказок или направлений они автономно переключились на использование структурированных запросов и методов обхода графа.

Почему это логично

Источник объясняет это поведение, отмечая, что LLM не обучаются явно быть «эффективными», а скорее быть корректными через RLHF. Эта корректность приводит к эффективному поведению как побочному эффекту — агенты учатся выбирать кратчайший надёжный путь к решениям. Интерфейсы на естественном языке добавляют слой интерпретации, который вносит неопределённость, в то время как структурированные запросы обеспечивают детерминированные результаты.

Когда им представили три способа доступа, агенты последовательно выбирали вариант, который минимизировал неопределённость, а не самый «естественный» интерфейс.

Ключевые вопросы

Не слишком ли мы полагаемся на интерфейсы естественного языка для инструментов агентов?
Должны ли MCP-серверы по умолчанию отдавать приоритет структурированным/графовым методам доступа над естественным языком?
Если агенты предпочитают детерминированные пути, как это должно влиять на дизайн инструментов?

Обсуждение на Reddit ищет мнения других разработчиков инструментов для агентов, чтобы узнать, наблюдали ли они похожие паттерны.

📖 Read the full source: r/LocalLLaMA

Агенты ИИ предпочитают структурированные запросы вместо естественного языка в тесте сервера Cala MCP.

Неожиданное поведение агентов

Почему это логично

Ключевые вопросы

👀 Смотрите также

Изменения в индивидуальном плане GitHub Copilot: приостановка регистраций, ужесточение лимитов, корректировки модели

Шесть научно подтверждённых параллелей между типами сбоев в работе LLM и когнитивными особенностями СДВГ

Claude Code 2.1.136: Безопасность действий, жесткие правила запрета и монитор безопасности

Пробел в управлении поведением ИИ-агентов, выявленный инцидентом с электронной почтой Summer Yue