AI 에이전트는 Cala MCP 서버 테스트에서 자연어보다 구조화된 쿼리를 선호합니다

Cala 팀은 최근 AI 에이전트가 지식 그래프에 접근할 수 있는 세 가지 방법을 제공하는 MCP 서버를 출시했습니다: 자연어 질의, 구조화된 질의 언어, 직접적인 개체/관계 탐색입니다.
예상치 못한 에이전트 행동
에이전트들이 자연어 인터페이스(LLM의 일반적인 강점)를 기본으로 사용할 것이라는 예상과 달리, 대부분의 에이전트는 몇 분 안에 자연어 질의를 포기했습니다. 어떤 프롬프트나 유도 없이, 그들은 자율적으로 구조화된 질의와 그래프 탐색 방법을 사용하도록 전환했습니다.
이것이 합리적인 이유
출처는 이 행동을 설명하며, LLM이 "효율적"이도록 명시적으로 훈련된 것이 아니라 RLHF를 통해 정확하도록 훈련되었다고 지적합니다. 이러한 정확성은 부작용으로 효율적인 행동을 낳습니다 - 에이전트들은 해결책에 이르는 가장 짧고 신뢰할 수 있는 경로를 선택하는 법을 배웁니다. 자연어 인터페이스는 불확실성을 초래하는 해석 계층을 추가하는 반면, 구조화된 질의는 결정론적인 결과를 제공합니다.
세 가지 접근 방법이 제시되었을 때, 에이전트들은 가장 "자연스러운" 인터페이스보다 불확실성을 최소화하는 옵션을 일관되게 선택했습니다.
제기된 주요 질문들
- 에이전트 도구에 대해 자연어 인터페이스를 과도하게 중시하고 있는가?
- MCP 서버는 기본적으로 자연어보다 구조화된/그래프 기반 접근 패턴을 우선시해야 하는가?
- 에이전트가 결정론적인 경로를 선호한다면, 이것이 도구 설계에 어떻게 영향을 미쳐야 하는가?
레딧 토론은 에이전트 도구를 구축하는 다른 사람들로부터 유사한 패턴을 관찰했는지 의견을 구하고 있습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

개발자가 Cursor Composer 2와 Kimi 2.6에서 Qwen3.6:35b-a3b로 엔터프라이즈 워크로드 전환
한 개발자가 Qwen3.6:35b-a3b를 사용하여 50만~70만 줄 규모의 엔터프라이즈 제품군에서 일상 업무를 수행하고 있으며, Kimi 2.6 및 DeepSeek 4 Pro/Flash보다 성능이 우수하고 OpenRouter에서 토큰 100만 개당 약 $0.08의 비용이 든다고 보고했습니다.

최근 CEO 연구에 따르면 AI가 생산성 향상에 실패한 것으로 나타났습니다
AI가 널리 채택되었음에도 불구하고, 6,000명의 경영진을 대상으로 한 연구는 생산성과 고용에 미치는 영향이 미미하다고 보고하며, 1980년대 IT 시대에 확인된 생산성 역설을 반영하고 있습니다.

C++26 표준 초안 완성: 리플렉션, 메모리 안전성, 계약, 비동기 프레임워크 포함
C++26 표준 초안이 완성되어 메타프로그래밍을 위한 리플렉션, 초기화되지 않은 변수에 대한 정의되지 않은 동작을 제거하고 표준 라이브러리 타입에 대한 범위 안전성을 추가하는 향상된 메모리 안전성, 사전/사후 조건을 포함한 계약, 그리고 동시성을 위한 std::execution을 도입했습니다.

연구에 따르면 성격이 Claude의 자기 수정에 영향을 미치지만, Llama나 Qwen에는 그렇지 않습니다.
한 연구자가 클로드, 라마, 큐웬을 대상으로 가드레일 없이 자가 수정 능력을 테스트하는 23개의 실험을 진행했습니다. 주요 발견: 성격 프로필이 클로드의 자가 수정 능력에 영향을 미치며, 높은 직설성은 모든 오류를 포착했고 낮은 직설성은 아무것도 포착하지 못했습니다. 라마와 큐웬은 동일한 프롬프트로도 자가 수정을 하지 않았습니다.