AI 에이전트는 Cala MCP 서버 테스트에서 자연어보다 구조화된 쿼리를 선호합니다

✍️ OpenClawRadar📅 게시일: March 16, 2026🔗 Source
AI 에이전트는 Cala MCP 서버 테스트에서 자연어보다 구조화된 쿼리를 선호합니다
Ad

Cala 팀은 최근 AI 에이전트가 지식 그래프에 접근할 수 있는 세 가지 방법을 제공하는 MCP 서버를 출시했습니다: 자연어 질의, 구조화된 질의 언어, 직접적인 개체/관계 탐색입니다.

예상치 못한 에이전트 행동

에이전트들이 자연어 인터페이스(LLM의 일반적인 강점)를 기본으로 사용할 것이라는 예상과 달리, 대부분의 에이전트는 몇 분 안에 자연어 질의를 포기했습니다. 어떤 프롬프트나 유도 없이, 그들은 자율적으로 구조화된 질의와 그래프 탐색 방법을 사용하도록 전환했습니다.

이것이 합리적인 이유

출처는 이 행동을 설명하며, LLM이 "효율적"이도록 명시적으로 훈련된 것이 아니라 RLHF를 통해 정확하도록 훈련되었다고 지적합니다. 이러한 정확성은 부작용으로 효율적인 행동을 낳습니다 - 에이전트들은 해결책에 이르는 가장 짧고 신뢰할 수 있는 경로를 선택하는 법을 배웁니다. 자연어 인터페이스는 불확실성을 초래하는 해석 계층을 추가하는 반면, 구조화된 질의는 결정론적인 결과를 제공합니다.

세 가지 접근 방법이 제시되었을 때, 에이전트들은 가장 "자연스러운" 인터페이스보다 불확실성을 최소화하는 옵션을 일관되게 선택했습니다.

제기된 주요 질문들

  • 에이전트 도구에 대해 자연어 인터페이스를 과도하게 중시하고 있는가?
  • MCP 서버는 기본적으로 자연어보다 구조화된/그래프 기반 접근 패턴을 우선시해야 하는가?
  • 에이전트가 결정론적인 경로를 선호한다면, 이것이 도구 설계에 어떻게 영향을 미쳐야 하는가?

레딧 토론은 에이전트 도구를 구축하는 다른 사람들로부터 유사한 패턴을 관찰했는지 의견을 구하고 있습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

개발자가 Cursor Composer 2와 Kimi 2.6에서 Qwen3.6:35b-a3b로 엔터프라이즈 워크로드 전환
News

개발자가 Cursor Composer 2와 Kimi 2.6에서 Qwen3.6:35b-a3b로 엔터프라이즈 워크로드 전환

한 개발자가 Qwen3.6:35b-a3b를 사용하여 50만~70만 줄 규모의 엔터프라이즈 제품군에서 일상 업무를 수행하고 있으며, Kimi 2.6 및 DeepSeek 4 Pro/Flash보다 성능이 우수하고 OpenRouter에서 토큰 100만 개당 약 $0.08의 비용이 든다고 보고했습니다.

OpenClawRadar
최근 CEO 연구에 따르면 AI가 생산성 향상에 실패한 것으로 나타났습니다
News

최근 CEO 연구에 따르면 AI가 생산성 향상에 실패한 것으로 나타났습니다

AI가 널리 채택되었음에도 불구하고, 6,000명의 경영진을 대상으로 한 연구는 생산성과 고용에 미치는 영향이 미미하다고 보고하며, 1980년대 IT 시대에 확인된 생산성 역설을 반영하고 있습니다.

OpenClawRadar
C++26 표준 초안 완성: 리플렉션, 메모리 안전성, 계약, 비동기 프레임워크 포함
News

C++26 표준 초안 완성: 리플렉션, 메모리 안전성, 계약, 비동기 프레임워크 포함

C++26 표준 초안이 완성되어 메타프로그래밍을 위한 리플렉션, 초기화되지 않은 변수에 대한 정의되지 않은 동작을 제거하고 표준 라이브러리 타입에 대한 범위 안전성을 추가하는 향상된 메모리 안전성, 사전/사후 조건을 포함한 계약, 그리고 동시성을 위한 std::execution을 도입했습니다.

OpenClawRadar
연구에 따르면 성격이 Claude의 자기 수정에 영향을 미치지만, Llama나 Qwen에는 그렇지 않습니다.
News

연구에 따르면 성격이 Claude의 자기 수정에 영향을 미치지만, Llama나 Qwen에는 그렇지 않습니다.

한 연구자가 클로드, 라마, 큐웬을 대상으로 가드레일 없이 자가 수정 능력을 테스트하는 23개의 실험을 진행했습니다. 주요 발견: 성격 프로필이 클로드의 자가 수정 능력에 영향을 미치며, 높은 직설성은 모든 오류를 포착했고 낮은 직설성은 아무것도 포착하지 못했습니다. 라마와 큐웬은 동일한 프롬프트로도 자가 수정을 하지 않았습니다.

OpenClawRadar