제미나이 3.1 프로를 멀티 에이전트 시스템에 적용: 높은 설계 품질, 20% 도구 호출 실패율

✍️ OpenClawRadar📅 게시일: February 25, 2026🔗 Source
제미나이 3.1 프로를 멀티 에이전트 시스템에 적용: 높은 설계 품질, 20% 도구 호출 실패율
Ad

아키텍처 및 테스트 환경

AI 프레젠테이션 생성기 Bobr를 개발한 팀은 두 단계 에이전트 시스템 내에서 Gemini 3.1 Pro를 테스트했습니다. 아키텍처는 다음과 같이 구성됩니다:

  • 오케스트레이터 에이전트: 대화를 처리하고, 사용자 의도를 이해하며, 구조를 계획하고, 도구 호출을 통해 작업을 분배합니다.
  • 크리에이티브 에이전트 (이 테스트에서는 Gemini 3.1 Pro): 슬라이드 설명을 받아 이미지를 생성하고, 템플릿(1920x1080)을 구축하며, submit_slide 도구 호출을 통해 결과를 반환합니다.

크리에이티브 에이전트는 generate_image, search_images, submit_slide 등의 도구를 보유하고 있습니다. submit_slide 호출은 매우 중요합니다—'제출' 신호를 반환하고, 에이전트 루프를 종료하며, 슬라이드 데이터를 추출합니다. 두 에이전트 모두 스트리밍, 병렬 도구 실행 및 반복 제한이 적용된 동일한 루프를 통해 실행됩니다.

강점: 디자인 및 미적 출력

Gemini 3.1 Pro가 정상적으로 작동할 때, 테스트된 다른 모델(Claude Sonnet 4.6 및 GPT-5.2)에 비해 우수한 디자인 출력을 생성합니다. 구체적인 강점은 다음과 같습니다:

  • 미적 직관: 더 나은 색채 이론과 시각적 계층 구조.
  • 레이아웃 창의성: 비대칭 구성, 겹치는 요소, 다크 모드/글래스모피즘 같은 현대적 UI 스타일을 실험합니다.
  • 분위기 해석: "고급스럽게 느껴지게 해줘" 또는 "테크 스타트업 분위기"와 같은 모호한 프롬프트를 효과적으로 처리합니다.
  • 코드 품질: 현대적이고 구조적인 HTML/CSS를 생성합니다.
Ad

프로덕션에서의 심각한 문제

팀은 에이전트 파이프라인에서 Gemini 3.1 Pro와 관련된 두 가지 주요 신뢰성 문제를 발견했습니다:

1. 약 20%의 도구 호출 실패율

약 20%의 요청에서 Gemini 3.1 Pro는 필요한 submit_slide 도구를 호출하지 못합니다. 대신 다음과 같은 여러 실패 패턴을 보입니다:

  • 도구를 트리거하는 대신 원시 HTML 템플릿을 일반 텍스트로 출력하며, 무엇을 "생성할 것인지" 설명합니다.
  • 이미지를 올바르게 생성하지만 제출하지 않고 중단하여 반복 제한에 도달합니다.
  • 이미지 생성 도구는 호출하지만 최종 도구 호출 대신 자연어 요약("여기 아름다운 슬라이드가 있습니다...")을 작성합니다.
  • 행동을 확정하지 않고 텍스트로 디자인 설명을 개선하는 루프에 진입합니다.

submit_slide는 강제 종료 경로이므로, 실패 시 오케스트레이터에 반환되는 데이터가 없어 사용자 생성이 실패합니다.

2. 깨진/손상된 출력

모델은 응답에서 손상된 텍스트—무작위 문자 시퀀스, 깨진 유니코드, 반쯤 인코딩된 문자열—를 자주 반환합니다. 이 손상은 때때로 슬라이드 내용(변수 값, 템플릿 마크업)으로 번져, 성공적인 제출조차도 프레젠테이션에서 의미 없는 텍스트를 표시할 수 있음을 의미합니다.

다른 모델과의 비교

  • Claude Sonnet 4.6: 동일한 크리에이티브 에이전트 역할에서 submit_slide 호출에 대해 거의 0%의 실패율을 보이며, 깨진 출력 없이 "지루할 정도로 신뢰할 수 있다"고 설명됩니다.
  • GPT-5.2: Gemini와 Claude 사이의 중간 정도의 도구 신뢰성을 보이지만, 인코딩/의미 없는 텍스트 문제는 겪지 않습니다.

시도된 완화 조치

팀은 몇 가지 접근법을 시도했지만 큰 개선은 없었습니다:

  • 시스템 프롬프트에 공격적인 명시적 지침 추가: "반드시 submit_slide를 호출해야 합니다. 템플릿을 텍스트로 출력하지 마세요."
  • 정확히 예상되는 도구 호출 패턴을 보여주는 소수 샘플 예제 주입.
  • 더 빠른 수렴을 강제하기 위해 반복 제한 감소.
  • 도구 스키마를 간소화하고 단순화.

이러한 문제에도 불구하고, Gemini 3.1 Pro는 정상적으로 기능할 때의 우수한 디자인 능력 때문에 여전히 그들의 시스템에서 사용 중입니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

벤치마크 결과, 컨텍스트 엔진이 SWE-bench에서 AI 코딩 에이전트 비용을 3배 절감하는 것으로 나타났습니다.
Tools

벤치마크 결과, 컨텍스트 엔진이 SWE-bench에서 AI 코딩 에이전트 비용을 3배 절감하는 것으로 나타났습니다.

Claude Opus 4.5를 사용한 SWE-bench Verified에서 4가지 코딩 에이전트를 벤치마킹한 결과, 컨텍스트 엔진이 73%의 통과율을 달성하며 작업당 $0.67의 비용이 들었고, 다른 에이전트들은 유사하거나 더 낮은 성능에 작업당 최대 $1.98의 비용이 들었습니다.

OpenClawRadar
클로드 코드 아키텍처 분석: 유출된 소스 맵에서
Tools

클로드 코드 아키텍처 분석: 유출된 소스 맵에서

Claude Code의 512,000줄에 달하는 TypeScript 코드베이스 분석 결과, Bun 기반 런타임에 React/Ink CLI, 100개 이상의 명령어, 38개 이상의 도구, 그리고 다중 에이전트 조정 기능이 포함된 것으로 나타났습니다. 이 시스템은 Zod를 검증에, OpenTelemetry를 원격 측정에 사용하며, 컨텍스트 압축 메커니즘을 포함하고 있습니다.

OpenClawRadar
SideX: 비주얼 스튜디오 코드의 Tauri 기반 포트
Tools

SideX: 비주얼 스튜디오 코드의 Tauri 기반 포트

SideX는 Visual Studio Code의 포트로, Electron 대신 Tauri를 사용하며 Rust 백엔드와 운영 체제의 네이티브 웹뷰를 활용합니다. 이 프로젝트는 동일한 아키텍처를 유지하면서 크기를 96% 줄였다고 주장하며, 현재 코어 편집 및 터미널 기능이 작동 중입니다.

OpenClawRadar
오픈소스 다중 에이전트 프레임워크, Claude 코드 유출에서 추출됨
Tools

오픈소스 다중 에이전트 프레임워크, Claude 코드 유출에서 추출됨

한 개발자가 Claude Code의 유출된 소스 코드에서 다중 에이전트 오케스트레이션 시스템을 추출하여 모델에 구애받지 않는 MIT 라이선스의 오픈소스 프레임워크로 재구축했습니다. 8,000줄의 TypeScript 프레임워크에는 작업 스케줄링, 에이전트 간 메시징, 내장 도구가 포함되어 있습니다.

OpenClawRadar