Gemini 3.1 Pro 멀티 에이전트: 20% 도구 호출 실패율 해결법

아키텍처 및 테스트 환경

AI 프레젠테이션 생성기 Bobr를 개발한 팀은 두 단계 에이전트 시스템 내에서 Gemini 3.1 Pro를 테스트했습니다. 아키텍처는 다음과 같이 구성됩니다:

오케스트레이터 에이전트: 대화를 처리하고, 사용자 의도를 이해하며, 구조를 계획하고, 도구 호출을 통해 작업을 분배합니다.
크리에이티브 에이전트 (이 테스트에서는 Gemini 3.1 Pro): 슬라이드 설명을 받아 이미지를 생성하고, 템플릿(1920x1080)을 구축하며, submit_slide 도구 호출을 통해 결과를 반환합니다.

크리에이티브 에이전트는 generate_image, search_images, submit_slide 등의 도구를 보유하고 있습니다. submit_slide 호출은 매우 중요합니다—'제출' 신호를 반환하고, 에이전트 루프를 종료하며, 슬라이드 데이터를 추출합니다. 두 에이전트 모두 스트리밍, 병렬 도구 실행 및 반복 제한이 적용된 동일한 루프를 통해 실행됩니다.

강점: 디자인 및 미적 출력

Gemini 3.1 Pro가 정상적으로 작동할 때, 테스트된 다른 모델(Claude Sonnet 4.6 및 GPT-5.2)에 비해 우수한 디자인 출력을 생성합니다. 구체적인 강점은 다음과 같습니다:

미적 직관: 더 나은 색채 이론과 시각적 계층 구조.
레이아웃 창의성: 비대칭 구성, 겹치는 요소, 다크 모드/글래스모피즘 같은 현대적 UI 스타일을 실험합니다.
분위기 해석: "고급스럽게 느껴지게 해줘" 또는 "테크 스타트업 분위기"와 같은 모호한 프롬프트를 효과적으로 처리합니다.
코드 품질: 현대적이고 구조적인 HTML/CSS를 생성합니다.

프로덕션에서의 심각한 문제

팀은 에이전트 파이프라인에서 Gemini 3.1 Pro와 관련된 두 가지 주요 신뢰성 문제를 발견했습니다:

1. 약 20%의 도구 호출 실패율

약 20%의 요청에서 Gemini 3.1 Pro는 필요한 submit_slide 도구를 호출하지 못합니다. 대신 다음과 같은 여러 실패 패턴을 보입니다:

도구를 트리거하는 대신 원시 HTML 템플릿을 일반 텍스트로 출력하며, 무엇을 "생성할 것인지" 설명합니다.
이미지를 올바르게 생성하지만 제출하지 않고 중단하여 반복 제한에 도달합니다.
이미지 생성 도구는 호출하지만 최종 도구 호출 대신 자연어 요약("여기 아름다운 슬라이드가 있습니다...")을 작성합니다.
행동을 확정하지 않고 텍스트로 디자인 설명을 개선하는 루프에 진입합니다.

submit_slide는 강제 종료 경로이므로, 실패 시 오케스트레이터에 반환되는 데이터가 없어 사용자 생성이 실패합니다.

2. 깨진/손상된 출력

모델은 응답에서 손상된 텍스트—무작위 문자 시퀀스, 깨진 유니코드, 반쯤 인코딩된 문자열—를 자주 반환합니다. 이 손상은 때때로 슬라이드 내용(변수 값, 템플릿 마크업)으로 번져, 성공적인 제출조차도 프레젠테이션에서 의미 없는 텍스트를 표시할 수 있음을 의미합니다.

다른 모델과의 비교

Claude Sonnet 4.6: 동일한 크리에이티브 에이전트 역할에서 submit_slide 호출에 대해 거의 0%의 실패율을 보이며, 깨진 출력 없이 "지루할 정도로 신뢰할 수 있다"고 설명됩니다.
GPT-5.2: Gemini와 Claude 사이의 중간 정도의 도구 신뢰성을 보이지만, 인코딩/의미 없는 텍스트 문제는 겪지 않습니다.