다중 에이전트 하이쿠 시스템, 수론 문제에서 Opus 대비 15배 낮은 비용

실험 설정 및 결과

레딧 사용자가 어려운 정수론 문제에 대해 두 가지 Claude 모델 구성을 비교 테스트했습니다. 이 문제는 홀수 소수 p에 대해 합 1^(p-1) + 2^(p-1) + ... + (p-1)^(p-1)이 -1 (mod p)와 합동임을 증명하는 것으로, 페르마의 소정리와 원시근의 성질을 사용해야 했습니다.

두 가지 구성이 테스트되었습니다:

구성 X (Opus 단독): Claude Opus 4.5, max_tokens: 2048, 감사관 없음
구성 Y (하이쿠 다중 에이전트): 하이쿠 생성기가 전체 증명을 생성하고, 두 번째 하이쿠 감사관이 모든 단계를 확인하며, 감사관이 문제를 지적하면 두 번의 패스를 거침, max_tokens: 각 호출당 1024

점수 및 성능

두 구성 모두 다음 채점 기준으로 4/4 점수를 받았습니다:

페르마의 소정리를 올바르게 적용
원시근 논증을 올바르게 처리
완전 잉여계에 대한 합산이 유효함
합동 결론이 올바르게 도출됨

하이쿠 감사관은 이의 없이 VERIFIED를 반환했습니다. 성능 지표:

Opus 단독: 약 8.7초, 점수 4/4
하이쿠 + 감사관: 약 10.9초, 점수 4/4

비용 분석

경제적 영향은 상당합니다:

Opus 단독: $0.075/1000 토큰 × 약 800 토큰 = 쿼리당 약 $0.06
하이쿠 + 하이쿠: $0.0025/1000 토큰 × 약 1600 토큰 = 쿼리당 약 $0.004

이는 동일한 결과에 대해 약 15배 낮은 비용을 의미합니다. 이 문제는 단순한 증명처럼 훈련 데이터에서 명백하지 않은 '진정으로 어려운' 문제로 설명되었습니다.

출처에 따르면, 페르마의 소정리가 주요 역할을 하는 깔끔한 문제(각 a^(p-1) ≡ 1, (p-1)개의 1의 합, p-1 ≡ -1)에서는 감사관 패턴이 정확성을 확인하기 위해 약 17%의 시간 부담을 추가합니다. 이 패턴은 생성기가 양자화 더듬기나 환각된 대수학으로 실수할 수 있는 문제에서 특히 가치가 있습니다.

📖 전체 출처 읽기: r/ClaudeAI

다중 에이전트 하이쿠 시스템, 복잡한 수론 문제에서 클로드 오푸스와 동등한 성능을 15배 낮은 비용으로 달성

실험 설정 및 결과

점수 및 성능

비용 분석

👀 See Also

매니페스트 라우터, 오픈클로 모델 관리를 위한 ZAI 구독 지원 추가

요요: 클로드 코드를 위한 로컬 MCP 서버로, 기반 코드베이스 읽기와 보호된 쓰기 기능을 제공합니다.

개발자가 클로드 왓츠앱 연동 MCP 서버 구축, 어려움 공유

OpenClaw 사용자들은 AI 에이전트와의 계획 및 검토 과정에서 병목 현상을 보고하고 있습니다.