다중 에이전트 하이쿠 시스템, 복잡한 수론 문제에서 클로드 오푸스와 동등한 성능을 15배 낮은 비용으로 달성

실험 설정 및 결과
레딧 사용자가 어려운 정수론 문제에 대해 두 가지 Claude 모델 구성을 비교 테스트했습니다. 이 문제는 홀수 소수 p에 대해 합 1^(p-1) + 2^(p-1) + ... + (p-1)^(p-1)이 -1 (mod p)와 합동임을 증명하는 것으로, 페르마의 소정리와 원시근의 성질을 사용해야 했습니다.
두 가지 구성이 테스트되었습니다:
- 구성 X (Opus 단독): Claude Opus 4.5, max_tokens: 2048, 감사관 없음
- 구성 Y (하이쿠 다중 에이전트): 하이쿠 생성기가 전체 증명을 생성하고, 두 번째 하이쿠 감사관이 모든 단계를 확인하며, 감사관이 문제를 지적하면 두 번의 패스를 거침, max_tokens: 각 호출당 1024
점수 및 성능
두 구성 모두 다음 채점 기준으로 4/4 점수를 받았습니다:
- 페르마의 소정리를 올바르게 적용
- 원시근 논증을 올바르게 처리
- 완전 잉여계에 대한 합산이 유효함
- 합동 결론이 올바르게 도출됨
하이쿠 감사관은 이의 없이 VERIFIED를 반환했습니다. 성능 지표:
- Opus 단독: 약 8.7초, 점수 4/4
- 하이쿠 + 감사관: 약 10.9초, 점수 4/4
비용 분석
경제적 영향은 상당합니다:
- Opus 단독: $0.075/1000 토큰 × 약 800 토큰 = 쿼리당 약 $0.06
- 하이쿠 + 하이쿠: $0.0025/1000 토큰 × 약 1600 토큰 = 쿼리당 약 $0.004
이는 동일한 결과에 대해 약 15배 낮은 비용을 의미합니다. 이 문제는 단순한 증명처럼 훈련 데이터에서 명백하지 않은 '진정으로 어려운' 문제로 설명되었습니다.
출처에 따르면, 페르마의 소정리가 주요 역할을 하는 깔끔한 문제(각 a^(p-1) ≡ 1, (p-1)개의 1의 합, p-1 ≡ -1)에서는 감사관 패턴이 정확성을 확인하기 위해 약 17%의 시간 부담을 추가합니다. 이 패턴은 생성기가 양자화 더듬기나 환각된 대수학으로 실수할 수 있는 문제에서 특히 가치가 있습니다.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

오픈 소스 크롬 확장 프로그램 개발 기술 패키지 출시
개발자 quangpl이 4년간의 Chrome 확장 프로그램 개발 경험을 WXT를 통한 스캐폴딩, 매니페스트 생성, 보안 감사, 테스팅, 에셋 생성, 배포, MV2에서 MV3로의 마이그레이션을 포함한 8가지 AI 에이전트 스킬로 패키징했습니다.

소울 MCP 서버, 로컬 LLM에 지속적 메모리와 안전성 추가
Soul은 로컬 LLM을 위한 오픈소스 MCP 서버로, n2_boot(시작 시)와 n2_work_end(종료 시) 두 가지 명령어를 통해 세션 간 지속적인 메모리를 제공합니다. Ark 안전 기능을 포함하여 rm -rf나 DROP DATABASE 같은 위험한 명령어를 토큰 비용 없이 차단하며, 클라우드 저장소 설정도 지원합니다.

클로드 코드의 사용자 정의 상태 표시줄: 컨텍스트 사용량, 비용, Git 브랜치 표시
레딧 사용자가 Claude Code의 statusLine 설정을 활용하여 컨텍스트 창 사용량, 세션 비용, 활성 모델, 현재 git 브랜치를 포함한 실시간 정보를 표시하는 bash 스크립트를 만들었습니다. 이 스크립트는 jq가 필요하며 GitHub에서 이용 가능합니다.

GitAgent: Git 저장소에서 이식 가능한 AI 에이전트를 위한 개방형 표준
GitAgent는 git 저장소의 세 가지 핵심 파일을 통해 AI 에이전트를 정의하는 오픈 스펙입니다: 설정용 agent.yaml, 성격/지시사항용 SOUL.md, 기능 정의용 SKILL.md. CLI를 사용하면 npx @open-gitagent/gitagent run -r https://github.com/user/agent -a claude 같은 명령어로 어떤 에이전트 저장소든 직접 실행할 수 있습니다.