RAG 파이프라인 테스트: 토큰당 비용이 모델 선택의 올바른 지표가 아님

한 개발자가 SOC 2 준수에 대한 세부적인 고객 질문에 답하기 위해 동일한 RAG 파이프라인을 사용하여 세 가지 AI 모델의 프로덕션 수준 비교를 실행했습니다. 이 테스트는 동일한 설정으로 Claude Haiku 4.5, Amazon Nova Pro, Amazon Nova Lite를 사용했습니다: 두 개의 벡터 스토어(제품 문서와 마케팅/경쟁 문서), 13개의 아키텍처 결정 기록을 근거 컨텍스트로, 쿼리당 약 49K 입력 토큰의 검색된 컨텍스트, 동일한 시스템 프롬프트, 그리고 모델 ID만 변경된 동일한 Bedrock API 호출 구조입니다.

테스트 설정 및 결과

쿼리는 다음과 같았습니다: "고객이 SOC 2 준수에 대해 물었습니다 — 어떻게 응답해야 하나요?" 모든 모델은 복사-붙여넣기 이메일, 반론 처리기, 경쟁 포지셔닝, 프레임워크별 준수 답변, 그리고 말하지 말아야 할 내용에 대한 가이드라인이 포함된 완전한 플레이북을 포함하는 동일한 RAG 컨텍스트를 받았습니다.

결과:

Nova Lite: 49,067 입력 토큰, 244 출력 토큰, 5.5초 응답 시간, ~$0.003 비용
Nova Pro: 49,067 입력 토큰, 368 출력 토큰, 13.5초 응답 시간, ~$0.040 비용
Haiku 4.5: 53,674 입력 토큰, 1,534 출력 토큰, 15.6초 응답 시간, $0.049 비용

출력 품질 비교

동일한 컨텍스트에도 불구하고, 모델들은 극적으로 다른 응답을 생성했습니다:

Nova Lite: 핵심 사실(귀하의 계정에 배포, 별도의 SOC 2 보고서 없음)은 맞췄지만 반론 처리, 경쟁 포지셔닝, 또는 컨텍스트의 세부 사항이 포함되지 않은 네 단락의 일반적인 이메일을 생성했습니다. ADR 준수에 대한 메타 논평으로 끝났습니다.
Nova Pro: 데이터 거주지, 인증, 접근 제어, 모니터링, 패치, 비밀 관리, 준수 범위와 같은 기술적 측면을 다루는 일곱 개의 번호 매기기 불릿 포인트를 생성했습니다. 기술적으로 정확했지만 유사한 메타 논평과 함께 붙여넣은 AWS 문서처럼 읽혔습니다.
Haiku 4.5: 평이한 영어 설명, 복사-붙여넣기 준비된 이메일, Terraform 비유가 포함된 반박 처리기, HIPAA, PCI-DSS, SOX, FINRA에 대한 프레임워크별 답변, "말하지 말아야 할 내용" 가이드라인, CRM 준비 대화 포인트, 그리고 다른 도구에 대한 경쟁 포지셔닝이 포함된 완전한 플레이북을 제공했습니다.

주요 발견

차이는 사용 가능한 정보에 관한 것이 아니었습니다 — 모든 모델은 완전한 플레이북을 포함하는 동일한 ~49K 입력 토큰을 가지고 있었습니다. 차이는 각 모델이 추출하고 종합할 수 있는 능력에 있었습니다. Nova Lite는 하나의 사실을 추출했고, Nova Pro는 사실을 목록으로 조직화했으며, Haiku는 컨텍스트를 예상되는 후속 조치와 함께 실행 가능한 도구 키트로 종합했습니다.

Nova Pro와 Haiku 사이의 비용 차이는 쿼리당 $0.009(1센트 미만)였지만, 출력 품질 차이는 상당했습니다. 토큰당 가장 저렴한 모델은 Haiku의 단일 패스 출력과 일치시키기 위해 2-3개의 후속 쿼리가 필요한 응답을 생성했으며, 결국 반복된 RAG 파이프라인 사용을 통해 더 많은 비용이 들었습니다.

📖 전체 출처 읽기: r/ClaudeAI

RAG 파이프라인 테스트는 토큰당 비용이 모델 선택을 위한 올바른 지표가 아님을 보여줍니다

테스트 설정 및 결과

출력 품질 비교

주요 발견

👀 See Also

시니어 개발자의 34일간 클로드 코드 프로젝트: 탄탄한 엔지니어링, 치명적인 시각적 사각지대

Hermes Agent 및 Qwen3.6-35b-a3b를 활용한 심층 연구 보고서: 실무 가이드

Claude Code와 루프 스크립트로 한 달 만에 무료 도구 62개를 만든 방법

클로드 코드가 리모션으로 50년대 스타일 런칭 영상의 모든 대사를 작성했지만 — 약 100개의 프롬프트가 필요했다