DeepSeek V4 Flash 비용 분석: 캐시 적중률과 가격 비율 설명

Reddit 사용자가 OpenClaw(PI 에이전트 루프 사용)와 OpenRouter에서 실행된 922개의 에이전트 태스크 트레이스를 분석하여 DeepSeek V4 Flash와 Opus 4.7을 비교했습니다. 비용 차이는 놀랍습니다: DeepSeek는 태스크당 $0.01인 반면 Opus는 $1.52로, 유사한 토큰 수(평균 ~962K)와 도구 호출(평균 ~14)에도 불구하고 큰 차이를 보입니다. 가격 비율은 0.0066배로, 입력 토큰 가격만으로 예상된 0.03배보다 훨씬 낮습니다.
DeepSeek가 더 저렴한 이유: 캐시 적중률 및 읽기/쓰기 가격
격차를 설명하는 두 가지 요인:
- 캐시 적중률: DeepSeek V4 Flash는 97%를 달성한 반면 Opus 4.7은 87%였습니다. 이러한 캐시 읽기-쓰기 가격 비율에서 캐시 적중률이 1% 높을수록 전체 비용이 약 20% 낮아집니다. DeepSeek의 10% 우위는 총 비용의 약 2/3를 절감합니다.
- 캐시 읽기-쓰기 가격 비율: DeepSeek의 비율은 0.02(캐시 읽기 비용이 캐시 미스 쓰기의 2%)인 반면, Opus는 0.08로 OpenAI, Anthropic, Gemini(0.08~0.10)와 비슷합니다. 이 요소만으로도 비용이 절반으로 줄어듭니다.
종합 효과
태스크당 유사한 토큰과 도구를 사용할 때, DeepSeek의 총 비용은 Opus의 0.0066배입니다. 사용자는 이러한 효율성이 인프라 또는 모델 아키텍처 수준(예: 더 나은 캐싱 전략)에서 설계된 것으로 추측합니다. 정확한 메커니즘은 공개되지 않았습니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

AI 쿼리 효율성을 위한 적응형 추론 경로 제안
2026년 4월 Anthropic에 제출된 제안서는 복잡성 점수에 따라 질의를 적절한 AI 모델로 라우팅하는 5단계 시스템을 설명합니다. 이 시스템은 모델 추론이 시작되기 전에 문자 수와 문장 수 같은 간단한 신호를 사용합니다.

개발자의 Claude AI 경험: 사고 파트너에서 인지 아웃소싱까지
한 개발자가 Claude AI를 8개월 동안 매일 사용한 경험을 공유하며, 기존 사고를 다듬는 데 사용하던 방식에서 초기 사고 자체를 완전히 아웃소싱하는 방식으로 전환된 점을 언급했습니다. 이 글은 AI를 사고 파트너로 활용하는 방식과 AI를 초안 생성기로 활용하는 방식이라는 두 가지 뚜렷한 인지적 접근법을 설명합니다.

Anthropic, COBOL 코드베이스 분석 AI 도구 출시, IBM 주가 13% 하락
Anthropic이 COBOL 코드베이스를 분석하여 위험을 식별하고 현대화 비용을 절감하는 AI 도구를 출시했습니다. 이 발표는 시장이 이를 IBM의 레거시 시스템 관리 사업에 대한 위협으로 인식하면서 IBM 주가가 13% 하락하는 결과를 초래했습니다.

자기주도적 오류 기반 미세 조정, 소형 모델의 HumanEval 성능 80% 달성
한 개발자가 Qwen 2.5 7B를 자체 생성한 코딩 쌍으로 훈련시켜, 인간이 작성한 훈련 데이터 없이 HumanEval에서 112/164 (+87 문제)를 달성했습니다. 이 접근법은 Llama 3.2 3B와 Qwen 3 4B에도 적용됩니다.