16개 AI 모델 OpenRouter 가격 비교: 최고 가성비 MiMo-V2-Flash

모델 지능 및 가격 비교

한 개발자가 16개 AI 모델의 OpenRouter API 가격을 분석하고 지능-대비-달러 가치를 계산하여 특정 작업에 적합한 모델을 선택하는 데 도움을 주었습니다. 지능 지표는 7가지 벤치마크를 결합한 것입니다: Artificial Analysis Intelligence Index, Agentic Index, Coding Index, Artificial Analysis Omnicience Index (0-100으로 재조정), GPDval-AA, Terminal-Bench Hard, t2-Bench Telecom.

주요 발견

분석 결과 몇 가지 두드러진 모델이 확인되었습니다:

최고 지능: GPT-5.4 (지능 58.8, 100만 토큰당 $2.50) 및 Gemini 3.1 Pro (지능 58.6, 100만 토큰당 $2.00)
최고 가성비: MiMo-V2-Flash (지능 39.9, 100만 토큰당 $0.09, 가치 점수 443)
균형 모델: GLM-5, Kimi K2.5, Gemini 3 Flash

모델 상세 및 기능

전체 데이터셋은 다음과 같습니다:

MiMo-V2-Flash: 지능 39.9, 100만 토큰당 $0.09, 가치 443, 텍스트 전용
Step 3.5 Flash: 지능 34.8, 100만 토큰당 $0.10, 가치 348, 일반 빠른 텍스트 작업
Grok 4.1 Fast: 지능 41.2, 100만 토큰당 $0.20, 가치 205, 200만 컨텍스트 윈도우, 고속 라우팅 및 추출
MiniMax M2.5: 지능 40.3, 100만 토큰당 $0.27, 가치 149, 오픈소스, 실제 코딩 작업에서 우수한 성능
DeepSeek V3.2: 지능 34.6, 100만 토큰당 $0.25, 가치 138, 강력한 코딩 및 논리 능력, API 캐시 히트 지원
Kimi K2.5: 지능 45.8, 100만 토큰당 $0.45, 가치 101, 262K 컨텍스트 윈도우, 광범위한 일반 지식
Gemini 3 Flash: 지능 47.7, 100만 토큰당 $0.50, 가치 95, 멀티모달, 오디오 입력 지원
GLM-4.7: 지능 31.6, 100만 토큰당 $0.38, 가치 83, 일반 텍스트 생성
Qwen 3.5: 지능 41.1, 100만 토큰당 $0.60, 가치 68, 강력한 전반적 성능, 범용 목적
GLM-5: 지능 49.5, 100만 토큰당 $0.80, 가치 61, 200K 컨텍스트 윈도우, 일반 지식
Claude Haiku 4.5: 지능 36.5, 100만 토큰당 $1.00, 가치 36, 빠르고 저렴, 확장 사고 지원
GPT-5.3: 지능 55.9, 100만 토큰당 $1.75, 가치 32, 일반 추론 및 텍스트 처리
GPT-5.2: 지능 50.8, 100만 토큰당 $1.75, 가치 29, 코딩 + 에이전트 작업에 탁월
Gemini 3.1 Pro: 지능 58.6, 100만 토큰당 $2.00, 가치 29, 멀티모달 분석, 이미지 출력 지원
Grok 4.2 Beta: 지능 49.6, 100만 토큰당 $2.00, 가치 25, 무거운 추론, 광범위한 지식 베이스
GPT-5.4: 지능 58.8, 100만 토큰당 $2.50, 가치 24, 가변 컨텍스트 계층 (<272K / >272K), 최상위 추론
Claude Sonnet 4.6: 지능 52.3, 100만 토큰당 $3.00, 가치 17, 작업용 모델, 2026년 1월까지 훈련됨
Claude Opus 4.6: 지능 51.9, 100만 토큰당 $5.00, 가치 10, 최상위 추론, 코딩 및 소프트웨어 엔지니어링에 가장 강력함

주목할 만한 통찰

분석에 따르면, 더 똑똑한 모델은 일반적으로 더 낮은 가치 점수를 가지지만, 이는 실제 효율성을 반영하지 않을 수 있습니다. 예를 들어, Qwen 3.5가 500,000 토큰과 30분을 사용하여 문제를 잘못 해결하는 반면, Sonnet이 그 문제를 1/10의 시간에 올바르게 해결한다면, Sonnet이 더 낮은 지능-대비-달러 점수에도 불구하고 더 나은 가치일 수 있습니다.

Grok 4.1의 200만 컨텍스트 윈도우는 대부분의 사용 사례에서는 나타나지 않는 지능 향상을 제공합니다. MiniMax 2.5는 컨텍스트 윈도우를 제외한 모든 지표에서 Grok 4.1을 능가합니다.

GLM-5은 가치가 급격히 하락하기 직전의 마지막 모델입니다 (Claude Haiku 4.5에서 61에서 36으로 하락). 보고에 따르면 GLM-5은 GPT-5.2와 거의 비슷한 수준으로 똑똑하다고 합니다.

📖 Read the full source: r/openclaw