OpenRouter Preços: MiMo-V2-Flash a US$ 0,09/M vs GPT-5.4 a US$ 2,50/M

Comparação de Inteligência e Preços dos Modelos

Um desenvolvedor analisou os preços da API do OpenRouter para 16 modelos de IA e calculou os valores de inteligência por dólar para ajudar na seleção de modelos para tarefas específicas. A métrica de inteligência combina sete benchmarks: Índice de Inteligência da Análise Artificial, Índice Agente, Índice de Codificação, Índice de Onisciência da Análise Artificial (reescalonado para 0-100), GPDval-AA, Terminal-Bench Hard e t2-Bench Telecom.

Principais Descobertas

A análise identificou vários modelos de destaque:

Maior inteligência: GPT-5.4 (58,8 de inteligência, US$ 2,50/M de tokens) e Gemini 3.1 Pro (58,6 de inteligência, US$ 2,00/M de tokens)
Melhor custo-benefício: MiMo-V2-Flash (39,9 de inteligência, US$ 0,09/M de tokens, pontuação de valor 443)
Modelos equilibrados: GLM-5, Kimi K2.5 e Gemini 3 Flash

Detalhes e Capacidades dos Modelos

O conjunto de dados completo inclui:

MiMo-V2-Flash: 39,9 de inteligência, US$ 0,09/M de tokens, valor 443, apenas texto
Step 3.5 Flash: 34,8 de inteligência, US$ 0,10/M de tokens, valor 348, tarefas gerais rápidas de texto
Grok 4.1 Fast: 41,2 de inteligência, US$ 0,20/M de tokens, valor 205, janela de contexto de 2M, roteamento e extração de alta velocidade
MiniMax M2.5: 40,3 de inteligência, US$ 0,27/M de tokens, valor 149, código aberto, excelente desempenho em tarefas reais de codificação
DeepSeek V3.2: 34,6 de inteligência, US$ 0,25/M de tokens, valor 138, fortes capacidades de codificação e lógica, suporta acertos de cache da API
Kimi K2.5: 45,8 de inteligência, US$ 0,45/M de tokens, valor 101, janela de contexto de 262K, amplo conhecimento geral
Gemini 3 Flash: 47,7 de inteligência, US$ 0,50/M de tokens, valor 95, multimodal com suporte a entrada de áudio
GLM-4.7: 31,6 de inteligência, US$ 0,38/M de tokens, valor 83, geração geral de texto
Qwen 3.5: 41,1 de inteligência, US$ 0,60/M de tokens, valor 68, forte desempenho geral, propósito geral
GLM-5: 49,5 de inteligência, US$ 0,80/M de tokens, valor 61, janela de contexto de 200K, conhecimento geral
Claude Haiku 4.5: 36,5 de inteligência, US$ 1,00/M de tokens, valor 36, rápido e barato, suporte a pensamento estendido
GPT-5.3: 55,9 de inteligência, US$ 1,75/M de tokens, valor 32, raciocínio geral e processamento de texto
GPT-5.2: 50,8 de inteligência, US$ 1,75/M de tokens, valor 29, excelente para codificação + tarefas agentes
Gemini 3.1 Pro: 58,6 de inteligência, US$ 2,00/M de tokens, valor 29, análises multimodais, suporte a saída de imagem
Grok 4.2 Beta: 49,6 de inteligência, US$ 2,00/M de tokens, valor 25, raciocínio pesado, ampla base de conhecimento
GPT-5.4: 58,8 de inteligência, US$ 2,50/M de tokens, valor 24, níveis variáveis de contexto (<272K / >272K), raciocínio de alto nível
Claude Sonnet 4.6: 52,3 de inteligência, US$ 3,00/M de tokens, valor 17, modelo de trabalho, treinado até janeiro de 2026
Claude Opus 4.6: 51,9 de inteligência, US$ 5,00/M de tokens, valor 10, raciocínio de alto nível, mais forte para codificação e engenharia de software

Insights Notáveis

A análise observa que modelos mais inteligentes geralmente têm piores pontuações de valor, mas isso pode não refletir a eficiência real. Por exemplo, se o Qwen 3.5 usa 500.000 tokens e 30 minutos para resolver um problema incorretamente enquanto o Sonnet o resolve corretamente em um décimo do tempo, o Sonnet pode ser melhor em custo-benefício apesar de sua pontuação mais baixa de inteligência por dólar.

A janela de contexto de 2M do Grok 4.1 dá a ele um impulso de inteligência que não aparecerá na maioria dos casos de uso. O MiniMax 2.5 supera-o em todas as métricas, exceto na janela de contexto.

O GLM-5 marca o último modelo antes de uma queda significativa de valor (de 61 para 36 com o Claude Haiku 4.5) e é relatado como quase tão inteligente quanto o GPT-5.2.

📖 Read the full source: r/openclaw