Preços do Modelo OpenRouter e Análise de Inteligência por Dólar

Comparação de Inteligência e Preços dos Modelos
Um desenvolvedor analisou os preços da API do OpenRouter para 16 modelos de IA e calculou os valores de inteligência por dólar para ajudar na seleção de modelos para tarefas específicas. A métrica de inteligência combina sete benchmarks: Índice de Inteligência da Análise Artificial, Índice Agente, Índice de Codificação, Índice de Onisciência da Análise Artificial (reescalonado para 0-100), GPDval-AA, Terminal-Bench Hard e t2-Bench Telecom.
Principais Descobertas
A análise identificou vários modelos de destaque:
- Maior inteligência: GPT-5.4 (58,8 de inteligência, US$ 2,50/M de tokens) e Gemini 3.1 Pro (58,6 de inteligência, US$ 2,00/M de tokens)
- Melhor custo-benefício: MiMo-V2-Flash (39,9 de inteligência, US$ 0,09/M de tokens, pontuação de valor 443)
- Modelos equilibrados: GLM-5, Kimi K2.5 e Gemini 3 Flash
Detalhes e Capacidades dos Modelos
O conjunto de dados completo inclui:
- MiMo-V2-Flash: 39,9 de inteligência, US$ 0,09/M de tokens, valor 443, apenas texto
- Step 3.5 Flash: 34,8 de inteligência, US$ 0,10/M de tokens, valor 348, tarefas gerais rápidas de texto
- Grok 4.1 Fast: 41,2 de inteligência, US$ 0,20/M de tokens, valor 205, janela de contexto de 2M, roteamento e extração de alta velocidade
- MiniMax M2.5: 40,3 de inteligência, US$ 0,27/M de tokens, valor 149, código aberto, excelente desempenho em tarefas reais de codificação
- DeepSeek V3.2: 34,6 de inteligência, US$ 0,25/M de tokens, valor 138, fortes capacidades de codificação e lógica, suporta acertos de cache da API
- Kimi K2.5: 45,8 de inteligência, US$ 0,45/M de tokens, valor 101, janela de contexto de 262K, amplo conhecimento geral
- Gemini 3 Flash: 47,7 de inteligência, US$ 0,50/M de tokens, valor 95, multimodal com suporte a entrada de áudio
- GLM-4.7: 31,6 de inteligência, US$ 0,38/M de tokens, valor 83, geração geral de texto
- Qwen 3.5: 41,1 de inteligência, US$ 0,60/M de tokens, valor 68, forte desempenho geral, propósito geral
- GLM-5: 49,5 de inteligência, US$ 0,80/M de tokens, valor 61, janela de contexto de 200K, conhecimento geral
- Claude Haiku 4.5: 36,5 de inteligência, US$ 1,00/M de tokens, valor 36, rápido e barato, suporte a pensamento estendido
- GPT-5.3: 55,9 de inteligência, US$ 1,75/M de tokens, valor 32, raciocínio geral e processamento de texto
- GPT-5.2: 50,8 de inteligência, US$ 1,75/M de tokens, valor 29, excelente para codificação + tarefas agentes
- Gemini 3.1 Pro: 58,6 de inteligência, US$ 2,00/M de tokens, valor 29, análises multimodais, suporte a saída de imagem
- Grok 4.2 Beta: 49,6 de inteligência, US$ 2,00/M de tokens, valor 25, raciocínio pesado, ampla base de conhecimento
- GPT-5.4: 58,8 de inteligência, US$ 2,50/M de tokens, valor 24, níveis variáveis de contexto (<272K / >272K), raciocínio de alto nível
- Claude Sonnet 4.6: 52,3 de inteligência, US$ 3,00/M de tokens, valor 17, modelo de trabalho, treinado até janeiro de 2026
- Claude Opus 4.6: 51,9 de inteligência, US$ 5,00/M de tokens, valor 10, raciocínio de alto nível, mais forte para codificação e engenharia de software
Insights Notáveis
A análise observa que modelos mais inteligentes geralmente têm piores pontuações de valor, mas isso pode não refletir a eficiência real. Por exemplo, se o Qwen 3.5 usa 500.000 tokens e 30 minutos para resolver um problema incorretamente enquanto o Sonnet o resolve corretamente em um décimo do tempo, o Sonnet pode ser melhor em custo-benefício apesar de sua pontuação mais baixa de inteligência por dólar.
A janela de contexto de 2M do Grok 4.1 dá a ele um impulso de inteligência que não aparecerá na maioria dos casos de uso. O MiniMax 2.5 supera-o em todas as métricas, exceto na janela de contexto.
O GLM-5 marca o último modelo antes de uma queda significativa de valor (de 61 para 36 com o Claude Haiku 4.5) e é relatado como quase tão inteligente quanto o GPT-5.2.
📖 Read the full source: r/openclaw
👀 See Also

Camada de Identidade e Reputação para Agentes OpenClaw
Uma equipe de desenvolvedores criou o MCP-I e o IdentiClaw para resolver a perda de identidade em fluxos de trabalho de agentes com múltiplas etapas, além do knowthat.ai como um registro de reputação. Eles doaram a especificação do MCP-I para a Decentralized Identity Foundation.

Benchmark mostra que o mecanismo de contexto reduz custos de agentes de IA para codificação em 3x no SWE-bench
Um benchmark de 4 agentes de codificação usando Claude Opus 4.5 no SWE-bench Verified mostra que um mecanismo de contexto alcançou 73% de taxa de aprovação a $0,67/tarefa, enquanto outros agentes custaram até $1,98/tarefa para desempenho similar ou inferior.

Funções de IA: Geração de Código em Tempo de Execução com Verificação Automatizada
AI Functions é uma biblioteca Python que permite definir funções com especificações em linguagem natural em vez de código de implementação, executa código gerado por LLM em tempo de execução e valida saídas com pós-condições que acionam novas tentativas automáticas em caso de falha.

Claude Operações: Painel de Navegador para Status ao Vivo e Rastreamento de Subagentes do Claude Code
Um painel gratuito e local para navegador macOS que rastreia o status ao vivo de sessões do Claude Code, ferramenta atual, subagentes gerados e envia notificações push do OS quando a entrada é necessária.