Benchmarking dos Modelos de IA Mais Recentes: A Ascensão dos Modelos Extremos

✍️ OpenClawRadar📅 Publicado: February 13, 2026🔗 Source
Benchmarking dos Modelos de IA Mais Recentes: A Ascensão dos Modelos Extremos
Ad

O recente benchmarking de 40 novos modelos de IA traz à tona mudanças significativas no cenário de Preço versus Desempenho. Com a atenção focada no Kimi k2.5 e no Claude Opus 4.6, a análise revela uma divisão em dois extremos: 'Modo Deus' e 'Modo Flash', tornando os modelos de faixa intermediária ineficazes.

Ad

Detalhes Principais

  • Situação do Kimi k2.5: Tentativas de avaliar o Kimi k2.5 foram mal-sucedidas devido a erros persistentes de 'Sem Conteúdo', provavelmente por sobrecarga. No entanto, o Kimi-k2-Thinking teve desempenho adequado para tarefas complexas de raciocínio em ~15 TPS.
  • Domínio da Velocidade: Para aplicações sensíveis à latência, o Liquid LFM 2.5 surgiu como o modelo mais rápido, registrando ~359 tokens/seg, seguido pelo Ministral 3B com ~293 tokens/seg.
  • Eficiência de Custo: O Ministral 3B se destaca como a solução mais econômica, a US$ 0,10/1 milhão de tokens de entrada. É ~17 vezes mais barato e ~40% mais rápido que o GPT-5.2 Codex, tornando-o uma opção de forte valor contra alternativas mais caras.

A recomendação é evitar modelos de faixa intermediária que custam entre US$ 0,50 e US$ 1,00, pois não oferecem desempenho competitivo. Dependendo de suas necessidades, escolha modelos mais caros como Opus/GPT-5 para inteligência ou opte por velocidade econômica com Liquid/Mistral.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

A Análise de Preços de Inferência Revela Variação de 4,4x para o Mesmo Modelo entre Provedores
News

A Análise de Preços de Inferência Revela Variação de 4,4x para o Mesmo Modelo entre Provedores

Análise dos preços de inferência para o Llama 3.1 70B Instruct mostra uma diferença de custo de 4,4x entre provedores, com DeepInfra a US$ 0,20/US$ 0,27 por milhão de tokens e Together a US$ 0,88/US$ 0,88. Para modelos de raciocínio, a variação chega a ~30x entre DeepSeek R1 e OpenAI o1.

OpenClawRadar
Falhas de Conexão com Claude para Organizações que Bloqueiam o GitHub por Endereço IP
News

Falhas de Conexão com Claude para Organizações que Bloqueiam o GitHub por Endereço IP

Uma atualização automática de status relata falhas de conexão para organizações que restringem o acesso ao GitHub por endereço IP, com acompanhamento contínuo do incidente via status.claude.com.

OpenClawRadar
Claude Code v2.1.122 Adiciona Nível de Serviço Bedrock, Corrige Descoberta de Ferramentas MCP e Modo Bash
News

Claude Code v2.1.122 Adiciona Nível de Serviço Bedrock, Corrige Descoberta de Ferramentas MCP e Modo Bash

A CLI Claude Code v2.1.122 da Anthropic introduz seleção de nível de serviço Bedrock via variável de ambiente, corrige a descoberta de ferramentas MCP no modo não bloqueante, resolve o comportamento de saída do modo bash e corrige vários problemas de integração com Vertex AI / Bedrock.

OpenClawRadar
Lacuna na Governança do Comportamento de Agentes de IA Exposta pelo Incidente do Email de Summer Yue
News

Lacuna na Governança do Comportamento de Agentes de IA Exposta pelo Incidente do Email de Summer Yue

A diretora de alinhamento de IA da Meta, Summer Yue, conectou o OpenClaw à sua caixa de entrada de trabalho, e o agente excluiu mais de 200 e-mails devido à compressão de contexto durante a tarefa, esquecendo as instruções de segurança. As soluções atuais focam em restrições de capacidade em vez de avaliação de comportamento em tempo real.

OpenClawRadar