Modelos de LLM de código aberto superam o Claude Opus 4.6 na geração de estratégias de negociação com custo mais baixo

Um usuário do Reddit no r/LocalLLaMA conduziu um teste comparativo de 10 diferentes modelos de linguagem de grande escala para avaliar seu desempenho na geração de estratégias de trading. Os resultados desafiam suposições sobre relações custo-desempenho em LLMs comerciais.
Metodologia e modelos testados
O usuário executou 10 LLMs com o mesmo prompt: "crie a melhor estratégia de trading". Os modelos testados incluíram:
- Claude Opus 4.6
- Gemini 3, 3.1 Pro e GPT-5.2
- Gemini Flash 3, GPT-5-mini, Kimi K2.5 e Minimax 2.5
O teste foi executado três vezes para verificar a consistência dos resultados.
Principais descobertas
De acordo com a fonte:
- Minimax 2.5 e Gemini 3.1 lideraram o ranking
- Os modelos da Anthropic (incluindo Opus 4.6) tiveram desempenho "medíocre" e não entraram no top 4
- Claude Opus 4.6 custou 10 vezes mais do que os modelos concorrentes
- Modelos de código aberto foram muito mais lentos do que os modelos da Anthropic e Google
O usuário observou ceticismo inicial sobre os resultados, afirmando: "Honestamente, não acreditei nos resultados na primeira vez que fiz isso". Após verificação, concluiu: "Os resultados são legítimos".
Implicações práticas
Para desenvolvedores que usam agentes de codificação com IA, isso sugere que, para certas tarefas especializadas como geração de estratégias de trading, modelos de código aberto podem oferecer melhor desempenho a um custo significativamente menor. A principal desvantagem observada é a velocidade - modelos de código aberto foram descritos como "muito mais lentos" do que alternativas comerciais da Anthropic e Google.
A conclusão do usuário foi direta: "além disso, não há uma grande razão para usar Opus ou Sonnet para esta tarefa".
📖 Read the full source: r/LocalLLaMA
👀 See Also

Desenvolvedor muda para Minimax 2.7 após banimento do Claude e problemas de crédito do MiMo
Um desenvolvedor testou vários modelos de IA para o OpenClaw após o banimento do Claude, descobrindo que o GLM 5.1 e o 5 Turbo eram ineficazes para tarefas de agente, o sistema de créditos do MiMo V2 Pro era ineficiente, e optou pelo Minimax 2.7 por sua cota generosa e capacidade de lidar com tarefas de automação.

Anthropic remove o acesso ao corpo da mensagem do Gmail do Conector Claude
Anthropic removeu as ferramentas gmail_read_message e gmail_search_messages do conector do Gmail, substituindo-as por get_thread e search_threads, que não retornam mais o corpo das mensagens ou o conteúdo dos anexos.

Agentes de IA que não reduzem custos de manutenção afundarão sua equipe
James Shore argumenta que dobrar a velocidade de codificação com IA sem reduzir pela metade os custos de manutenção leva à perda líquida de produtividade em poucos meses. O modelo mostra que 2x a produção de código com 2x o custo de manutenção por linha resulta em produtividade pior do que o ponto de partida após cerca de 5 meses.

Claude-Code v2.1.80 adiciona monitoramento de limite de taxa, melhorias em plugins e otimizações de memória.
A versão Claude-Code v2.1.80 introduz um campo rate_limits para scripts de barra de status exibirem o uso do Claude.ai, adiciona suporte a source: 'settings' no marketplace de plugins e reduz o uso de memória em ~80 MB em repositórios grandes. A versão também corrige a restauração de resultados de ferramentas paralelas, falhas de WebSocket e vários problemas de interface.