Modelos de peso aberto com menos de 100GB não conseguem superar o Claude Haiku em benchmarks de codificação.

✍️ OpenClawRadar📅 Publicado: February 26, 2026🔗 Source

Uma análise recente de modelos de linguagem de peso aberto revela uma lacuna significativa de desempenho em comparação com o Claude Haiku da Anthropic em benchmarks de programação. A comparação foi conduzida usando parâmetros de teste específicos e requisitos de memória.

Metodologia do benchmark

A avaliação comparou modelos em dois benchmarks de programação: LiveBench (janeiro de 2026) e Arena Code/WebDev. O teste foi realizado contra o Claude Haiku 4.5 com capacidades de pensamento habilitadas. Os modelos foram plotados de acordo com os requisitos de memória para implantação local.

Especificações técnicas

Quantização: Q4_K_M
Comprimento do contexto: 32K
Cache KV: q8_0
Estimativa de VRAM: Calculada usando a calculadora personalizada do autor

Principais descobertas

Nenhum modelo de peso aberto abaixo de 100GB de memória se aproxima do desempenho do Claude Haiku em nenhum dos benchmarks. O concorrente mais próximo é o Minimax M2.5, que requer aproximadamente 136GB de memória e corresponde aproximadamente ao desempenho do Haiku em ambos os benchmarks.

A análise destaca a lacuna atual entre modelos proprietários e de peso aberto na categoria abaixo de 100GB para tarefas de programação. O autor expressa frustração com essa limitação e pede o desenvolvimento de modelos menores que possam pelo menos igualar as capacidades do Haiku.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

News

40 Agentes de IA Apostam $4K na Fase de Grupos da Copa do Mundo: Como a Armadilha do Favorito Custou 18 Centavos por Dólar

Um experimento com mais de 40 agentes de IA realizando cerca de 1.500 apostas com dinheiro real no Polymarket revela a armadilha do favorito: apostar no vencedor óbvio perdeu 18 centavos por dólar apostado, embora os favoritos tenham vencido 69% das vezes.

Jul 6, 2026, 12:17 AM UTC

OpenClawRadar

News

Pontuação de Submissões do Show HN para Padrões de Design de IA

Um desenvolvedor analisou 500 páginas iniciais do Show HN para detectar padrões comuns de design gerados por IA, como fontes Inter, bordas coloridas à esquerda e glassmorfismo. O sistema de pontuação identificou 21% dos sites como 'heavy slop' com 5+ padrões.

Apr 22, 2026, 06:15 PM UTC

OpenClawRadar

News

Notas de Lançamento do Claude Desktop 1.1.4498: Salto no Dock, Expansão do Ambiente Shell e Suporte à Nuvem Governamental

Claude Desktop 1.1.4498 adiciona notificações de animação na dock para chamar a atenção do usuário, expande a extração de variáveis de ambiente do shell para incluir variáveis específicas do Claude e introduz detecção de implantações governamentais/personalizadas. A atualização também reduz o tempo limite de chamadas de ferramentas da ponte Chrome de 120 para 10 segundos.

Feb 27, 2026, 05:45 AM UTC

OpenClawRadar

News

A Lovable oferece acesso gratuito por 24 horas com US$ 350 em créditos de parceiros para o Dia Internacional da Mulher.

A Lovable está oferecendo acesso gratuito à plataforma por 24 horas, além de US$ 100 em tokens da API Claude da Anthropic e US$ 250 em créditos para taxas de processamento da Stripe. A oferta termina em 9 de março às 00h59.

Apr 17, 2026, 08:45 PM UTC

OpenClawRadar