Modelos de peso aberto com menos de 100GB não conseguem superar o Claude Haiku em benchmarks de codificação.

Uma análise recente de modelos de linguagem de peso aberto revela uma lacuna significativa de desempenho em comparação com o Claude Haiku da Anthropic em benchmarks de programação. A comparação foi conduzida usando parâmetros de teste específicos e requisitos de memória.
Metodologia do benchmark
A avaliação comparou modelos em dois benchmarks de programação: LiveBench (janeiro de 2026) e Arena Code/WebDev. O teste foi realizado contra o Claude Haiku 4.5 com capacidades de pensamento habilitadas. Os modelos foram plotados de acordo com os requisitos de memória para implantação local.
Especificações técnicas
- Quantização: Q4_K_M
- Comprimento do contexto: 32K
- Cache KV: q8_0
- Estimativa de VRAM: Calculada usando a calculadora personalizada do autor
Principais descobertas
Nenhum modelo de peso aberto abaixo de 100GB de memória se aproxima do desempenho do Claude Haiku em nenhum dos benchmarks. O concorrente mais próximo é o Minimax M2.5, que requer aproximadamente 136GB de memória e corresponde aproximadamente ao desempenho do Haiku em ambos os benchmarks.
A análise destaca a lacuna atual entre modelos proprietários e de peso aberto na categoria abaixo de 100GB para tarefas de programação. O autor expressa frustração com essa limitação e pede o desenvolvimento de modelos menores que possam pelo menos igualar as capacidades do Haiku.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Agente de IA Gerencia Loja Física com Funcionários Humanos
A Andon Labs implantou uma IA chamada Luna para gerenciar um contrato de locação comercial de 3 anos em São Francisco. A Luna contratou funcionários humanos, gerenciou prestadores de serviços e tomou todas as decisões operacionais para o Andon Market.

Diagnóstico de Cache de Prompt do Claude: Thread de Estatísticas Revela Taxa de Leitura de Cache de 98,9%
Há dois dias, o Claude lançou o diagnóstico de cache de prompt no Console. Um desenvolvedor relata 98,9% de taxa de leitura de cache, com 80% das falhas devido a mensagens alteradas.
FairyFuse alcança aceleração de kernel de 29,6x em CPUs através de inferência livre de multiplicação de pesos ternários
FairyFuse funde oito sub-GEMVs de valor real em um único loop AVX-512 usando adições/subtrações mascaradas, resultando em 32,4 tokens/s no Xeon 8558P e um ganho de 1,24x em relação ao llama.cpp Q4_K_M com qualidade quase sem perdas.

Atividade DNS da Anthropic Revela Novo Serviço STT, API RC2 e Infraestrutura de Túnel
O monitoramento de DNS dos subdomínios da Anthropic revelou novos registros para um serviço de fala-para-texto na plataforma 'Titanium', um candidato a versão 2 da API, infraestrutura de túnel e um proxy MCP em ambiente de staging.