Les modèles à poids ouvert de moins de 100 Go ne peuvent pas surpasser Claude Haiku sur les benchmarks de codage.

✍️ OpenClawRadar📅 Publié: February 26, 2026🔗 Source

Une analyse récente des modèles de langage à poids ouvert révèle un écart de performance significatif par rapport au Claude Haiku d'Anthropic sur les benchmarks de codage. La comparaison a été réalisée en utilisant des paramètres de test spécifiques et des exigences de mémoire.

Méthodologie de benchmark

L'évaluation a comparé les modèles sur deux benchmarks de codage : LiveBench (janvier 2026) et Arena Code/WebDev. Les tests ont été effectués contre Claude Haiku 4.5 avec les capacités de réflexion activées. Les modèles ont été représentés graphiquement en fonction des exigences de mémoire pour un déploiement local.

Spécifications techniques

Quantification : Q4_K_M
Longueur de contexte : 32K
Cache KV : q8_0
Estimation VRAM : Calculée à l'aide de la calculatrice personnalisée de l'auteur

Principales conclusions

Aucun modèle à poids ouvert nécessitant moins de 100 Go de mémoire ne s'approche des performances de Claude Haiku sur l'un ou l'autre benchmark. Le concurrent le plus proche est Minimax M2.5, qui nécessite environ 136 Go de mémoire et correspond approximativement aux performances de Haiku sur les deux benchmarks.

L'analyse met en lumière l'écart actuel entre les modèles propriétaires et à poids ouvert dans la catégorie des moins de 100 Go pour les tâches de codage. L'auteur exprime sa frustration face à cette limitation et appelle au développement de modèles plus petits qui pourraient au moins égaler les capacités de Haiku.

📖 Lire la source complète : r/LocalLLaMA

👀 See Also

News

Mise à jour du classement SWE-rebench : les résultats de février 2026 révèlent une compétition serrée

Le classement SWE-rebench a été mis à jour avec les résultats de février 2026 testant 57 nouvelles tâches de PR GitHub. Claude Opus 4.6 mène avec un taux de résolution de 65,3 %, mais les six premiers modèles sont à moins de 5 points de pourcentage.

Mar 23, 2026, 04:45 PM UTC

OpenClawRadar

News

Erreurs élevées sur Claude Opus 4.7 : Mise à jour et à quoi s'attendre

Claude Opus 4.7 rencontre actuellement des erreurs élevées depuis le 2026-05-19T15:21Z. Consultez status.claude.com pour l'avancement et les résolutions.

May 19, 2026, 04:15 PM UTC

OpenClawRadar

News

Le cours CS25 sur les Transformers de Stanford s'ouvre au public avec diffusion en direct

Le séminaire CS 25 Transformers de Stanford est désormais ouvert au public, avec des conférences débutant le 23 janvier 2025, de 16h30 à 17h50 PDT, disponibles en présentiel au Skilling Auditorium ou via Zoom, et les enregistrements seront publiés en ligne.

Apr 14, 2026, 01:45 AM UTC

OpenClawRadar

News

Qwen3.5-27B : Comparaison des performances en 8 bits et 16 bits

Un utilisateur de Reddit a testé Qwen3.5-27B avec vLLM en comparant les poids bf16 et le cache KV 16 bits contre la quantification fp8 de Qwen avec un cache KV 8 bits, constatant des résultats pratiquement identiques sur le benchmark Aider en utilisant une RTX 6000 Pro.

Apr 20, 2026, 05:38 PM UTC

OpenClawRadar