Модели до 100 ГБ не превзошли Claude Haiku в кодинге

Недавний анализ открытых языковых моделей выявил значительный разрыв в производительности по сравнению с Claude Haiku от Anthropic на кодинговых бенчмарках. Сравнение проводилось с использованием определённых параметров тестирования и требований к памяти.

Методология бенчмаркинга

Оценка сравнивала модели на двух кодинговых бенчмарках: LiveBench (январь 2026) и Arena Code/WebDev. Тестирование проводилось против Claude Haiku 4.5 с включёнными возможностями мышления. Модели были отображены в соответствии с требованиями к памяти для локального развёртывания.

Технические характеристики

Квантование: Q4_K_M
Длина контекста: 32K
KV-кэш: q8_0
Оценка VRAM: Рассчитана с использованием пользовательского калькулятора автора

Ключевые выводы

Ни одна открытая модель размером менее 100 ГБ памяти не приближается к производительности Claude Haiku ни на одном из бенчмарков. Ближайший конкурент — Minimax M2.5, который требует примерно 136 ГБ памяти и примерно соответствует производительности Haiku на обоих бенчмарках.

Анализ подчёркивает текущий разрыв между проприетарными и открытыми моделями в категории менее 100 ГБ для кодинговых задач. Автор выражает разочарование этим ограничением и призывает к разработке более компактных моделей, которые могли бы хотя бы соответствовать возможностям Haiku.

📖 Read the full source: r/LocalLLaMA

Модели с открытыми весами объемом менее 100 ГБ не превосходят Claude Haiku в тестах на программирование.

Методология бенчмаркинга

Технические характеристики

Ключевые выводы

👀 Смотрите также

Claude Code v2.1.216: Переключатель файловой системы в песочнице, исправление квадратичного замедления и более 30 исправлений ошибок

Google DeepMind AI Pointer: Переосмысление мыши для взаимодействия с Gemini

SenseNova-U1-8B-MoT: открытая исходная мультимодальная модель с архитектурой NEO-Unify

Инженеры ИИ не застрахованы от замены ИИ