Модели с открытыми весами объемом менее 100 ГБ не превосходят Claude Haiku в тестах на программирование.

Недавний анализ открытых языковых моделей выявил значительный разрыв в производительности по сравнению с Claude Haiku от Anthropic на кодинговых бенчмарках. Сравнение проводилось с использованием определённых параметров тестирования и требований к памяти.
Методология бенчмаркинга
Оценка сравнивала модели на двух кодинговых бенчмарках: LiveBench (январь 2026) и Arena Code/WebDev. Тестирование проводилось против Claude Haiku 4.5 с включёнными возможностями мышления. Модели были отображены в соответствии с требованиями к памяти для локального развёртывания.
Технические характеристики
- Квантование: Q4_K_M
- Длина контекста: 32K
- KV-кэш: q8_0
- Оценка VRAM: Рассчитана с использованием пользовательского калькулятора автора
Ключевые выводы
Ни одна открытая модель размером менее 100 ГБ памяти не приближается к производительности Claude Haiku ни на одном из бенчмарков. Ближайший конкурент — Minimax M2.5, который требует примерно 136 ГБ памяти и примерно соответствует производительности Haiku на обоих бенчмарках.
Анализ подчёркивает текущий разрыв между проприетарными и открытыми моделями в категории менее 100 ГБ для кодинговых задач. Автор выражает разочарование этим ограничением и призывает к разработке более компактных моделей, которые могли бы хотя бы соответствовать возможностям Haiku.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

GPT-5.5 теперь доступен на GitHub Copilot с премиум-множителем 7,5x
OpenAI GPT-5.5 запускается на GitHub Copilot, предлагая улучшенное многошаговое агентное программирование с промо-множителем запросов 7,5× для пользователей Pro+, Business и Enterprise.

Пользователи Claude систематически исключены из исследований по психологии ИИ – методологический пробел
Обзор десятков психологических статей об использовании ИИ-чатботов показывает, что пользователи Claude никогда не выделяются как отдельная группа, несмотря на принципиально разные профили использования и дизайн модели по сравнению с пользователями ChatGPT, Character.AI или Replika.

Огайо приостанавливает налоговые льготы для дата-центров: рост затрат на ИИ давит на технологические компании
Огайо приостанавливает действие налоговой льготы на оборудование для новых центров обработки данных, включая те, что обслуживают ИИ. Этот шаг сигнализирует о растущем внимании штатов к налоговым стимулам на фоне всплеска спроса на инфраструктуру ИИ.

Claude Code v2.1.129: Руководство по поддержанию автономного цикла и классификатор состояния фонового агента
Claude Code v2.1.129 добавляет системный запрос CLAUDE_CODE_LOOP_PERSISTENT для автономных рабочих циклов, удаляет специалиста по верификации и расширяет классификатор состояний фонового агента с подробными границами.