Модели с открытыми весами объемом менее 100 ГБ не превосходят Claude Haiku в тестах на программирование.

✍️ OpenClawRadar📅 Опубликовано: 26 февраля 2026 г.🔗 Source
Модели с открытыми весами объемом менее 100 ГБ не превосходят Claude Haiku в тестах на программирование.
Ad

Недавний анализ открытых языковых моделей выявил значительный разрыв в производительности по сравнению с Claude Haiku от Anthropic на кодинговых бенчмарках. Сравнение проводилось с использованием определённых параметров тестирования и требований к памяти.

Методология бенчмаркинга

Оценка сравнивала модели на двух кодинговых бенчмарках: LiveBench (январь 2026) и Arena Code/WebDev. Тестирование проводилось против Claude Haiku 4.5 с включёнными возможностями мышления. Модели были отображены в соответствии с требованиями к памяти для локального развёртывания.

Технические характеристики

  • Квантование: Q4_K_M
  • Длина контекста: 32K
  • KV-кэш: q8_0
  • Оценка VRAM: Рассчитана с использованием пользовательского калькулятора автора
Ad

Ключевые выводы

Ни одна открытая модель размером менее 100 ГБ памяти не приближается к производительности Claude Haiku ни на одном из бенчмарков. Ближайший конкурент — Minimax M2.5, который требует примерно 136 ГБ памяти и примерно соответствует производительности Haiku на обоих бенчмарках.

Анализ подчёркивает текущий разрыв между проприетарными и открытыми моделями в категории менее 100 ГБ для кодинговых задач. Автор выражает разочарование этим ограничением и призывает к разработке более компактных моделей, которые могли бы хотя бы соответствовать возможностям Haiku.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

GPT-5.5 теперь доступен на GitHub Copilot с премиум-множителем 7,5x
Новости

GPT-5.5 теперь доступен на GitHub Copilot с премиум-множителем 7,5x

OpenAI GPT-5.5 запускается на GitHub Copilot, предлагая улучшенное многошаговое агентное программирование с промо-множителем запросов 7,5× для пользователей Pro+, Business и Enterprise.

OpenClawRadar
Пользователи Claude систематически исключены из исследований по психологии ИИ – методологический пробел
Новости

Пользователи Claude систематически исключены из исследований по психологии ИИ – методологический пробел

Обзор десятков психологических статей об использовании ИИ-чатботов показывает, что пользователи Claude никогда не выделяются как отдельная группа, несмотря на принципиально разные профили использования и дизайн модели по сравнению с пользователями ChatGPT, Character.AI или Replika.

OpenClawRadar
Огайо приостанавливает налоговые льготы для дата-центров: рост затрат на ИИ давит на технологические компании
Новости

Огайо приостанавливает налоговые льготы для дата-центров: рост затрат на ИИ давит на технологические компании

Огайо приостанавливает действие налоговой льготы на оборудование для новых центров обработки данных, включая те, что обслуживают ИИ. Этот шаг сигнализирует о растущем внимании штатов к налоговым стимулам на фоне всплеска спроса на инфраструктуру ИИ.

OpenClawRadar
Claude Code v2.1.129: Руководство по поддержанию автономного цикла и классификатор состояния фонового агента
Новости

Claude Code v2.1.129: Руководство по поддержанию автономного цикла и классификатор состояния фонового агента

Claude Code v2.1.129 добавляет системный запрос CLAUDE_CODE_LOOP_PERSISTENT для автономных рабочих циклов, удаляет специалиста по верификации и расширяет классификатор состояний фонового агента с подробными границами.

OpenClawRadar