Cerebras выпускает модели Step-3.5-Flash-REAP с сокращением памяти на 40%.

✍️ OpenClawRadar📅 Опубликовано: 25 февраля 2026 г.🔗 Source
Cerebras выпускает модели Step-3.5-Flash-REAP с сокращением памяти на 40%.
Ad

Что это такое

Cerebras выпустила модели Step-3.5-Flash-REAP, которые представляют собой эффективные по памяти сжатые версии их более крупных моделей. Это уменьшенные версии, предназначенные для того, что источник называет «картофельными настройками», хотя модель с 121B параметрами всё ещё требует значительных ресурсов.

Ключевые детали из источника

Модели доступны на Hugging Face:

Модель Step-3.5-Flash-REAP-121B-A11B сжата с 196B до 121B параметров, что представляет собой сокращение памяти на 40% при сохранении почти идентичной производительности по сравнению с полной моделью.

Сжатие использует REAP (Router-weighted Expert Activation Pruning), описанное как «новый метод обрезки экспертов, который выборочно удаляет избыточных экспертов, сохраняя независимый контроль маршрутизатора над оставшимися экспертами».

Ad

Особенности и возможности

  • Почти без потерь в производительности: Сохраняет почти идентичную точность в задачах генерации кода, агентного кодирования и вызова функций по сравнению с полной моделью на 196B
  • Сокращение памяти на 40%: Сжатие с 196B до 121B параметров снижает затраты на развёртывание и требования к памяти
  • Сохранённые возможности: Сохраняет все основные функции, включая генерацию кода, математику и логику, а также вызов инструментов
  • Полная совместимость: Работает с обычным vLLM — не требуются модификации исходного кода или пользовательские патчи
  • Оптимизировано для реального использования: Особенно эффективно для сред с ограниченными ресурсами, локальных развёртываний и академических исследований

Источник отмечает, что хотя это «уменьшенные версии», модель на 121B всё ещё требует довольно мощной настройки, несмотря на сжатие.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

GPT-5.5 теперь доступен на GitHub Copilot с премиум-множителем 7,5x
Новости

GPT-5.5 теперь доступен на GitHub Copilot с премиум-множителем 7,5x

OpenAI GPT-5.5 запускается на GitHub Copilot, предлагая улучшенное многошаговое агентное программирование с промо-множителем запросов 7,5× для пользователей Pro+, Business и Enterprise.

OpenClawRadar
VS Code 1.117.0 автоматически добавляет Copilot как соавтора в коммитах — вот что его вызывает
Новости

VS Code 1.117.0 автоматически добавляет Copilot как соавтора в коммитах — вот что его вызывает

VS Code 1.117.0 добавляет 'Co-authored-by: Copilot <[email protected]>' к коммитам, когда используются встроенные подсказки — даже для одной запятой. Функция включена по умолчанию и не была четко объявлена.

OpenClawRadar
Клод создает Python-скрипт, который находит рекордный 10 069-значный эмирп.
Новости

Клод создает Python-скрипт, который находит рекордный 10 069-значный эмирп.

Claude Opus 4.6 от Anthropic сгенерировал Python-скрипт, который обнаружил эмирп (обратимое простое число) из 10 069 цифр примерно за один день процессорного времени, побив предыдущий мировой рекорд. Скрипт использует четыре уровня решета простых чисел, включая CUDA-ядро для быстрой генерации случайных чисел.

OpenClawRadar
ИИ-подсчет углеводов провалил воспроизводимость: 27 тысяч запросов показали разброс в 429 г на одном фото
Новости

ИИ-подсчет углеводов провалил воспроизводимость: 27 тысяч запросов показали разброс в 429 г на одном фото

Исследование 26 904 AI-запросов к 4 моделям показало, что Gemini 2.5 Pro варьирует оценку углеводов для одного фото паэльи от 55 г до 484 г — потенциальное колебание инсулина на 42,9 ЕД. У Claude медианное отклонение составило всего 2,4%.

OpenClawRadar