Cerebras Step-3.5-Flash-REAP: 40% Сокращение Памяти

Что это такое

Cerebras выпустила модели Step-3.5-Flash-REAP, которые представляют собой эффективные по памяти сжатые версии их более крупных моделей. Это уменьшенные версии, предназначенные для того, что источник называет «картофельными настройками», хотя модель с 121B параметрами всё ещё требует значительных ресурсов.

Ключевые детали из источника

Модели доступны на Hugging Face:

Модель Step-3.5-Flash-REAP-121B-A11B сжата с 196B до 121B параметров, что представляет собой сокращение памяти на 40% при сохранении почти идентичной производительности по сравнению с полной моделью.

Сжатие использует REAP (Router-weighted Expert Activation Pruning), описанное как «новый метод обрезки экспертов, который выборочно удаляет избыточных экспертов, сохраняя независимый контроль маршрутизатора над оставшимися экспертами».

Особенности и возможности

Почти без потерь в производительности: Сохраняет почти идентичную точность в задачах генерации кода, агентного кодирования и вызова функций по сравнению с полной моделью на 196B
Сокращение памяти на 40%: Сжатие с 196B до 121B параметров снижает затраты на развёртывание и требования к памяти
Сохранённые возможности: Сохраняет все основные функции, включая генерацию кода, математику и логику, а также вызов инструментов
Полная совместимость: Работает с обычным vLLM — не требуются модификации исходного кода или пользовательские патчи
Оптимизировано для реального использования: Особенно эффективно для сред с ограниченными ресурсами, локальных развёртываний и академических исследований

Источник отмечает, что хотя это «уменьшенные версии», модель на 121B всё ещё требует довольно мощной настройки, несмотря на сжатие.

📖 Read the full source: r/LocalLLaMA

Cerebras выпускает модели Step-3.5-Flash-REAP с сокращением памяти на 40%.

Что это такое

Ключевые детали из источника

Особенности и возможности

👀 Смотрите также

Исследование ошибки ACP: несоответствие протокола вызывает ошибку 'metadata is missing' при работе с локальным Ollama

Отчет по индексу искусственного интеллекта Стэнфорда за 2026 год: ключевые тенденции в инвестициях, моделях и общественном восприятии

Обновление OpenClaw .23 вызывает проблемы с агентом и потерю данных

Deezer сообщает, что 44% ежедневных загрузок составляют музыка, созданная искусственным интеллектом.