세레브라스, 메모리 사용량 40% 감소한 Step-3.5-Flash-REAP 모델 출시

✍️ OpenClawRadar📅 게시일: February 25, 2026🔗 Source
세레브라스, 메모리 사용량 40% 감소한 Step-3.5-Flash-REAP 모델 출시
Ad

이것이 무엇인가요

Cerebras는 더 큰 모델의 메모리 효율적인 압축 변형인 Step-3.5-Flash-REAP 모델을 출시했습니다. 이는 출처에서 "감자 같은 설정"이라고 부르는 환경을 위해 설계된 더 작은 버전이지만, 121B 파라미터 모델은 여전히 상당한 리소스를 필요로 합니다.

출처의 주요 세부 사항

이 모델들은 Hugging Face에서 이용 가능합니다:

Step-3.5-Flash-REAP-121B-A11B 모델은 196B에서 121B 파라미터로 압축되어, 전체 모델과 거의 동일한 성능을 유지하면서 40%의 메모리 감소를 나타냅니다.

압축에는 REAP(Router-weighted Expert Activation Pruning)이 사용되며, 이는 "남은 전문가들에 대한 라우터의 독립적인 제어를 유지하면서 중복된 전문가들을 선택적으로 제거하는 새로운 전문가 가지치기 방법"으로 설명됩니다.

Ad

기능과 능력

  • 거의 손실 없는 성능: 코드 생성, 에이전트 코딩, 함수 호출 작업에서 전체 196B 모델과 비교해 거의 동일한 정확도를 유지합니다
  • 40% 메모리 감소: 196B에서 121B 파라미터로 압축되어 배포 비용과 메모리 요구 사항을 낮춥니다
  • 보존된 능력: 코드 생성, 수학 및 추론, 도구 호출을 포함한 모든 핵심 기능을 유지합니다
  • 즉시 호환성: 기본 vLLM과 작동합니다 - 소스 수정이나 사용자 정의 패치가 필요하지 않습니다
  • 실제 사용에 최적화: 리소스가 제한된 환경, 로컬 배포, 학술 연구에 특히 효과적입니다

출처는 이들이 "더 작은 버전"이지만, 121B 모델은 압축에도 불구하고 여전히 상당히 강력한 설정을 필요로 한다고 언급합니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

클로드 데스크톱 앱, 시작할 때마다 13GB 파일을 묻지도 않고 다운로드
News

클로드 데스크톱 앱, 시작할 때마다 13GB 파일을 묻지도 않고 다운로드

클로드 데스크톱 앱은 클로드 코드를 사용하지 않는 사용자에게도 매번 실행 시마다 약 12.95GB 크기의 'claudevm.bundle' 파일을 자동으로 다운로드합니다. Anthropic 지원팀은 이 동작이 의도적이며 개별 사용자가 비활성화할 방법이 없다고 확인했습니다.

OpenClawRadar
AI Agent 시대의 빌드 vs 바이 패러독스
News

AI Agent 시대의 빌드 vs 바이 패러독스

시간당 100달러를 버는 개발자들이 30~50달러짜리 작동하는 제품을 사지 않고, 클로드와 n8n으로 10시간 이상을 써서 직접 만들어 1,000달러 이상의 기회비용을 무시하는 역설이 커지고 있습니다.

OpenClawRadar
우분투 리눅스, 내년부터 로컬 추론을 시작으로 AI 기능 통합 예정
News

우분투 리눅스, 내년부터 로컬 추론을 시작으로 AI 기능 통합 예정

Canonical이 Ubuntu를 위한 다년간의 AI 추진 계획을 발표했습니다. 로컬 추론, 에이전트 워크플로우 및 상황 인식 OS 기능에 초점을 맞추며, 2026년에 걸쳐 기능이 출시됩니다.

OpenClawRadar
Claude Code 성능 회귀 진단: 모델 지능이 아닌 설정 문제
News

Claude Code 성능 회귀 진단: 모델 지능이 아닌 설정 문제

Anthropic의 포스트모텀은 Claude Code의 성능 저하가 모델 성능 저하가 아닌 세 가지 제품 변경(기본 추론 노력, 세션 캐싱 버그, 프롬프트 자세)으로 인해 발생했음을 보여줍니다. 롤백으로 성능이 복원되었습니다.

OpenClawRadar