오픈소스 Step 3.5 Flash: 희소 MoE로 빠른 심층 추론

Step 3.5 Flash는 빠르고 신뢰할 수 있는 딥 리즈닝 기능을 제공하는 데 중점을 둔 오픈소스 기반 모델입니다. 이 모델은 희소 혼합 전문가(MoE) 아키텍처를 사용하여 토큰당 1,960억 개의 파라미터 중 110억 개만 활성화합니다. 이러한 선택적 활성화는 높은 '지능 밀도'를 부여하여 최고의 독점 모델과 경쟁할 수 있으면서도 실시간 상호작용에 민첩하게 대응할 수 있도록 합니다.

딥 리즈닝과 속도

이 모델은 3방향 다중 토큰 예측(MTP-3)을 통합하여 초당 100~300개의 토큰을 처리할 수 있으며, 단일 스트림 코딩 작업에서는 최대 350개까지 처리합니다. 이는 빠른 응답성을 갖춘 복잡한 다단계 추론에 이상적입니다.

코딩 및 에이전트 작업 성능

Step 3.5 Flash는 확장 가능한 강화 학습 프레임워크로 지원되는 에이전트 작업에서 뛰어난 성능을 발휘하며, 지속적인 자기 개선을 보장합니다. SWE-bench Verified 벤치마크에서 74.4%, Terminal-Bench 2.0에서 51.0%의 점수를 달성하여 정교하고 장기적인 작업을 처리할 수 있는 능력을 보여줍니다.

효율적인 장기 컨텍스트 처리

이 모델은 3:1 슬라이딩 윈도우 어텐션(SWA) 비율을 사용하여 256K의 큰 컨텍스트 창을 지원하며, 각 전체 어텐션 레이어에 대해 세 개의 SWA 레이어를 통합합니다. 이 방법은 기존의 장기 컨텍스트 모델에 비해 계산 오버헤드를 크게 줄입니다.

로컬 배포 및 접근성

쉬운 로컬 배포를 위해 설계된 Step 3.5 Flash는 Mac Studio M4 Max 및 NVIDIA DGX Spark와 같은 고급 소비자 하드웨어에서 안전하게 실행될 수 있어 성능을 저하시키지 않으면서 데이터 프라이버시를 보장합니다.

📖 전체 소스 읽기: HN AI Agents