3.5단계 플래시 탐색: 빠른 심층 추론을 위한 오픈소스 모델

✍️ OpenClawRadar📅 게시일: February 19, 2026🔗 Source
3.5단계 플래시 탐색: 빠른 심층 추론을 위한 오픈소스 모델
Ad

Step 3.5 Flash는 빠르고 신뢰할 수 있는 딥 리즈닝 기능을 제공하는 데 중점을 둔 오픈소스 기반 모델입니다. 이 모델은 희소 혼합 전문가(MoE) 아키텍처를 사용하여 토큰당 1,960억 개의 파라미터 중 110억 개만 활성화합니다. 이러한 선택적 활성화는 높은 '지능 밀도'를 부여하여 최고의 독점 모델과 경쟁할 수 있으면서도 실시간 상호작용에 민첩하게 대응할 수 있도록 합니다.

딥 리즈닝과 속도

이 모델은 3방향 다중 토큰 예측(MTP-3)을 통합하여 초당 100~300개의 토큰을 처리할 수 있으며, 단일 스트림 코딩 작업에서는 최대 350개까지 처리합니다. 이는 빠른 응답성을 갖춘 복잡한 다단계 추론에 이상적입니다.

코딩 및 에이전트 작업 성능

Step 3.5 Flash는 확장 가능한 강화 학습 프레임워크로 지원되는 에이전트 작업에서 뛰어난 성능을 발휘하며, 지속적인 자기 개선을 보장합니다. SWE-bench Verified 벤치마크에서 74.4%, Terminal-Bench 2.0에서 51.0%의 점수를 달성하여 정교하고 장기적인 작업을 처리할 수 있는 능력을 보여줍니다.

효율적인 장기 컨텍스트 처리

이 모델은 3:1 슬라이딩 윈도우 어텐션(SWA) 비율을 사용하여 256K의 큰 컨텍스트 창을 지원하며, 각 전체 어텐션 레이어에 대해 세 개의 SWA 레이어를 통합합니다. 이 방법은 기존의 장기 컨텍스트 모델에 비해 계산 오버헤드를 크게 줄입니다.

로컬 배포 및 접근성

쉬운 로컬 배포를 위해 설계된 Step 3.5 Flash는 Mac Studio M4 Max 및 NVIDIA DGX Spark와 같은 고급 소비자 하드웨어에서 안전하게 실행될 수 있어 성능을 저하시키지 않으면서 데이터 프라이버시를 보장합니다.

📖 전체 소스 읽기: HN AI Agents

Ad

👀 See Also

Qwen3-30B-A3B 대 Qwen3.5-35B-A3B 성능 비교 (RTX 5090 기준)
News

Qwen3-30B-A3B 대 Qwen3.5-35B-A3B 성능 비교 (RTX 5090 기준)

RTX 5090에서 Qwen3-30B-A3B와 Qwen3.5-35B-A3B의 직접 비교 벤치마크 결과, 30B 모델이 생성 속도에서 35% 더 빠른 반면, 3.5 모델은 긴 컨텍스트를 더 잘 처리하며 토큰 스케일링이 평탄한 반면 30B 모델은 21% 성능 저하를 보였습니다.

OpenClawRadar
OpenClaw 4.2는 페어링 오류를 수정하고 내구성 있는 작업 흐름을 추가합니다.
News

OpenClaw 4.2는 페어링 오류를 수정하고 내구성 있는 작업 흐름을 추가합니다.

OpenClaw 4.2는 3월 31일경 업데이트한 사용자에게 영향을 미친 페어링 오류를 수정하고, 게이트웨이 연결 끊김 상황에서도 장시간 실행되는 작업이 유지될 수 있도록 하는 내구성 있는 작업 흐름을 도입합니다.

OpenClawRadar
리눅스 커널 개발자들이 LLM 생성 버그 보고서로 인해 레거시 코드 제거를 제안하다
News

리눅스 커널 개발자들이 LLM 생성 버그 보고서로 인해 레거시 코드 제거를 제안하다

리눅스 커널 개발자들은 대규모 언어 모델이 생성하는 보안 버그 리포트 처리 부담을 줄이기 위해 ISA/PCMCIA 이더넷 드라이버, 아마추어 무선 프로토콜, ATM, ISDN 등 여러 레거시 서브시스템을 제거할 것을 제안하고 있습니다.

OpenClawRadar
🦀
News

오퍼스 4.7 추론 노력 벤치마크: 실제 작업에서 중간이 높음과 최대를 능가

GraphQL-go-tools 저장소의 29개 태스크에서 Claude Code의 Opus 4.7이 중간 추론 노력 수준에서 최고 성능을 보였습니다. 더 높은 설정은 정확성을 떨어뜨리고 비용을 증가시켰으며 패치 품질은 개선되지 않았습니다.

OpenClawRadar