DeepSeek-V4 Pro & Flash: 1.6T 파라미터, 27% FLOPs 감소

DeepSeek AI가 Hugging Face에 DeepSeek-V4 시리즈의 프리뷰를 공개했습니다. 이 시리즈는 두 가지 Mixture-of-Experts(MoE) 언어 모델로 구성됩니다:

두 모델 모두 100만 토큰의 컨텍스트 길이를 지원합니다.

아키텍처 업그레이드

V4 시리즈는 다음과 같은 요소를 결합한 하이브리드 어텐션 메커니즘을 도입했습니다:

100만 토큰 컨텍스트 길이에서 DeepSeek-V4-Pro는 DeepSeek-V3.2 대비 단일 토큰 추론 FLOPs의 27%와 KV 캐시의 10%만 필요로 합니다.

또한, 모델은 매니폴드 제약 하이퍼 연결(mHC)을 통합하여 잔차 연결을 강화하고 훈련 안정성을 개선했습니다.

기술 보고서(아직 완전히 공개되지 않음)에 따르면 하이브리드 어텐션이 장기 컨텍스트 효율성을 크게 향상시킵니다. 100만 토큰 설정에서 이 모델은 V3.2 대비 FLOPs 73% 감소와 KV 캐시 90% 감소를 달성합니다.

장기 컨텍스트 애플리케이션(예: 문서 분석, 코드베이스 이해, 다중 턴 에이전트)을 개발하는 개발자에게 DeepSeek-V4는 비례하는 계산 비용 없이 컨텍스트 길이 한계를 극복할 수 있는 매력적인 선택입니다.

이번 릴리스는 매우 긴 문서, 대규모 코드베이스 또는 전체 컨텍스트 유지가 필요한 다중 턴 대화를 처리해야 하는 AI 에이전트를 구축하는 개발자를 대상으로 합니다.

📖 전체 출처 읽기: HN AI Agents