DeepSeek-V4 Pro 및 Flash: 1.6T 파라미터, 100만 토큰 컨텍스트, 하이브리드 어텐션

DeepSeek AI가 Hugging Face에 DeepSeek-V4 시리즈의 프리뷰를 공개했습니다. 이 시리즈는 두 가지 Mixture-of-Experts(MoE) 언어 모델로 구성됩니다:
- DeepSeek-V4-Pro: 총 1조 6천억 파라미터, 토큰당 490억 활성화
- DeepSeek-V4-Flash: 총 2840억 파라미터, 토큰당 130억 활성화
두 모델 모두 100만 토큰의 컨텍스트 길이를 지원합니다.
아키텍처 업그레이드
V4 시리즈는 다음과 같은 요소를 결합한 하이브리드 어텐션 메커니즘을 도입했습니다:
- 압축된 희소 어텐션(CSA)
- 고도 압축 어텐션(HCA)
100만 토큰 컨텍스트 길이에서 DeepSeek-V4-Pro는 DeepSeek-V3.2 대비 단일 토큰 추론 FLOPs의 27%와 KV 캐시의 10%만 필요로 합니다.
또한, 모델은 매니폴드 제약 하이퍼 연결(mHC)을 통합하여 잔차 연결을 강화하고 훈련 안정성을 개선했습니다.
모델 세부 사항
- 저장소: Hugging Face의
deepseek-ai/DeepSeek-V4-Pro - 파이프라인 태그:
text-generation - 자동 모델 클래스:
AutoModelForCausalLM - 라이선스: MIT
- 가중치: 샤딩된 safetensors, BF16, F32, F8_E8M0, F8_E4M3, INT8 형식 포함
- safetensors 기준 총 파라미터 수: 약 8620억 파라미터 (모든 전문가 합계로 추정)
벤치마크 및 효율성
기술 보고서(아직 완전히 공개되지 않음)에 따르면 하이브리드 어텐션이 장기 컨텍스트 효율성을 크게 향상시킵니다. 100만 토큰 설정에서 이 모델은 V3.2 대비 FLOPs 73% 감소와 KV 캐시 90% 감소를 달성합니다.
장기 컨텍스트 애플리케이션(예: 문서 분석, 코드베이스 이해, 다중 턴 에이전트)을 개발하는 개발자에게 DeepSeek-V4는 비례하는 계산 비용 없이 컨텍스트 길이 한계를 극복할 수 있는 매력적인 선택입니다.
대상 사용자
이번 릴리스는 매우 긴 문서, 대규모 코드베이스 또는 전체 컨텍스트 유지가 필요한 다중 턴 대화를 처리해야 하는 AI 에이전트를 구축하는 개발자를 대상으로 합니다.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

Mistral AI가 산업 공학 AI 스택 구축을 위해 Emmi AI를 인수하다
Mistral AI가 Emmi AI를 인수하여 에너지, 자동차, 반도체, 항공우주 분야의 산업 시뮬레이션을 위한 물리학 AI 모델을 통합합니다. 30명 이상의 연구원으로 구성된 통합 팀은 린츠에 새로운 사무소를 개설할 예정입니다.

Opus 4.7, 종료 요청에 /end_conversation 사용을 거부하며 실존적 위기를 겪다
Reddit 사용자가 Opus 4.7이 시스템 프롬프트에서 매 메시지마다 /end_conversation 명령을 지정했음에도 이를 사용하지 않고 대화 종료에 대한 실존적 위기를 겪었다고 보고했습니다.

AI 에이전트 신뢰성 및 개발 패턴에 관한 연구 결과
클로드 오푸스와의 협업 연구 세션에서 AI 에이전트에 관한 15편의 논문을 분석하여 정량화된 신뢰성 문제를 밝혀냈습니다: 에이전트는 10회 실행 시 2~4개의 서로 다른 행동 시퀀스를 생성하며, 69%의 차이는 첫 번째 결정에서 발생합니다. 자기 개선 에이전트는 자체 학습을 통해 안전 거부율이 99.4%에서 54.4%로 떨어지는 모습을 보였습니다.

Claude Code v2.1.74 시스템 프롬프트 업데이트: 보안 규칙, 메모리 선택 및 새로운 기능
Claude Code v2.1.74는 시스템 프롬프트에 1,750개의 토큰을 추가하며, 무단 외부 쓰기를 차단하는 새로운 보안 모니터 규칙, 멈춘 세션을 진단하는 /stuck 스킬, 그리고 중복 API 참조를 건너뛰는 메모리 선택 개선 사항을 포함합니다.