SubQ LLM: 12M 토큰 컨텍스트, 95% RULER 정확도, 52배 빠른 어텐션

Subquadratic이 SubQ 1M-Preview를 출시했습니다. 이는 완전히 하위 2차 연산을 수행하는 최초의 대규모 언어 모델로, 트랜스포머처럼 컨텍스트 길이에 제곱으로 증가하는 대신 선형으로 확장됩니다. 이를 통해 긴 컨텍스트 작업에서 RAG 시스템과 청킹 우회가 필요 없어집니다. 연구 모델은 최대 1200만 토큰을 지원하며, 100만 토큰 프로덕션 모델은 얼리 액세스로 제공됩니다.

주요 기능

하위 2차 어텐션: 1200만 토큰 컨텍스트에서 최신 트랜스포머 모델 대비 어텐션 연산을 약 1,000배 줄입니다(출처 기준).
SubQ Code: 전체 코드베이스를 단일 컨텍스트 창에 로드하는 CLI 기반 코딩 에이전트. 다중 에이전트 오케스트레이션 없이 전체 저장소를 한 번에 계획, 실행 및 검토합니다.
SubQ Search: 긴 컨텍스트 검색 도구로, 챗봇 속도로 딥 리서치 기능을 제공합니다.
API: 개발자와 엔터프라이즈 팀을 위한 전체 컨텍스트 API.

벤치마크

모든 결과는 제3자(출처는 회사를 명시하지 않음)에 의해 검증되었습니다:

RULER 128K: 95% 정확도 — Claude Opus 4.6의 94.8%와 비교.
MRCR v2(다중 조각 검색 및 추론): 프로덕션 모델 65.9점, 연구 모델 83점. 참고: Claude Opus 4.7 = 32.2, GPT 5.5 = 74, Gemini 3.1 Pro = 26.3.
SWE-Bench Verified: 81.8% — Opus 4.6(80.8) 및 Deepseek 4.0 Pro(80.0)와 비교.
어텐션 속도: SubQ Sparse Attention은 아키텍처 수준 비교에서 FlashAttention보다 52배 빠르며, 63% 적은 연산을 사용합니다.

아키텍처 세부사항

이 모델은 근본적으로 재설계된 어텐션 메커니즘을 사용하며, 하위 2차 연산을 위해 첫 원리부터 구축되었습니다. 선형 어텐션, 상태 공간 모델 아이디어, 희소 어텐션을 활용하지만, 이전 시도와 달리 최첨단 정확도를 유지합니다. 팀에는 Meta, Google, Oxford, BYU, ByteDance, Adobe, Cambridge 출신의 박사들이 포함되어 있습니다.