SubQ: 1,200만 토큰 컨텍스트 윈도우를 가진 서브-쿼드라틱 LLM

Subquadratic의 SubQ는 완전 준2차 희소 주의 아키텍처를 기반으로 한 프로덕션 준비 완료 LLM입니다. 단일 프롬프트에서 최대 12M 토큰을 처리하며, 초당 150 토큰 속도로 실행되고 GPT-5나 Opus 같은 주요 모델의 약 1/5 비용으로 운영됩니다.
아키텍처 및 벤치마크
O(n²) 주의를 사용하는 표준 트랜스포머와 달리, SubQ는 관련 토큰 관계만 처리하는 준2차 희소 주의 메커니즘을 사용합니다. 12M 토큰에서 이는 주의 계산량을 거의 1000배 줄입니다. 벤치마크(타사 검증):
- SWE-Bench Verified (실제 코딩): 81.8%
- RULER @ 128K (긴 컨텍스트 정확도): 95.0%
- MRCR v2 (8-니들, 1M): 65.9%
비교를 위해, SubQ의 SWE-Bench 점수는 Gemini 3.1 Pro (80.6%)와 Opus 4.6 (80.8%) 사이에 위치합니다. 또한 MRCR v2에서 Opus 4.7 (87.6%? – 당시 보고되지 않음) 및 GPT-5.5 (n/r)를 능가합니다.
제품 및 통합
두 가지 액세스 옵션:
- 전체 컨텍스트 API: 12M 토큰 컨텍스트, 스트리밍, 도구 사용, OpenAI 호환 엔드포인트. 선형 비용으로 한 번의 호출에 전체 리포지토리 처리.
- SubQ Code (코딩 에이전트용 긴 컨텍스트 레이어): Claude Code, Codex 또는 Cursor에 플러그인. 청구서 약 25% 절감, 탐색 속도 10배 향상, 비싼 모델 호출 자동 리디렉션. 한 줄 설치.
대상 사용자
전체 코드베이스, 긴 PR 기록 또는 지속적 상태에 걸쳐 추론해야 하는 AI 에이전트를 실행하는 개발자 및 팀. 품질 저하 없음.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

harshal-mcp-proxy 이제 npm에서 사용 가능: 단일 데몬이 12개의 MCP 서버 설정 대체
harshal-mcp-proxy가 이제 54 kB npm 패키지로 제공됩니다. 전역 설치, 데몬 실행으로 12개의 개별 MCP 서버 구성을 6개의 도구로 대체하여 세션당 약 2.7GB RAM과 50K 토큰을 절약합니다.

NervMap: 단일 명령 서버 서비스 탐색 및 진단 도구
NervMap은 1초 이내에 Docker 컨테이너, systemd 서비스, 베어 프로세스를 탐지하고, 이들 간의 의존성을 매핑하며, 심각도 분석과 수정 제안을 통해 문제를 진단하는 Linux 도구입니다.

OpenClaw 에이전트 릴레이 플러그인, 다중 에이전트 설정에서 텔레그램 전송 문제 해결
openclaw-agent-relay 플러그인은 세션 전송 응답이 Telegram 대신 웹채팅으로 가는 지속적인 문제를 해결합니다. 게이트웨이 WebSocket RPC를 사용하여 deliver:true로 에이전트 턴을 트리거함으로써 명시적 메시지 도구나 알림 단계와 같은 해결책이 필요 없게 됩니다.

Google Research, AI 모델 압축을 위한 TurboQuant 소개
Google Research는 정확도 손실 없이 AI 모델 크기를 줄이는 압축 알고리즘 TurboQuant를 소개했습니다. 이는 벡터 양자화에서의 메모리 오버헤드를 해결하고 키-값 캐시 성능을 향상시킵니다.