SubQ: 12M-Token-Kontext LLM mit 95% RULER & 52x schnellerer Attention

Subquadratic hat SubQ 1M-Preview veröffentlicht, das erste vollständig subquadratische große Sprachmodell, bei dem der Rechenaufwand linear mit der Kontextlänge skaliert – nicht quadratisch wie bei Transformatoren. Dies macht RAG-Systeme und Chunking-Lösungen für Aufgaben mit langem Kontext überflüssig. Das Forschungsmodell unterstützt bis zu 12 Millionen Token, ein 1-Millionen-Token-Produktionsmodell ist im Early Access verfügbar.

Schlüsselfunktionen

Subquadratische Attention: Reduziert den Attention-Rechenaufwand um etwa das 1.000-fache im Vergleich zu führenden Transformer-Modellen bei 12-Millionen-Token-Kontext, laut Quelle.
SubQ Code: CLI-basierter Coding-Agent, der gesamte Codebasen in ein einziges Kontextfenster lädt. Keine Multi-Agent-Orchestrierung nötig – plant, führt aus und bewertet über ein vollständiges Repository in einem Durchgang.
SubQ Search: Langkontext-Suchtool mit Deep-Research-Funktionen in Chatbot-Geschwindigkeit.
API: Vollkontext-API für Entwickler und Unternehmensteams.

Benchmarks

Alle Ergebnisse wurden von einem Dritten verifiziert (die Quelle nennt keine Firma):

RULER 128K: 95% Genauigkeit – verglichen mit Claude Opus 4.6 bei 94,8%.
MRCR v2 (Multi-Piece Retrieval & Reasoning): Produktionsmodell erreicht 65,9; Forschungsmodell 83. Referenz: Claude Opus 4.7 = 32,2, GPT 5.5 = 74, Gemini 3.1 Pro = 26,3.
SWE-Bench Verified: 81,8% – verglichen mit Opus 4.6 (80,8) und Deepseek 4.0 Pro (80,0).
Attention-Geschwindigkeit: SubQ Sparse Attention ist 52× schneller als FlashAttention im Architekturvergleich, bei 63% weniger Rechenaufwand.

Architekturdetails

Das Modell verwendet einen grundlegend neu gestalteten Attention-Mechanismus, der von Grund auf subquadratisch entwickelt wurde. Es nutzt lineare Attention, State-Space-Modell-Ideen und Sparse Attention – behält aber im Gegensatz zu früheren Versuchen Genauigkeit auf Spitzenniveau. Das Team umfasst Doktoren von Meta, Google, Oxford, BYU, ByteDance, Adobe und Cambridge.

Verfügbarkeit

Private Beta startet heute (5. Mai 2026). Zugang zu API, SubQ Code CLI und SubQ Search. Der SWE-Bench-Wert deutet auf starke Code-Leistung für KI-Coding-Agenten hin, wie die Leser von OpenClawRadar.

📖 Lies die vollständige Quelle: HN AI Agents

SubQ: Erstes vollständig subquadratisches LLM mit 12-Millionen-Token-Kontext und 95 % RULER-Genauigkeit

Schlüsselfunktionen

Benchmarks

Architekturdetails

Verfügbarkeit

👀 Siehe auch

Unterschiede zwischen der Verwendung von Claude über GitHub Copilot und als VS Code-Erweiterung

xAI verliert rechtliche Anfechtung gegen kalifornisches KI-Datenoffenlegungsgesetz

RTX 5000 PRO 48GB liefert 4400 Tok/s Präzisions-Caching für Qwen3.6-27B

SCOTUS lehnt Verhandlung über KI-Urheberrechtsfall ab und lässt Urteil der Vorinstanz bestehen