SubQ: Ein sub-quadratisches LLM mit 12-Millionen-Token-Kontextfenster

SubQ von Subquadratic ist ein produktionsreifes LLM, das auf einer vollständig sub-quadratischen Sparse-Attention-Architektur basiert. Es verarbeitet bis zu 12 Millionen Token in einer einzelnen Abfrage, läuft mit 150 Token pro Sekunde und kostet etwa ein Fünftel führender Modelle wie GPT-5 oder Opus.
Architektur & Benchmarks
Im Gegensatz zu Standard-Transformatoren mit O(n²) Attention verwendet SubQ einen sub-quadratischen Sparse-Attention-Mechanismus, der nur relevante Token-Beziehungen verarbeitet. Bei 12 Millionen Token reduziert dies die Attention-Berechnung um fast das 1000-fache. Benchmarks (drittanbieter-validiert):
- SWE-Bench Verified (praxisnahes Programmieren): 81,8%
- RULER @ 128K (Langkontext-Genauigkeit): 95,0%
- MRCR v2 (8-Nadel, 1M): 65,9%
Zum Vergleich: SubQs SWE-Bench-Wert liegt zwischen Gemini 3.1 Pro (80,6%) und Opus 4.6 (80,8%). Das Modell übertrifft außerdem Opus 4.7 (87,6%? – zum Zeitpunkt nicht berichtet) und GPT-5.5 (n/r) bei MRCR v2.
Produkte & Integration
Zwei Zugriffsoptionen:
- Full-Context API: 12M-Token-Kontext, Streaming, Tool-Nutzung, OpenAI-kompatible Endpunkte. Verarbeiten Sie gesamte Repositories in einem Aufruf zu linearen Kosten.
- SubQ Code (Langkontext-Schicht für Programmieragenten): Einbindbar in Claude Code, Codex oder Cursor. ~25% niedrigere Rechnung, 10× schnellere Erkundung, automatische Umleitung teurer Modellaufrufe. Installation mit einem Befehl.
Für wen es gedacht ist
Entwickler und Teams, die KI-Agenten betreiben, die über vollständige Codebasen, lange PR-Verläufe oder persistenten Zustand hinweg denken müssen, ohne Qualitätseinbußen.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

antirezs DS4: Ausführen von DeepSeek V4 Flash mit 1M Kontext auf Mac Metal und DGX
Redis-Erfinder Salvatore Sanfilippo hat DS4 veröffentlicht, ein Projekt, um DeepSeek V4 Flash mit einem 1M-Kontextfenster auf Mac Metal Hardware und DGX auszuführen, mit OpenAI/Anthropic-Endpunkten für agentische Codierungstools.

7 Slash-Befehle, 0,45 $/Beitrag: Diese Claude Code-Pipeline betreibt eine komplette SEO-Content-Operation
Ein Entwickler hat eine 7-Befehle-Claude-Code-Pipeline geöffnet, die SEO-Recherche, Schreiben, Optimierung und Veröffentlichung übernimmt. Kostet 0,45 $/Beitrag (Perplexity API), läuft in 15 Min./Tag. Ergebnisse: 18× monatliche Impressionen in 12 Monaten.

KI-Funktionen: Laufzeit-Codegenerierung mit automatisierter Verifizierung
AI Functions ist eine Python-Bibliothek, mit der Sie Funktionen mit natürlichen Sprachspezifikationen anstelle von Implementierungscode definieren können, zur Laufzeit generierten LLM-Code ausführt und Ausgaben mit Nachbedingungen validiert, die bei Fehlern automatische Wiederholungen auslösen.

Claude Code v2.1.176: Sprachbewusste Sitzungen, Bedrock-Anmeldedaten-Caching und Dutzende Fehlerbehebungen
Sitzungstitel entsprechen jetzt der Gesprächssprache; Bedrock-Anmeldedaten bis zum Ablauf zwischengespeichert; Umgehung der Modellerzwingung für /fast und Umgebungsvariablen behoben; tmux-Zwischenablage korrigiert; Sandbox-Symlink-Fix.