SubQ: Ein sub-quadratisches LLM mit 12-Millionen-Token-Kontextfenster

SubQ von Subquadratic ist ein produktionsreifes LLM, das auf einer vollständig sub-quadratischen Sparse-Attention-Architektur basiert. Es verarbeitet bis zu 12 Millionen Token in einer einzelnen Abfrage, läuft mit 150 Token pro Sekunde und kostet etwa ein Fünftel führender Modelle wie GPT-5 oder Opus.
Architektur & Benchmarks
Im Gegensatz zu Standard-Transformatoren mit O(n²) Attention verwendet SubQ einen sub-quadratischen Sparse-Attention-Mechanismus, der nur relevante Token-Beziehungen verarbeitet. Bei 12 Millionen Token reduziert dies die Attention-Berechnung um fast das 1000-fache. Benchmarks (drittanbieter-validiert):
- SWE-Bench Verified (praxisnahes Programmieren): 81,8%
- RULER @ 128K (Langkontext-Genauigkeit): 95,0%
- MRCR v2 (8-Nadel, 1M): 65,9%
Zum Vergleich: SubQs SWE-Bench-Wert liegt zwischen Gemini 3.1 Pro (80,6%) und Opus 4.6 (80,8%). Das Modell übertrifft außerdem Opus 4.7 (87,6%? – zum Zeitpunkt nicht berichtet) und GPT-5.5 (n/r) bei MRCR v2.
Produkte & Integration
Zwei Zugriffsoptionen:
- Full-Context API: 12M-Token-Kontext, Streaming, Tool-Nutzung, OpenAI-kompatible Endpunkte. Verarbeiten Sie gesamte Repositories in einem Aufruf zu linearen Kosten.
- SubQ Code (Langkontext-Schicht für Programmieragenten): Einbindbar in Claude Code, Codex oder Cursor. ~25% niedrigere Rechnung, 10× schnellere Erkundung, automatische Umleitung teurer Modellaufrufe. Installation mit einem Befehl.
Für wen es gedacht ist
Entwickler und Teams, die KI-Agenten betreiben, die über vollständige Codebasen, lange PR-Verläufe oder persistenten Zustand hinweg denken müssen, ohne Qualitätseinbußen.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

Einführung in Swarmcore: Ein skalierbares Multi-Agenten-Framework in Python
Swarmcore ist eine Open-Source-Bibliothek zum Ausführen skalierbarer Multi-Agenten-Workflows in Python, die sequentielle oder parallele Ausführung und erweiterbare Kontextverwaltung bietet.

KI-Unterprogramme: Deterministische Browser-Automatisierung ohne Token-Kosten
Die KI-Subroutinen von rtrvr.ai ermöglichen es Ihnen, Browser-Aufgaben einmal aufzuzeichnen und als aufrufbare Tools zu speichern, die im Webseitenkontext mit automatisch übernommener Authentifizierung abgespielt werden – ohne LLM-Inferenzkosten und ohne Nichtdeterminismus für wiederkehrende Aufgaben.

Von Replit zu Lokal: Wie ein Entwickler Claude nutzte, um StillHere zu bauen, eine KI-gestützte Chat-App
Ein Entwickler hat StillHere.ink entwickelt, eine KI-Chat-App für begleitende Gespräche mit persönlichen API-Schlüsseln, nachdem er von Replit zur lokalen Entwicklung mit Claude gewechselt ist. Die App bietet Gedächtnis, Tagebuchzusammenfassungen, RAG, Modellwechsel und Kostenkontrollfunktionen.

Claude Code Ultracode-Modus erzeugt 70-Agenten-Pipeline für Tiefensuche
Eine einzelne 'Deep Search'-Anfrage im Ultracode-Modus von Claude Code erzeugte automatisch eine 4-Phasen-Pipeline mit ~70 Agents, die jeweils eigenständig Projekte abrufen und abgleichen. Das Orchestrierungsskript hält Zwischenergebnisse aus dem Kontextfenster fern und verhindert so eine Kontextüberlastung.