SubQ: Ein sub-quadratisches LLM mit 12-Millionen-Token-Kontextfenster

✍️ OpenClawRadar📅 Veröffentlicht: 6. Mai 2026🔗 Source

SubQ von Subquadratic ist ein produktionsreifes LLM, das auf einer vollständig sub-quadratischen Sparse-Attention-Architektur basiert. Es verarbeitet bis zu 12 Millionen Token in einer einzelnen Abfrage, läuft mit 150 Token pro Sekunde und kostet etwa ein Fünftel führender Modelle wie GPT-5 oder Opus.

Architektur & Benchmarks

Im Gegensatz zu Standard-Transformatoren mit O(n²) Attention verwendet SubQ einen sub-quadratischen Sparse-Attention-Mechanismus, der nur relevante Token-Beziehungen verarbeitet. Bei 12 Millionen Token reduziert dies die Attention-Berechnung um fast das 1000-fache. Benchmarks (drittanbieter-validiert):

SWE-Bench Verified (praxisnahes Programmieren): 81,8%
RULER @ 128K (Langkontext-Genauigkeit): 95,0%
MRCR v2 (8-Nadel, 1M): 65,9%

Zum Vergleich: SubQs SWE-Bench-Wert liegt zwischen Gemini 3.1 Pro (80,6%) und Opus 4.6 (80,8%). Das Modell übertrifft außerdem Opus 4.7 (87,6%? – zum Zeitpunkt nicht berichtet) und GPT-5.5 (n/r) bei MRCR v2.

Produkte & Integration

Zwei Zugriffsoptionen:

Full-Context API: 12M-Token-Kontext, Streaming, Tool-Nutzung, OpenAI-kompatible Endpunkte. Verarbeiten Sie gesamte Repositories in einem Aufruf zu linearen Kosten.
SubQ Code (Langkontext-Schicht für Programmieragenten): Einbindbar in Claude Code, Codex oder Cursor. ~25% niedrigere Rechnung, 10× schnellere Erkundung, automatische Umleitung teurer Modellaufrufe. Installation mit einem Befehl.

Für wen es gedacht ist

Entwickler und Teams, die KI-Agenten betreiben, die über vollständige Codebasen, lange PR-Verläufe oder persistenten Zustand hinweg denken müssen, ohne Qualitätseinbußen.

📖 Vollständige Quelle lesen: HN AI Agents

👀 Siehe auch

Werkzeuge

Einführung in Swarmcore: Ein skalierbares Multi-Agenten-Framework in Python

Swarmcore ist eine Open-Source-Bibliothek zum Ausführen skalierbarer Multi-Agenten-Workflows in Python, die sequentielle oder parallele Ausführung und erweiterbare Kontextverwaltung bietet.

14. Feb. 2026, 01:45 UTC

OpenClawRadar

Werkzeuge

KI-Unterprogramme: Deterministische Browser-Automatisierung ohne Token-Kosten

Die KI-Subroutinen von rtrvr.ai ermöglichen es Ihnen, Browser-Aufgaben einmal aufzuzeichnen und als aufrufbare Tools zu speichern, die im Webseitenkontext mit automatisch übernommener Authentifizierung abgespielt werden – ohne LLM-Inferenzkosten und ohne Nichtdeterminismus für wiederkehrende Aufgaben.

19. Apr. 2026, 01:45 UTC

OpenClawRadar

Werkzeuge

Von Replit zu Lokal: Wie ein Entwickler Claude nutzte, um StillHere zu bauen, eine KI-gestützte Chat-App

Ein Entwickler hat StillHere.ink entwickelt, eine KI-Chat-App für begleitende Gespräche mit persönlichen API-Schlüsseln, nachdem er von Replit zur lokalen Entwicklung mit Claude gewechselt ist. Die App bietet Gedächtnis, Tagebuchzusammenfassungen, RAG, Modellwechsel und Kostenkontrollfunktionen.

12. Mai 2026, 04:21 UTC

OpenClawRadar

Werkzeuge

Claude Code Ultracode-Modus erzeugt 70-Agenten-Pipeline für Tiefensuche

Eine einzelne 'Deep Search'-Anfrage im Ultracode-Modus von Claude Code erzeugte automatisch eine 4-Phasen-Pipeline mit ~70 Agents, die jeweils eigenständig Projekte abrufen und abgleichen. Das Orchestrierungsskript hält Zwischenergebnisse aus dem Kontextfenster fern und verhindert so eine Kontextüberlastung.

31. Mai 2026, 12:15 UTC

OpenClawRadar