SubQ: Erstes vollständig subquadratisches LLM mit 12-Millionen-Token-Kontext und 95 % RULER-Genauigkeit

Subquadratic hat SubQ 1M-Preview veröffentlicht, das erste vollständig subquadratische große Sprachmodell, bei dem der Rechenaufwand linear mit der Kontextlänge skaliert – nicht quadratisch wie bei Transformatoren. Dies macht RAG-Systeme und Chunking-Lösungen für Aufgaben mit langem Kontext überflüssig. Das Forschungsmodell unterstützt bis zu 12 Millionen Token, ein 1-Millionen-Token-Produktionsmodell ist im Early Access verfügbar.
Schlüsselfunktionen
- Subquadratische Attention: Reduziert den Attention-Rechenaufwand um etwa das 1.000-fache im Vergleich zu führenden Transformer-Modellen bei 12-Millionen-Token-Kontext, laut Quelle.
- SubQ Code: CLI-basierter Coding-Agent, der gesamte Codebasen in ein einziges Kontextfenster lädt. Keine Multi-Agent-Orchestrierung nötig – plant, führt aus und bewertet über ein vollständiges Repository in einem Durchgang.
- SubQ Search: Langkontext-Suchtool mit Deep-Research-Funktionen in Chatbot-Geschwindigkeit.
- API: Vollkontext-API für Entwickler und Unternehmensteams.
Benchmarks
Alle Ergebnisse wurden von einem Dritten verifiziert (die Quelle nennt keine Firma):
- RULER 128K: 95% Genauigkeit – verglichen mit Claude Opus 4.6 bei 94,8%.
- MRCR v2 (Multi-Piece Retrieval & Reasoning): Produktionsmodell erreicht 65,9; Forschungsmodell 83. Referenz: Claude Opus 4.7 = 32,2, GPT 5.5 = 74, Gemini 3.1 Pro = 26,3.
- SWE-Bench Verified: 81,8% – verglichen mit Opus 4.6 (80,8) und Deepseek 4.0 Pro (80,0).
- Attention-Geschwindigkeit: SubQ Sparse Attention ist 52× schneller als FlashAttention im Architekturvergleich, bei 63% weniger Rechenaufwand.
Architekturdetails
Das Modell verwendet einen grundlegend neu gestalteten Attention-Mechanismus, der von Grund auf subquadratisch entwickelt wurde. Es nutzt lineare Attention, State-Space-Modell-Ideen und Sparse Attention – behält aber im Gegensatz zu früheren Versuchen Genauigkeit auf Spitzenniveau. Das Team umfasst Doktoren von Meta, Google, Oxford, BYU, ByteDance, Adobe und Cambridge.
Verfügbarkeit
Private Beta startet heute (5. Mai 2026). Zugang zu API, SubQ Code CLI und SubQ Search. Der SWE-Bench-Wert deutet auf starke Code-Leistung für KI-Coding-Agenten hin, wie die Leser von OpenClawRadar.
📖 Lies die vollständige Quelle: HN AI Agents
👀 Siehe auch

Unterschiede zwischen der Verwendung von Claude über GitHub Copilot und als VS Code-Erweiterung
Erforschen Sie die Unterschiede zwischen der Nutzung von Claude AI über die Zielsessions von GitHub Copilot und als VS Code-Erweiterung, basierend auf deren Integration und Funktionalität.

xAI verliert rechtliche Anfechtung gegen kalifornisches KI-Datenoffenlegungsgesetz
xAI hat seinen Versuch, das kalifornische KI-Daten-Offenlegungsgesetz zu blockieren, verloren. Dieses Gesetz verlangt von Unternehmen, die Quellen ihrer Trainingsdaten und andere Details über ihre KI-Systeme offenzulegen. Das Gerichtsurteil bedeutet, dass das Gesetz wie geplant in Kraft treten wird.

RTX 5000 PRO 48GB liefert 4400 Tok/s Präzisions-Caching für Qwen3.6-27B
Ein PC-Neuling berichtet von 4400 tok/s Promptverarbeitung und 80 tok/s Generierung mit Qwen3.6-27B-FP8 und vollpräzisem KV-Cache auf einer einzelnen RTX 5000 Pro 48GB, unter Verwendung von vLLM und Claude Code.

SCOTUS lehnt Verhandlung über KI-Urheberrechtsfall ab und lässt Urteil der Vorinstanz bestehen
Der Oberste Gerichtshof der USA hat es abgelehnt, einen Streit über Urheberrechte für KI-generiertes Material zu verhandeln, wodurch ein Urteil eines unteren Gerichts bestehen bleibt, das Urheberrechtsschutz für Werke ohne menschliche Urheberschaft verweigert.