Subquadratic stellt 12 Millionen Token Kontextfenster für KI-Modelle vor

Subquadratic hat ein 12-Millionen-Token-Kontextfenster angekündigt und behauptet einen Durchbruch bei subquadratischen Aufmerksamkeitsmechanismen. Dies steht im Vergleich zu typischen 128K-1M-Token-Fenstern aktueller Modelle. Die Technik ermöglicht es Modellen, weitaus größere Kontexte ohne quadratische Skalierung von Rechenleistung oder Speicher zu verarbeiten.
Wichtige Details
- Kontextfenster: 12 Millionen Token (12x größer als GPT-4s 128K Token)
- Basiert auf subquadratischer Attention, wahrscheinlich mit linearer oder nahezu linearer Komplexität in der Sequenzlänge
- Ermöglicht die Verarbeitung gesamter großer Codebasen, langer Dokumente oder mehrstündiger Videotranskripte in einem einzigen Durchlauf
- Potenzielle Anwendungen: Code-Review ganzer Repos, Langdokument-Analyse, mehrschrittige Dialoge mit vollständigem Verlauf
- Kompatibel mit bestehenden transformerbasierten LLMs durch Drop-in-Attention-Austausch
Der Ansatz reduziert O(n²) Attention auf nahezu O(n) mithilfe von Techniken wie State-Space-Modellen oder Low-Rank-Faktorisierungen. In der Quelle werden keine spezifischen Benchmark-Zahlen genannt, aber die Behauptung lautet, dass dies 12M-Token-Fenster auf einer einzelnen GPU praktikabel macht.
Für wen es gedacht ist
KI-Ingenieure, die an Code-Analyse, Dokumentenverarbeitung oder Aufgaben arbeiten, die ein langes Kontextverständnis ohne teures Chunking oder Retrieval erfordern.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

Firefox 148 fügt KI-Abschaltfunktion und erweiterte Datenschutzkontrollen hinzu
Firefox 148 führt eine KI-Abschaltfunktion ein, die es Nutzern ermöglicht, alle KI-Funktionen zu deaktivieren, einschließlich Chatbot-Eingabeaufforderungen und KI-generierter Link-Zusammenfassungen. Das Update bietet auch mehr Kontrolle über Remote-Updates und Datenerfassung.

Die Analyse von 100 Millionen Tokens im Claude Code zeigt eine Nutzungsrate der Eingabe von 99,4 %.
Eine Analyse von 1.289 Anfragen über längere Codingsitzungen zeigt, dass Claude Code 100,3 Mio. Eingabe-Tokens (99,4 %) gegenüber nur 616.000 Ausgabe-Tokens (0,6 %) verwendete, wobei 84,2 Mio. Tokens aufgrund wiederholter Kontextwiedergabe zwischengespeichert wurden.

Qwen3.5-122B auf Blackwell SM120: fp8-KV-Cache-Korruptionsproblem und Leistungsbefunde
Tests von Qwen3.5-122B auf 8x RTX PRO 6000 Blackwell-Hardware ergaben, dass der fp8_e4m3-KV-Cache stillschweigend fehlerhafte Ausgaben ohne Fehlermeldungen erzeugt, sodass stattdessen ein bf16-KV-Cache erforderlich ist. Die MTP-Optimierung brachte eine 2,75-fache Beschleunigung bei Einzelanfragen, während DeltaNet-Einschränkungen andere Optimierungen blockierten.

Claude Code v2.1.128: OTEL-Isolierung, MCP-Korrekturen, Plugin-.zip-Unterstützung und über 20 Fehlerbehebungen
Claude Code v2.1.128 verhindert, dass Unterprozesse OTEL_*-Umgebungsvariablen erben, unterstützt .zip-Plugins, behebt übermäßige MCP-Wiederverbindungen und die gleichzeitige Abbrechung von Shell-Tools.