SubQ 1M-Preview : LLM sous-quadratique 52x plus rapide que FlashAttention

Subquadratic a publié SubQ 1M-Preview, le premier grand modèle de langage entièrement sous-quadratique, où le calcul évolue linéairement avec la longueur du contexte — et non de manière quadratique comme avec les transformers. Cela élimine le besoin de systèmes RAG et de solutions de contournement par segmentation pour les tâches à long contexte. Le modèle de recherche prend en charge jusqu'à 12 millions de tokens, avec un modèle de production à 1 million de tokens disponible en accès anticipé.

Fonctionnalités clés

Attention sous-quadratique : Réduit le calcul de l'attention d'environ 1 000 fois par rapport aux modèles transformers de pointe pour un contexte de 12 millions de tokens, selon la source.
SubQ Code : Agent de codage en ligne de commande qui charge l'intégralité des bases de code dans une seule fenêtre de contexte. Pas besoin d'orchestration multi-agents — planifie, exécute et révise dans un dépôt complet en un seul passage.
SubQ Search : Outil de recherche à long contexte offrant des capacités de recherche approfondie à la vitesse d'un chatbot.
API : API à contexte complet pour les développeurs et les équipes d'entreprise.

Références

Tous les résultats ont été vérifiés par un tiers (la source ne précise pas le cabinet) :

RULER 128K : 95 % de précision — contre Claude Opus 4.6 à 94,8 %.
MRCR v2 (récupération et raisonnement multi-éléments) : Le modèle de production obtient 65,9 ; le modèle de recherche obtient 83. Référence : Claude Opus 4.7 = 32,2, GPT 5.5 = 74, Gemini 3.1 Pro = 26,3.
SWE-Bench Verified : 81,8 % — contre Opus 4.6 (80,8) et Deepseek 4.0 Pro (80,0).
Vitesse d'attention : L'attention sparse SubQ est 52 fois plus rapide que FlashAttention dans une comparaison au niveau de l'architecture, avec 63 % de calcul en moins.

Détails de l'architecture

Le modèle utilise un mécanisme d'attention fondamentalement repensé, construit à partir de premiers principes pour être sous-quadratique. Il exploite l'attention linéaire, les idées de modèles d'espace d'état et l'attention sparse — mais contrairement aux tentatives précédentes, il maintient une précision de pointe. L'équipe comprend des docteurs de Meta, Google, Oxford, BYU, ByteDance, Adobe et Cambridge.

Disponibilité

La bêta privée commence aujourd'hui (5 mai 2026). Accès à l'API, à SubQ Code CLI et à SubQ Search. Le score SWE-Bench indique de solides performances de codage pour les agents de codage IA comme les lecteurs d'OpenClawRadar.

📖 Lire la source complète : HN AI Agents

Sous-Q : Premier LLM entièrement sous-quadratique avec un contexte de 12 millions de tokens et une précision RULER de 95 %

Fonctionnalités clés

Références

Détails de l'architecture

Disponibilité

👀 See Also

Comparaison de référence de Qwen3.6 Plus avec les modèles SOTA occidentaux

Anthropic publie un programme éducatif gratuit comprenant les cours Claude Code et MCP Mastery.

Merlin Research publie le modèle Qwen3.5-4B-Safety-Thinking pour le raisonnement structuré.

Mise à jour du statut de Claude : Taux d'erreur élevés pour Opus 4.6 et Sonnet 4.6