SubQ LLM: 1,200万トークン対応の準二次モデル

Subquadratic社のSubQは、完全に準二次スパース注意機構をベースにしたプロダクション対応LLMです。単一プロンプトで最大1200万トークンを処理し、毎秒150トークンの速度で動作し、GPT-5やOpusなどの主要モデルと比較して約5分の1のコストです。

アーキテクチャとベンチマーク

O(n²)の注意機構を持つ標準的なトランスフォーマーとは異なり、SubQは準二次スパース注意機構を採用し、関連するトークン関係のみを処理します。1200万トークンでは、注意計算を約1000倍削減します。ベンチマーク（第三者検証済み）：

比較として、SubQのSWE-BenchスコアはGemini 3.1 Pro（80.6%）とOpus 4.6（80.8%）の間に位置します。また、MRCR v2ではOpus 4.7（87.6%？—当時未報告）やGPT-5.5（未報告）を上回っています。

2つのアクセスオプション：

Full-Context API： 1200万トークンのコンテキスト、ストリーミング、ツール使用、OpenAI互換エンドポイント。リポジトリ全体を1回の呼び出しで線形コストで処理。
SubQ Code（コーディングエージェント用の長文コンテキストレイヤー）： Claude Code、Codex、Cursorにプラグイン。請求額約25%削減、探索速度10倍向上、高価なモデル呼び出しを自動リダイレクト。一行でインストール。

コードベース全体、長いPR履歴、または永続的な状態を品質低下なく推論する必要があるAIエージェントを実行する開発者やチーム。

📖 出典： HN AI Agents