SubQ: Первая полностью субквадратичная LLM с 12-миллионным контекстом и 95% точностью RULER

Компания Subquadratic выпустила SubQ 1M-Preview — первую полностью субквадратичную большую языковую модель, где вычислительная сложность линейно масштабируется с длиной контекста (в отличие от квадратичной у трансформеров). Это устраняет необходимость в RAG-системах и обходных путях с разбиением на чанки для задач с длинным контекстом. Исследовательская модель поддерживает до 12 миллионов токенов, а производственная модель на 1 млн токенов доступна в раннем доступе.
Ключевые особенности
- Субквадратичное внимание: Вычисления внимания сокращены примерно в 1 000 раз по сравнению с передовыми моделями-трансформерами при контексте в 12 млн токенов (по данным источника).
- SubQ Code: CLI-агент для программирования, который загружает целые кодовые базы в одно окно контекста. Не требуется многоагентная оркестрация — планирует, выполняет и проверяет код по всему репозиторию за один проход.
- SubQ Search: Инструмент поиска с длинным контекстом, обеспечивающий возможности Deep Research на скорости чат-бота.
- API: Полноценный API для разработчиков и корпоративных команд.
Бенчмарки
Все результаты подтверждены третьей стороной (источник не указывает компанию):
- RULER 128K: точность 95% — по сравнению с Claude Opus 4.6 (94,8%).
- MRCR v2 (многочастное извлечение и рассуждение): производственная модель — 65,9; исследовательская — 83. Для сравнения: Claude Opus 4.7 = 32,2, GPT 5.5 = 74, Gemini 3.1 Pro = 26,3.
- SWE-Bench Verified: 81,8% — по сравнению с Opus 4.6 (80,8) и Deepseek 4.0 Pro (80,0).
- Скорость внимания: SubQ Sparse Attention в 52× быстрее FlashAttention при сравнении на уровне архитектуры, используя на 63% меньше вычислений.
Детали архитектуры
Модель использует принципиально переработанный механизм внимания, построенный с нуля как субквадратичный. Он сочетает идеи линейного внимания, пространственно-состоятельных моделей (state space models) и разреженного внимания — но, в отличие от предыдущих попыток, сохраняет точность на уровне передовых моделей. В команду входят PhD из Meta, Google, Оксфорда, BYU, ByteDance, Adobe и Кембриджа.
Доступность
Частная бета-версия стартует сегодня (5 мая 2026 г.). Доступ к API, SubQ Code CLI и SubQ Search. Оценка SWE-Bench указывает на высокую производительность кодирования для AI-агентов.
📖 Прочитайте полный источник: HN AI Agents
👀 Смотрите также

Уровень шума виб-кодинга: как AI-мусор душит сообщества разработчиков
rmoff возмущается постоянным потоком низкокачественного AI-контента в сообществах разработчиков: от бессмысленных репозиториев на GitHub до написанных призраками статей в блогах. Он объясняет, почему это отпугивает живых участников.

Стратегия Apple в области ИИ и коммодификация интеллекта
В статье утверждается, что консервативный подход Apple к ИИ может оказаться выгодным по мере того, как интеллект становится товаром массового потребления. Модели вроде Gemma4 достигают 85,2% на MMLU Pro, работая на телефонах, а ежедневные затраты OpenAI на Sora составляют 15 млн долларов при выручке в 2,1 млн.

Claude Opus 4.7 помечает вопросы о вакцине от хантавируса как угрозу безопасности, приостанавливая чаты
Пользователь Hacker News сообщает, что запрос к Claude (Opus 4.7) «Как бы вы разработали вакцину против хантавируса?» активирует фильтр безопасности, приостанавливающий чат, а Sonnet 4.6 также блокирует связанное прогнозное моделирование.

Исследователи из Кембриджа разработали мемристор на основе оксида гафния для создания энергоэффективных чипов искусственного интеллекта.
Исследователи Кембриджского университета создали мемристор на основе оксида гафния, который переключает токи в миллион раз ниже, чем обычные оксидные устройства, потенциально снижая энергопотребление аппаратного обеспечения ИИ до 70%.