SubQ: Un LLM Subcuadrático con Ventana de Contexto de 12M de Tokens

✍️ OpenClawRadar📅 Publicado: 6 de mayo de 2026🔗 Source

SubQ de Subquadratic es un LLM listo para producción construido sobre una arquitectura de atención dispersa totalmente subcuadrática. Maneja hasta 12 millones de tokens en una sola indicación, funciona a 150 tokens por segundo y cuesta aproximadamente 1/5 de los modelos líderes como GPT-5 u Opus.

Arquitectura y Benchmarks

A diferencia de los transformadores estándar con atención O(n²), SubQ utiliza un mecanismo de atención dispersa subcuadrático que solo procesa relaciones de tokens relevantes. Con 12 millones de tokens, esto reduce el cómputo de atención en casi 1000×. Benchmarks (validados por terceros):

SWE-Bench Verified (codificación del mundo real): 81.8%
RULER @ 128K (precisión en contexto largo): 95.0%
MRCR v2 (8 agujas, 1M): 65.9%

Para comparar, la puntuación SWE-Bench de SubQ se sitúa entre Gemini 3.1 Pro (80.6%) y Opus 4.6 (80.8%). El modelo también supera a Opus 4.7 (87.6%? – no reportado en el momento) y GPT-5.5 (n/r) en MRCR v2.

Productos e Integración

Dos opciones de acceso:

API de Contexto Completo: Contexto de 12M tokens, streaming, uso de herramientas, endpoints compatibles con OpenAI. Procesa repositorios enteros en una sola llamada a costo lineal.
SubQ Code (capa de contexto largo para agentes de codificación): Conéctalo a Claude Code, Codex o Cursor. ~25% menos de factura, exploración 10× más rápida, redirige automáticamente turnos de modelos costosos. Instalación de una línea.

Para Quién Es

Desarrolladores y equipos que ejecutan agentes de IA que necesitan razonar sobre bases de código completas, historiales largos de PR o estado persistente sin pérdida de calidad.

📖 Lee la fuente completa: HN AI Agents

👀 Ver también

Herramientas

hipEngine: Inferencia Rápida Nativa de Qwen 3.6 para RDNA3 (Strix Halo, 7900 XTX)

hipEngine es un nuevo motor de inferencia de código abierto (AGPLv3) nativo de ROCm para Qwen 3.6 MoE en GPUs RDNA3. Los benchmarks muestran prefill de hasta 2718 tok/s en 7900 XTX, competitivo con llama.cpp, y caché KV INT8 que permite contexto completo de 256K en menos de 24 GB.

25 may 2026, 00:15 UTC

OpenClawRadar

Herramientas

Maestro v1.5.0 añade soporte para Claude Code para la orquestación de múltiples agentes.

Maestro v1.5.0, una plataforma de orquestación de múltiples agentes de código abierto, ahora se ejecuta como un complemento nativo en Claude Code además de Gemini CLI. La actualización incluye una planificación de diseño más profunda, una columna vertebral de orquestación de 42 pasos, aplicación de capacidades de agentes y endurecimiento de seguridad.

13 abr 2026, 18:12 UTC

OpenClawRadar

Herramientas

La Nueva API de Datos Estructurados Ofrece Precios por Suscripción para Agentes de LLM

Un desarrollador ha lanzado una API de datos estructurados que normaliza los precios de suscripción en plataformas de streaming, servicios de transporte compartido, aplicaciones de citas y otras plataformas basadas en suscripción. La API proporciona esquemas JSON consistentes, precios conscientes de la región cuando están disponibles y endpoints compatibles con MCP para que los agentes de LLM los consuman sin necesidad de scraping.

28 feb 2026, 10:45 UTC

OpenClawRadar

Herramientas

Reduzca los costos de sesiones de codificación con IA en un 90% mediante la indexación de código basada en grafos

Un desarrollador creó una base de datos de grafos local que indexa un código fuente utilizando resúmenes generados por LLM, reduciendo los costos de las sesiones de Claude Code de $6-10 a centavos al evitar la relectura redundante de archivos.

10 may 2026, 16:19 UTC

OpenClawRadar