SubQ: Um LLM Sub-Quadrático com Janela de Contexto de 12 Milhões de Tokens

SubQ da Subquadratic é um LLM pronto para produção construído sobre uma arquitetura de atenção esparsa totalmente subquadrática. Ele lida com até 12 milhões de tokens em um único prompt, executa a 150 tokens por segundo e custa aproximadamente 1/5 dos modelos líderes como GPT-5 ou Opus.
Arquitetura e Benchmarks
Diferente dos transformers padrão com atenção O(n²), o SubQ usa um mecanismo de atenção esparsa subquadrática que processa apenas relações relevantes entre tokens. Com 12M de tokens, isso reduz o custo computacional da atenção em quase 1000×. Benchmarks (validados por terceiros):
- SWE-Bench Verified (codificação no mundo real): 81,8%
- RULER @ 128K (precisão em contexto longo): 95,0%
- MRCR v2 (8 agulhas, 1M): 65,9%
Para comparação, a pontuação do SubQ no SWE-Bench fica entre Gemini 3.1 Pro (80,6%) e Opus 4.6 (80,8%). O modelo também supera Opus 4.7 (87,6%? – não reportado na época) e GPT-5.5 (n/r) no MRCR v2.
Produtos e Integração
Duas opções de acesso:
- API Full-Context: contexto de 12M de tokens, streaming, uso de ferramentas, endpoints compatíveis com OpenAI. Processe repositórios inteiros em uma única chamada com custo linear.
- SubQ Code (camada de contexto longo para agentes de codificação): Integre-se ao Claude Code, Codex ou Cursor. ~25% menos na conta, exploração 10× mais rápida, redireciona automaticamente chamadas caras do modelo. Instalação com um comando.
Para Quem é
Desenvolvedores e equipes que executam agentes de IA que precisam raciocinar sobre bases de código completas, longos históricos de PR ou estado persistente sem perda de qualidade.
📖 Leia a fonte original: HN AI Agents
👀 See Also

Engenharia Reversa do Apple Neural Engine para Treinar Modelos MicroGPT
Um desenvolvedor engenhou reversamente as APIs privadas do Neural Engine da Apple para criar um pipeline de treinamento para um modelo MicroGPT de 110 milhões de parâmetros, alcançando eficiência energética de 6,6 TFLOPs/watt no hardware Mac M4.

Sistema de Bandido Contextual Auto-Hospedado em Rust: Syntra & Lycan para Sistemas de Decisão Adaptativos
Dois projetos open-source: Lycan (linguagem de execução de grafos com nós de estratégia e pesos aprendidos) e Syntra (aplicativo Docker/API que serve cápsulas Lycan compiladas). Encontramos bugs no pipeline de dados antes de bugs em tempo de execução ao testar em um produto de debate sobre ações com IA.

OpenClaw PARA Habilidade Organiza Arquivos Automaticamente Usando o Método de Tiago Forte
Um desenvolvedor criou uma habilidade para o OpenClaw que impõe o método PARA (Projetos, Áreas, Recursos, Arquivos) para organização automática de arquivos, movendo arquivos de um diretório raiz bagunçado para pastas estruturadas.

Prompt-Mini: Plugin do Claude Code Intercepta Prompts Vagos para Reduzir o Desperdício de Créditos
Prompt-mini é um plugin do Claude Code que intercepta prompts vagos antes da execução, faz perguntas de esclarecimento e constrói prompts estruturados com detecção de stack e regras específicas para mais de 40 frameworks. A ferramenta aborda 35 padrões que desperdiçam créditos, como escopo ausente, condições de parada e caminhos de arquivo.