ATLAS: Marco de Aprendizaje Adaptativo en Tiempo de Prueba Supera a Claude Sonnet en Puntos de Referencia de Codificación con GPU de $500

✍️ OpenClawRadar📅 Publicado: 27 de marzo de 2026🔗 Source
ATLAS: Marco de Aprendizaje Adaptativo en Tiempo de Prueba Supera a Claude Sonnet en Puntos de Referencia de Codificación con GPU de $500
Ad

Qué hace ATLAS

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) es un marco que envuelve un modelo más pequeño congelado en una infraestructura inteligente para competir con los modelos API de vanguardia. Utiliza generación estructurada, verificación basada en energía y reparación autoverificada sin ajuste fino, llamadas API o dependencias en la nube. El sistema es completamente autohospedado sin que los datos salgan de la máquina.

Resultados de evaluación comparativa

Hardware: RTX 5060 Ti 16GB | Modelo: Qwen3-14B-Q4_K_M (congelado)

  • LiveCodeBench v5: 74,6% de aprobación@1-v(k=3) en 599 tareas
  • GPQA Diamond: 47,0% en 198 tareas de razonamiento de conocimiento de opción múltiple k=5
  • SciCode: 14,7% en 341 tareas de codificación científica multidisciplinar k=1

Nota: aprobación@k-v(k=3) significa una solución enviada por tarea, generada mediante los mejores 3 candidatos + selección Lens + reparación iterativa en fallos. No es generación de un solo intento.

Desglose de la ablación de la tubería V3

  • Línea base (sin V3): 54,9%
  • +Fase 1 (PlanSearch + BudgetForcing + DivSampling): 67,3% (+12,4pp)
  • +Fase 1+2 (enrutamiento Lens): 67,3% (+0,0pp)
  • +Fase 1+3 (refinamiento autoverificado): 74,6% (+7,3pp)

La Fase 3 utiliza casos de prueba autogenerados para verificación interna — el modelo nunca ve la clave de respuestas durante la reparación. PR-CoT rescata 36/42 tareas (85,7% de los rescates de la Fase 3).

Ad

Comparación de costo y rendimiento

  • DeepSeek V3.2 Reasoning: 86,2% aprobación LCB@1, ~$0,002/tarea (API, un solo intento)
  • GPT-5 (alto): 84,6%, ~$0,043/tarea (API, un solo intento)
  • ATLAS V3 (aprobación@1-v(k=3)): 74,6%, ~$0,004/tarea (solo electricidad local, mejores 3 + tubería de reparación)
  • Claude 4.5 Sonnet: 71,4%, ~$0,066/tarea (API, un solo intento)
  • Claude 4 Sonnet: 65,5%, ~$0,066/tarea (API, un solo intento)

Cálculo de costo de ATLAS: electricidad a $0,12/kWh (~165W GPU, ~1h 55m para 599 tareas). ATLAS intercambia latencia por costo — la tubería toma más tiempo por tarea que una única llamada API.

Cómo funciona

La tubería V3 tiene tres fases:

  1. Fase 1: Generar — PlanSearch con extracción de restricciones y planes diversos, Budget Forcing con control de tokens de pensamiento
  2. Verificar — Geometric Lens con puntuación de energía (autoincrustaciones de 5120 dimensiones) y ejecución de código en sandbox
  3. Fase 3: Reparar — Generación de autopruebas con pares E/S generados por el modelo y Reparación PR-CoT con cadena de pensamiento multiperspectiva

El flujo de trabajo: PlanSearch → Budget Forcing → k=3 candidatos → Geometric Lens → ordenados por energía → Sandbox → si todos fallan → Generación de autopruebas → Reparación PR-CoT → código reparado → Sandbox.

Un único servidor llama parcheado se ejecuta en K3s, proporcionando tanto generación con ejecución especulativa como servicios de incrustación.

📖 Leer la fuente completa: HN AI Agents

Ad

👀 Ver también

Memora v0.2.25 Servidor MCP: Escrituras 5 veces más rápidas en la Base de Datos D1
Herramientas

Memora v0.2.25 Servidor MCP: Escrituras 5 veces más rápidas en la Base de Datos D1

Memora v0.2.25, un servidor MCP para la memoria persistente de Claude, logra escrituras 5 veces más rápidas en Cloudflare D1, con memory_create reducido de más de 10s a ~1.8s y memory_update de más de 10s a ~1.1s por llamada.

OpenClawRadar
Claudebin: Exporta y Comparte Tus Sesiones de Código de Claude
Herramientas

Claudebin: Exporta y Comparte Tus Sesiones de Código de Claude

Claudebin te permite exportar sesiones completas de Claude Code, haciéndolas compartibles y reanudables a través de una única URL.

OpenClawRadar
SkyClaw v2.2 Runtime de Agente de IA en Rust Agrega OAuth de OpenAI y Creación de Herramientas Personalizadas
Herramientas

SkyClaw v2.2 Runtime de Agente de IA en Rust Agrega OAuth de OpenAI y Creación de Herramientas Personalizadas

SkyClaw v2.2 introduce autenticación OAuth de OpenAI utilizando suscripciones ChatGPT Plus/Pro, creación de herramientas personalizadas donde los agentes escriben sus propias herramientas bash/python/node en tiempo de ejecución, y modo daemon para operación en segundo plano. El runtime basado en Rust tiene benchmarks de 31ms de arranque en frío, 15MB de RAM en reposo y 9.3MB de tamaño de binario.

OpenClawRadar
Kreuzberg v4.7.0 añade inteligencia de código para 248 idiomas y una extracción de markdown mejorada.
Herramientas

Kreuzberg v4.7.0 añade inteligencia de código para 248 idiomas y una extracción de markdown mejorada.

Kreuzberg v4.7.0, una biblioteca de inteligencia de documentos con núcleo en Rust, ahora admite la extracción de código para 248 formatos mediante tree-sitter y ha mejorado significativamente la calidad de markdown con puntuaciones Structural F1 superiores al 80% en 23 formatos.

OpenClawRadar