ATLAS: Marco de Aprendizaje Adaptativo Supera a Claude Sonnet en Código

Qué hace ATLAS

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) es un marco que envuelve un modelo más pequeño congelado en una infraestructura inteligente para competir con los modelos API de vanguardia. Utiliza generación estructurada, verificación basada en energía y reparación autoverificada sin ajuste fino, llamadas API o dependencias en la nube. El sistema es completamente autohospedado sin que los datos salgan de la máquina.

Resultados de evaluación comparativa

Hardware: RTX 5060 Ti 16GB | Modelo: Qwen3-14B-Q4_K_M (congelado)

LiveCodeBench v5: 74,6% de aprobación@1-v(k=3) en 599 tareas
GPQA Diamond: 47,0% en 198 tareas de razonamiento de conocimiento de opción múltiple k=5
SciCode: 14,7% en 341 tareas de codificación científica multidisciplinar k=1

Nota: aprobación@k-v(k=3) significa una solución enviada por tarea, generada mediante los mejores 3 candidatos + selección Lens + reparación iterativa en fallos. No es generación de un solo intento.

Desglose de la ablación de la tubería V3

Línea base (sin V3): 54,9%
+Fase 1 (PlanSearch + BudgetForcing + DivSampling): 67,3% (+12,4pp)
+Fase 1+2 (enrutamiento Lens): 67,3% (+0,0pp)
+Fase 1+3 (refinamiento autoverificado): 74,6% (+7,3pp)

La Fase 3 utiliza casos de prueba autogenerados para verificación interna — el modelo nunca ve la clave de respuestas durante la reparación. PR-CoT rescata 36/42 tareas (85,7% de los rescates de la Fase 3).

Comparación de costo y rendimiento

DeepSeek V3.2 Reasoning: 86,2% aprobación LCB@1, ~$0,002/tarea (API, un solo intento)
GPT-5 (alto): 84,6%, ~$0,043/tarea (API, un solo intento)
ATLAS V3 (aprobación@1-v(k=3)): 74,6%, ~$0,004/tarea (solo electricidad local, mejores 3 + tubería de reparación)
Claude 4.5 Sonnet: 71,4%, ~$0,066/tarea (API, un solo intento)
Claude 4 Sonnet: 65,5%, ~$0,066/tarea (API, un solo intento)

Cálculo de costo de ATLAS: electricidad a $0,12/kWh (~165W GPU, ~1h 55m para 599 tareas). ATLAS intercambia latencia por costo — la tubería toma más tiempo por tarea que una única llamada API.

Cómo funciona

La tubería V3 tiene tres fases:

Fase 1: Generar — PlanSearch con extracción de restricciones y planes diversos, Budget Forcing con control de tokens de pensamiento
Verificar — Geometric Lens con puntuación de energía (autoincrustaciones de 5120 dimensiones) y ejecución de código en sandbox
Fase 3: Reparar — Generación de autopruebas con pares E/S generados por el modelo y Reparación PR-CoT con cadena de pensamiento multiperspectiva

El flujo de trabajo: PlanSearch → Budget Forcing → k=3 candidatos → Geometric Lens → ordenados por energía → Sandbox → si todos fallan → Generación de autopruebas → Reparación PR-CoT → código reparado → Sandbox.

Un único servidor llama parcheado se ejecuta en K3s, proporcionando tanto generación con ejecución especulativa como servicios de incrustación.

📖 Leer la fuente completa: HN AI Agents

ATLAS: Marco de Aprendizaje Adaptativo en Tiempo de Prueba Supera a Claude Sonnet en Puntos de Referencia de Codificación con GPU de $500

Qué hace ATLAS

Resultados de evaluación comparativa

Desglose de la ablación de la tubería V3

Comparación de costo y rendimiento

Cómo funciona

👀 Ver también

Puerta Piast: Proxy API de Código Abierto para Anonimización de Datos de LLM

SLayer: Una capa semántica de código abierto para agentes de IA que aprende de las consultas

Servidor MCP conecta a Claude con Room EQ Wizard para análisis de acústica de estudio

Solución Alternativa para la Brecha de Migración de Proyectos de ChatGPT: Exportar Scripts y Prompts