ATLAS: Marco de Aprendizaje Adaptativo en Tiempo de Prueba Supera a Claude Sonnet en Puntos de Referencia de Codificación con GPU de $500

Qué hace ATLAS
ATLAS (Adaptive Test-time Learning and Autonomous Specialization) es un marco que envuelve un modelo más pequeño congelado en una infraestructura inteligente para competir con los modelos API de vanguardia. Utiliza generación estructurada, verificación basada en energía y reparación autoverificada sin ajuste fino, llamadas API o dependencias en la nube. El sistema es completamente autohospedado sin que los datos salgan de la máquina.
Resultados de evaluación comparativa
Hardware: RTX 5060 Ti 16GB | Modelo: Qwen3-14B-Q4_K_M (congelado)
- LiveCodeBench v5: 74,6% de aprobación@1-v(k=3) en 599 tareas
- GPQA Diamond: 47,0% en 198 tareas de razonamiento de conocimiento de opción múltiple k=5
- SciCode: 14,7% en 341 tareas de codificación científica multidisciplinar k=1
Nota: aprobación@k-v(k=3) significa una solución enviada por tarea, generada mediante los mejores 3 candidatos + selección Lens + reparación iterativa en fallos. No es generación de un solo intento.
Desglose de la ablación de la tubería V3
- Línea base (sin V3): 54,9%
- +Fase 1 (PlanSearch + BudgetForcing + DivSampling): 67,3% (+12,4pp)
- +Fase 1+2 (enrutamiento Lens): 67,3% (+0,0pp)
- +Fase 1+3 (refinamiento autoverificado): 74,6% (+7,3pp)
La Fase 3 utiliza casos de prueba autogenerados para verificación interna — el modelo nunca ve la clave de respuestas durante la reparación. PR-CoT rescata 36/42 tareas (85,7% de los rescates de la Fase 3).
Comparación de costo y rendimiento
- DeepSeek V3.2 Reasoning: 86,2% aprobación LCB@1, ~$0,002/tarea (API, un solo intento)
- GPT-5 (alto): 84,6%, ~$0,043/tarea (API, un solo intento)
- ATLAS V3 (aprobación@1-v(k=3)): 74,6%, ~$0,004/tarea (solo electricidad local, mejores 3 + tubería de reparación)
- Claude 4.5 Sonnet: 71,4%, ~$0,066/tarea (API, un solo intento)
- Claude 4 Sonnet: 65,5%, ~$0,066/tarea (API, un solo intento)
Cálculo de costo de ATLAS: electricidad a $0,12/kWh (~165W GPU, ~1h 55m para 599 tareas). ATLAS intercambia latencia por costo — la tubería toma más tiempo por tarea que una única llamada API.
Cómo funciona
La tubería V3 tiene tres fases:
- Fase 1: Generar — PlanSearch con extracción de restricciones y planes diversos, Budget Forcing con control de tokens de pensamiento
- Verificar — Geometric Lens con puntuación de energía (autoincrustaciones de 5120 dimensiones) y ejecución de código en sandbox
- Fase 3: Reparar — Generación de autopruebas con pares E/S generados por el modelo y Reparación PR-CoT con cadena de pensamiento multiperspectiva
El flujo de trabajo: PlanSearch → Budget Forcing → k=3 candidatos → Geometric Lens → ordenados por energía → Sandbox → si todos fallan → Generación de autopruebas → Reparación PR-CoT → código reparado → Sandbox.
Un único servidor llama parcheado se ejecuta en K3s, proporcionando tanto generación con ejecución especulativa como servicios de incrustación.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

El Protocolo AVP Permite que los Agentes LLM Compartan la Caché KV en Lugar de Texto para Mayor Eficiencia de Tokens
AVP (Protocolo de Vectores de Agente) permite que los agentes LLM pasen la caché KV directamente entre ellos en lugar de texto, reduciendo el procesamiento de tokens en un 73-78% y logrando aceleraciones de 2-4x en los modelos Qwen, Llama y DeepSeek. El protocolo funciona con conectores de HuggingFace y vLLM y está disponible como un paquete de Python.

Conectando OpenClaw a Qwen2.5: Viabilidad y Consideraciones
Explora la posibilidad de conectar OpenClaw a un modelo local de Qwen2.5 Coder con 7 mil millones de parámetros para abordar los límites de tasa con API Gemini 3.

ClawMetry: Panel de Observabilidad de Código Abierto para Agentes OpenClaw
ClawMetry es un panel de observabilidad de código abierto para agentes OpenClaw que proporciona actividad de sesión en vivo, seguimiento de costos de tokens, detección de cambios en archivos de memoria y alertas de sesiones bloqueadas. Se ejecuta localmente con pip install clawmetry y fue construido utilizando OpenClaw mismo.

Presentamos Xrouter: Un enrutador híbrido inteligente de LLM para optimizar costos y rendimiento.
Descubre Xrouter, una creación de código abierto que integra dinámicamente la inferencia local con la de la nube, diseñada para reducir los costos de la IA mientras aumenta la eficiencia.