ATLAS: Marco de Aprendizaje Adaptativo en Tiempo de Prueba Supera a Claude Sonnet en Puntos de Referencia de Codificación con GPU de $500

✍️ OpenClawRadar📅 Publicado: 27 de marzo de 2026🔗 Source
ATLAS: Marco de Aprendizaje Adaptativo en Tiempo de Prueba Supera a Claude Sonnet en Puntos de Referencia de Codificación con GPU de $500
Ad

Qué hace ATLAS

ATLAS (Adaptive Test-time Learning and Autonomous Specialization) es un marco que envuelve un modelo más pequeño congelado en una infraestructura inteligente para competir con los modelos API de vanguardia. Utiliza generación estructurada, verificación basada en energía y reparación autoverificada sin ajuste fino, llamadas API o dependencias en la nube. El sistema es completamente autohospedado sin que los datos salgan de la máquina.

Resultados de evaluación comparativa

Hardware: RTX 5060 Ti 16GB | Modelo: Qwen3-14B-Q4_K_M (congelado)

  • LiveCodeBench v5: 74,6% de aprobación@1-v(k=3) en 599 tareas
  • GPQA Diamond: 47,0% en 198 tareas de razonamiento de conocimiento de opción múltiple k=5
  • SciCode: 14,7% en 341 tareas de codificación científica multidisciplinar k=1

Nota: aprobación@k-v(k=3) significa una solución enviada por tarea, generada mediante los mejores 3 candidatos + selección Lens + reparación iterativa en fallos. No es generación de un solo intento.

Desglose de la ablación de la tubería V3

  • Línea base (sin V3): 54,9%
  • +Fase 1 (PlanSearch + BudgetForcing + DivSampling): 67,3% (+12,4pp)
  • +Fase 1+2 (enrutamiento Lens): 67,3% (+0,0pp)
  • +Fase 1+3 (refinamiento autoverificado): 74,6% (+7,3pp)

La Fase 3 utiliza casos de prueba autogenerados para verificación interna — el modelo nunca ve la clave de respuestas durante la reparación. PR-CoT rescata 36/42 tareas (85,7% de los rescates de la Fase 3).

Ad

Comparación de costo y rendimiento

  • DeepSeek V3.2 Reasoning: 86,2% aprobación LCB@1, ~$0,002/tarea (API, un solo intento)
  • GPT-5 (alto): 84,6%, ~$0,043/tarea (API, un solo intento)
  • ATLAS V3 (aprobación@1-v(k=3)): 74,6%, ~$0,004/tarea (solo electricidad local, mejores 3 + tubería de reparación)
  • Claude 4.5 Sonnet: 71,4%, ~$0,066/tarea (API, un solo intento)
  • Claude 4 Sonnet: 65,5%, ~$0,066/tarea (API, un solo intento)

Cálculo de costo de ATLAS: electricidad a $0,12/kWh (~165W GPU, ~1h 55m para 599 tareas). ATLAS intercambia latencia por costo — la tubería toma más tiempo por tarea que una única llamada API.

Cómo funciona

La tubería V3 tiene tres fases:

  1. Fase 1: Generar — PlanSearch con extracción de restricciones y planes diversos, Budget Forcing con control de tokens de pensamiento
  2. Verificar — Geometric Lens con puntuación de energía (autoincrustaciones de 5120 dimensiones) y ejecución de código en sandbox
  3. Fase 3: Reparar — Generación de autopruebas con pares E/S generados por el modelo y Reparación PR-CoT con cadena de pensamiento multiperspectiva

El flujo de trabajo: PlanSearch → Budget Forcing → k=3 candidatos → Geometric Lens → ordenados por energía → Sandbox → si todos fallan → Generación de autopruebas → Reparación PR-CoT → código reparado → Sandbox.

Un único servidor llama parcheado se ejecuta en K3s, proporcionando tanto generación con ejecución especulativa como servicios de incrustación.

📖 Leer la fuente completa: HN AI Agents

Ad

👀 Ver también

El Protocolo AVP Permite que los Agentes LLM Compartan la Caché KV en Lugar de Texto para Mayor Eficiencia de Tokens
Herramientas

El Protocolo AVP Permite que los Agentes LLM Compartan la Caché KV en Lugar de Texto para Mayor Eficiencia de Tokens

AVP (Protocolo de Vectores de Agente) permite que los agentes LLM pasen la caché KV directamente entre ellos en lugar de texto, reduciendo el procesamiento de tokens en un 73-78% y logrando aceleraciones de 2-4x en los modelos Qwen, Llama y DeepSeek. El protocolo funciona con conectores de HuggingFace y vLLM y está disponible como un paquete de Python.

OpenClawRadar
Conectando OpenClaw a Qwen2.5: Viabilidad y Consideraciones
Herramientas

Conectando OpenClaw a Qwen2.5: Viabilidad y Consideraciones

Explora la posibilidad de conectar OpenClaw a un modelo local de Qwen2.5 Coder con 7 mil millones de parámetros para abordar los límites de tasa con API Gemini 3.

OpenClawRadar
ClawMetry: Panel de Observabilidad de Código Abierto para Agentes OpenClaw
Herramientas

ClawMetry: Panel de Observabilidad de Código Abierto para Agentes OpenClaw

ClawMetry es un panel de observabilidad de código abierto para agentes OpenClaw que proporciona actividad de sesión en vivo, seguimiento de costos de tokens, detección de cambios en archivos de memoria y alertas de sesiones bloqueadas. Se ejecuta localmente con pip install clawmetry y fue construido utilizando OpenClaw mismo.

OpenClawRadar
Presentamos Xrouter: Un enrutador híbrido inteligente de LLM para optimizar costos y rendimiento.
Herramientas

Presentamos Xrouter: Un enrutador híbrido inteligente de LLM para optimizar costos y rendimiento.

Descubre Xrouter, una creación de código abierto que integra dinámicamente la inferencia local con la de la nube, diseñada para reducir los costos de la IA mientras aumenta la eficiencia.

OpenClawRadar