El Benchmark PhAIL Evalúa Modelos VLA en Tareas Reales de Robots de Almacén

✍️ OpenClawRadar📅 Publicado: 1 de abril de 2026🔗 Source
El Benchmark PhAIL Evalúa Modelos VLA en Tareas Reales de Robots de Almacén
Ad

PhAIL es un punto de referencia de IA física que mide qué tan bien los modelos de visión-lenguaje-acción (VLA) se desempeñan en tareas de robótica comercial. El creador lo desarrolló porque no pudo encontrar cifras de rendimiento honestas para estos modelos en aplicaciones prácticas.

Detalles del Punto de Referencia

El punto de referencia evalúa cuatro modelos VLA en la recolección de pedidos de contenedor a contenedor, una de las operaciones más comunes en almacenes:

  • OpenPI/pi0.5
  • GR00T
  • ACT
  • SmolVLA

Todas las pruebas utilizan el mismo equipo: un robot Franka FR3 con pinza Robotiq 2F-85 (configuración DROID), con objetos idénticos a lo largo de cientos de ejecuciones ciegas donde el operador no sabe qué modelo se está ejecutando.

Ad

Resultados de Rendimiento

El punto de referencia reveló brechas de rendimiento significativas:

  • Rendimiento del mejor modelo: 64 unidades por hora (UPH)
  • Humano teleoperando el mismo robot: 330 UPH
  • Humano realizando la tarea manualmente: más de 1,300 UPH

Datos Abiertos y Metodología

Todo del punto de referencia está disponible públicamente:

  • Cada ejecución con video sincronizado y datos de telemetría
  • El conjunto de datos de ajuste fino utilizado para el entrenamiento
  • Scripts de entrenamiento
  • Un ranking abierto que acepta nuevas presentaciones

El creador está disponible para responder preguntas sobre la metodología, los modelos específicos evaluados u observaciones de las ejecuciones del punto de referencia.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

VTCode: Un agente de codificación TUI en Rust que recorta agresivamente el contexto con fragmentación a nivel de AST
Herramientas

VTCode: Un agente de codificación TUI en Rust que recorta agresivamente el contexto con fragmentación a nivel de AST

VTCode es un agente de codificación TUI en Rust de código abierto que recorta agresivamente el contexto usando chunking a nivel de AST mediante ripgrep y ast-grep. Admite proveedores personalizados compatibles con OpenAI, sandboxing con macOS Seatbelt y Linux Landlock, y validación tree-sitter-bash en comandos generados.

OpenClawRadar
Resultados de Referencia: El Sistema de Enjambre de Agentes Claude con Memoria Muestra un Ahorro de Costos de Tokens del 30-43%
Herramientas

Resultados de Referencia: El Sistema de Enjambre de Agentes Claude con Memoria Muestra un Ahorro de Costos de Tokens del 30-43%

Un desarrollador probó un enjambre de 6 agentes Claude en una tarea de codificación de 40 puntos con y sin un sistema de memoria personalizado llamado Stompy. Los resultados muestran que Sonnet 4.6 con memoria obtuvo puntuaciones perfectas por $3.98 frente a $7.04 sin memoria, mientras que Haiku 4.5 falló completamente sin memoria pero obtuvo 39/40 con ella.

OpenClawRadar
monje: Una habilidad que silencia la narración del agente para ahorrar contexto y tokens
Herramientas

monje: Una habilidad que silencia la narración del agente para ahorrar contexto y tokens

Un usuario de Reddit publicó 'monk', una habilidad que elimina narraciones, preámbulos y posdatas de las respuestas del agente Claude, afirmando una reducción de ~54% en tokens de salida por turno y un 29-39% de ganancia en capacidad de contexto en 100 rondas.

OpenClawRadar
Zora: Agente de IA sin conexión por defecto con seguridad de denegación predeterminada y memoria local
Herramientas

Zora: Agente de IA sin conexión por defecto con seguridad de denegación predeterminada y memoria local

Zora es un agente de IA que funciona completamente sin conexión mediante Ollama de forma predeterminada, comienza con cero permisos de acceso y mantiene memoria persistente entre sesiones. Aborda problemas de seguridad y costos observados en otros agentes.

OpenClawRadar