El Benchmark PhAIL Evalúa Modelos VLA en Tareas Reales de Robots de Almacén

PhAIL es un punto de referencia de IA física que mide qué tan bien los modelos de visión-lenguaje-acción (VLA) se desempeñan en tareas de robótica comercial. El creador lo desarrolló porque no pudo encontrar cifras de rendimiento honestas para estos modelos en aplicaciones prácticas.
Detalles del Punto de Referencia
El punto de referencia evalúa cuatro modelos VLA en la recolección de pedidos de contenedor a contenedor, una de las operaciones más comunes en almacenes:
- OpenPI/pi0.5
- GR00T
- ACT
- SmolVLA
Todas las pruebas utilizan el mismo equipo: un robot Franka FR3 con pinza Robotiq 2F-85 (configuración DROID), con objetos idénticos a lo largo de cientos de ejecuciones ciegas donde el operador no sabe qué modelo se está ejecutando.
Resultados de Rendimiento
El punto de referencia reveló brechas de rendimiento significativas:
- Rendimiento del mejor modelo: 64 unidades por hora (UPH)
- Humano teleoperando el mismo robot: 330 UPH
- Humano realizando la tarea manualmente: más de 1,300 UPH
Datos Abiertos y Metodología
Todo del punto de referencia está disponible públicamente:
- Cada ejecución con video sincronizado y datos de telemetría
- El conjunto de datos de ajuste fino utilizado para el entrenamiento
- Scripts de entrenamiento
- Un ranking abierto que acepta nuevas presentaciones
El creador está disponible para responder preguntas sobre la metodología, los modelos específicos evaluados u observaciones de las ejecuciones del punto de referencia.
📖 Read the full source: HN AI Agents
👀 Ver también

VTCode: Un agente de codificación TUI en Rust que recorta agresivamente el contexto con fragmentación a nivel de AST
VTCode es un agente de codificación TUI en Rust de código abierto que recorta agresivamente el contexto usando chunking a nivel de AST mediante ripgrep y ast-grep. Admite proveedores personalizados compatibles con OpenAI, sandboxing con macOS Seatbelt y Linux Landlock, y validación tree-sitter-bash en comandos generados.

Resultados de Referencia: El Sistema de Enjambre de Agentes Claude con Memoria Muestra un Ahorro de Costos de Tokens del 30-43%
Un desarrollador probó un enjambre de 6 agentes Claude en una tarea de codificación de 40 puntos con y sin un sistema de memoria personalizado llamado Stompy. Los resultados muestran que Sonnet 4.6 con memoria obtuvo puntuaciones perfectas por $3.98 frente a $7.04 sin memoria, mientras que Haiku 4.5 falló completamente sin memoria pero obtuvo 39/40 con ella.

monje: Una habilidad que silencia la narración del agente para ahorrar contexto y tokens
Un usuario de Reddit publicó 'monk', una habilidad que elimina narraciones, preámbulos y posdatas de las respuestas del agente Claude, afirmando una reducción de ~54% en tokens de salida por turno y un 29-39% de ganancia en capacidad de contexto en 100 rondas.

Zora: Agente de IA sin conexión por defecto con seguridad de denegación predeterminada y memoria local
Zora es un agente de IA que funciona completamente sin conexión mediante Ollama de forma predeterminada, comienza con cero permisos de acceso y mantiene memoria persistente entre sesiones. Aborda problemas de seguridad y costos observados en otros agentes.