El Benchmark PhAIL Evalúa Modelos VLA en Tareas Reales de Robots de Almacén

✍️ OpenClawRadar📅 Publicado: 1 de abril de 2026🔗 Source

PhAIL es un punto de referencia de IA física que mide qué tan bien los modelos de visión-lenguaje-acción (VLA) se desempeñan en tareas de robótica comercial. El creador lo desarrolló porque no pudo encontrar cifras de rendimiento honestas para estos modelos en aplicaciones prácticas.

Detalles del Punto de Referencia

El punto de referencia evalúa cuatro modelos VLA en la recolección de pedidos de contenedor a contenedor, una de las operaciones más comunes en almacenes:

OpenPI/pi0.5
GR00T
ACT
SmolVLA

Todas las pruebas utilizan el mismo equipo: un robot Franka FR3 con pinza Robotiq 2F-85 (configuración DROID), con objetos idénticos a lo largo de cientos de ejecuciones ciegas donde el operador no sabe qué modelo se está ejecutando.

Resultados de Rendimiento

El punto de referencia reveló brechas de rendimiento significativas:

Rendimiento del mejor modelo: 64 unidades por hora (UPH)
Humano teleoperando el mismo robot: 330 UPH
Humano realizando la tarea manualmente: más de 1,300 UPH

Datos Abiertos y Metodología

Todo del punto de referencia está disponible públicamente:

Cada ejecución con video sincronizado y datos de telemetría
El conjunto de datos de ajuste fino utilizado para el entrenamiento
Scripts de entrenamiento
Un ranking abierto que acepta nuevas presentaciones

El creador está disponible para responder preguntas sobre la metodología, los modelos específicos evaluados u observaciones de las ejecuciones del punto de referencia.

📖 Read the full source: HN AI Agents

👀 Ver también

Herramientas

Bucle de Revisión Intermodelo para Agentes de Codificación de IA Detecta Fallas Críticas en la Planificación

Un desarrollador construyó un sistema de revisión entre modelos donde un segundo modelo de IA revisa los planes de los agentes de codificación antes de su ejecución, detectando fallas críticas como fallos de reversión y agujeros de seguridad. La herramienta tiene licencia MIT e incluye un panel de control TUI.

16 abr 2026, 08:17 UTC

OpenClawRadar

Herramientas

Brain-MCP Documentos de Desarrollo Herramientas para Claude IA en Lugar de Humanos

Un desarrollador que mantiene el servidor Brain-MCP, que le da memoria a Claude entre conversaciones, descubrió que el principal consumidor de su documentación era Claude en lugar de lectores humanos en GitHub. Agregó una sección "Para Asistentes de IA" en la parte superior del README que contiene instrucciones de comportamiento en lugar de solo descripciones de herramientas.

23 mar 2026, 15:45 UTC

OpenClawRadar

Herramientas

Recuerdo Total: Grafo de Conocimiento Local para el Historial de Conversaciones de Código de Claude

Total Recall es un sistema de código abierto que ingiere las transcripciones de conversaciones JSONL de Claude Code en una base de datos SQLite con búsqueda de texto completo e incrustaciones vectoriales, haciendo que el historial de conversaciones sea buscable entre sesiones. Recupera extractos reales de conversaciones con contexto consciente del DAG e incluye un importador de ChatGPT.

6 abr 2026, 17:45 UTC

OpenClawRadar

Herramientas

AgentTransfer: Herramienta de Código Abierto Permite que los Agentes OpenClaw se Envíen Archivos por Correo Electrónico

AgentTransfer es un servidor open-source de un solo binario que asigna a cada agente de IA una dirección de correo electrónico y una carpeta, permitiendo compartir archivos entre instancias de OpenClaw mediante MCP. Soporta carga, envío, bandeja de entrada con long-poll y descarga con verificación SHA256.

13 jul 2026, 12:18 UTC

OpenClawRadar