PhAIL Benchmark: 4 модели VLA на задачах складских роботов

PhAIL — это физический ИИ-бенчмарк, который оценивает, насколько хорошо модели «зрение-язык-действие» (VLA) справляются с коммерческими задачами в робототехнике. Его создали потому, что не смогли найти честных данных о производительности таких моделей в практических применениях.

Детали бенчмарка

Бенчмарк тестирует четыре модели VLA на задаче подбора заказов из ящика в ящик — одной из самых распространённых операций на складе:

OpenPI/pi0.5
GR00T
ACT
SmolVLA

Все тесты используют одинаковое оборудование: робот Franka FR3 с захватом Robotiq 2F-85 (настройка DROID), с одними и теми же объектами в сотнях слепых прогонов, где оператор не знает, какая модель работает.

Результаты производительности

Бенчмарк выявил значительные разрывы в производительности:

Лучшая модель: 64 единицы в час (UPH)
Человек, телеуправляющий тем же роботом: 330 UPH
Человек, выполняющий задачу вручную: более 1300 UPH

Открытые данные и методология

Всё из бенчмарка находится в открытом доступе:

Каждый прогон с синхронизированными видео и телеметрическими данными
Набор данных для дообучения, использованный при тренировке
Скрипты для обучения
Открытая таблица лидеров, принимающая новые заявки

Создатель готов ответить на вопросы о методологии, конкретных протестированных моделях или наблюдениях из прогонов бенчмарка.

📖 Read the full source: HN AI Agents

PhAIL Benchmark Проверяет Модели VLA на Реальных Задачах Складских Роботов

Детали бенчмарка

Результаты производительности

Открытые данные и методология

👀 Смотрите также

Engram: Гибридный плагин памяти для агентов OpenClaw — Векторный + Семантический поиск с затуханием

the-knowledge-guy: Превратите свою книжную полку в репетитора с помощью навыков Claude Code

md-redline: графический инструмент для проверки и передачи документов в формате Markdown в Claude

Coding-Flashcards: 800+ карточек Anki для Rust, SQLite, Godot и Wolfram Language