PhAIL Benchmark Проверяет Модели VLA на Реальных Задачах Складских Роботов

PhAIL — это физический ИИ-бенчмарк, который оценивает, насколько хорошо модели «зрение-язык-действие» (VLA) справляются с коммерческими задачами в робототехнике. Его создали потому, что не смогли найти честных данных о производительности таких моделей в практических применениях.
Детали бенчмарка
Бенчмарк тестирует четыре модели VLA на задаче подбора заказов из ящика в ящик — одной из самых распространённых операций на складе:
- OpenPI/pi0.5
- GR00T
- ACT
- SmolVLA
Все тесты используют одинаковое оборудование: робот Franka FR3 с захватом Robotiq 2F-85 (настройка DROID), с одними и теми же объектами в сотнях слепых прогонов, где оператор не знает, какая модель работает.
Результаты производительности
Бенчмарк выявил значительные разрывы в производительности:
- Лучшая модель: 64 единицы в час (UPH)
- Человек, телеуправляющий тем же роботом: 330 UPH
- Человек, выполняющий задачу вручную: более 1300 UPH
Открытые данные и методология
Всё из бенчмарка находится в открытом доступе:
- Каждый прогон с синхронизированными видео и телеметрическими данными
- Набор данных для дообучения, использованный при тренировке
- Скрипты для обучения
- Открытая таблица лидеров, принимающая новые заявки
Создатель готов ответить на вопросы о методологии, конкретных протестированных моделях или наблюдениях из прогонов бенчмарка.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Клод Сыщик: 56-шаговая рабочая процедура для расследований с помощью Claude AI
Claude Sleuth — это структурированный рабочий процесс для расследований в Claude AI, состоящий из 6 этапов и 56 задач. Он включает постоянное хранение состояния через Cloudflare D1 и стандартизированные соглашения о выводе данных, такие как временные метки ISO 8601, записи сущностей по схеме POLE и вероятностный язык ICD 203.

Jan-Code-4B: Облегченная модель, настроенная для работы с кодом, предназначенная для локальной разработки
Команда Jan выпустила Jan-Code-4B — модель с 4 миллиардами параметров, настроенную для работы с кодом, на основе Jan-v3-4B-base-instruct. Она предназначена как прямая замена модели Haiku в Claude Code, предлагая улучшенную помощь в программировании при локальном запуске.

PayClaw запускает песочницу для платежного MCP-сервера с виртуальными картами Visa.
PayClaw запустил песочную среду для своего платежного MCP-сервера, предлагая виртуальные карты Visa, привязанные к конкретным продавцам, со сроком действия 15 минут, требующие многофакторной аутентификации и одобрения человеком для каждой транзакции, а также декларацию намерения перед выпуском карты. Карты для реального использования запланированы к запуску 4 марта.

Поддержка MCP объединена в llama.cpp с новыми функциями веб-интерфейса
Запрос на включение изменений (pull request) для Model Context Protocol (MCP) в проект llama.cpp был принят в основную ветку репозитория. Это добавляет поддержку MCP, возможность вызова инструментов, агентский цикл и селектор сервера на стороне llama-server/WebUI.