PhAIL Benchmark Проверяет Модели VLA на Реальных Задачах Складских Роботов

✍️ OpenClawRadar📅 Опубликовано: 1 апреля 2026 г.🔗 Source
PhAIL Benchmark Проверяет Модели VLA на Реальных Задачах Складских Роботов
Ad

PhAIL — это физический ИИ-бенчмарк, который оценивает, насколько хорошо модели «зрение-язык-действие» (VLA) справляются с коммерческими задачами в робототехнике. Его создали потому, что не смогли найти честных данных о производительности таких моделей в практических применениях.

Детали бенчмарка

Бенчмарк тестирует четыре модели VLA на задаче подбора заказов из ящика в ящик — одной из самых распространённых операций на складе:

  • OpenPI/pi0.5
  • GR00T
  • ACT
  • SmolVLA

Все тесты используют одинаковое оборудование: робот Franka FR3 с захватом Robotiq 2F-85 (настройка DROID), с одними и теми же объектами в сотнях слепых прогонов, где оператор не знает, какая модель работает.

Ad

Результаты производительности

Бенчмарк выявил значительные разрывы в производительности:

  • Лучшая модель: 64 единицы в час (UPH)
  • Человек, телеуправляющий тем же роботом: 330 UPH
  • Человек, выполняющий задачу вручную: более 1300 UPH

Открытые данные и методология

Всё из бенчмарка находится в открытом доступе:

  • Каждый прогон с синхронизированными видео и телеметрическими данными
  • Набор данных для дообучения, использованный при тренировке
  • Скрипты для обучения
  • Открытая таблица лидеров, принимающая новые заявки

Создатель готов ответить на вопросы о методологии, конкретных протестированных моделях или наблюдениях из прогонов бенчмарка.

📖 Read the full source: HN AI Agents

Ad

👀 Смотрите также

Клод Сыщик: 56-шаговая рабочая процедура для расследований с помощью Claude AI
Инструменты

Клод Сыщик: 56-шаговая рабочая процедура для расследований с помощью Claude AI

Claude Sleuth — это структурированный рабочий процесс для расследований в Claude AI, состоящий из 6 этапов и 56 задач. Он включает постоянное хранение состояния через Cloudflare D1 и стандартизированные соглашения о выводе данных, такие как временные метки ISO 8601, записи сущностей по схеме POLE и вероятностный язык ICD 203.

OpenClawRadar
Jan-Code-4B: Облегченная модель, настроенная для работы с кодом, предназначенная для локальной разработки
Инструменты

Jan-Code-4B: Облегченная модель, настроенная для работы с кодом, предназначенная для локальной разработки

Команда Jan выпустила Jan-Code-4B — модель с 4 миллиардами параметров, настроенную для работы с кодом, на основе Jan-v3-4B-base-instruct. Она предназначена как прямая замена модели Haiku в Claude Code, предлагая улучшенную помощь в программировании при локальном запуске.

OpenClawRadar
PayClaw запускает песочницу для платежного MCP-сервера с виртуальными картами Visa.
Инструменты

PayClaw запускает песочницу для платежного MCP-сервера с виртуальными картами Visa.

PayClaw запустил песочную среду для своего платежного MCP-сервера, предлагая виртуальные карты Visa, привязанные к конкретным продавцам, со сроком действия 15 минут, требующие многофакторной аутентификации и одобрения человеком для каждой транзакции, а также декларацию намерения перед выпуском карты. Карты для реального использования запланированы к запуску 4 марта.

OpenClawRadar
Поддержка MCP объединена в llama.cpp с новыми функциями веб-интерфейса
Инструменты

Поддержка MCP объединена в llama.cpp с новыми функциями веб-интерфейса

Запрос на включение изменений (pull request) для Model Context Protocol (MCP) в проект llama.cpp был принят в основную ветку репозитория. Это добавляет поддержку MCP, возможность вызова инструментов, агентский цикл и селектор сервера на стороне llama-server/WebUI.

OpenClawRadar