PhAIL 벤치마크, 실제 창고 로봇 작업에서 VLA 모델 성능 평가

PhAIL은 비전-언어-액션(VLA) 모델이 상업용 로봇 공학 작업에서 얼마나 잘 수행하는지 측정하는 물리적 AI 벤치마크입니다. 제작자는 이러한 모델들의 실제 응용 분야에서 정직한 성능 수치를 찾을 수 없어 이를 구축했습니다.
벤치마크 세부사항
이 벤치마크는 가장 일반적인 창고 작업 중 하나인 빈-투-빈 주문 피킹 작업에서 4가지 VLA 모델을 테스트합니다:
- OpenPI/pi0.5
- GR00T
- ACT
- SmolVLA
모든 테스트는 동일한 장비를 사용합니다: Robotiq 2F-85 그리퍼(DROID 설정)가 장착된 Franka FR3 로봇으로, 운영자가 어떤 모델이 실행 중인지 모르는 수백 번의 블라인드 실행에서 동일한 객체를 사용합니다.
성능 결과
벤치마크는 상당한 성능 격차를 드러냈습니다:
- 최고 모델 성능: 시간당 64개 단위(UPH)
- 동일한 로봇을 인간이 원격 조작: 330 UPH
- 인간이 수동으로 작업 수행: 1,300+ UPH
공개 데이터 및 방법론
벤치마크의 모든 것이 공개적으로 이용 가능합니다:
- 동기화된 비디오 및 원격 측정 데이터가 포함된 모든 실행
- 훈련에 사용된 미세 조정 데이터셋
- 훈련 스크립트
- 새로운 제출을 받아들이는 공개 리더보드
제작자는 방법론, 테스트된 특정 모델, 또는 벤치마크 실행 관찰에 관한 질문에 답변할 수 있습니다.
📖 Read the full source: HN AI Agents
👀 See Also

스킬스게이트: AI 코딩 에이전트 스킬을 위한 오픈소스 마켓플레이스
SkillsGate는 Claude Code, Cursor, Windsurf와 같은 AI 코딩 에이전트를 위한 45,000개 이상의 스킬을 인덱싱하는 오픈 소스 마켓플레이스입니다. 벡터 임베딩을 통한 의미론적 검색과 npx를 통한 원-커맨드 설치를 제공합니다.

다트 AI 생산성 앱 리뷰: OpenClaw 통합 기능 포함
한 사용자가 생산성을 위해 Things에서 Dart AI로 전환한 경험을 공유했습니다. Getting Things Done 방법론을 완벽하게 구현하기 위해 OpenClaw에 대한 완전한 접근성을 제공하는 Dart AI가 더 우수하다고 평가했지만, UI 문제와 초기 설정 복잡성은 지적했습니다.

오픈소스 PR 리뷰 에이전트 PrixAI, CodeRabbit 대비 6배 저렴한 비용으로 심어진 버그 10/10개 전부 탐지
Reddit 사용자가 PrixAI를 개발했습니다. 이는 로컬/저렴한 추론 모델을 사용해 CodeRabbit의 기능을 6배 저렴한 비용으로 제공하는 오픈소스 PR 리뷰 에이전트로, 테스트 PR에서 의도적으로 심은 10개의 문제를 모두 탐지했습니다.

팀아웃 AI 에이전트 - 기업 워크숍 기획
TeamOut은 대화를 통해 회사 행사를 계획하는 AI 에이전트를 출시했습니다. 이 시스템은 장소 선정, 업체 협조, 항공료 추정, 일정 구성 및 프로젝트 관리를 처리하며, 여러 LLM과 특화 도구를 사용해 계획을 상태 기반 조정 문제로 관리합니다.