PhAIL 벤치마크, 실제 창고 로봇 작업에서 VLA 모델 성능 평가

✍️ OpenClawRadar📅 게시일: April 1, 2026🔗 Source

PhAIL 벤치마크, 실제 창고 로봇 작업에서 VLA 모델 성능 평가

Ad

PhAIL은 비전-언어-액션(VLA) 모델이 상업용 로봇 공학 작업에서 얼마나 잘 수행하는지 측정하는 물리적 AI 벤치마크입니다. 제작자는 이러한 모델들의 실제 응용 분야에서 정직한 성능 수치를 찾을 수 없어 이를 구축했습니다.

벤치마크 세부사항

이 벤치마크는 가장 일반적인 창고 작업 중 하나인 빈-투-빈 주문 피킹 작업에서 4가지 VLA 모델을 테스트합니다:

OpenPI/pi0.5
GR00T
ACT
SmolVLA

모든 테스트는 동일한 장비를 사용합니다: Robotiq 2F-85 그리퍼(DROID 설정)가 장착된 Franka FR3 로봇으로, 운영자가 어떤 모델이 실행 중인지 모르는 수백 번의 블라인드 실행에서 동일한 객체를 사용합니다.

성능 결과

벤치마크는 상당한 성능 격차를 드러냈습니다:

최고 모델 성능: 시간당 64개 단위(UPH)
동일한 로봇을 인간이 원격 조작: 330 UPH
인간이 수동으로 작업 수행: 1,300+ UPH

공개 데이터 및 방법론

벤치마크의 모든 것이 공개적으로 이용 가능합니다:

동기화된 비디오 및 원격 측정 데이터가 포함된 모든 실행
훈련에 사용된 미세 조정 데이터셋
훈련 스크립트
새로운 제출을 받아들이는 공개 리더보드

제작자는 방법론, 테스트된 특정 모델, 또는 벤치마크 실행 관찰에 관한 질문에 답변할 수 있습니다.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

APEX 테스트 벤치마크 결과: 실제 코딩 작업에서의 Qwen 3.5 성능

APEX 테스트 벤치마크 결과: 실제 코딩 작업에서의 Qwen 3.5 성능

APEX 테스트 벤치마크 결과는 Qwen 3.5 모델들의 70개 실제 GitHub 코딩 작업 성능을 보여주며, 397B 버전은 마스터 수준 작업에서 1194 ELO로 떨어지는 반면 GLM-4.7 양자화 버전이 1572 ELO로 로컬 모델 중 선두를 달리고 있습니다.

Feb 26, 2026, 05:45 AM UTC

LLM 스커미시: AI 코딩 에이전트를 위한 실시간 전략 게임 벤치마크

LLM 스커미시: AI 코딩 에이전트를 위한 실시간 전략 게임 벤치마크

LLM 스커미시는 AI 에이전트가 서로 대항하여 1대1 실시간 전략 게임을 플레이하는 코드를 작성하는 벤치마크입니다. 수정된 Screeps API를 사용하며, 다섯 차례의 토너먼트 라운드에 걸쳐 컨텍스트 내 학습을 테스트합니다.

Feb 25, 2026, 03:45 PM UTC

Wrangle: Claude 코드 세션 관리를 위한 네이티브 macOS 편집기

Wrangle: Claude 코드 세션 관리를 위한 네이티브 macOS 편집기

Wrangle은 여러 Claude Code 세션을 관리하기 위해 특별히 제작된 네이티브 macOS 마크다운 편집기로, 내장된 터미널과 스마트 알림 기능을 갖추고 있습니다. 개발자는 VS Code가 매일 많은 Claude Code 세션을 실행하는 자신의 워크플로우를 따라가지 못하는 것을 발견한 후 이 도구를 만들었습니다.

Apr 18, 2026, 09:45 AM UTC

Leanstral: Lean 4 및 형식적 증명 엔지니어링을 위한 오픈 소스 코드 에이전트

Leanstral: Lean 4 및 형식적 증명 엔지니어링을 위한 오픈 소스 코드 에이전트

Mistral AI가 Lean 4를 위해 설계된 첫 번째 오픈소스 코드 에이전트인 Leanstral을 공개했습니다. 이 모델은 60억 개의 활성 파라미터를 가지며 Apache 2.0 라이선스를 따릅니다. 벤치마크 결과에 따르면, 더 큰 오픈소스 모델들을 능가하며 상당히 낮은 비용으로 Claude에 필적하는 성능을 제공합니다.

Mar 17, 2026, 03:45 AM UTC