PhAILベンチマークは、実際の倉庫ロボットタスクでVLAモデルをテストします

PhAILは、視覚言語行動(VLA)モデルが商用ロボティクスタスクでどの程度の性能を発揮するかを測定する物理AIベンチマークです。作成者は、これらのモデルの実用的な応用における正直な性能数値を見つけられなかったため、これを構築しました。
ベンチマーク詳細
このベンチマークは、最も一般的な倉庫作業の1つであるビン間のオーダーピッキングにおいて、4つのVLAモデルをテストします:
- OpenPI/pi0.5
- GR00T
- ACT
- SmolVLA
すべてのテストは同じ機器を使用します:Robotiq 2F-85グリッパーを備えたFranka FR3ロボット(DROIDセットアップ)で、オペレーターがどのモデルが実行されているか知らない数百回のブラインドランで同一のオブジェクトを使用します。
性能結果
ベンチマークは、大きな性能差を明らかにしました:
- 最高のモデル性能:1時間あたり64ユニット(UPH)
- 同じロボットを人間が遠隔操作:330 UPH
- 人間が手作業でタスクを実行:1,300+ UPH
オープンデータと方法論
ベンチマークからのすべてが公開されています:
- 同期されたビデオとテレメトリデータを含むすべての実行
- トレーニングに使用された微調整データセット
- トレーニングスクリプト
- 新しい提出を受け付けるオープンリーダーボード
作成者は、方法論、テストされた特定のモデル、またはベンチマーク実行からの観察に関する質問に答えることができます。
📖 Read the full source: HN AI Agents
👀 See Also

クリエイティブ・エクセレンスプラグイン for Claude Code:インタラクション論によるアニメーション品質向上
Claude Code向けの新しいオープンソースプラグインは、ジェネリックなアニメーション生成に対処し、Claudeがコーディング前にモーションコンセプトを説明する必要がある「インタラクション・セオリー」アプローチを実装しています。このプラグインには、GSAP、Framer Motion、CSSアニメーション、および研究したリポジトリからのデザイン原則をカバーする8つのサブスキルが含まれています。

ClawMetry:OpenClawエージェント向けオープンソース監視ダッシュボード
ClawMetryは、OpenClawエージェント向けのオープンソースの可観測性ダッシュボードで、ライブセッションアクティビティ、トークンコストの追跡、メモリファイルの変更検出、およびスタックセッションアラートを提供します。pip install clawmetryでローカルで実行され、OpenClaw自体を使用して構築されました。

レッドクイーン:Claude Codeをワーカープールとして動作させる決定論的オーケストレーター
Red Queenはステートマシンを使ってClaude Codeのサブプロセスを orchestrate し、LLMのルーティングエラーとメガプロンプトによるトークン浪費を排除します。

OpenClawプラグインのカテゴリーとその実用的な機能
Redditの投稿では、OpenClawプラグインを機能別に分類し、秘密の漏洩防止用のcommit-guard、脆弱性スキャン用のdep-audit、階層型メモリ管理用のcortex-memoryなどの具体的なツールをリストアップしています。