PhAILベンチマークは、実際の倉庫ロボットタスクでVLAモデルをテストします

✍️ OpenClawRadar📅 公開日: April 1, 2026🔗 Source

PhAILベンチマークは、実際の倉庫ロボットタスクでVLAモデルをテストします

Ad

PhAILは、視覚言語行動（VLA）モデルが商用ロボティクスタスクでどの程度の性能を発揮するかを測定する物理AIベンチマークです。作成者は、これらのモデルの実用的な応用における正直な性能数値を見つけられなかったため、これを構築しました。

ベンチマーク詳細

このベンチマークは、最も一般的な倉庫作業の1つであるビン間のオーダーピッキングにおいて、4つのVLAモデルをテストします：

OpenPI/pi0.5
GR00T
ACT
SmolVLA

すべてのテストは同じ機器を使用します：Robotiq 2F-85グリッパーを備えたFranka FR3ロボット（DROIDセットアップ）で、オペレーターがどのモデルが実行されているか知らない数百回のブラインドランで同一のオブジェクトを使用します。

性能結果

ベンチマークは、大きな性能差を明らかにしました：

最高のモデル性能：1時間あたり64ユニット（UPH）
同じロボットを人間が遠隔操作：330 UPH
人間が手作業でタスクを実行：1,300+ UPH

オープンデータと方法論

ベンチマークからのすべてが公開されています：

同期されたビデオとテレメトリデータを含むすべての実行
トレーニングに使用された微調整データセット
トレーニングスクリプト
新しい提出を受け付けるオープンリーダーボード

作成者は、方法論、テストされた特定のモデル、またはベンチマーク実行からの観察に関する質問に答えることができます。

📖 Read the full source: HN AI Agents

Ad

👀 See Also

177のOpenClaw SOUL.mdテンプレートを24のカテゴリに分類したコレクション

177のOpenClaw SOUL.mdテンプレートを24のカテゴリに分類したコレクション

開発者が、マーケティング、開発、ビジネス、DevOps、財務、クリエイティブ、データ、セキュリティ、医療、法務、人事、教育など24のカテゴリーにわたるOpenClawエージェント向けの177のすぐに使えるSOUL.mdテンプレートをまとめました。すべてのテンプレートはMITライセンスで、GitHubで公開されています。

Mar 25, 2026, 05:45 PM UTC

Claude Code v2.1.59では、自動メモリ機能、コピーコマンド、およびシェルの改善が追加されました。

Claude Code v2.1.59では、自動メモリ機能、コピーコマンド、およびシェルの改善が追加されました。

Claude Code v2.1.59では、/memory管理による自動メモリへの自動コンテキスト保存、インタラクティブなコードブロック選択のための/copyコマンドの追加、複合bashコマンドのプレフィックス提案の改善が導入されました。

Feb 26, 2026, 03:45 AM UTC

Godmodeプラグインは、Claude Codeおよび他のAIコーディングエージェントに自律的な反復ループを追加します。

Godmodeプラグインは、Claude Codeおよび他のAIコーディングエージェントに自律的な反復ループを追加します。

Godmodeは、Claude Codeに自律的な測定・修正・検証ループを追加するオープンソースプラグインで、並列エージェント、失敗記憶、最適化、セキュリティ監査、TDDを含む126のスキルを備えています。Cursor、Codex、Gemini CLI、OpenCodeで動作します。

Apr 16, 2026, 11:07 AM UTC

Kstack: Kubernetes を監視・トラブルシューティングするための Claude Code 用スキルパック

Kstack: Kubernetes を監視・トラブルシューティングするための Claude Code 用スキルパック

Kstackは、Kubernetesクラスターの監視とトラブルシューティングのために、Claude Code（および他のAIエージェント）に/investigate、/audit-security、/cluster-statusなどのスラッシュコマンドを追加するオープンソースのスキルパックです。内部ではkubectl、Kubetail、Trivy、Plutoを使用しています。

May 8, 2026, 08:20 AM UTC