PhAIL-Benchmark-Tests testen VLA-Modelle an echten Lagerhaus-Roboteraufgaben

✍️ OpenClawRadar📅 Veröffentlicht: 1. April 2026🔗 Source

PhAIL ist ein physischer KI-Benchmark, der misst, wie gut Vision-Language-Action (VLA)-Modelle bei kommerziellen Robotikaufgaben abschneiden. Der Ersteller entwickelte ihn, weil er keine ehrlichen Leistungsdaten für diese Modelle in praktischen Anwendungen finden konnte.

Benchmark-Details

Der Benchmark testet vier VLA-Modelle bei der Behälter-zu-Behälter-Kommissionierung, einer der häufigsten Lagerhausoperationen:

OpenPI/pi0.5
GR00T
ACT
SmolVLA

Alle Tests verwenden die gleiche Ausrüstung: einen Franka FR3 Roboter mit Robotiq 2F-85 Greifer (DROID-Setup), mit identischen Objekten über hunderte von Blindläufen, bei denen der Bediener nicht weiß, welches Modell gerade läuft.

Leistungsergebnisse

Der Benchmark zeigte erhebliche Leistungsunterschiede:

Beste Modellleistung: 64 Einheiten pro Stunde (UPH)
Menschliche Teleoperation desselben Roboters: 330 UPH
Menschliche manuelle Ausführung der Aufgabe: über 1.300 UPH

Offene Daten und Methodik

Alles vom Benchmark ist öffentlich verfügbar:

Jeder Lauf mit synchronisierten Video- und Telemetriedaten
Der Feinabstimmungsdatensatz, der für das Training verwendet wurde
Trainingsskripte
Eine offene Bestenliste, die neue Einreichungen akzeptiert

Der Ersteller steht für Fragen zur Methodik, den getesteten Modellen oder Beobachtungen aus den Benchmark-Läufen zur Verfügung.

📖 Read the full source: HN AI Agents

👀 Siehe auch

Werkzeuge

Fantastisches OpenClaw-Fähigkeiten-Repository bietet über 5.400 gefilterte Fähigkeiten

Ein GitHub-Repository namens awesome-openclaw-skills bietet über 1.715 produktionsreife Fähigkeiten, die KI-Agenten mit einem CLI-Befehl installieren können, gefiltert aus dem offiziellen OpenClaw Skills Registry.

30. März 2026, 21:45 UTC

OpenClawRadar

Werkzeuge

Skillware fügt prompt_rewriter für deterministische Token-Kompression in Claude API-Agenten-Schleifen hinzu

Skillware hat eine neue prompt_rewriter-Funktion integriert, die Prompts vor dem Senden an die Claude-API um 50-80% komprimiert, wodurch Kosten in agentenbasierten Schleifen reduziert werden, während das deterministische Komprimieren ein stabiles Verhalten gewährleistet.

25. März 2026, 15:45 UTC

OpenClawRadar

Werkzeuge

ArayCode: Desktop-CLI-Client für OpenClaw mit Sprachsteuerung, Multi-Agent-Hotkeys und Markdown-Benutzeroberfläche

ArayCode verwandelt OpenClaw in eine Desktop-CLI-App mit Sprach-I/O, Multi-Agent-Hotkeys, Themes und Markdown-UI auf Basis von Spectre.Console. Unterstützt Cloud- und lokale STT/TTS-Anbieter.

17. Juni 2026, 12:18 UTC

OpenClawRadar

Werkzeuge

Claude Code-Fähigkeit kombiniert Ansätze von DeepMind Aletheia und Anthropic Harness

Eine Claude Code-Fähigkeit implementiert eine Planner→Generator→Evaluator→Reviser-Pipeline, die DeepMinds Aletheia-Mathematik-Forschungsagenten mit Anthropics Multi-Agenten-Codearchitektur synthetisiert und dabei eine blinde Voranalyse hinzufügt, bei der der Evaluator über korrekte Ansätze nachdenkt, bevor er Kandidatencode sieht.

14. Apr. 2026, 18:29 UTC

OpenClawRadar