PhAIL-Benchmark-Tests testen VLA-Modelle an echten Lagerhaus-Roboteraufgaben

PhAIL ist ein physischer KI-Benchmark, der misst, wie gut Vision-Language-Action (VLA)-Modelle bei kommerziellen Robotikaufgaben abschneiden. Der Ersteller entwickelte ihn, weil er keine ehrlichen Leistungsdaten für diese Modelle in praktischen Anwendungen finden konnte.
Benchmark-Details
Der Benchmark testet vier VLA-Modelle bei der Behälter-zu-Behälter-Kommissionierung, einer der häufigsten Lagerhausoperationen:
- OpenPI/pi0.5
- GR00T
- ACT
- SmolVLA
Alle Tests verwenden die gleiche Ausrüstung: einen Franka FR3 Roboter mit Robotiq 2F-85 Greifer (DROID-Setup), mit identischen Objekten über hunderte von Blindläufen, bei denen der Bediener nicht weiß, welches Modell gerade läuft.
Leistungsergebnisse
Der Benchmark zeigte erhebliche Leistungsunterschiede:
- Beste Modellleistung: 64 Einheiten pro Stunde (UPH)
- Menschliche Teleoperation desselben Roboters: 330 UPH
- Menschliche manuelle Ausführung der Aufgabe: über 1.300 UPH
Offene Daten und Methodik
Alles vom Benchmark ist öffentlich verfügbar:
- Jeder Lauf mit synchronisierten Video- und Telemetriedaten
- Der Feinabstimmungsdatensatz, der für das Training verwendet wurde
- Trainingsskripte
- Eine offene Bestenliste, die neue Einreichungen akzeptiert
Der Ersteller steht für Fragen zur Methodik, den getesteten Modellen oder Beobachtungen aus den Benchmark-Läufen zur Verfügung.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Femtobot: Effizienter Rust-Agent für ressourcensparende Umgebungen
Femtobot ist ein leichtgewichtiger, auf Rust basierender KI-Agent, der entwickelt wurde, um effizient auf ressourcenschwachen Maschinen, wie älteren Raspberry Pis, zu laufen, durch eine ~10MB große Binary ohne große Laufzeitabhängigkeiten.

PocketTeam: Eine Claude-Code-Pipeline mit Haken-basierter Sicherheit und lernenden Agenten
PocketTeam ist eine Claude Code-Pipeline, die 9 Sicherheitsebenen auf Tool-Call-Ebene implementiert, um gefährliche Operationen wie Schreibvorgänge in .env oder rm -rf-Befehle zu blockieren. Das System umfasst einen Observer-Agenten, der abgeschlossene Aufgaben analysiert und strukturierte Erkenntnisse schreibt, um die zukünftige Leistung der Agenten zu verbessern.

Selbstgehostete Speicherschicht für Claude läuft kostenlos auf Cloudflare
Ein Cloudflare Worker MCP Server ermöglicht Claude, Notizen zu merken und per semantischer Suche abzurufen, basierend auf Workers AI und Vectorize – alles in der kostenlosen Stufe.

Bibliothek mit 59 Open-Source-Claude-Fähigkeiten deckt den gesamten Website-Lebenszyklus ab
Ein Entwickler hat 59 wiederverwendbare Claude-Fähigkeiten veröffentlicht, die Markenfindung, Design, Content, SEO, Entwicklung, Betrieb und Wachstum abdecken – stack-agnostisch, mit einheitlicher Struktur und CI-Lint-Validierung.