PhAIL Benchmark Évalue les Modèles VLA sur des Tâches Réelles de Robotique d'Entrepôt

✍️ OpenClawRadar📅 Publié: April 1, 2026🔗 Source

PhAIL est un benchmark d'IA physique qui mesure la performance des modèles vision-langage-action (VLA) sur des tâches robotiques commerciales. Son créateur l'a développé car il ne trouvait pas de chiffres de performance honnêtes pour ces modèles dans des applications pratiques.

Détails du benchmark

Le benchmark teste quatre modèles VLA sur la préparation de commandes entre bacs, l'une des opérations d'entrepôt les plus courantes :

OpenPI/pi0.5
GR00T
ACT
SmolVLA

Tous les tests utilisent le même équipement : un robot Franka FR3 avec une pince Robotiq 2F-85 (configuration DROID), avec des objets identiques sur des centaines d'exécutions à l'aveugle où l'opérateur ne sait pas quel modèle fonctionne.

Résultats de performance

Le benchmark a révélé des écarts de performance significatifs :

Performance du meilleur modèle : 64 unités par heure (UPH)
Humain téléopérant le même robot : 330 UPH
Humain effectuant la tâche manuellement : plus de 1 300 UPH

Données ouvertes et méthodologie

Tout du benchmark est disponible publiquement :

Chaque exécution avec vidéo synchronisée et données de télémétrie
Le jeu de données de fine-tuning utilisé pour l'entraînement
Les scripts d'entraînement
Un classement ouvert acceptant de nouvelles soumissions

Le créateur est disponible pour répondre aux questions sur la méthodologie, les modèles spécifiques testés ou les observations tirées des exécutions du benchmark.

📖 Read the full source: HN AI Agents

👀 See Also

Tools

Forge : Un système de mémoire pour Claude Code construit avec Claude Code

Un développeur a créé Forge, un serveur MCP monorepo TypeScript qui capture automatiquement les décisions, contraintes et rejets des conversations avec Claude Code. Il utilise un pipeline en six étapes pour classer, extraire et persister des données structurées dans un modèle SQLite basé sur les événements.

Mar 11, 2026, 04:45 AM UTC

OpenClawRadar

Tools

OpenClaw Smart Router Open-Sourced pour la Sélection Automatique de Modèles

Un développeur a rendu open source un Routeur Intelligent pour OpenClaw qui classe automatiquement les requêtes par complexité et les achemine vers les modèles optimaux, permettant d'économiser 60 à 80 % sur les coûts d'API par rapport à l'utilisation systématique de modèles premium comme Claude ou GPT-4o.

Mar 16, 2026, 05:45 PM UTC

OpenClawRadar

Tools

Serveur MCP TradingView Permet à Claude de Tester des Stratégies de Trading en Arrière-plan

Un développeur a publié un serveur MCP qui permet à Claude de tester en arrière six stratégies de trading en utilisant les données de Yahoo Finance sans clés API. La configuration implique d'ajouter une ligne au fichier claude_desktop_config.json.

Mar 29, 2026, 05:45 AM UTC

OpenClawRadar

Tools

Utiliser un LLM local comme sous-agent de code Claude pour réduire l'utilisation du contexte

Un utilisateur de Reddit démontre comment Claude Code peut déléguer des tâches à un LLM local fonctionnant via LM Studio, en gardant le contenu des fichiers hors du contexte de Claude. La configuration utilise un script Python d'environ 120 lignes avec l'API d'appel d'outils de LM Studio pour gérer les opérations sur fichiers localement.

Mar 2, 2026, 01:45 PM UTC

OpenClawRadar