PhAIL Benchmark Évalue les Modèles VLA sur des Tâches Réelles de Robotique d'Entrepôt

✍️ OpenClawRadar📅 Publié: April 1, 2026🔗 Source
PhAIL Benchmark Évalue les Modèles VLA sur des Tâches Réelles de Robotique d'Entrepôt
Ad

PhAIL est un benchmark d'IA physique qui mesure la performance des modèles vision-langage-action (VLA) sur des tâches robotiques commerciales. Son créateur l'a développé car il ne trouvait pas de chiffres de performance honnêtes pour ces modèles dans des applications pratiques.

Détails du benchmark

Le benchmark teste quatre modèles VLA sur la préparation de commandes entre bacs, l'une des opérations d'entrepôt les plus courantes :

  • OpenPI/pi0.5
  • GR00T
  • ACT
  • SmolVLA

Tous les tests utilisent le même équipement : un robot Franka FR3 avec une pince Robotiq 2F-85 (configuration DROID), avec des objets identiques sur des centaines d'exécutions à l'aveugle où l'opérateur ne sait pas quel modèle fonctionne.

Ad

Résultats de performance

Le benchmark a révélé des écarts de performance significatifs :

  • Performance du meilleur modèle : 64 unités par heure (UPH)
  • Humain téléopérant le même robot : 330 UPH
  • Humain effectuant la tâche manuellement : plus de 1 300 UPH

Données ouvertes et méthodologie

Tout du benchmark est disponible publiquement :

  • Chaque exécution avec vidéo synchronisée et données de télémétrie
  • Le jeu de données de fine-tuning utilisé pour l'entraînement
  • Les scripts d'entraînement
  • Un classement ouvert acceptant de nouvelles soumissions

Le créateur est disponible pour répondre aux questions sur la méthodologie, les modèles spécifiques testés ou les observations tirées des exécutions du benchmark.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Utilisateur de Reddit Partage un Outil d'IA pour Collecter les Soldes de Comptes Financiers
Tools

Utilisateur de Reddit Partage un Outil d'IA pour Collecter les Soldes de Comptes Financiers

Un post Reddit sur r/openclaw présente un agent d'IA conçu pour rationaliser la collecte des soldes de comptes financiers en utilisant Python. Les utilisateurs discutent du potentiel d'automatisation via des scripts personnalisés exploitant des API comme Plaid.

OpenClawRadar
Rappel : Un serveur MCP de mémoire persistante pour Claude Code
Tools

Rappel : Un serveur MCP de mémoire persistante pour Claude Code

Recall est un serveur MCP open-source qui donne à Claude Code une mémoire persistante entre les sessions via une recherche sémantique avec des embeddings. Il comprend quatre crochets de cycle de vie : session-start, observe, pre-compact et session-end.

OpenClawRadar
Plugin Peek pour Claude Code : Navigation Automatique dans la Mémoire de Session
Tools

Plugin Peek pour Claude Code : Navigation Automatique dans la Mémoire de Session

Peek est un plugin Claude Code qui capture et injecte automatiquement les corrections et préférences des utilisateurs pour orienter l'assistant IA. Il utilise une recherche par fusion avec des embeddings, BM25, une décroissance temporelle et des filtres de métadonnées pour fournir un contexte pertinent sans sollicitation manuelle.

OpenClawRadar
Fonctionnalité de Mémoire de Session Introduite dans Claude Code
Tools

Fonctionnalité de Mémoire de Session Introduite dans Claude Code

Claude Code inclut désormais une fonctionnalité 'Mémoire de Session' qui génère et maintient des résumés de session dans des fichiers summary.md. Débloquez-la avec tweakcc pour les sessions interactives dépassant certains seuils de tokens et d'appels d'outils.

OpenClawRadar