PhAIL Benchmark Évalue les Modèles VLA sur des Tâches Réelles de Robotique d'Entrepôt

PhAIL est un benchmark d'IA physique qui mesure la performance des modèles vision-langage-action (VLA) sur des tâches robotiques commerciales. Son créateur l'a développé car il ne trouvait pas de chiffres de performance honnêtes pour ces modèles dans des applications pratiques.
Détails du benchmark
Le benchmark teste quatre modèles VLA sur la préparation de commandes entre bacs, l'une des opérations d'entrepôt les plus courantes :
- OpenPI/pi0.5
- GR00T
- ACT
- SmolVLA
Tous les tests utilisent le même équipement : un robot Franka FR3 avec une pince Robotiq 2F-85 (configuration DROID), avec des objets identiques sur des centaines d'exécutions à l'aveugle où l'opérateur ne sait pas quel modèle fonctionne.
Résultats de performance
Le benchmark a révélé des écarts de performance significatifs :
- Performance du meilleur modèle : 64 unités par heure (UPH)
- Humain téléopérant le même robot : 330 UPH
- Humain effectuant la tâche manuellement : plus de 1 300 UPH
Données ouvertes et méthodologie
Tout du benchmark est disponible publiquement :
- Chaque exécution avec vidéo synchronisée et données de télémétrie
- Le jeu de données de fine-tuning utilisé pour l'entraînement
- Les scripts d'entraînement
- Un classement ouvert acceptant de nouvelles soumissions
Le créateur est disponible pour répondre aux questions sur la méthodologie, les modèles spécifiques testés ou les observations tirées des exécutions du benchmark.
📖 Read the full source: HN AI Agents
👀 See Also

Utilisateur de Reddit Partage un Outil d'IA pour Collecter les Soldes de Comptes Financiers
Un post Reddit sur r/openclaw présente un agent d'IA conçu pour rationaliser la collecte des soldes de comptes financiers en utilisant Python. Les utilisateurs discutent du potentiel d'automatisation via des scripts personnalisés exploitant des API comme Plaid.

Rappel : Un serveur MCP de mémoire persistante pour Claude Code
Recall est un serveur MCP open-source qui donne à Claude Code une mémoire persistante entre les sessions via une recherche sémantique avec des embeddings. Il comprend quatre crochets de cycle de vie : session-start, observe, pre-compact et session-end.

Plugin Peek pour Claude Code : Navigation Automatique dans la Mémoire de Session
Peek est un plugin Claude Code qui capture et injecte automatiquement les corrections et préférences des utilisateurs pour orienter l'assistant IA. Il utilise une recherche par fusion avec des embeddings, BM25, une décroissance temporelle et des filtres de métadonnées pour fournir un contexte pertinent sans sollicitation manuelle.

Fonctionnalité de Mémoire de Session Introduite dans Claude Code
Claude Code inclut désormais une fonctionnalité 'Mémoire de Session' qui génère et maintient des résumés de session dans des fichiers summary.md. Débloquez-la avec tweakcc pour les sessions interactives dépassant certains seuils de tokens et d'appels d'outils.