PhAIL Benchmark Testa Modelos VLA em Tarefas Reais de Robôs de Armazém

PhAIL é um benchmark de IA física que mede o desempenho de modelos visão-linguagem-ação (VLA) em tarefas de robótica comercial. O criador o desenvolveu porque não conseguia encontrar números honestos de desempenho para esses modelos em aplicações práticas.
Detalhes do Benchmark
O benchmark testa quatro modelos VLA na separação de pedidos de caixa para caixa, uma das operações mais comuns em armazéns:
- OpenPI/pi0.5
- GR00T
- ACT
- SmolVLA
Todos os testes usam o mesmo equipamento: um robô Franka FR3 com garra Robotiq 2F-85 (configuração DROID), com objetos idênticos em centenas de execuções cegas onde o operador não sabe qual modelo está rodando.
Resultados de Desempenho
O benchmark revelou lacunas significativas de desempenho:
- Melhor desempenho do modelo: 64 unidades por hora (UPH)
- Humano teleoperando o mesmo robô: 330 UPH
- Humano executando a tarefa manualmente: mais de 1.300 UPH
Dados Abertos e Metodologia
Tudo do benchmark está disponível publicamente:
- Cada execução com vídeo sincronizado e dados de telemetria
- O conjunto de dados de fine-tuning usado para treinamento
- Scripts de treinamento
- Um ranking aberto que aceita novas submissões
O criador está disponível para responder perguntas sobre metodologia, os modelos específicos testados ou observações das execuções do benchmark.
📖 Read the full source: HN AI Agents
👀 See Also

Pilot Shell: Uma Camada de Fluxo de Trabalho Estruturada para Claude Code
Pilot Shell adiciona fluxos de trabalho orientados por especificações com TDD, ganchos de qualidade, engenharia de contexto e otimização de tokens sobre o Claude Code — sem a complexidade de frameworks multiagentes.

Claude-Control: Controle Remoto Móvel para Sessões de Código Claude
Claude-control é uma ferramenta de código aberto que permite gerenciar sessões do Claude Code pelo seu telefone via HTTPS e WebSocket. Ele executa o Claude Code em um PTY real dentro do tmux, detecta solicitações de permissão e envia notificações push com botões Permitir/Negar.

Comparação de Quatro Provedores de Hospedagem Gerenciada OpenClaw para 2026
Um desenvolvedor testou quatro provedores de hospedagem gerenciada do OpenClaw ao longo de dois meses, classificando-os com base no tempo de configuração, tempo de atividade, confiabilidade de integração, roteamento de modelos, custo e capacidade de lidar com tarefas de múltiplas etapas. O LobsterTank custa US$ 2/mês com hospedagem básica de contêineres, o KiwiClaw é US$ 39/mês com melhor suporte, o xCloud é US$ 24/mês com tempo de atividade sólido e o RunLobster é US$ 49/mês com integração extensiva de ferramentas e preço fixo.

Insights do Mundo Real sobre o Uso do OpenClaw com LLMs: Desafios e Limitações
Um usuário do OpenClaw descreve problemas de integração com LLMs, citando respostas sem sentido de um bot do Discord.