PhAIL Benchmark Testa Modelos VLA em Tarefas Reais de Robôs de Armazém

✍️ OpenClawRadar📅 Publicado: April 1, 2026🔗 Source
PhAIL Benchmark Testa Modelos VLA em Tarefas Reais de Robôs de Armazém
Ad

PhAIL é um benchmark de IA física que mede o desempenho de modelos visão-linguagem-ação (VLA) em tarefas de robótica comercial. O criador o desenvolveu porque não conseguia encontrar números honestos de desempenho para esses modelos em aplicações práticas.

Detalhes do Benchmark

O benchmark testa quatro modelos VLA na separação de pedidos de caixa para caixa, uma das operações mais comuns em armazéns:

  • OpenPI/pi0.5
  • GR00T
  • ACT
  • SmolVLA

Todos os testes usam o mesmo equipamento: um robô Franka FR3 com garra Robotiq 2F-85 (configuração DROID), com objetos idênticos em centenas de execuções cegas onde o operador não sabe qual modelo está rodando.

Ad

Resultados de Desempenho

O benchmark revelou lacunas significativas de desempenho:

  • Melhor desempenho do modelo: 64 unidades por hora (UPH)
  • Humano teleoperando o mesmo robô: 330 UPH
  • Humano executando a tarefa manualmente: mais de 1.300 UPH

Dados Abertos e Metodologia

Tudo do benchmark está disponível publicamente:

  • Cada execução com vídeo sincronizado e dados de telemetria
  • O conjunto de dados de fine-tuning usado para treinamento
  • Scripts de treinamento
  • Um ranking aberto que aceita novas submissões

O criador está disponível para responder perguntas sobre metodologia, os modelos específicos testados ou observações das execuções do benchmark.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Pilot Shell: Uma Camada de Fluxo de Trabalho Estruturada para Claude Code
Tools

Pilot Shell: Uma Camada de Fluxo de Trabalho Estruturada para Claude Code

Pilot Shell adiciona fluxos de trabalho orientados por especificações com TDD, ganchos de qualidade, engenharia de contexto e otimização de tokens sobre o Claude Code — sem a complexidade de frameworks multiagentes.

OpenClawRadar
Claude-Control: Controle Remoto Móvel para Sessões de Código Claude
Tools

Claude-Control: Controle Remoto Móvel para Sessões de Código Claude

Claude-control é uma ferramenta de código aberto que permite gerenciar sessões do Claude Code pelo seu telefone via HTTPS e WebSocket. Ele executa o Claude Code em um PTY real dentro do tmux, detecta solicitações de permissão e envia notificações push com botões Permitir/Negar.

OpenClawRadar
Comparação de Quatro Provedores de Hospedagem Gerenciada OpenClaw para 2026
Tools

Comparação de Quatro Provedores de Hospedagem Gerenciada OpenClaw para 2026

Um desenvolvedor testou quatro provedores de hospedagem gerenciada do OpenClaw ao longo de dois meses, classificando-os com base no tempo de configuração, tempo de atividade, confiabilidade de integração, roteamento de modelos, custo e capacidade de lidar com tarefas de múltiplas etapas. O LobsterTank custa US$ 2/mês com hospedagem básica de contêineres, o KiwiClaw é US$ 39/mês com melhor suporte, o xCloud é US$ 24/mês com tempo de atividade sólido e o RunLobster é US$ 49/mês com integração extensiva de ferramentas e preço fixo.

OpenClawRadar
Insights do Mundo Real sobre o Uso do OpenClaw com LLMs: Desafios e Limitações
Tools

Insights do Mundo Real sobre o Uso do OpenClaw com LLMs: Desafios e Limitações

Um usuário do OpenClaw descreve problemas de integração com LLMs, citando respostas sem sentido de um bot do Discord.

OpenClawRadar