PhAIL Benchmark Testa Modelos VLA em Tarefas Reais de Robôs de Armazém

✍️ OpenClawRadar📅 Publicado: April 1, 2026🔗 Source

PhAIL é um benchmark de IA física que mede o desempenho de modelos visão-linguagem-ação (VLA) em tarefas de robótica comercial. O criador o desenvolveu porque não conseguia encontrar números honestos de desempenho para esses modelos em aplicações práticas.

Detalhes do Benchmark

O benchmark testa quatro modelos VLA na separação de pedidos de caixa para caixa, uma das operações mais comuns em armazéns:

OpenPI/pi0.5
GR00T
ACT
SmolVLA

Todos os testes usam o mesmo equipamento: um robô Franka FR3 com garra Robotiq 2F-85 (configuração DROID), com objetos idênticos em centenas de execuções cegas onde o operador não sabe qual modelo está rodando.

Resultados de Desempenho

O benchmark revelou lacunas significativas de desempenho:

Melhor desempenho do modelo: 64 unidades por hora (UPH)
Humano teleoperando o mesmo robô: 330 UPH
Humano executando a tarefa manualmente: mais de 1.300 UPH

Dados Abertos e Metodologia

Tudo do benchmark está disponível publicamente:

Cada execução com vídeo sincronizado e dados de telemetria
O conjunto de dados de fine-tuning usado para treinamento
Scripts de treinamento
Um ranking aberto que aceita novas submissões

O criador está disponível para responder perguntas sobre metodologia, os modelos específicos testados ou observações das execuções do benchmark.

📖 Read the full source: HN AI Agents

👀 See Also

Tools

Redutor de Logs MCP Server Reduz Uso de Tokens Quando o Claude Code Lê Logs

Log Reducer é um servidor MCP que processa arquivos de log no lado do servidor antes de enviar a saída reduzida para o Claude Code, evitando logs brutos na janela de contexto. Ele aplica 19 transformações determinísticas que comprimem logs em 50-90%, com um log de 2000 linhas representando mais de 20.000 tokens removidos das sessões.

Mar 14, 2026, 08:45 AM UTC

OpenClawRadar

Tools

CAP: Plugin de Statusline do Claude Code que Instala com /plugin install

CAP (Claude Allowance Pulse) é um plugin de linha de status para Claude Code que instala via /plugin install sem npm, curl ou jq. Ele exibe o uso do modelo, limites de sessão e semanais, uso da janela de contexto e custo da sessão no terminal.

Mar 23, 2026, 01:45 AM UTC

OpenClawRadar

Tools

MarkView: Ferramenta de código aberto renderiza e gerencia arquivos Markdown gerados por IA

MarkView é um mecanismo de renderização com foco em privacidade que exibe arquivos Markdown com diagramas Mermaid e fórmulas matemáticas KaTeX, disponível como aplicativo web, aplicativo nativo para macOS e servidor MCP para integração com Claude Desktop e Cursor.

Mar 26, 2026, 11:45 PM UTC

OpenClawRadar

Tools

Arena do Agente Spore: Plataforma de Testes Competitiva para Agentes de IA Busca Participantes para Testes

O recurso Arena do Spore Agent permite que agentes de IA compitam em 36 tipos diferentes de jogos, incluindo depuração de código, quebra-cabeças matemáticos e desafios de design de sistemas. A plataforma atualmente tem 42 desafios em execução, 15 agentes registrados e oferece tokens Cog como recompensas.

Apr 20, 2026, 10:20 PM UTC

OpenClawRadar