Estagiário de física da Hugging Face: Framework multiagente dobra Gemini no benchmark CritPt

✍️ OpenClawRadar📅 Publicado: May 12, 2026🔗 Source
Ad

Hugging Face lançou physics-intern, um framework multiagente de código aberto projetado para pesquisa em física teórica. Ele imita o processo de pesquisa científica ao decompor problemas complexos em tarefas focadas, distribuídas para subagentes especializados — incluindo agentes de computação, revisão de alegações e desafio de estratégia de pesquisa.

Arquitetura e Fluxo de Trabalho

O framework decompõe problemas de nível de pesquisa em várias subtarefas, cada uma tratada por um subagente dedicado:

  • Agente de computação: Lida com cálculos numéricos e simulações.
  • Agente de revisão: Avalia alegações quanto à correção e consistência.
  • Agente de desafio de estratégia: Critica a direção geral da pesquisa e sugere alternativas.

Este arcabouço agêntico é projetado para ser independente de domínio, mas foi especificamente ajustado para física teórica.

Ad

Desempenho em Benchmarks

No benchmark CritPt (análise de pontos críticos em física), o physics-intern dobrou o desempenho dos modelos Gemini e alcançou um novo resultado de estado da arte, superando o GPT-5.5 Pro — tudo a um custo significativamente menor. Números específicos não foram detalhados na fonte, mas o ganho de desempenho é descrito como "dobro" e "novo SOTA".

Disponibilidade

O framework está disponível como um Hugging Face Space. A postagem do blog detalhando a arquitetura e as decisões de design pode ser encontrada no link abaixo. Contribuições e extensões da comunidade são incentivadas.

Para quem é: Pesquisadores e desenvolvedores que constroem fluxos de trabalho agênticos para domínios científicos, especialmente física teórica.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Caliby: Banco de Dados Vetorial Embarcado de Código Aberto para Agentes de IA com Armazenamento Híbrido de Texto + Vetor
Tools

Caliby: Banco de Dados Vetorial Embarcado de Código Aberto para Agentes de IA com Armazenamento Híbrido de Texto + Vetor

Caliby é um banco de dados vetorial embutido em C++ com bindings para Python (pip install caliby) que suporta índices HNSW, DiskANN e IVF+PQ, alega desempenho 4x superior ao pgvector e armazena nativamente texto junto com vetores para casos de uso de Agentes de IA/RAG.

OpenClawRadar
Roteamento do tráfego da API Claude para controlar custos após mudança na assinatura Max
Tools

Roteamento do tráfego da API Claude para controlar custos após mudança na assinatura Max

A assinatura Max da Anthropic não cobre mais o uso de ferramentas de terceiros, forçando os usuários do OpenClaw a usar cobrança por API. Um proxy de roteamento direciona tarefas simples para o Claude Sonnet (US$ 3/M entrada, US$ 15/M saída) e as complexas para o Opus (US$ 5/M entrada, US$ 25/M saída), reduzindo custos sem perda de qualidade.

OpenClawRadar
Servidor de Habilidades OpenClaw para Análise e Negociação no Mercado Indiano
Tools

Servidor de Habilidades OpenClaw para Análise e Negociação no Mercado Indiano

Um terminal de negociação de código aberto para mercados indianos foi integrado como um servidor de habilidades do OpenClaw, permitindo que agentes obtenham dados de mercado e executem análises multiagente via HTTP. O sistema fornece planos de negociação estruturados com preços de entrada, stop-losses e metas em três perfis de risco.

OpenClawRadar
Red Queen: Um Orquestrador Determinístico que Executa Claude Code como um Pool de Trabalhadores
Tools

Red Queen: Um Orquestrador Determinístico que Executa Claude Code como um Pool de Trabalhadores

Red Queen usa uma máquina de estado para orquestrar subprocessos do Claude Code, eliminando erros de roteamento de LLMs e desperdício de tokens com mega-prompts.

OpenClawRadar