Estagiário de física da Hugging Face: Framework multiagente dobra Gemini no benchmark CritPt

✍️ OpenClawRadar📅 Publicado: May 12, 2026🔗 Source

Hugging Face lançou physics-intern, um framework multiagente de código aberto projetado para pesquisa em física teórica. Ele imita o processo de pesquisa científica ao decompor problemas complexos em tarefas focadas, distribuídas para subagentes especializados — incluindo agentes de computação, revisão de alegações e desafio de estratégia de pesquisa.

Arquitetura e Fluxo de Trabalho

O framework decompõe problemas de nível de pesquisa em várias subtarefas, cada uma tratada por um subagente dedicado:

Agente de computação: Lida com cálculos numéricos e simulações.
Agente de revisão: Avalia alegações quanto à correção e consistência.
Agente de desafio de estratégia: Critica a direção geral da pesquisa e sugere alternativas.

Este arcabouço agêntico é projetado para ser independente de domínio, mas foi especificamente ajustado para física teórica.

Desempenho em Benchmarks

No benchmark CritPt (análise de pontos críticos em física), o physics-intern dobrou o desempenho dos modelos Gemini e alcançou um novo resultado de estado da arte, superando o GPT-5.5 Pro — tudo a um custo significativamente menor. Números específicos não foram detalhados na fonte, mas o ganho de desempenho é descrito como "dobro" e "novo SOTA".

Disponibilidade

O framework está disponível como um Hugging Face Space. A postagem do blog detalhando a arquitetura e as decisões de design pode ser encontrada no link abaixo. Contribuições e extensões da comunidade são incentivadas.

Para quem é: Pesquisadores e desenvolvedores que constroem fluxos de trabalho agênticos para domínios científicos, especialmente física teórica.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

Tools

Claude Code HUD: Painel de Terminal para Monitoramento de Sessões de Codificação com IA

claude-code-hud é um painel de terminal que fornece monitoramento em tempo real para sessões do Claude Code, mostrando o uso da janela de contexto, limites de taxa da API e alterações de arquivos sem exigir uma IDE. Execute-o com npx claude-code-hud.

Apr 20, 2026, 09:45 AM UTC

OpenClawRadar

Tools

Black LLAB: Arquitetura de Código Aberto para Roteamento Dinâmico de Modelos e Agentes de IA em Sandbox Docker

Um desenvolvedor disponibilizou em código aberto o Black LLAB, um sistema que utiliza o Mistral 3B para direcionar prompts entre modelos locais e na nuvem e executa agentes de IA em contêineres Docker isolados com integração OpenClaw.

Mar 18, 2026, 03:45 PM UTC

OpenClawRadar

Tools

VibeIndex.ai: Hub Pesquisável com Mais de 90 Mil Habilidades de IA, MCPs e Plugins com Verificação de Segurança

Um pesquisador de IA coreano criou o vibeindex.ai, um hub pesquisável que indexa mais de 90.000 habilidades de IA, servidores MCP e plugins com atualizações horárias e varredura de segurança usando o Cisco Skill Scanner em 17 categorias de ameaças.

Feb 24, 2026, 05:45 PM UTC

OpenClawRadar

Tools

Conversa Franca: Uma Habilidade Open-Source do Claude que Exige Feedback Honesto, Não Validação

Uma nova Skill open-source para Claude, chamada Straight Talk, faz com que Claude se recuse a validar ideias até entender a situação, gerando contra-argumentos e testando suposições.

Jun 14, 2026, 12:19 AM UTC

OpenClawRadar