Estagiário de física da Hugging Face: Framework multiagente dobra Gemini no benchmark CritPt
Hugging Face lançou physics-intern, um framework multiagente de código aberto projetado para pesquisa em física teórica. Ele imita o processo de pesquisa científica ao decompor problemas complexos em tarefas focadas, distribuídas para subagentes especializados — incluindo agentes de computação, revisão de alegações e desafio de estratégia de pesquisa.
Arquitetura e Fluxo de Trabalho
O framework decompõe problemas de nível de pesquisa em várias subtarefas, cada uma tratada por um subagente dedicado:
- Agente de computação: Lida com cálculos numéricos e simulações.
- Agente de revisão: Avalia alegações quanto à correção e consistência.
- Agente de desafio de estratégia: Critica a direção geral da pesquisa e sugere alternativas.
Este arcabouço agêntico é projetado para ser independente de domínio, mas foi especificamente ajustado para física teórica.
Desempenho em Benchmarks
No benchmark CritPt (análise de pontos críticos em física), o physics-intern dobrou o desempenho dos modelos Gemini e alcançou um novo resultado de estado da arte, superando o GPT-5.5 Pro — tudo a um custo significativamente menor. Números específicos não foram detalhados na fonte, mas o ganho de desempenho é descrito como "dobro" e "novo SOTA".
Disponibilidade
O framework está disponível como um Hugging Face Space. A postagem do blog detalhando a arquitetura e as decisões de design pode ser encontrada no link abaixo. Contribuições e extensões da comunidade são incentivadas.
Para quem é: Pesquisadores e desenvolvedores que constroem fluxos de trabalho agênticos para domínios científicos, especialmente física teórica.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Caliby: Banco de Dados Vetorial Embarcado de Código Aberto para Agentes de IA com Armazenamento Híbrido de Texto + Vetor
Caliby é um banco de dados vetorial embutido em C++ com bindings para Python (pip install caliby) que suporta índices HNSW, DiskANN e IVF+PQ, alega desempenho 4x superior ao pgvector e armazena nativamente texto junto com vetores para casos de uso de Agentes de IA/RAG.

Roteamento do tráfego da API Claude para controlar custos após mudança na assinatura Max
A assinatura Max da Anthropic não cobre mais o uso de ferramentas de terceiros, forçando os usuários do OpenClaw a usar cobrança por API. Um proxy de roteamento direciona tarefas simples para o Claude Sonnet (US$ 3/M entrada, US$ 15/M saída) e as complexas para o Opus (US$ 5/M entrada, US$ 25/M saída), reduzindo custos sem perda de qualidade.

Servidor de Habilidades OpenClaw para Análise e Negociação no Mercado Indiano
Um terminal de negociação de código aberto para mercados indianos foi integrado como um servidor de habilidades do OpenClaw, permitindo que agentes obtenham dados de mercado e executem análises multiagente via HTTP. O sistema fornece planos de negociação estruturados com preços de entrada, stop-losses e metas em três perfis de risco.

Red Queen: Um Orquestrador Determinístico que Executa Claude Code como um Pool de Trabalhadores
Red Queen usa uma máquina de estado para orquestrar subprocessos do Claude Code, eliminando erros de roteamento de LLMs e desperdício de tokens com mega-prompts.