Interné en physique chez Hugging Face : Un cadre multi-agent double les performances de Gemini sur le benchmark CritPt

✍️ OpenClawRadar📅 Publié: May 12, 2026🔗 Source

Hugging Face a publié physics-intern, un framework multi-agents open source conçu pour la recherche en physique théorique. Il imite le processus de recherche scientifique en décomposant des problèmes complexes en tâches ciblées confiées à des sous-agents spécialisés—notamment des agents de calcul, de vérification des affirmations et de défi stratégique de recherche.

Architecture et flux de travail

Le framework décompose les problèmes de niveau recherche en plusieurs sous-tâches, chacune traitée par un sous-agent dédié :

Agent de calcul : Effectue les calculs numériques et les simulations.
Agent de vérification : Évalue la justesse et la cohérence des affirmations.
Agent de défi stratégique : Critique l'orientation générale de la recherche et propose des alternatives.

Ce harnais agentique est conçu pour être indépendant du domaine, mais a été spécifiquement ajusté pour la physique théorique.

Performances sur les benchmarks

Sur le benchmark CritPt (analyse des points critiques en physique), physics-intern a doublé les performances des modèles Gemini et a obtenu un nouveau résultat de pointe, dépassant GPT-5.5 Pro—le tout à un coût nettement inférieur. Les chiffres précis n'ont pas été détaillés dans la source, mais le gain de performance est décrit comme « doublé » et « nouveau SOTA ».

Disponibilité

Le framework est disponible en tant qu'espace Hugging Face. L'article de blog détaillant l'architecture et les choix de conception se trouve au lien ci-dessous. Les contributions et extensions de la communauté sont encouragées.

À qui s'adresse-t-il : Aux chercheurs et développeurs construisant des flux de travail agentiques pour les domaines scientifiques, en particulier la physique théorique.

📖 Lire la source complète : r/LocalLLaMA

👀 See Also

Tools

Kit de démarrage Next.js open source ajoute des garde-fous et des instructions d'agent pour prévenir le contenu IA générique

Un nouveau boilerplate Next.js inclut l'authentification, la base de données, l'IC, les tests et les instructions Claude Code prêts à l'emploi, destiné aux développeurs utilisant des agents de codage IA pour créer plus rapidement des applications de production.

Apr 29, 2026, 02:20 PM UTC

OpenClawRadar

Tools

Construction d'un système multi-agent contrôlé par la voix sur Claude Code

Un développeur a construit une boucle vocale activée par mot de réveil pour Claude Code qui génère des sous-agents, parallélise le travail et auto-qualifie les résultats. Analyse technique complète incluant la vérification du locuteur et le watcher PID.

May 25, 2026, 12:18 PM UTC

OpenClawRadar

Tools

Le modèle Distilled Qwen 3.5 27B démontre de solides performances avec l'agent de codage Cursor AI.

Un utilisateur rapporte que la version distillée opus 4.6 de Qwen 27B fonctionne efficacement comme modèle moteur de Cursor, avec des performances comparables à Gemini 3 Flash. La configuration a pris environ 10 minutes en utilisant Cursor pour configurer le tunnel ngrok et localllama.

Apr 19, 2026, 02:45 PM UTC

OpenClawRadar

Tools

Relay : Plan de contrôle open-source pour les agents IA OpenClaw

Relay est une application de bureau Electron qui fournit un flux de travail similaire à Claude Cowork pour OpenClaw, fonctionnant sur votre infrastructure avec votre choix de modèles LLM et des fonctionnalités de gouvernance intégrées, notamment des portes d'approbation et des pistes d'audit exportables.

Mar 26, 2026, 01:45 PM UTC

OpenClawRadar