Interné en physique chez Hugging Face : Un cadre multi-agent double les performances de Gemini sur le benchmark CritPt
Hugging Face a publié physics-intern, un framework multi-agents open source conçu pour la recherche en physique théorique. Il imite le processus de recherche scientifique en décomposant des problèmes complexes en tâches ciblées confiées à des sous-agents spécialisés—notamment des agents de calcul, de vérification des affirmations et de défi stratégique de recherche.
Architecture et flux de travail
Le framework décompose les problèmes de niveau recherche en plusieurs sous-tâches, chacune traitée par un sous-agent dédié :
- Agent de calcul : Effectue les calculs numériques et les simulations.
- Agent de vérification : Évalue la justesse et la cohérence des affirmations.
- Agent de défi stratégique : Critique l'orientation générale de la recherche et propose des alternatives.
Ce harnais agentique est conçu pour être indépendant du domaine, mais a été spécifiquement ajusté pour la physique théorique.
Performances sur les benchmarks
Sur le benchmark CritPt (analyse des points critiques en physique), physics-intern a doublé les performances des modèles Gemini et a obtenu un nouveau résultat de pointe, dépassant GPT-5.5 Pro—le tout à un coût nettement inférieur. Les chiffres précis n'ont pas été détaillés dans la source, mais le gain de performance est décrit comme « doublé » et « nouveau SOTA ».
Disponibilité
Le framework est disponible en tant qu'espace Hugging Face. L'article de blog détaillant l'architecture et les choix de conception se trouve au lien ci-dessous. Les contributions et extensions de la communauté sont encouragées.
À qui s'adresse-t-il : Aux chercheurs et développeurs construisant des flux de travail agentiques pour les domaines scientifiques, en particulier la physique théorique.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Octopoda MCP Server ajoute une mémoire persistante, une détection de boucles et des pistes d'audit à Claude Code
Un développeur a créé Octopoda, un serveur MCP qui s'intègre à Claude Code pour fournir une mémoire persistante, une détection de boucles, des pistes d'audit et des espaces de connaissances partagés pour les agents IA. Le système utilise PostgreSQL avec pgvector pour la recherche sémantique, FastAPI et un tableau de bord React.

Bernstein : Un orchestrateur similaire à Kubernetes pour les agents d'IA de codage, avec vérification et politiques de modèle.
Bernstein est un orchestrateur pour agents d'IA de codage qui comprend la vérification indépendante des sorties d'agents, des contrôles de politique de modèles, 13 adaptateurs d'agents et une planification déterministe basée sur Python. Le projet compte plus de 5000 tests et des fonctionnalités comme des disjoncteurs, la détection d'anomalies de coût et la recherche de données personnelles.

Octopoda : Couche de mémoire open source pour agents d'IA locaux
Octopoda est une couche mémoire open source qui donne aux agents d'IA locaux une mémoire persistante entre les sessions, une recherche sémantique, une détection de boucles et une récupération après incident. Il fonctionne entièrement hors ligne avec un modèle d'embedding de 33 Mo et s'intègre avec LangChain, CrewAI, AutoGen et OpenAI Agents SDK.

Claude Code Limiter : Limiteur de débit auto-hébergé pour les abonnements partagés Claude Code
claude-code-limiter est un outil auto-hébergeable qui ajoute des limites de taux par utilisateur aux abonnements partagés Claude Code, avec des fonctionnalités comme des quotas par modèle, des budgets de crédits, des fenêtres glissantes de 24h, des règles horaires et un tableau de bord en temps réel.