CritPtベンチマークでGeminiを倍上回るHugging Face physics-internフレームワーク

Hugging Faceは、理論物理学研究向けに設計されたオープンソースのマルチエージェントフレームワークphysics-internを公開しました。このフレームワークは、科学的な研究プロセスを模倣し、複雑な問題を専門化されたサブエージェント（計算、主張レビュー、研究戦略の挑戦エージェントなど）に割り当てられる焦点を絞ったタスクに分解します。

アーキテクチャとワークフロー

このフレームワークは、研究レベルの問題をいくつかのサブタスクに分解し、それぞれを専用のサブエージェントが処理します：

計算エージェント：数値計算やシミュレーションを担当。
レビューエージェント：主張の正確性と一貫性を評価。
戦略挑戦エージェント：全体的な研究の方向性を批判し、代替案を提案。

このエージェントハーネスはドメイン非依存に設計されていますが、特に理論物理学向けに調整されています。

ベンチマーク性能

CritPtベンチマーク（物理学における臨界点分析）において、physics-internはGeminiモデルの性能を倍増させ、GPT-5.5 Proを上回る新たなSOTA（State-of-the-Art）を達成しました。しかも、コストは大幅に低く抑えられています。具体的な数値はソースで詳細に述べられていませんが、性能向上は「倍増」および「新SOTA」と説明されています。