Hugging Faceの物理インターン:CritPtベンチマークでGeminiを倍上回るマルチエージェントフレームワーク
Hugging Faceは、理論物理学研究向けに設計されたオープンソースのマルチエージェントフレームワークphysics-internを公開しました。このフレームワークは、科学的な研究プロセスを模倣し、複雑な問題を専門化されたサブエージェント(計算、主張レビュー、研究戦略の挑戦エージェントなど)に割り当てられる焦点を絞ったタスクに分解します。
アーキテクチャとワークフロー
このフレームワークは、研究レベルの問題をいくつかのサブタスクに分解し、それぞれを専用のサブエージェントが処理します:
- 計算エージェント:数値計算やシミュレーションを担当。
- レビューエージェント:主張の正確性と一貫性を評価。
- 戦略挑戦エージェント:全体的な研究の方向性を批判し、代替案を提案。
このエージェントハーネスはドメイン非依存に設計されていますが、特に理論物理学向けに調整されています。
ベンチマーク性能
CritPtベンチマーク(物理学における臨界点分析)において、physics-internはGeminiモデルの性能を倍増させ、GPT-5.5 Proを上回る新たなSOTA(State-of-the-Art)を達成しました。しかも、コストは大幅に低く抑えられています。具体的な数値はソースで詳細に述べられていませんが、性能向上は「倍増」および「新SOTA」と説明されています。
入手方法
このフレームワークはHugging Face Spaceとして利用可能です。アーキテクチャと設計上の決定を詳述したブログ記事は以下のリンクからご覧いただけます。コミュニティによる貢献や拡張を歓迎します。
対象ユーザー: 科学領域、特に理論物理学向けのエージェントワークフローを構築する研究者や開発者。
📖 出典全文を読む: r/LocalLLaMA
👀 See Also

Claude Code Routines、20以上のPRでCLIパフォーマンスを2.4倍に調整
Claude CodeのRoutines機能を2時間ごとのcronで使い、オープンソースCLI(Repomix)を自律的にチューニング。その結果、20以上の自動生成PRと2.4倍の実行時間改善を達成。

Cowork Chrome拡張機能がデータブローカーからの個人情報削除を自動化
Redditユーザーによると、Gmailに接続したCowork Chrome拡張機能を使うと、主要データプロバイダーからの個人データ削除リクエストのフォーム入力、メール作成、確認を自動化し、数時間で完了できるそうです。

CloudflareのAIプラットフォーム:AIエージェント向け統合推論レイヤー
CloudflareのAIプラットフォームは、画像、動画、音声モデルを含むマルチモーダル対応の70以上のモデルと12以上のプロバイダーに単一のAPIでアクセスできます。モデル間の切り替えは1行のコード変更で可能で、カスタムメタデータによる一元化されたコスト監視を提供します。

antirezのDS4:Mac MetalとDGXでDeepSeek V4 Flashを100万コンテクストで実行
Redisの作者Salvatore Sanfilippoが、Mac MetalハードウェアとDGX上で1MコンテキストウィンドウのDeepSeek V4 Flashを実行するプロジェクトDS4を公開しました。エージェンティックコーディングツール向けのOpenAI/Anthropicエンドポイントも備えています。