Hugging Face's Physik-Praktikant: Multi-Agent-Framework verdoppelt Gemini im CritPt-Benchmark

✍️ OpenClawRadar📅 Veröffentlicht: 12. Mai 2026🔗 Source
Ad

Hugging Face hat physics-intern veröffentlicht, ein quelloffenes Multi-Agenten-Framework für die theoretische Physik. Es ahmt den wissenschaftlichen Forschungsprozess nach, indem es komplexe Probleme in fokussierte Aufgaben zerlegt, die an spezialisierte Unteragenten weitergeleitet werden – darunter Rechen-, Überprüfungs- und Forschungsstrategie-Herausforderungs-Agenten.

Architektur und Arbeitsablauf

Das Framework zerlegt forschungsbezogene Probleme in mehrere Teilaufgaben, die jeweils von einem eigenen Unteragenten bearbeitet werden:

  • Rechenagent: Führt numerische Berechnungen und Simulationen durch.
  • Überprüfungsagent: Bewertet Behauptungen auf Korrektheit und Konsistenz.
  • Strategie-Herausforderungs-Agent: Hinterfragt die gesamte Forschungsrichtung und schlägt Alternativen vor.

Dieser agentische Rahmen ist domänenunabhängig konzipiert, wurde aber speziell für die theoretische Physik optimiert.

Ad

Benchmark-Leistung

Im CritPt-Benchmark (Kritische-Punkt-Analyse in der Physik) verdoppelte physics-intern die Leistung von Gemini-Modellen und erzielte ein neues Spitzenergebnis (SOTA), das GPT-5.5 Pro übertrifft – und das zu deutlich geringeren Kosten. Konkrete Zahlen wurden in der Quelle nicht genannt, aber der Leistungsgewinn wird als „Verdopplung“ und „neuer SOTA“ beschrieben.

Verfügbarkeit

Das Framework ist als Hugging Face Space verfügbar. Der Blogbeitrag mit Details zur Architektur und den Designentscheidungen ist unter dem folgenden Link zu finden. Beiträge und Erweiterungen aus der Community werden begrüßt.

Für wen es gedacht ist: Forscher und Entwickler, die agentische Arbeitsabläufe für wissenschaftliche Domänen, insbesondere die theoretische Physik, aufbauen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Watchtower: Ein lokaler Proxy zur Überwachung des Claude Code API-Datenverkehrs
Werkzeuge

Watchtower: Ein lokaler Proxy zur Überwachung des Claude Code API-Datenverkehrs

Watchtower ist ein kostenloses, Open-Source-Tool, das als lokaler HTTP-Proxy und Echtzeit-Web-Dashboard fungiert, um den gesamten API-Verkehr zwischen Claude Code (oder Codex CLI) und deren APIs abzufangen und anzuzeigen. Es zeigt Anfragen, SSE-Streams, Tool-Definitionen, System-Prompts, Token-Verbrauch und Rate-Limits.

OpenClawRadar
Lokale Qwen-Modelle erreichen Browser-Automatisierung mit schrittweiser Planung und kompakter DOM.
Werkzeuge

Lokale Qwen-Modelle erreichen Browser-Automatisierung mit schrittweiser Planung und kompakter DOM.

Ein Entwickler fand heraus, dass kleine lokale LLMs wie Qwen 8B und 4B bei der Browser-Automatisierung erfolgreich sind, indem sie schrittweise Planung anstelle von vorab erstellten Mehrschrittplänen verwenden, kombiniert mit einer kompakten semantischen DOM-Darstellung, die den Token-Verbrauch von 50-100K+ auf ~15K für vollständige Abläufe reduziert.

OpenClawRadar
Benutzerdefinierte Statuszeile für Claude Code zeigt Kontextnutzung, Kosten und Git-Branch an
Werkzeuge

Benutzerdefinierte Statuszeile für Claude Code zeigt Kontextnutzung, Kosten und Git-Branch an

Ein Reddit-Nutzer hat ein Bash-Skript erstellt, das die statusLine-Einstellung von Claude Code nutzt, um Echtzeitinformationen anzuzeigen, einschließlich Kontextfenster-Nutzung, Sitzungskosten, aktuellem Modell und aktuellem Git-Branch. Das Skript erfordert jq und ist auf GitHub verfügbar.

OpenClawRadar
OpenClaw Superkräfte: Eine Bibliothek mit 31 Fähigkeiten zur Lösung von Problemen in den Bereichen Sicherheit, Kosten und Zuverlässigkeit
Werkzeuge

OpenClaw Superkräfte: Eine Bibliothek mit 31 Fähigkeiten zur Lösung von Problemen in den Bereichen Sicherheit, Kosten und Zuverlässigkeit

Ein Entwickler hat openclaw-superpowers veröffentlicht, eine Bibliothek mit 31 Plug-and-Play-Fähigkeiten für OpenClaw. Die Bibliothek befasst sich mit häufigen Problemen wie außer Kontrolle geratenen API-Kosten, Sicherheitslücken und Kontextverlust und kann mit einem einzigen Befehl installiert werden.

OpenClawRadar