El pasante de física de Hugging Face: El marco multiagente duplica a Gemini en el benchmark CritPt

✍️ OpenClawRadar📅 Publicado: 12 de mayo de 2026🔗 Source

Hugging Face lanzó physics-intern, un marco multiagente de código abierto diseñado para la investigación en física teórica. Imita el proceso de investigación científica al descomponer problemas complejos en tareas enfocadas que son asignadas a subagentes especializados, incluidos agentes de cómputo, revisión de afirmaciones y desafío de estrategia de investigación.

Arquitectura y flujo de trabajo

El marco descompone problemas a nivel de investigación en varias subtareas, cada una manejada por un subagente dedicado:

Agente de cómputo: Maneja cálculos numéricos y simulaciones.
Agente de revisión: Evalúa afirmaciones en cuanto a corrección y coherencia.
Agente de desafío de estrategia: Critica la dirección general de la investigación y sugiere alternativas.

Este arnés de agentes está diseñado para ser independiente del dominio, pero fue ajustado específicamente para física teórica.

Rendimiento en benchmarks

En el benchmark CritPt (análisis de puntos críticos en física), physics-intern duplicó el rendimiento de los modelos Gemini y alcanzó un nuevo resultado de última generación, superando a GPT-5.5 Pro, todo a un costo significativamente menor. Las cifras específicas no se detallaron en la fuente, pero la ganancia de rendimiento se describe como "duplicación" y "nuevo SOTA".

Disponibilidad

El marco está disponible como un Hugging Face Space. La publicación del blog que detalla la arquitectura y las decisiones de diseño se puede encontrar en el enlace a continuación. Se alientan las contribuciones y extensiones de la comunidad.

Para quién es: Investigadores y desarrolladores que construyen flujos de trabajo de agentes para dominios científicos, especialmente física teórica.

📖 Leer la fuente completa: r/LocalLLaMA

👀 Ver también

Herramientas

Rift: Una Mejor Alternativa a Git Worktrees con Instantáneas Instantáneas Copy-on-Write

Rift usa instantáneas de btrfs o APFS para crear copias instantáneas y eficientes en espacio de repositorios Git. Inicialización, creación y listado mediante CLI o FFI de JavaScript.

2 jun 2026, 00:19 UTC

OpenClawRadar

Herramientas

Punto de Referencia de Revisión de Código con IA: Comparación de Claude, Gemini, Codex, Qwen y MiniMax

Un benchmark evaluó cinco modelos de IA en 15 solicitudes de extracción de Milvus con errores conocidos. Claude detectó el 53% de los errores en modo crudo, mientras que el debate adversario entre modelos aumentó la detección al 80%.

27 feb 2026, 09:45 UTC

OpenClawRadar

Herramientas

MatchKit: Generador de Sistemas de Diseño para Proyectos de Código Claude

MatchKit es una herramienta que genera sistemas de diseño completos y personalizados para proyectos creados con Claude Code. Extrae los colores de marca de logotipos subidos y genera componentes, diseños y tokens de diseño personalizables para evitar el aspecto genérico común en las herramientas de codificación con IA.

21 abr 2026, 00:21 UTC

OpenClawRadar

🦀

Herramientas

Agentalmanac: Un catálogo de 23 servidores MCP con configuraciones JSON listas para copiar

Un usuario de Reddit cataloga 23 servidores MCP con configuraciones listas para pegar en Claude Desktop, Cursor y Continue. Redirige servidores archivados a alternativas mantenidas. La demo alojada se ejecuta en Cloudflare Workers.

12 may 2026, 20:18 UTC

OpenClawRadar