Hugging Face Physics-Intern: Мультиагентная структура удваивает Gemini в бенчмарке CritPt

✍️ OpenClawRadar📅 Опубликовано: 12 мая 2026 г.🔗 Source
Ad

Hugging Face выпустила physics-intern — открытый мультиагентный фреймворк, предназначенный для исследований в области теоретической физики. Он имитирует процесс научного исследования, разбивая сложные задачи на целевые подзадачи, которые выполняются специализированными субагентами — включая агенты вычислений, проверки утверждений и стратегии исследования.

Архитектура и рабочий процесс

Фреймворк разбивает задачи исследовательского уровня на несколько подзадач, каждая из которых обрабатывается выделенным субагентом:

  • Агент вычислений: выполняет численные расчеты и симуляции.
  • Агент проверки: оценивает утверждения на корректность и согласованность.
  • Агент стратегии: критикует общее направление исследования и предлагает альтернативы.

Эта агентная обвязка спроектирована как доменно-независимая, но была специально настроена для теоретической физики.

Ad

Производительность на бенчмарках

На бенчмарке CritPt (анализ критических точек в физике) physics-intern удвоил производительность моделей Gemini и достиг нового state-of-the-art результата, превзойдя GPT-5.5 Pro — и все это со значительно более низкой стоимостью. Конкретные цифры в источнике не указаны, но улучшение описывается как «удвоение» и «новый SOTA».

Доступность

Фреймворк доступен как Hugging Face Space. Статья в блоге с подробным описанием архитектуры и проектных решений находится по ссылке ниже. Приветствуются вклады сообщества и расширения.

Для кого предназначен: Исследователям и разработчикам, создающим агентные рабочие процессы для научных областей, особенно теоретической физики.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Естественные языковые автоэнкодеры: Преобразование внутренних представлений Клода в текст
Инструменты

Естественные языковые автоэнкодеры: Преобразование внутренних представлений Клода в текст

Transformer Circuits Thread публикует Natural Language Autoencoders, которые декодируют внутренние активации Claude в читаемый текст. Доступны репозиторий GitHub и интерактивное демо.

OpenClawRadar
КАЛ: Открытый слой оптимизации контекста для агентов на основе больших языковых моделей
Инструменты

КАЛ: Открытый слой оптимизации контекста для агентов на основе больших языковых моделей

CAL (Context Assembly Layer) — это библиотека Python, которая сокращает использование токенов API Claude на 83% за счёт интеллектуального выбора и сжатия контекста. Доступна через pip install и распространяется по лицензии MIT.

OpenClawRadar
Signet: Открытый слой памяти для ИИ-агентов программирования достигает 80% F1 на LoCoMo
Инструменты

Signet: Открытый слой памяти для ИИ-агентов программирования достигает 80% F1 на LoCoMo

Signet — это система памяти с открытым исходным кодом для ИИ-агентов программирования, которая достигает 80% F1 на бенчмарке LoCoMo, по сравнению с 41% у стандартного RAG. Она извлекает воспоминания после каждой сессии и внедряет релевантный контекст перед промптами, работая локально с SQLite.

OpenClawRadar
Сессионный Сифон: Инструмент с открытым исходным кодом объединяет диалоги AI-агентов для программирования
Инструменты

Сессионный Сифон: Инструмент с открытым исходным кодом объединяет диалоги AI-агентов для программирования

Session Siphon — это бесплатный инструмент с открытым исходным кодом, который объединяет и индексирует историю диалогов от нескольких ИИ-агентов для программирования, работающих на разных платформах и устройствах. Разработчик создал его с помощью Claude, чтобы решить проблему отслеживания бесед на разных платформах.

OpenClawRadar