Hugging Face Physics-Intern: Мультиагентная структура удваивает Gemini в бенчмарке CritPt
Hugging Face выпустила physics-intern — открытый мультиагентный фреймворк, предназначенный для исследований в области теоретической физики. Он имитирует процесс научного исследования, разбивая сложные задачи на целевые подзадачи, которые выполняются специализированными субагентами — включая агенты вычислений, проверки утверждений и стратегии исследования.
Архитектура и рабочий процесс
Фреймворк разбивает задачи исследовательского уровня на несколько подзадач, каждая из которых обрабатывается выделенным субагентом:
- Агент вычислений: выполняет численные расчеты и симуляции.
- Агент проверки: оценивает утверждения на корректность и согласованность.
- Агент стратегии: критикует общее направление исследования и предлагает альтернативы.
Эта агентная обвязка спроектирована как доменно-независимая, но была специально настроена для теоретической физики.
Производительность на бенчмарках
На бенчмарке CritPt (анализ критических точек в физике) physics-intern удвоил производительность моделей Gemini и достиг нового state-of-the-art результата, превзойдя GPT-5.5 Pro — и все это со значительно более низкой стоимостью. Конкретные цифры в источнике не указаны, но улучшение описывается как «удвоение» и «новый SOTA».
Доступность
Фреймворк доступен как Hugging Face Space. Статья в блоге с подробным описанием архитектуры и проектных решений находится по ссылке ниже. Приветствуются вклады сообщества и расширения.
Для кого предназначен: Исследователям и разработчикам, создающим агентные рабочие процессы для научных областей, особенно теоретической физики.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Естественные языковые автоэнкодеры: Преобразование внутренних представлений Клода в текст
Transformer Circuits Thread публикует Natural Language Autoencoders, которые декодируют внутренние активации Claude в читаемый текст. Доступны репозиторий GitHub и интерактивное демо.

КАЛ: Открытый слой оптимизации контекста для агентов на основе больших языковых моделей
CAL (Context Assembly Layer) — это библиотека Python, которая сокращает использование токенов API Claude на 83% за счёт интеллектуального выбора и сжатия контекста. Доступна через pip install и распространяется по лицензии MIT.

Signet: Открытый слой памяти для ИИ-агентов программирования достигает 80% F1 на LoCoMo
Signet — это система памяти с открытым исходным кодом для ИИ-агентов программирования, которая достигает 80% F1 на бенчмарке LoCoMo, по сравнению с 41% у стандартного RAG. Она извлекает воспоминания после каждой сессии и внедряет релевантный контекст перед промптами, работая локально с SQLite.

Сессионный Сифон: Инструмент с открытым исходным кодом объединяет диалоги AI-агентов для программирования
Session Siphon — это бесплатный инструмент с открытым исходным кодом, который объединяет и индексирует историю диалогов от нескольких ИИ-агентов для программирования, работающих на разных платформах и устройствах. Разработчик создал его с помощью Claude, чтобы решить проблему отслеживания бесед на разных платформах.