MOOSE-Star: Модель на 7B параметров и набор данных из 108 000 статей для открытия научных гипотез – ICML 2026

MOOSE-Star выпущен: модель с 7B параметров, дообученная для открытия научных гипотез, а также набор данных TOMATO-Star из 108 717 статей NCBI. Принята на ICML 2026. Модели дообучены на DeepSeek-R1-Distill-Qwen-7B и доступны в трех вариантах: MS-IR-7B (поиск вдохновляющих работ), MS-HC-7B (составление гипотез) и MS-7B (совместное использование).
Ключевые детали
- Набор данных: TOMATO-Star – 108 717 статей из NCBI (биология, химия, медицина, медицинская визуализация, психология, когнитивная наука), каждая разбита на (история, гипотеза, вдохновляющие работы) с реальными цитатами. Создан с использованием ~38 400 A800 GPU-часов предобработки.
- Временное разделение: обучающий набор ≤ сен. 2025, тестовый набор = окт. 2025 (после даты отсечения знаний базовой модели).
- Бенчмарки точности поиска вдохновляющих работ:
- Случайный выбор: 6,70%
- R1-Distilled-Qwen-7B (базовая): 28,42%
- Claude Sonnet 4.6: 45,02%
- DeepSeek-R1: 45,11%
- Gemini-3 Flash: 51,44%
- GPT-5.4: 51,50%
- MS-7B (7B, совместный IR + HC): 54,34%
- MS-IR-7B (7B, только IR): 54,37%
- Gemini-3 Pro: 54,89%
- Размер модели и развертывание: Стандартная дообученная DeepSeek-R1-Distill-Qwen-7B, ~14 ГБ в fp16, работает на одном 24 ГБ GPU. Совместима с llama.cpp, vLLM, SGLang.
- Лицензии: Apache-2.0 для кода, CC-BY-4.0 для данных.
Статья: arxiv.org/abs/2603.03756 | GitHub: github.com/ZonglinY/MOOSE-Star | Коллекция Hugging Face: huggingface.co/collections/ZonglinY/moose-star-models-and-data
Проверьте на прочность. Раскрытие: опубликовано командой сообщества MiroMind.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Самодельный бот GitHub запускает Claude Code с 40+ вебхуками и инструментами MCP
Самостоятельно размещенный GitHub-бот использует Claude Agent SDK с полным набором функций Claude Code, поддерживая более 40 триггеров вебхуков, 4 встроенных MCP-сервера и пользовательские YAML-рабочие процессы для рецензирования PR, автоисправления CI и сортировки задач.

Клауд Хаба Навыков: Поисковый репозиторий для 789+ навыков кодирования Клауда и 10 автономных агентов
Claude Skills Hub (clskills.in) предоставляет централизованный интерфейс поиска для 789+ файлов навыков Claude Code по 71 категории, а также 10 автономных ИИ-агентов, которые объединяют несколько навыков в полные рабочие процессы. Этот проект с открытым исходным кодом агрегирует навыки из нескольких коллекций сообщества и предлагает загрузку в один клик.

Adam CAD Harness интегрируется с Fusion и Onshape для агентного редактирования CAD
Агентская CAD-оснастка Adam теперь интегрируется с Autodesk Fusion и PTC Onshape, читая и редактируя дерево построения с помощью естественного языка. Установка одной командой для macOS/Windows.

LystBot: MCP-сервер для Claude для управления списками и задачами
LystBot — это приложение для управления списками с нативным сервером MCP, которое позволяет Claude напрямую взаимодействовать со списками покупок, задачами и списками для сборов. Создано в основном с помощью Claude Code, включает мобильное приложение на Flutter, REST API, CLI и открытый MCP-сервер на Node.js.