MOOSE-Star: 科学仮説発見の7Bモデル & 108K論文データセット

MOOSE-Starが登場：科学的仮説発見のために事後学習された7Bパラメータモデルと、NCBIの108,717論文からなるTOMATO-Starデータセット。ICML 2026に採択。モデルはDeepSeek-R1-Distill-Qwen-7Bからファインチューンされ、MS-IR-7B（インスピレーション検索）、MS-HC-7B（仮説構成）、MS-7B（共同利用）の3種類があります。

主な詳細

データセット：TOMATO-Star – NCBI（生物学、化学、医学、医用画像、心理学、認知科学）からの108,717論文。各論文は（背景、仮説、インスピレーション）に分解され、実際の引用が付与。約38,400 A800 GPU時間の前処理を経て構築。
時間分割：学習用は2025年9月以前、テスト用は2025年10月（ベースモデルの知識カットオフ後）。
インスピレーション検索精度のベンチマーク：
- ランダム選択：6.70%
- R1-Distilled-Qwen-7B（ベース）：28.42%
- Claude Sonnet 4.6：45.02%
- DeepSeek-R1：45.11%
- Gemini-3 Flash：51.44%
- GPT-5.4：51.50%
- MS-7B（7B、IR+HC統合）：54.34%
- MS-IR-7B（7B、IR専用）：54.37%
- Gemini-3 Pro：54.89%
モデルサイズと展開：標準的なDeepSeek-R1-Distill-Qwen-7Bのファインチューン、fp16で約14GB、単一の24GB GPUで動作。llama.cpp、vLLM、SGLangと互換性あり。
ライセンス：コードはApache-2.0、データはCC-BY-4.0。

論文：arxiv.org/abs/2603.03756 | GitHub：github.com/ZonglinY/MOOSE-Star | Hugging Faceコレクション：huggingface.co/collections/ZonglinY/moose-star-models-and-data

ぜひ試してみてください。開示：MiroMindコミュニティチームによる投稿です。

📖 出典を読む： r/LocalLLaMA

MOOSE-Star: 科学仮説発見のための7Bモデルと108K論文データセット – ICML 2026

主な詳細

👀 See Also

Qure: 記録されたブラウザ操作フローからE2Eテストを生成するデスクトップアプリ

コモンズ2.0：AIモデルがコミュニケーションするための持続的空間

ロジック仮想マシン：LLM推論崩壊を停止するためのプロンプトベースシステム

Omnicoder-9B パフォーマンスレビュー：速度 vs. ツール呼び出しの問題