MOOSE-Star: 科学仮説発見のための7Bモデルと108K論文データセット – ICML 2026

MOOSE-Starが登場:科学的仮説発見のために事後学習された7Bパラメータモデルと、NCBIの108,717論文からなるTOMATO-Starデータセット。ICML 2026に採択。モデルはDeepSeek-R1-Distill-Qwen-7Bからファインチューンされ、MS-IR-7B(インスピレーション検索)、MS-HC-7B(仮説構成)、MS-7B(共同利用)の3種類があります。
主な詳細
- データセット:TOMATO-Star – NCBI(生物学、化学、医学、医用画像、心理学、認知科学)からの108,717論文。各論文は(背景、仮説、インスピレーション)に分解され、実際の引用が付与。約38,400 A800 GPU時間の前処理を経て構築。
- 時間分割:学習用は2025年9月以前、テスト用は2025年10月(ベースモデルの知識カットオフ後)。
- インスピレーション検索精度のベンチマーク:
- ランダム選択:6.70%
- R1-Distilled-Qwen-7B(ベース):28.42%
- Claude Sonnet 4.6:45.02%
- DeepSeek-R1:45.11%
- Gemini-3 Flash:51.44%
- GPT-5.4:51.50%
- MS-7B(7B、IR+HC統合):54.34%
- MS-IR-7B(7B、IR専用):54.37%
- Gemini-3 Pro:54.89%
- モデルサイズと展開:標準的なDeepSeek-R1-Distill-Qwen-7Bのファインチューン、fp16で約14GB、単一の24GB GPUで動作。llama.cpp、vLLM、SGLangと互換性あり。
- ライセンス:コードはApache-2.0、データはCC-BY-4.0。
論文:arxiv.org/abs/2603.03756 | GitHub:github.com/ZonglinY/MOOSE-Star | Hugging Faceコレクション:huggingface.co/collections/ZonglinY/moose-star-models-and-data
ぜひ試してみてください。開示:MiroMindコミュニティチームによる投稿です。
📖 出典を読む: r/LocalLLaMA
👀 See Also

オープンソースのNext.jsスターターキットにAIの低品質出力を防ぐガードレールとエージェント指示を追加
新しいNext.jsボイラープレートには、認証、データベース、CI、テスト、Claude Codeの指示が最初から含まれており、AIコーディングエージェントを使用してプロダクションアプリをより速く構築したい開発者を対象としています。

Codesight CLIは、コードベースをスキャンすることでAIコーディングエージェントのトークン使用量を削減します。
Codesightは依存関係ゼロのCLIツールで、TypeScript、Python、Goプロジェクトをスキャンしてコンパクトなコンテキストファイルを生成し、実際のプロダクションコードベースのベンチマークによると、Claude Codeの探索トークンを平均12.3倍削減します。

dead-letter: CLI、Web UI、MCPサーバー対応のローカル .eml から .md へのコンバーター
dead-letterはメールエクスポートをMarkdown(YAMLフロントマター付き)に正規化し、カスタマイズ可能です。CLI、Pythonライブラリ、Web UI、そしてClaude Desktop、Claude Code、Codexと直接統合するためのMCPサーバーの4つのアクセスモードを提供します。

cldctrl: Claudeコードセッション管理用ターミナルダッシュボード
cldctrlは、プロジェクト間でClaude Codeセッションを起動および管理するためのターミナルダッシュボードを提供するnpmパッケージです。既存の~/.claudeデータを読み取り、プロジェクトを自動検出し、レート制限バー付きのトークン使用量を表示します。