Pantheon-Reasoning-27B：高密度推論RPモデル

GrypheがPantheon-Reasoning-27Bをリリースしました。これはllmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preservedをベースに、ロールプレイ向けにファインチューニングされた推論モデルです。このモデルは、キャラクターワークに構造化された推論をもたらすことを目的としており、トーンを調整し、ナラティブの展開を計画し、キャラクターが実際にどう反応するかを考慮した上でセリフを生成します。

トレーニングデータの構成（すべて完全な推論トレースを含む）：

Pantheonデータ（約28%）— コアとなるロールプレイコーパスに、バック生成された推論トレースを付与
Opus-4.6-Reasoning-24k（約21%）— クリーニングされたClaude Opus 4.6の推論トレース（STEM、コーディング、指示追従用）
WorldSimデータ（約16%）— Opus 4.6による長編ナラティブロールプレイ（ネイティブ推論付き、主に三人称現在形）
テキストアドベンチャーデータ（約16%）— インタラクティブフィクションとテキストアドベンチャーコンテンツ（バック生成推論付き）
汎用ロールプレイデータ（約16%）— 多様なロールプレイのトランスクリプト（バック生成推論付き）
Tiamatデータ（約3%）— Tiamat-24B-Magistralからのキャラクター/RPデータセット（マルチステップ改善パイプライン、各やりとりごとに推論をバック生成）

モデルはpreserve_thinking: trueで学習されており、マルチターン会話のすべてのアシスタント応答で思考タグが有効になります（最初の応答だけでなく）。

GGUF量子化モデルがローカル推論用に利用可能です。ベースモデルにQwen 3.6 27Bを選んだのは、拒否の低減と文章作成能力を意図したものです。GrypheはGemma 4 31Bも検討しましたが、アーキテクチャ上の問題から「訓練が非常に面倒」と述べています。

📖 出典全文: r/LocalLLaMA

Pantheon-Reasoning-27B：Grypheによる高密度推論RPモデル

👀 See Also

NVIDIAがOpenShellセキュリティ機能を備えたNemoClawを発表

Meta OpenEnv AIハッカソン in インド、直接面接と3万ドルの賞金総額を提供

Linuxカーネルメンテナーが、AI生成バグレポートの品質が急変したと報告

中国LLMの現状：市場リーダー、オープンモデル、ビジネスモデル