Pantheon-Reasoning-27B: 밀집 추론 RP 모델

Gryphe가 Pantheon-Reasoning-27B를 출시했습니다. 이 모델은 llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved를 기반으로 롤플레이를 위한 파인튜닝된 추론 모델입니다. 이 모델은 캐릭터 작업에 구조화된 추론을 도입하여, 대사 생성 전에 어조를 평가하고, 내러티브 비트를 계획하며, 캐릭터의 실제 반응 방식을 고려하는 것을 목표로 합니다.

학습 데이터 구성(모두 완전한 추론 과정 포함):

Pantheon 데이터 (~28%) — 핵심 롤플레이 코퍼스에 역 생성된 추론 과정 포함
Opus-4.6-Reasoning-24k (~21%) — STEM, 코딩, 지시 수행을 위한 Claude Opus 4.6 추론 과정 정리
WorldSim 데이터 (~16%) — 긴 형식의 Opus 4.6 내러티브 롤플레이, 주로 3인칭 현재 시제, 고유 추론 포함
텍스트 어드벤처 데이터 (~16%) — 인터랙티브 픽션 및 텍스트 어드벤처 콘텐츠에 역 생성된 추론 포함
일반 롤플레이 데이터 (~16%) — 다양한 롤플레이 대화록에 역 생성된 추론 포함
Tiamat 데이터 (~3%) — Tiamat-24B-Magistral의 캐릭터/RP 데이터셋, 다단계 개선 파이프라인, 각 교환에 역 생성된 추론 포함

모델은 preserve_thinking: true로 학습되어, 다중 턴 대화에서 첫 번째 턴뿐만 아니라 모든 어시스턴트 턴에 thinking 태그가 활성화됩니다.

GGUF 양자화 파일은 로컬 추론에 사용할 수 있습니다. 기본 모델로 Qwen 3.6 27B를 선택한 것은 거부 감소와 글쓰기 능력 향상을 위한 의도적인 결정이었습니다. Gryphe는 Gemma 4 31B도 고려했지만, 아키텍처상의 문제로 인해 "훈련하기가 절대적으로 고통스럽다"고 언급했습니다.

📖 전체 출처 읽기: r/LocalLLaMA

Pantheon-Reasoning-27B: Gryphe의 고밀도 추론 RP 모델

👀 See Also

OpenClaw의 주요 기능과 위험 요소 (해결책 포함)

Qwen 3 8B는 어려운 과제에 대한 블라인드 동료 평가에서 더 큰 모델들을 능가합니다.

OpenClaw의 아스트로터핑 캠페인과 $CLAWD 토큰 펌프 분석

Claude 디자인 청구 버그: 추가 사용량 구매 적용 안 됨, 지원 봇이 유료 사용자 가둠