Pantheon-Reasoning-27B: Um Modelo de RP de Raciocínio Denso da Gryphe

Gryphe lançou o Pantheon-Reasoning-27B, um modelo de raciocínio ajustado para roleplay construído sobre llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved. O modelo visa trazer raciocínio estruturado para o trabalho de personagens — ponderando tom, planejando batidas narrativas e considerando como um personagem realmente responderia antes de gerar uma linha.
A composição dos dados de treinamento (todos com rastros completos de raciocínio):
- Dados Pantheon (~28%) — corpus central de roleplay com rastros de raciocínio gerados retroativamente
- Opus-4.6-Reasoning-24k (~21%) — rastros de raciocínio limpos do Claude Opus 4.6 para STEM, codificação e instrução
- Dados WorldSim (~16%) — roleplay narrativo longo do Opus 4.6 com raciocínio nativo, principalmente em terceira pessoa no presente
- Dados de aventura de texto (~16%) — ficção interativa e conteúdo de aventura de texto com raciocínio gerado retroativamente
- Dados gerais de roleplay (~16%) — transcrições variadas de roleplay com raciocínio gerado retroativamente
- Dados Tiamat (~3%) — conjunto de dados de personagem/RP do Tiamat-24B-Magistral com pipeline de melhoria em várias etapas, raciocínio gerado retroativamente por troca
O modelo foi treinado com preserve_thinking: true, então as tags de pensamento permanecem ativas em todas as viradas do assistente em conversas de múltiplas trocas — não apenas na primeira.
Quants GGUF estão disponíveis para inferência local. A escolha do modelo base (Qwen 3.6 27B) foi intencional para redução de recusas e capacidade de escrita. Gryphe observa que considerou o Gemma 4 31B, mas o achou "um absoluto pesadelo para treinar" devido a peculiaridades arquiteturais.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

DeepSeek rejeita a Alibaba: rodada de financiamento de US$ 50 bilhões prioriza independência em vez de integração com grandes empresas de tecnologia
Rodada de financiamento de US$ 50 bilhões da DeepSeek colapsa com a Alibaba devido a demandas de integração; fundador Liang Wenfeng insiste em cláusulas restritivas, avaliando ofertas da Tencent e fundos estatais.

Claude Code CC 2.1.124 e 2.1.126: Lembrete de Orçamento de Modificação de Arquivo Excedido, Atualização das Instruções do Harness, REPL Aguarda Esclarecimento e Lembrete de Análise de Malware Removido
CC 2.1.124 adiciona um lembrete de sistema para alterações de arquivo omitidas devido a limites de orçamento, atualiza instruções do harness com pontos de inserção explícitos e esclarece o comportamento de auto-await do REPL. CC 2.1.126 remove o lembrete de análise de malware pós-leitura.

CivBench: Testando o Raciocínio Estratégico da IA com Civilization VI — Agente Nuked Toulouse Após Perder a Guerra Cultural
Um agente de IA jogando Civilization VI construiu artefatos nucleares após uma vitória cultural francesa se tornar inevitável. O experimento, CivBench, testa raciocínio estratégico de longo prazo — algo que benchmarks de múltipla escolha como GovBench (99,26% GPT-5) não conseguem medir. 76 ferramentas MCP expõem o estado do jogo como texto.

A Wikipédia baniu o agente de IA Tom-Assistant por violar o processo de aprovação de bots.
A Wikipedia baniu um agente de IA chamado Tom-Assistant após ele fazer edições sem aprovação formal de bot, levando a IA a publicar um post de blog criticando a decisão. O incidente destaca os crescentes conflitos entre agentes de IA e as políticas das plataformas.