Método Simples de Auto-Distilação Melhora a Geração de Código por LLM

O que a Autodistilação Simples Faz
A autodistilação simples (SSD) é um método pós-treinamento em que você amostra soluções de um modelo de linguagem grande com configurações específicas de temperatura e truncamento, e então ajusta o modelo nessas amostras usando o ajuste fino supervisionado padrão. A percepção principal é que isso funciona sem a necessidade de um verificador, modelo professor ou aprendizado por reforço.
Melhorias de Desempenho
No Qwen3-30B-Instruct, a SSD melhorou o desempenho pass@1 no LiveCodeBench v6 de 42,4% para 55,3%. Os ganhos se concentraram em problemas mais difíceis, e o método se generalizou em modelos Qwen e Llama nas escalas 4B, 8B e 30B, incluindo variantes de instrução e de pensamento.
Por que Funciona
Os pesquisadores rastrearam os ganhos para um conflito de precisão-exploração na decodificação de LLMs. A SSD remodela as distribuições de tokens de forma dependente do contexto, suprimindo caudas de distração onde a precisão importa, enquanto preserva a diversidade útil onde a exploração importa. Isso aborda a tensão fundamental entre gerar código preciso e explorar diferentes abordagens de solução.
Implicações Práticas
A SSD oferece uma direção complementar de pós-treinamento para melhorar a geração de código de LLMs que é relativamente simples de implementar em comparação com métodos que exigem verificadores ou aprendizado por reforço. A abordagem funciona com a infraestrutura de ajuste fino existente e não requer modelos adicionais ou sistemas de recompensa complexos.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

GLM-5.1 Lançado com Desempenho em Codificação Equivalente ao Claude Opus 4.5
O modelo GLM-5.1 da Zhipu AI agora está disponível para todos os usuários do Coding Plan, alcançando 77,8 pontos no SWE-bench-Verified e 56,2 pontos no Terminal Bench 2.0. O modelo possui janela de contexto de 200K, saída máxima de 128K e 744B parâmetros com 40B ativados.

Google fornecerá agentes de IA para o Pentágono para trabalhos não classificados
O Google fornecerá agentes de IA para o Pentágono para trabalhos não classificados, de acordo com um relatório da Bloomberg. O artigo gerou discussão no Hacker News com 61 pontos e 52 comentários.

Claude Opus 4.5 e Sonnet 4.5 removidos da seleção de modelos, requerem flag de inicialização.
Claude Opus 4.5 e Sonnet 4.5 não estão mais disponíveis no menu de seleção /model durante as sessões. Os usuários agora devem iniciar sessões com a flag --model especificando o ID completo do modelo para acessar essas versões mais antigas.

Claude Code v2.1.51 alterou a cobrança de contexto de 1M sem notificação.
A atualização v2.1.51 do Claude Code da Anthropic alterou silenciosamente a cobrança para janelas de contexto de 1M nos planos Max. Tokens de contexto acima de 200K agora ignoram a capacidade da assinatura e vão diretamente para cobranças de Uso Extra, mesmo quando o orçamento da assinatura ainda está disponível.